Está en la página 1de 667

Frank Faulbaum

Methodische
Grundlagen der
Umfrageforschung
Methodische Grundlagen
der Umfrageforschung
Frank Faulbaum

Methodische Grundlagen
der Umfrageforschung
Frank Faulbaum
Universität Duisburg-Essen
Duisburg, Deutschland

ISBN 978-3-531-17877-6 ISBN 978-3-531-93278-1 (eBook)


https://doi.org/10.1007/978-3-531-93278-1

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen National-


bibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

Springer VS
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die
nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung
des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikro-
verfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen
etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die
Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des
Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten.
Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Infor-
mationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind.
Weder der Verlag noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder
implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt
im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten
Karten und Institutionsadressen neutral.

Springer VS ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden
GmbH und ist ein Teil von Springer Nature.
Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany
Inhalt

Vorwort ......................................................................................................... XV

Teil I: Methoden der Umfrageforschung im Überblick................................... 1

I.1 Einführende Charakterisierung von Umfragen und einige


Grundbegriffe ................................................................................................. 3
I.2 Forschungsprozess, Umfragedesign und Umfrageprozess ..................... 11
I.3 Die Datenerhebungsphase .......................................................................... 15
I.3.1 Allgemeine Ablaufstruktur ...................................................... 15
I.3.2 Der Interviewprozess und seine Komponenten .................... 17
I.4 Umfragequalität und Umfragefehler ......................................................... 22
I.4.1 Umfragequalität: Ideal und Wirklichkeit ............................... 22
I.4.2 Der totale Umfragefehler .......................................................... 23
I.4.3 Datenqualität und Antwortqualität ......................................... 26
I.4.4 Empfehlungen zur Erhöhung der Umfragequalität:
Das maßgeschneiderte Design ................................................. 29
I.5 Methodenspektrum im Umfrageprozess .................................................. 32
I.6 Grundsätzliche Probleme der Umfrageforschung ................................... 37
I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen ........... 42
I.7.1 Beobachtungsstudien, experimentelle Designs und
konfundierende Variablen ........................................................ 42
I.7.2 Kausale Beziehungen zwischen Variablen.............................. 45
I.8 Umfragen im Rahmen spezieller Forschungsdesigns ............................. 47
I.9 Durchführung von Umfragen auf der Basis von
Access-Panels ................................................................................................ 57
I.10 Beispiele für Umfragen................................................................................ 61
I.10.1 Nationale Umfragen (Auswahl) ............................................... 61
I.10.2 Internationale Umfragen .......................................................... 66
I.10.3 Datenzugang............................................................................... 70
VI Inhalt

I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien ...................... 72


I.11.1 Rechtliche Rahmenbedingungen............................................. 72
I.11.2 Richtlinien und Normen für die Durchführung von
Befragungen ............................................................................... 82
I.12 Institutionen der Sozialforschung.............................................................. 84
I.12.1 Organe der Markt- Meinungs- und Sozialforschung in
Deutschland................................................................................ 84
I.12.2 Amtliche Statistik....................................................................... 88
I.12.3 Wissenschaftliche Vereinigungen ............................................ 89
I.13 Zusammenfassung ....................................................................................... 90

Teil II: Kommunikationsformen (Modes) und ihre Wirkungen................... 93

II.1 Überblick....................................................................................................... 95
II.2 Grundlegende Dimensionen der Kommunikationsform ....................... 96
II.2.1 Administrationsformen und Kommunikationskanäle ......... 96
II.2.2 Befragungstechnologien .......................................................... 99
II.2.2.1 Allgemeines ........................................................... 99
II.2.2.2 Interviewer-administrierte Verfahren mit
Computerunterstützung .................................... 102
II.2.2.3 Selbst-administrierte Verfahren mit
Computerunterstützung (CASI bzw. CASQ) .. 106
II.3 Funktionsweise der Software-Unterstützung in ausgewählten CAI-
Anwendungen ............................................................................................ 112
II.3.1 Die Funktionsweise von CATI-Systemen............................. 112
II.3.1.1 Allgemeine Struktur ........................................... 112
II.3.1.2 Funktionen der CATI-Verwaltungssoftware .. 113
II.3.2 Funktionsweise internet-basierter Befragungstechnologien ..... 118
II.3.2.1 Internetdienste und Typen internetbasierter
Befragungen ........................................................ 118
II.3.2.2 Software-Komponenten zur Realisation
internetbasierter Umfragen ............................... 119
II.4 Zusammenfassung der Vor- und Nachteile computerunterstützter
Interviews .................................................................................................... 125
II.4.1 Vorteile computerunterstützter Interviews .......................... 125
Inhalt VII

II.4.2 Besondere Anforderungen und Qualitätsgefährdungen ........... 126


II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-
Surveys) ...................................................................................................... 128
II.6 Modeeffekte ................................................................................................ 132
II.6.1 Allgemeines .............................................................................. 132
II.6.2 Selektionseffekte....................................................................... 135
II.6.2.1 Begriffliche Präzisierung .................................... 135
II.6.2.2 Modepräferenzen und ihre möglichen
Ursachen .............................................................. 141
II.6.2.3 Mode-abhängige Selektion der
Antwortqualität ................................................... 145
II.6.3 Effekte auf Messung und Antwortqualität............................ 147
II.6.3.1 Messeffekte........................................................... 147
II.6.3.2 Wirkungen auf die Antwortqualität ................. 150
II.6.4 Beziehungen zwischen Selektionseffekt und Messeffekt .... 150
II.7 Einflüsse der Kommunikationsform auf die Organisation von
Erhebungen ................................................................................................ 153
II.7.1 Besonderheiten Interviewer-administrierter Umfragen .... 153
II.7.1.1 Allgemeines ......................................................... 153
II.7.1.2 Interviewer-Einsatz und
Umfrageorganisation in PAPI- und CAPI-
Umfragen ............................................................. 154
II.7.1.3 Interviewer-Einsatz und
Umfrageorganisation in CATI-Umfragen ....... 157
II.7.1.4 Interviewer-Schulung ......................................... 158
II.7.2 Besonderheiten Selbst-administrierter Umfragen .............. 162
II.7.2.1 Allgemeines ......................................................... 162
II.7.2.2 Organisation und Ablauf von Mailumfragen.. 162
II.8 Zusammenfassung ..................................................................................... 168

Teil III: Fragen und Antworten .................................................................... 169

III.1 Fragen und ihre Bestandteile .................................................................... 171


III.1.1 Der Aufbau von Fragen........................................................... 171
III.1.2 Items .......................................................................................... 175
VIII Inhalt

III.1.3 Grundlegende Typen von Fragen ......................................... 178


III.1.4 Antwortformate und Antwortskalen .................................... 180
III.1.5 Empirische und latente Antwortvariablen ........................... 190
III.1.6 Die Bedeutung von Fragetexten und Antwortvorgaben .... 192
III.1.7 Fragen und Antworten als Indikatoren:
Operationalisierungen ............................................................ 201
III.1.8 Von Fragen zum standardisierten Fragebogen .................... 205
III.1.8.1 Allgemeine Charakterisierung .......................... 205
III.2 Von Fragen zu Antworten......................................................................... 209
III.2.1 Frage-Antwortbeziehungen.................................................... 209
III.2.2 Intervenierende Prozesse und Handlungen ......................... 210
III.2.3 Der Antwortprozess ................................................................ 214
III.3 Einflüsse auf das Antwortverhalten ......................................................... 217
III.3.1 Aspekte der Antwortqualität .................................................. 217
III.3.1.1 Die Adäquatheit von Antworten ...................... 217
III.3.1.2 Messtheoretische Qualität der Antwort ........... 220
III.3.2 Leistungsanforderungen, Leistungsvermögen und
Leistungsbereitschaft ............................................................... 222
III.3.3 Sensitive Wirkungen von Fragetexten .................................. 226
III.3.3.1 Formen sensitiver Wirkungen .......................... 226
III.3.3.2 Instrumente zur Reduktion sensitiver
Wirkungen ........................................................... 230
III.3.4 Einflüsse der Kommunikationsform ..................................... 234
III.3.5 Die Position der Frage im Interview: Wirkungen der
Fragereihenfolge ..................................................................... 238
III.3.6 Die Wirkung von Frageformulierungen,
Antwortvorgaben und Antwortskalen .................................. 240
III.3.6.1 Die Wirkung von Frageformulierungen und
ihren Bedeutungen ............................................. 240
III.3.6.2 Wirkungen von Skaleneigenschaften ............... 243
III.3.6.3 Wirkung von Interviewer-Merkmalen............. 253
III.3.6.4 Einflüsse des Layouts bei
Selbstadministrierten Interviews ...................... 255
Inhalt IX

III.4 Zusammenfassung ..................................................................................... 262

Teil IV: Fragen und Antworten als Messungen............................................ 263

IV.1 Was ist Messen? .......................................................................................... 265


IV.1.2 Formale Präzisierung des Begriffs „Messen“ ....................... 267
IV.1.3 Skalenniveaus: Charakterisierung von Skalen durch
zulässige numerische Transformationen ............................. 270
IV.1.4 Skalenniveaus und zulässige statistische Verfahren für
univariate Analysen ................................................................. 276
IV.2 Die Messung latenter Variablen ............................................................... 277
IV.2.1 Einführende Bemerkungen .................................................... 277
IV.2.2 Messmodelle ............................................................................. 278
IV.2.2.1 Beziehungsformen zwischen
Konstruktvariablen und Indikatoren ............... 278
IV.2.2.2 Messmodelle mit mehreren Indikatoren ......... 281
IV.2.2.3 Die Integration von latenten
Antwortvariablen in Messmodelle ................... 287
IV.2.3 Werkzeuge zur Identifikation und Überprüfung von
Messmodellen ......................................................................... 288
IV.2.3.1 Vorbemerkung .................................................... 288
IV.2.3.2 Einsatz der explorativen Faktorenanalyse zur
Identifikation von Messmodellen ..................... 289
IV.2.3.3 Kurzbeschreibung der konfirmatorischen
Faktorenanalyse zur Überprüfung von
Messmodellen...................................................... 295
IV.3 Fehlertheorie der Messungen ................................................................... 306
IV.3.1 Beobachtete Variablen, wahre Variablen und Messfehler .. 306
IV.3.2 Ähnlichkeiten zwischen Messungen ..................................... 309
IV.3.3 „True-Score“-Modelle und Messmodelle ............................ 310
IV.3.4 Mehrstichprobenvergleiche von Messmodellen .................. 314
IV.3.5 Der Begriff der Reliabilität .................................................... 316
IV.3.6 Praktische Verfahren der Reliabilitätsbestimmung............ 318
IV.3.7 Reliabilität und Stabilität ........................................................ 319
IV.3.8 Reliabilitätmaße für zusammengesetzte Messungen .......... 324
X Inhalt

IV.4 Die Validität von Messungen.................................................................... 328


IV.5 Zusammenfassung ..................................................................................... 333

Teil V: Entwurf und Evaluation von Fragen ................................................ 335

V.1 Überblick ..................................................................................................... 337


V.2 Der Erstentwurf einer Frage ..................................................................... 339
V.2.1 Allgemeine Empfehlungen und Richtlinien......................... 339
V.2.2 Empfehlungen zum Layout in CASI-Interviews ................. 344
V.3 Vom Erstentwurf zur finalen Frage: Instrumente des
Evaluationsprozesses ................................................................................. 347
V.4 Fragebewertungssysteme .......................................................................... 350
V.4.1 Einführende Bemerkungen .................................................... 350
V.4.2 Das Fragebewertungssystem von Willis und Lessler
(QAS 99) ................................................................................... 351
V.4.3 Das Fragebewertungssystem von Faulbaum, Prüfer und
Rexroth (2009) ......................................................................... 360
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) ......................... 363
V.5.1 Überblick .................................................................................. 363
V.5.2 Kognitive Interviews ............................................................... 365
V.5.2.1 Überblick ............................................................. 365
V.5.2.2 Nachfragetechniken (Probing).......................... 367
V.5.2.3 Paraphrasieren..................................................... 370
V.5.2.4 Bewertung der Verlässlichkeit der Antwort
(engl.: Confidence Rating)................................. 371
V.5.2.5 Sortier- bzw. Vignettentechnik ......................... 372
V.5.2.6 Technik des lauten Denkens .............................. 373
V.5.3 Feld-Pretest .............................................................................. 375
V.5.3.1 Funktionsweise.................................................... 375
V.5.3.2 Befragten- und/oder Interviewer-Debriefing . 376
V.5.3.3 Behavior Coding ................................................ 378
V.5.3.4 Analyse von Antwortverteilungen und Split
Ballot..................................................................... 379
Inhalt XI

V.6 Evaluation von Fragebögen für Selbst-administrierte Interviews ....... 382


V.6.1 Papierfragebögen ..................................................................... 382
V.6.2 Programmierte Fragebögen ................................................... 384
V.6.3 Entwurf und Evaluation von Fragebögen in
interkulturellen Umfragen ...................................................... 387
V.7 Einsatz multivariater Verfahren zur Evaluation der Fragenqualität ... 388
V.8 Zusammenfassung ..................................................................................... 389

Teil VI: Stichprobenauswahl und Schätzung von Populationswerten ........ 391

VI.1 Zielpopulation, Auswahlgrundlage und Auswahlgesamtheit ............. 393


VI.2 Grundbegriffe der Zufallsauswahl ........................................................... 399
VI.3 Die Schätzung von Populationsparametern (Schätzphase) .................. 407
VI.3.1 Rückschluss von der Stichprobe auf die Grundgesamtheit 407
VI.3.2 Stichprobenfehler und Gütekriterien der Schätzung .......... 410
VI.3.3 Horvitz-Thompson-Schätzer und Designgewichtung ........ 417
VI.3.4 Der Horvitz-Thompson-Schätzer für multiple
Auswahlgrundlagen (MF-Schätzer) ...................................... 421
VI.3.5 Verbesserung der Schätzqualität durch Verwendung
von Hilfsvariablen.................................................................... 426
VI.3.5.1 Hilfsvariablen und Hilfsinformationen ........... 426
VI.3.5.2 Der Regressionsschätzer .................................... 428
VI.3.5.3 Verbesserung der Schätzer durch
nachträgliche Schichtung (Poststratifikation). 437
VI.4 Zusammengesetzte Stichprobendesigns ................................................. 438
VI.4.1 Vorbemerkung ......................................................................... 438
VI.4.2 Zweiphasenauswahl ................................................................ 439
VI.4.3 Geschichtete Stichprobenauswahl ......................................... 441
VI.4.3.1 Grundbegriffe und Stichprobenallokation ...... 441
VI.4.3.2 Schätzer für geschichtete Auswahlverfahren .. 444
VI.4.4 Klumpenauswahl .................................................................... 446
VI.4.5 Mehrstufige Auswahlverfahren .............................................. 453
VI.4.6 Selbstgewichtende Designs .................................................... 459
VI.4.7 Bestimmung des Mindeststichprobenumfangs ................... 462
XII Inhalt

VI.5 Repräsentativität......................................................................................... 463


VI.5.1 Präzisierungen des Repräsentativitätsbegriffs ..................... 463
VI.5.2 Repräsentativität in Online-Access-Panels .......................... 466
VI.6 Auswahlverfahren für telefonische Umfragen ....................................... 469
VI.6.1 Allgemeines .............................................................................. 469
VI.6.2 Zufällige Nummernerzeugung .............................................. 471
VI.6.3 Listenbasierte Verfahren ......................................................... 472
VI.6.4 Die Ziehung von Mobilfunk-Stichproben ............................ 477
VI.7 Stichprobenauswahl durch Begehung von Klumpen ........................... 479
VI.8 Auswahl von Personen im Haushalt (Within-Household Sampling) . 481
VI.9 Rekrutierung von Teilnehmern in Webumfragen ................................. 485
VI.10 Rekrutierung von Stichproben in seltenen Populationen .................... 487
VI.11 Zusammenfassung ..................................................................................... 493

Teil VII: Auf dem Weg von der Zielpopulation zur Nettostichprobe ......... 495

VII.1 Einführung und Überblick ...................................................................... 497


VII.2 Typische Ausfallmuster ............................................................................. 499
VII.3 Ausfallmechanismen ................................................................................. 505
VII.4 Gefährdungen der Umfragequalität durch Ausfälle .............................. 509
VII.4.1 Selektionseffekte....................................................................... 509
VII.4.2 Probleme durch Unterdeckung und Unterdeckungsfehler 512
VII.4.3 Nonresponse-Bias .................................................................... 515
VII.4.4 Response-Rate, Bias und Stichprobenqualität ..................... 518
VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten .... 520
VII.5.1 Differenzierung nach Ursachen ............................................. 520
VII.5.2 Klassifikation von Ausfallraten nach AAPOR ..................... 521
VII.5.3 Arten von Nonresponse in Internet-basierten Umfragen .. 526
VII.6 Statistische Modellierung von Ausfallereignissen ................................. 527
VII.7 Bedingungen der Interview-Teilnahme: Kontaktierbarkeit und
Teilnahmebereitschaft ............................................................................... 528
VII.7.1 Kontaktierbarkeit ..................................................................... 528
VII.7.2 Determinanten der Teilnahmebereitschaft: Theoretische
Ansätze ...................................................................................... 533
Inhalt XIII

VII.7.2.1
Allgemeine Aspekte ........................................... 533
VII.7.2.2
Ansätze zur Modellierung der
Teilnahmebereitschaft ........................................ 536
VII.8 Maßnahmen zur Erhöhung der Responserate ....................................... 541
VII.8.1 Einführende Bemerkungen und Überblick ......................... 541
VII.8.2 Ankündigungen ....................................................................... 543
VII.8.3 Zuwendungen .......................................................................... 544
VII.8.4 Form und Inhalt der Kontaktaufnahme ............................... 549
VII.8.5 Interviewer-Performanz und Maßnahmen zu ihrer
Optimierung ............................................................................ 551
VII.8.5.1 Empirische Befunde zum Interviewer-Verhalten 551
VII.8.5.2 Organisations- und trainingsbezogene
Maßnahmen zur Optimierung der
Interviewer-Performanz..................................... 556
VII.8.6 Wahl der Kommunikationsform .......................................... 561
VII.8.7 Rekrutierungsaufwand, Nonresponse und Datenqualität . 564
VII.9 Dokumentation von Nonresponse-Gründen ......................................... 570
VII.9.1 Erfassungsformen .................................................................... 570
VII.9.2 Verweigerungsgründe ............................................................. 575
VII.10 Anpassungsgewichtung ............................................................................. 578
VII.10.1 Einführende Bemerkungen .................................................... 578
VII.10.2 Antwortmechanismen ............................................................ 579
VII.10.3 Gewichtungen ohne Hilfsvariablen: Der gewichtete
Klassenschätzer ........................................................................ 580
VII.10.4 Postratifikationsgewichte ....................................................... 581
VII.10.5 Raking ....................................................................................... 586
VII.10.6 Kalibrierung ............................................................................ 588
VII.10.7 Gewichtung nach dem Verfahren des minimalen
Informationsverlusts ............................................................... 591
VII.10.8 Propensity-Gewichtung ......................................................... 593
VII.10.9 Gewichtungen bei Internet-basierten Umfragen ................ 595
VII.10.9.1 Einleitende Bemerkungen ................................. 595
VII.10.9.2 Postratifikationsgewichtung .............................. 597
XIV Inhalt

VII.10.9.3 Poststratifikation mit Hilfe eines


Referenzsurveys .................................................. 598
VII.10.9.4 Propensity-Gewichtung bei Websurveys ......... 599
VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren .................... 603
VII.11.1 Einzelverfahren im Überblick ................................................ 603
VII.11.2 Das Verhältnis von Gewichtung und Imputation ............... 607
VII.12 Zusammenfassung ..................................................................................... 609

VIII. Epilog ................................................................................................... 611

Literatur ........................................................................................................ 613


Vorwort
International und national gehören Bevölkerungsumfragen inzwischen zu den
unumstrittenen Hilfsmitteln und wohl etablierten Instrumenten wirtschafts-, bil-
dungs-, kultur- und sozialpolitischer Entscheidungsvorbereitung. Politische Ent-
scheidungen in komplexeren Gesellschaften erfordern, nicht nur zur rechtzeitigen
Prognose krisenhafter Entwicklungen, sondern auch zur Erarbeitung kurz- und
mittelfristiger Planungsunterlagen die systematische Sammlung von Erkenntnis-
sen über Veränderungen in Wirtschaft und Gesellschaft (vgl. z.B. die Beiträge in
König, Stahl & Wiegand, 2011). Längerfristige Planungen bedürfen dabei immer
wieder der zwischenzeitlichen empirischen Überprüfung. Zum Teil werden diese
Erhebungen, wie etwa im Fall des Mikrozensus, auf gesetzlicher Grundlage vom
Staat, vertreten durch das Statistische Bundesamt und die statistischen Ämter,
selbst durchgeführt, zum Teil als Forschungsaufträge an staatliche, akademische
oder privatwirtschaftliche Institutionen vergeben. Nicht nur auf nationaler Ebene,
sondern auch auf internationaler, insbesondere europäischer Ebene, auf regionaler
und kommunaler Ebene, auf der Ebene von Städten und Gemeinden, entwickeln
sich Umfragen inzwischen mehr und mehr zu einem methodischen Standardin-
strument der Sozialberichterstattung, der wirtschaftlichen und gesellschaftlichen
Dauerbeobachtung (Monitoring), der Vorbereitung und Evaluation kultur-, sozi-
al- und arbeitsmarktpolitischer kommunaler Maßnahmen und der Untersuchung
der Akzeptanz kommunaler Entscheidungen. Auch für die sozialwissenschaftliche
Forschung und Lehre liefern Bevölkerungsumfragen die notwendigen Daten, um
Erkenntnisse über Einstellungen, Wertorientierungen und Verhalten zu sammeln
oder darauf bezogene Hypothesen zu überprüfen. Die alle zwei Jahre stattfindende
und vom GESIS – Leibniz-Institut für Sozialwissenschaften in Mannheim betreute
Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) sowie einige
internationale Umfragen wie z.B. der European Social Survey (ESS), sind aus der
akademischen Lehre in der empirischen Sozialforschung kaum noch wegzuden-
ken. Schließlich sind Bevölkerungsumfragen aber auch Datenlieferanten für die
Marktforschung und auch für die medienwirksame Unterhaltung.
Umfragen können durchaus mehrere beabsichtigte oder unbeabsichtigte Funk-
tionen zur gleichen Zeit haben. Ein Beispiel hierfür stellen die Umfragen im Be-
reich der Wahlforschung dar. Einerseits dienen sie dazu, politikwissenschaftliche
Hypothesen zu überprüfen sowie Trends und Veränderungen in den Einstellungen
zu politischen Parteien zu beschreiben. Andererseits bedienen sie aber auch das In-
teresse und den Unterhaltungsbedarf der Bevölkerung, insbesondere vor Wahlen.
XVI Vorwort

Die Umfrageforschung hat in den letzten Jahrzehnten bedeutende methodische


Fortschritte in den Ergebungstechnologien, in der Identifizierung der Einflüsse
auf die Datenqualität, in der Datenanalyse und in der methodischen Begleitfor-
schung gemacht. Wichtige internationale Standardwerke der Methodenliteratur
stehen inzwischen für Studium und Weiterbildung zur Verfügung. Beispiele sind
das Lehrbuch „Survey Methodology“ von Groves et al. (2009) in Bezug auf die
Umfrageforschung, die Monographie „Model Assisted Survey Sampling“ von Särn-
dal, Swensson und Wretman (1992) auf dem Gebiet der Stichprobenauswahl aus
endlichen Grundgesamtheiten sowie die orientierenden Monographien in der Wi-
ley-Reihe „Survey Research“. Die Fortschritte dokumentieren sich in methodisch
anspruchsvollen wissenschaftlichen Aufsätzen vor in Zeitschriften wie „Public
Opinion Quarterly“, „Journal of Official Statistics“, „Survey Research Methods“,
„Field Research“ oder dem „Journal of the Royal Statistical Society, Series A.“ und
anderen. Daneben werden Methoden der Umfrageforschung auch in Einführun-
gen in die empirische Sozialforschung mehr oder weniger vertieft behandelt (vgl.
z.B. Häder, 2010; Schnell, Hill & Esser, 2011 in der 9. Auflage). Auch sehr hilfreiche
praxisorientierte Darstellungen der einschlägigen Methoden liegen inzwischen in
deutscher Sprache vor (vgl. Schnell, 2012, Häder, Häder & Schmich, 2018 in Bezug
auf Telefonumfragen).
Die Motivation für das Verfassen dieser Monographie leitet sich vor allem aus
der Erkenntnis ab, dass es sich bei Umfragen um Messungen handelt, an welche
die gleichen methodischen Anforderungen wie bei Messungen in den Naturwis-
senschaften gestellt werden müssen. Gemessen werden im Fall von Umfragen ge-
sellschaftliche Zustände im weitesten Sinn. Dies ist jedenfalls dann der Fall, wenn
Umfragen nicht ausschließlich zu Unterhaltungszwecken durchgeführt werden.
Obgleich die Bedeutung der Qualität eines Blutdruckmessgeräts für die Messung
des Blutdrucks nicht in Frage gestellt wird, sieht es bei Umfragen eher anders aus.
Wenn zentrale Aspekte der Umfragequalität nicht berücksichtigt werden, darf man
sich über Verzerrungen in den Ergebnissen, seien es nun Wahlprognosen oder an-
deren Ergebnisse, nicht wundern. In jenen Fällen, in denen Umfragen Daten für die
gesellschafts- und wirtschaftspolitische Planung oder die sozialwissenschaftliche
Forschung liefern sollen, muss die Optimierung der Umfragequalität ein zentrales
Anliegen sein.
Allerdings hat sich der Stellenwert von Umfragedaten inzwischen verändert.
Gehörten Umfragen noch vor wenigen Jahren zu den dominanten Datenquellen
der empirischen Sozialforschung, so haben inzwischen auf Grund technologischer
Entwicklungen andere Formen der Datenrekrutierung an Bedeutung gewonnen.
Zur Diskussion steht vor allem das Verhältnis von Umfragedaten zu Daten, die
unter dem Begriff „Big Data“ mehr oder weniger präzise zusammengefasst wer-
Vorwort XVII

den. Eine populäre Definition des Begriffs „Big Data“ basiert auf folgenden Ei-
genschaften (vgl. Japek et al., 2015, p. 841): (1) extremer Umfang der Datenmenge
(„volume“), die für die Analyse zur Verfügung steht, wobei die Daten aus unter-
schiedlichen Quellen stammen können; (2) hohe Geschwindigkeit, mit der die
Datenerhebung erfolgt („velocity“); (3) Unterschiedlichkeit und Komplexität der
Formate; (4) Variabilität („variability“) im Sinne einer Inkonsistenz der Daten über
die Zeit; (5) Bereitschaft, der Korrektheit der Daten zu trauen („veracity“); (6) Not-
wendigkeit, unterschiedliche Datenquellen zu verknüpfen. Beispiele für Typen von
„Big Data“ sind Daten aus den sozialen Medien, sensorische Daten, administrative
Daten, durch Tracking gewonnene persönliche Daten. Viele dieser Daten wurden
und werden im Unterschied zu Umfragedaten nicht-reaktiv erhoben.
Die Methoden der Datengewinnung durch Umfragen bestehen in einer vernetz-
ten Struktur vieler Teilschritte bzw. Komponenten, die auch als Umfrageprozess be-
zeichnet wird (vgl. Teil I.2; Abbildung I.3) und die als komplexes Messinstrument
zur Messung gesellschaftlicher Zustände aufgefasst werden kann. Jeder Schritt im
Umfrageprozess, von der Stichprobenauswahl bis zur Erstellung des Datensatzes
verlangt nach spezifischen Qualitätskriterien, deren Missachtung spezifische Feh-
ler bzw. Verzerrungen zur Folge haben können, die sich zu einem Gesamtfehler
einer Umfrage (totaler Umfragefehler; eng.: total survey error; vgl. Abschnitt I.4.2)
addieren können (vgl. Groves, 2004). Um den Umfragefehler möglichst gering zu
halten, bedarf es zumindest bei Umfragen von großer gesellschaftlicher und/oder
wissenschaftlicher Bedeutung der Zusammenarbeit von Fachleuten in den Schwer-
punkten, die in den Schritten des Umfrageprozesses angesprochen sind (vgl. hierzu
auch Faulbaum, 2016).
In dieser Monographie wird das Methodenpanorama der Umfrageforschung in
den wesentlichen Grundzügen dargestellt. Dabei ließ sich nicht vermeiden, dass
an einigen Stellen auf methodisches Vorwissen der Leser zurückgegriffen werden
muss. Dies ist vor allen in den eher statistisch geprägten Abschnitten des Buches
der Fall. Insbesondere Erfahrungen mit mathematischen Notationen sind sicher-
lich hilfreich. In jedem Fall sollte aber zumindest die Intention der dargestellten
Methoden erkennbar und damit auch eine Einschätzung ihrer Bedeutung im Um-
fragedesign und im gesamten Umfrageprozess möglich sein.
Das Buch ist so aufgebaut, dass im ersten Teil zunächst ein Gesamtüberblick
über Ablauf und Inhalt der Stufen des Umfrageprozesses sowie über die Rolle von
Umfragen im Forschungsprozess gegeben wird. Es war dabei auch ein Anliegen,
einige allgemeine Probleme unter Einschluss des Verwertungszusammenhangs
anzusprechen. In diesem Teil werden auch rechtliche Rahmenbedingungen an-
gesprochen. Der zweite Teil wendet sich den Kommunikationsformen zu, in de-
nen mit Kontaktpersonen und Interviewpartnern kommuniziert wird. Der Begriff
XVIII Vorwort

der Kommunikationsform wird in der Bedeutung des englischen Begriffs „mode“


verwendet. Dementsprechend wird im Text auch von Modes gesprochen. Auch
Alternativbegriffe wie Befragungsart oder Befragungsform werden gelegentlich
alternativ benutzt. Der zweite Teil steht unter dem Vorbehalt, dass technologische
Entwicklungen auch zukünftig zu neuen Kommunikationsformen führen können,
die in dieser Monographie noch nicht angesprochen werden konnten. Ungewöhn-
lich mag in diesem Teil auch erscheinen, dass dort die Ausführungen über die Fel-
dorganisation angesiedelt sind. Grund dafür ist der enorme Einfluss, den Kommu-
nikationsformen gerade auf diesen Aspekt haben. Die darauffolgenden Teile III, IV
und V beschäftigen sich mit dem Entwurf und der Evaluation von Fragen. Teil IV
widmet sich speziell den Konzepten der Messung und deren Gütekriterien. Man-
cher Leser mag den Teil für unnötig detailliert halten. Eine detaillierte Darstellung
schien jedoch sinnvoll, um zu zeigen, was wir tun und welche Implikationen es für
die Datenqualität hat, wenn wir Fragen und Antworten als Messungen betrachten.
In den Teilen VI und VII geht es dann um die Stichprobenverfahren und den durch
Ausfälle (Nonresponse) gepflasterten Weg von einer Ausgangsstichprobe zur Men-
ge der realisierten Interviews und der Menge der realisierten Antworten.
Wo empirische Ergebnisse einzelner Studien berichtet werden, sollte bedacht
werden, dass es sich immer um Einzelstudien/Einzelexperimente handelt, deren
Generalisierbarkeit nicht unbedingt gesichert ist, da sie oft unter besonderen me-
thodischen Voraussetzungen stattfanden. Zahlreiche Ergebnisse beziehen sich auf
Zusatzauswertungen von Erhebungen, die besonderen methodischen Vorgaben
ausgesetzt waren.
Das vorliegende Buch wendet sich an alle, die sich ernsthaft für das Spektrum
der Verfahren interessieren, welche die Qualität von Umfragemessungen beeinflus-
sen können.
Mein Dank gilt dem Verlag Springer VS für die erforderliche Geduld und Un-
terstützung. Gedankt sei auch meinen Mitarbeitern Dawid Bekalarczyk und Lars
Ninke für die Bereitstellung einiger Abbildungen. Schließlich möchte ich meiner
Frau Margrit Rexroth für die erwiesene Geduld und Unterstützung danken.
Teil I: Methoden der Umfrageforschung im
Überblick

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 1
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_1
I.1 Einführende Charakterisierung von Umfragen und
einige Grundbegriffe

Umfragen unterscheiden sich von anderen Methoden der Datenerhebung vor al-
lem dadurch, dass Daten unter Einsatz systematischer Methoden der Befragung mit
dem Ziel der quantitativen Beschreibung einer Zielpopulation (auch: Grundgesamt-
heit) von Elementen hinsichtlich bestimmter Merkmale (auch: Variablen) erhoben
werden, wobei die Zielpopulation in der Regel Teil einer Gesamtpopulation (engl.:
total population) ist. Ein Beispiel wäre die Zielpopulation der in Privathaushalten
lebenden Personen im Alter ab 18 Jahren als Teilpopulation aller in Privathaus-
halten lebenden Personen der BRD. Elemente von Zielpopulationen können sein:
Personen, Haushalte, Unternehmen, Organisationen, Vereine, soziale Netzwerke,
etc., sie können also durchaus unterschiedlichen Analyseebenen angehören. Bei
der Erhebung ausgewählter Merkmale von Elementen höherer Analyseebenen wie
z.B. Unternehmen und Organisationen (engl.: business surveys oder establishment
surveys; vgl. DesRoches, 2008; Snijkers et al., 2013) muss je nach Element allerdings
zusätzlichen Problemen Rechnung getragen werden. Dazu gehören etwa die Fest-
legung der Informationsbeschaffung über geeignete Auskunftsperson(en) und die
besondere Beachtung der durch sie eingeführten Fehlerquellen (vgl. hierzu Bavdaž,
2010). Auch die Erhebungsinstrumente für Unternehmensbefragungen bedürfen
hinsichtlich ihres Designs besonderer Überlegungen (vgl. Morrison, Dillman &
Christian, 2010). Die mit der inhaltlichen Fragestellung verbundenen Variablen
heißen Zielvariablen (auch: Survey-Variablen, Studienvariablen, Untersuchungsva-
riablen; engl.: target variables, goal variables oder survey variables).
Aus Gründen wie zeitlichen Restriktionen, Kostengründen, etc. ist es insbe-
sondere bei großen Populationen in der Regel nicht möglich, im Rahmen einer
Totalerhebung alle Elemente der Population in eine Umfrage einzubeziehen, so dass
die Auswahl einer Stichprobe notwendig wird (vgl. Abbildung I.1).
Daraus ergibt sich die Aufgabe, statistische Eigenschaften von Merkmalen und/
oder Merkmalszusammenhängen in der Zielpopulation auf Basis der nach Ab-
schluss der Datenerhebung resultierenden Stichprobe, möglichst genau zu schätzen
(vgl. Abbildung I.2 in Bezug auf die Schätzung von Parametern univariater Ver-
teilungen). Aus der vereinfachten Darstellung der Abbildung geht allerdings nicht
hervor, dass zwischen der gezogenen Ausgangsstichprobe und der resultierenden
finalen Stichprobe noch der gesamte Erhebungsprozess mit seinen verschiedenen
Einfallstoren für Verzerrungen liegt.
4 I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe

Abbildung I.1: Zielpopulation und Stichprobe

Abbildung I.2: Parameterschätzung


I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe 5

Um die Qualität einer Schätzung zu beurteilen, können statistische Verfahren he-


rangezogen werden, mit deren Hilfe bestimmt werden kann, wie groß der Fehler
einzuschätzen ist, der bei Schätzungen von statistischen Eigenschaften der Popu-
lation zu erwarten ist. Angestrebt werden sollte immer eine Schätzung mit einer
unter den gegebenen Bedingungen erreichbaren maximalen Genauigkeit. Umfra-
gen, die von vornherein keine optimale Schätzung der Populationswerte anstreben,
sollten mit Rückschlüssen von den erhobenen Daten auf die Zielpopulation äußerst
zurückhaltend sein. Da es sich bei Stichproben für Umfragen im Unterschied zu
den infiniten Populationen der klassischen Inferenzstatistik um Stichproben aus
endlichen Populationen handelt, wird die statistische Theorie endlicher Grundge-
samtheiten zur begrifflichen Präzisierung der Stichprobendesigns und der Schätz-
verfahren herangezogen (vgl. Teil VI).
Die Schätzung von Populationswerten ist sinnvoll bei großen Populationen. Bei
sehr kleinen Populationen und entsprechend kleinen Stichproben (z.B. 20 Perso-
nen) würde man den Begriff der Umfrage eher nicht verwenden. In diesem Fall
lässt sich der Populationswert direkt berechnen. Der Begriff „Umfrage“ entspricht
im Verständnis dieses Buches also eher dem Begriff des „large sample survey“ in der
angloamerikanischen Literatur (vgl. Groves et al., 2009). In gewissem Sinne lassen
sich Umfragen als Instrumente zur Beobachtung bzw. Messung des Zustands von
Populationen im Sinne einer Momentaufnahme betrachten. Diese Messungen wer-
den gelegentlich auch als Umfragemessungen (engl.: survey measurements) bezeich-
net. Solche Beobachtungen/Messungen können durch wiederholte Umfragen zur
Dauerbeobachtung erweitert werden. Notwendig ist dafür zunächst die Beobach-
tung der individuellen Ausprägungen von vorher festgelegten Merkmalen (Variab-
len) der Elemente in der Stichprobe. Auf der Basis dieser Merkmalsausprägungen
lassen sich dann mit Hilfe statistischer Analysen Annahmen über die Zustände der
Bevölkerung ableiten und charakterisieren. Praktisch bedeutet dies, dass von einer
Individualebene (z.B. Personenebene) auf eine Kollektivebene (z.B. Gesamtbevöl-
kerung, Betriebe, etc.) zurückgeschlossen wird. Aus dem Sachverhalt, dass die Basis
dieses Rückschlusses eine Stichprobe darstellt, ergeben sich dann alle inferenzsta-
tistischen und stichprobentheoretischen Probleme (siehe oben).
Auf dem Weg von der Population über die Stichprobenauswahl zum endgülti-
gen Datensatz können aus unterschiedlichen Gründen ursprünglich ausgewählte
Stichprobenelemente verloren gehen. Diese Nonresponse-Problematik stellt eine
Herausforderung für die Durchführung von Umfragen dar (vgl. Kreuter, 2013a)
und erfordert spezifische Überlegungen zur Reduktion von Nichtantworten und
zur Korrektur der durch sie bedingten Verzerrungen der Ausgangsstichprobe (vgl.
Teil VII).
6 I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe

Die in einer Umfrage untersuchten Merkmale variieren je nach Forschungsthe-


ma und Untersuchungsziel. Dabei kann es sich um Einstellungen (z.B. zu Gesund-
heitsthemen, zu politischen Themen, zu sozialen Themen), um Fakten, die man,
insofern ein Gesamtbild der Bevölkerung entworfen werden soll, einfacher im
Rahmen einer Umfrage erheben kann (z.B. Gesundheitsverhalten wie „Rauchen“
oder „Nichtinanspruchnahme von Angeboten zur Krebsvorsorge“, „Veränderung
von Familienstrukturen“, „Struktur von Freundschaftsnetzwerken“, „Migrations-
verhalten“) oder um soziodemographische Merkmale wie „Alter“, „Geschlecht“,
„Bildung“, „Einkommen“, „Haushaltsgröße“, „Erwerbsstatus“, „Mitgliedschaften“,
„Nationalität“, etc. handeln. Die Sammlung soziodemographischer Informationen
steht vor allem im Mittelpunkt der amtlichen Statistik. In der Unternehmensfor-
schung geht es oft um die Erhebung von Fakten, welche spezifisch Unternehmen
betreffen wie die Zahlung von Kurzarbeitergeld, geplante Investitionen, etc. Über
Mitarbeiterbefragungen (vgl. Borg, 2003) können Informationen über die Zufrie-
denheit der Mitarbeiter, z.B. mit dem Arbeitsplatz, mit Vorgesetzten und dem Ar-
beitsklima erhoben werden. In der Marktforschung kann es z.B. im Rahmen von
Konsumentenbefragungen um die Messung der Zufriedenheit von Kunden mit
Produkteigenschaften oder mit dem Service, das Image von Unternehmen, die
Evaluation der Werbewirkung, oder auch einfach um den Anteil von gekauften
Produkten gehen. Schließlich können im Rahmen von biosozialen Surveys (vgl. z.B.
die Beiträge in Committee of Advances in Collecting and Utilizing Biological In-
dicators and Genetic Information in Social Science Surveys, Weinstein, Vaupel &
Wachter, 2007) auch biometrische Daten, sog. Biomarker, erhoben oder genutzt
werden. Beispiele für solche Daten sind Körpergewicht, Blutdruck, genetische Da-
ten, etc. (vgl. z.B. Dykema et al., 2017; Kooreman & Scherpenzeel, 2014; Sakshaug
et al., 2015; Schnell, 2009). Ein Beispiel für ein Umfrageprojekt, in dem Biomarker
erhoben werden, ist das longitudinal angelegte Umfrageprojekt SHARE (Survey of
Health, Aging, and Retirement in Europe (vgl. Hank, Jürges & Schaan, 2009). Auch
können primär der Erhebung der Gesundheit gewidmete Untersuchungen als Teil
Befragungen beinhalten. Ein Beispiel ist die „NAKO Nationale Gesundheitsstudie“
(siehe www.nako.de).
Zur weiteren Vervollständigung von Informationen über Befragte kann ver-
sucht werden, weitere sog. Paradaten zu erheben bzw. zu nutzen (vgl. die Beiträge
in Kreuter, 2013). Paradaten sind Daten, die nicht zu den im Hauptinterview erho-
benen Ziel-, und Hilfsvariablen gehören. Vielmehr handelt es sich um Daten, die im
Rahmen der Vorbereitung und Durchführung der Umfrage erhoben werden, um
die Qualität der Interpretation des Antwortverhaltens zu erhöhen wie z.B. Aufnah-
men des Gesichtsausdrucks während der Beantwortung, Antwortzeiten, Anzahl
der Kontaktversuche, situativer Kontext, Interviewer-Beobachtungen, während des
I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe 7

Screenings erhobene Daten. Eine wichtige Funktion von Paradaten besteht in der
Verwendung als Hilfsvariablen bei Gewichtungsverfahren zur Korrektur von Aus-
fällen durch Nonresponse, da bestimmte Paradaten oft auch bei Personen erhoben
werden können, die die Interviewteilnahme verweigern.
Mit einer Umfrage sind stets bestimmte inhaltliche Zielsetzungen und damit
auch die Auswahl bestimmter Untersuchungsvariablen für die Erhebung verbun-
den, die Operationalisierungen der zentralen thematischen Dimensionen darstel-
len und die in ihrer inhaltlichen Funktion von sog. Hilfsvariablen (engl.: auxiliary
variables) unterschieden werden können, die der Unterscheidung verschiedener
Subpopulationen dienen (vgl. z.B. Bethlehem, Cobben & Schouten, 2010, p. 28)
und die zur Optimierung der Schätzungen von Populationswerte auf Grundlage
der Umfragedaten eingesetzt werden. Auf die Rolle der Hilfsvariablen wird in den
Teilen VI und VII näher eingegangen.
Sieht man von Umfragen ab, die ohne Bezug auf besondere methodische Über-
legungen und ohne Berücksichtigung von Qualitätsmerkmalen nur durchgeführt
werden, um Ergebnisse mit Unterhaltungswert zu produzieren, die sich in Boule-
vardzeitschriften oder Unterhaltungssendungen gut präsentieren lassen oder die
nur durchgeführt werden, um eine Einrichtung zwecks Selbstvermarktung in den
Medien zu lancieren, so wird es bei einer Umfrage in erster Linie darum gehen,
die statistischen Eigenschaften der zentralen Variablen der Untersuchungsfrage-
stellung in der Population so genau wie möglich auch in der Stichprobe abzubilden.
Mit dieser Abbildungsgenauigkeit wird oft der Begriff Repräsentativität verbunden
(siehe Teil VI). Die Abbildungsgenauigkeit wird nie perfekt sein, allein schon da-
rum, weil statt der Population nur eine Stichprobe untersucht wird und weil die
nach Durchführung der Umfrage resultierende finale Stichprobe (Menge der re-
alisierten Interviews; auch: Nettostichprobe) durch die Qualität der zur Stichpro-
benauswahl zur Verfügung stehenden Auswahlgrundlage und durch verschiedene
Arten von Nichtteilnahme im Vergleich zur Zielpopulation stets Verzerrungen auf-
weisen wird. Umso wichtiger erscheint es, vor und nach der Erhebung geeignete
Maßnahmen zur Optimierung der Schätzungen der relevanten Populationswerte
zu ergreifen. Dies kann nach der Erhebung etwa durch Anwendung geeigneter
Gewichtungsverfahren zur Korrektur von Schätzungen (vgl. Teile VI und VII) ge-
schehen. Die zusammenfassende Betrachtung aller Fehlerquellen, die im Verlauf
der Realisierung einer Umfrage auftreten können, führt zum Konzept des totalen
Umfragefehlers (engl.: total survey error; siehe Abschnitt I.4.2).
In wissenschaftlichen Forschungsprojekten geht es entweder um die Überprü-
fung von auf eine Population bezogenen, mehr oder weniger komplexen statisti-
schen Hypothesen bzw. Modellen des Forschers (konfirmatorische Nutzung der
erhobenen Umfragedaten) oder um die Exploration von Eigenschaften und Struk-
8 I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe

turen einer Zielpopulation (explorative Nutzung der erhobenen Umfragedaten).


Im ersten Fall sind die Hypothesen oft in einen umfassenderen theoretischen Zu-
sammenhang eingebettet, im zweiten Fall können die Ergebnisse der Exploration
Ausgangspunkt für die Stimulierung theoretischer Erklärungen und damit Anlass
für die weitere Elaboration theoretischer Überlegungen sein. Oft existieren beide
Nutzungsformen nebeneinander. In der kommerziellen Anwendung steht in der
Regel die statistische und/oder graphische Beschreibung von Daten durch Häufig-
keiten, Anteile und statistische Kennwerte wie Maße der zentralen Tendenz und
Streuungsmaße im Vordergrund. Hier geht es in erster Linie um die einfache Dar-
stellung für ein methodisch nicht immer ausreichend vorgebildetes Auditorium.
Gelegentlich ergibt sich die Möglichkeit, durch eine Erweiterung der durch eine
Umfrage erzeugten Daten die Menge der überprüfbaren Hypothesen über Merk-
malszusammenhänge zu erweitern. Dies ist dann der Fall, wenn Merkmale von
Elementen (Personen, Betriebe, etc.) bereits mehrfach zu unterschiedlichen Gele-
genheiten und in unterschiedlichen Zusammenhängen erhoben wurden, so dass
ein und das gleiche Element zugleich mehreren Datenquellen angehört, so etwa
als Befragter in einer Bevölkerungsumfrage und als Mitarbeiter in einem Unter-
nehmen. Über geeignete Merkmale wie z.B. Identifikationsschlüssel oder Adressen
lassen sich dann beide Datenquellen zu einem neuen Datensatz verknüpfen, der
nunmehr für ein Element die Merkmale beider Datenquellen enthält. Der neue
Datensatz ermöglicht dann die Ermittlung von Merkmalszusammenhängen, die in
jedem einzelnen Datensatz nicht durchführbar gewesen wäre. Diese Form der Zu-
sammenfügung verschiedener Datenquellen wird auch als „record linkage“ bezeich-
net. Die Verfahren zur Verknüpfung bilden die „record linkage (RCL)“-Verfahren
(vgl. Christen, 2012). Die Form der Zusammenführung von Daten muss allerdings
mit den gesetzlichen Bestimmungen des Datenschutzes vereinbar sein. Ein Daten-
schutzproblem ergibt sich vor allem dadurch, dass Stichprobenelemente durch die
Verknüpfung identifizierbar werden, obwohl sie es vorher nicht waren.
Ein einschlägiges Beispiel für die Anwendung dieser Verfahren ist die Zusam-
menführung von Umfragedaten und administrativen Daten (vgl. z.B. Lillard & Far-
mer, 1997; Schnell, 2013). In der Regel müssen die Untersuchungseinheiten einer
solchen Verknüpfung von Datenquellen zustimmen, wobei die Zustimmung (engl.
consent) von verschiedenen Faktoren wie „Privatheit“, „geringere Bereitschaft zum
Interview (engl.: interview resistance), etc. abhängen kann (vgl. Sakshaug et al.,
2012; Sala, Burton & Knies, 2012). Allgemeinere Ansätze ohne identische Elemen-
te in mehreren Datenquellen, aber mit einer sich überschneidenden Menge von
Merkmalen werden unter dem Begriff „Datenfusion“ bzw. „Statistisches Matching“
zusammengefasst (vgl. Rässler, 2002). Dazu gehören auch die traditionellen Ver-
I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe 9

fahren wie das Matching nach dem nächsten Nachbarn oder nach dem identischen
Zwilling (vgl. z.B. Bacher, 2002).
Bereits aus dem Ziel der quantitativen Beschreibung einer Grundgesamtheit
folgt, dass alle Stichprobenelemente in einer Umfrage vergleichbar, d.h. objektiv,
gemessen sein müssen. Dies bedeutet, dass die Fragen, auf denen die angestreb-
ten quantitativen Aussagen beruhen, für alle Einheiten in gleicher Weise gestellt
werden sollten. Dies heißt aber wiederum im Detail, dass Frageformulierung,
Antwortformate, die Position der Frage im Fragebogen sowie Layout, und Inter-
viewer-Anweisungen (bei Interviewer-administrierten Interviews) oder Befrag-
ten-Anweisungen (bei selbstadministrierten Interviews) identisch sind. Da bei
Interviewer-administrierten Befragungen (zum Begriff der Administration vgl.
Teil II) das Antwortverhalten des Befragten durch das Verhalten der Interviewer
beeinflusst werden kann, sollte im Rahmen der stets notwendigen Schulung (Inter-
viewer-Schulung bzw. Interviewer-Training) auch ein möglichst vergleichbares In-
terviewer-Verhalten erreicht werden. Man fasst die genannten Bedingungen unter
dem Begriff Standardisierung (vgl. hierzu Schaeffer & Maynard, 2008) zusammen.
Zur Herstellung dieser Bedingungen lassen sich bestimmte Regeln zur Durchfüh-
rung standardisierter Interviews formulieren (vgl. Prüfer & Stiegler, 2002). Die
Vergleichbarkeit der Messungen wird überdies weiter dadurch erhöht, dass über-
wiegend geschlossene Antwortformate verwendet werden.
Es ist vor allem die Standardisierung und nicht so sehr die Zählbarkeit und
Quantifizierung der Antworten, die Umfragen von qualitativen Erhebungsmetho-
den unterscheidet. Mit zunehmender Standardisierung eines Erhebungsinstru-
ments werden die grundsätzlich denkbaren Reaktionen der Befragten auf solche
eingeschränkt, die vorgegebenen Antwortformaten entsprechen, d.h. auf adäquate
Antworten. Dies bedeutet z.B., dass es Befragten im Unterschied zu den Bedingun-
gen eines Gesprächs nicht gestattet ist, auf eine Frage mit einer Rückfrage oder mit
einer anderen Reaktion als der durch das Antwortformat vorgegebenen zu antwor-
ten. Bei Nachfragen zum Verständnis und anderen nicht-adäquaten Reaktionen
durch den Befragten ist der Interviewer angehalten, in seiner Reaktion sog. neutrale
Techniken zu verwenden, um die Befragten zu einer adäquaten Antwort zu bewe-
gen.
Diese Form der standardisierten Kommunikation zwischen Befragten und
Interviewern unterscheidet Umfragen von weniger strukturierten, qualitativen
Erhebungen. Viele Einwände der qualitativen Forschung in Bezug auf Umfragen
unter menschlichen Individuen haben mit der Befürchtung zu tun, der Mensch als
reflexiv handelndes menschliches Subjekt könnte im Rahmen der Befragung auf
einen Reiz-Reaktionsmechanismus reduziert werden und damit eine reine Variab-
lensoziologie bedienen (vgl. z.B. Blumer, 1956; Groeben, 1986). Richtig ist aber viel-
10 I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe

mehr nur, dass die Reflexion des Befragten durch eine Frage angestoßen wird und
in eine Antwort unter einer Menge zugelassener Antworten mündet. Allerdings
entfällt die Weiterführung der Antwort durch ein Gespräch. Zwischen Frage und
Antwort können mehr oder weniger komplexe kognitive und emotionale Prozesse
einschließlich selbstreflexiver Prozesse intervenieren. Mit einer standardisierten
Form der Befragung wird im Grunde ein ähnliches Frage-Antwortverhalten wie
auch in manchen Situationen des Alltags realisiert, in denen ebenfalls im Rahmen
etablierter Konventionen kommuniziert wird. Schwierig wird die Anwendung des
standardisierten Interviews allerdings bei Dialogen, die mit der Absicht geführt
werden, eine gemeinsame Antwort auf ein Problem zu finden, etwa dann, wenn
eine Einigung über die Interpretation eines Textes oder eines Ereignisses erzielt
werden soll. Auch hier lässt sich aber die Anwendbarkeit von formalisierten Ver-
fahren wie der Delphi-Methode prüfen, bei der in mehreren Runden versucht wer-
den kann, Expertenmeinungen zusammenzuführen (vgl. Häder, 2014).
Viele Restriktionen, Bedingungen und Unvereinbarkeiten in der Anwen-
dung von Umfragemethoden lassen sich im Grunde auf ein bekanntes Dilemma
der Kommunikationstheorie zurückführen. Dieses als Bandbreite-Übertragungs-
treue-Dilemma (engl.: bandwidth-fidelity dilemma) (vgl. Cherry 1957; Cronbach &
Gleser, 1965) bezeichnete Dilemma beschreibt das Problem, dass unter bestimmten
zeitlichen Restriktionen mit einer Erhöhung der Bandbreite eine Reduktion der
Übertragungstreue einhergeht. Ein Beispiel wäre, dass unter der Bedingung, dass
ein Interview nur 20 Minuten dauern darf, entweder nur sehr wenige Fragen mit
längeren Fragetexten oder viele Fragen mit nur kurzen Fragetexten gestellt werden
können, oder dass auf umfassendere Antworten auf offene Fragen zugunsten weni-
ger informativer Antworten auf geschlossene Fragen verzichtet werden muss.
Dieses Dilemma kann entsprechend erweitert werden, wenn auch noch die ko-
gnitive Komplexität und das mentale Leistungsvermögen der Befragten als Nadel-
öhr einbezogen wird, da ein bestimmtes Leistungsvermögen des Befragten auch
nur eine bestimmte Komplexität von Fragen zulässt.
Die Standardisierung von Interviews stellt zwar immer noch ein wesentliches
Merkmal von Umfragen dar, jedoch weisen einige Entwicklungen in der Umfrage-
forschung darauf hin, dass zukünftig nicht zuletzt auf Grund von technologischen
Entwicklungen auch Abweichungen vom Prinzip der vollständigen Standardisie-
rung nicht nur sinnvoll, sondern auch notwendig sein können. Ein Beispiel hierfür
ist die Integration von Hilfefunktionen, die Befragten zur Verfügung gestellt wer-
den, um zusätzliche Informationen abrufen zu können wie z.B. Begriffsklärungen
(vgl. Conrad & Schober, 2000; Schober & Conrad, 1997; Schober & Conrad., 2002;
Schober & Conrad, 2008). Die Integration solcher Hilfen erfordert eine Reform des
Standardisierungsbegriffs in Richtung auf eine stärkere Konversationspraxis (vgl.
I.2 Forschungsprozess, Umfragedesign und Umfrageprozess 11

Schaeffer & Maynard, 2008), woraus sich natürlich auch eine Reduktion des kon-
zeptuellen Abstands zwischen qualitativen Erhebungsverfahren und der Erhebung
von Umfragedaten ergibt.
Die Umfrageforschung wird in ihrer Entwicklung, wie einige andere Diszip-
linen auch, durch die Entwicklung neuer Technologien, insbesondere Kommu-
nikationstechnologien, beeinflusst, die einige Konsequenzen für die Form der
Interviewführung und die Darstellung von Informationen beinhaltet. So haben
sich etwa durch die Integration unterschiedlicher Medien (z.B. Video- und Audio-
komponenten) in das Interview neue Möglichkeiten ergeben, Gegenstände der
Beurteilung darzustellen, Erinnerungshilfen zu geben, etc. Zusätzliche Arten von
Paradaten wie z.B. Aufnahmen des Gesichtsausdrucks während der Beantwortung
von Fragen sind nun prinzipiell möglich geworden. Viele der Möglichkeiten wie
etwa die visuelle und auditive Einspielung von Informationen zur Stützung von
Gedächtnisleistungen werden immer noch nicht stärker genutzt. Ein Beispiel wäre
die Einspielung des „Toor, Toor, Toor“ des Rundfunkkommentators Werner Zim-
mermann im Endspiel zur Fußballweltmeisterschaft 1954 als Gedächtnisstütze in
ein CAPI- oder CATI-Interview (zu den Begriffen vgl. Teil II) in einer Umfrage
unter älteren Menschen zu Ereignissen jener Zeit.

I.2 Forschungsprozess, Umfragedesign und Umfrage-


prozess

Die Entscheidung für die Durchführung einer Umfrage und die Festlegung der
Umfrageziele erfolgen im Rahmen des übergeordneten Forschungsprozesses, der
umfassender ist als das Design der Umfrage. Erst wenn sich der Forscher im Rah-
men des Forschungsprozesses an Stelle alternativer Datenerhebungsmethoden, z.B.
an Stelle von nicht-reaktiven Beobachtungsverfahren, für eine Umfrage als Erhe-
bungsmethode entschieden hat, entsteht durch Konkretisierung des Forschungs-
prozesses der Umfrageprozess (engl. survey process; vgl. Lyberg et al., 1997, Biemer
& Lyberg, 2003, p. 27; Groves et al., 2009; Weisberg, 2005). Der Umfrageprozess
besteht in einer Reihe von Schritten, die im Rahmen von Vorbereitung und Durch-
führung einer Umfrage notwendig sind (vgl. Abbildung I.3).
Einige Schritte des Umfrageprozesses, der in der einschlägigen Forschungsli-
teratur mehr oder weniger detailliert beschrieben wird, sind nicht nur spezifisch
für den Umfrageprozess, sondern sind Bestandteil jedes Forschungsprozesses. So
ist etwa die Spezifikation der Umfrageziele nicht von der Spezifikation der For-
12 I.2 Forschungsprozess, Umfragedesign und Umfrageprozess

schungsziele zu trennen. Ebenso bildet die Phase der Konzeptspezifikation einen


unverzichtbaren Teil jedes Forschungsprozesses. Sie spielt jedoch auch eine Rol-
le als Teil des Umfrageprozesses, da davon auszugehen ist, dass gelegentlich auch
noch zum Zeitpunkt der Konkretisierung der Umfrageziele immer noch Begrif-
fe verwendet werden, die eine weitere Präzisierung und eine Dimensionsanalyse
der verwendeten Konzepte erfordern (vgl. Hox, 1997). Einige andere Schritte des
Umfrageprozesses wie die Stichprobenauswahl oder die Datenanalyse sind eben-
falls Bestandteile jedes Forschungsprozesses. Sie erfahren allerdings erst nach der
Entscheidung für die Durchführung einer Umfrage zum Teil ihre besondere Aus-
gestaltung.
Einige Teile des allgemeinen Forschungsprozesses gehören dagegen eher nicht
mehr zum Umfrageprozess, da sie nur die übergeordnete Forschungsfragestellung
betreffen. Dazu gehört etwa die Festlegung des Untersuchungsdesigns wie etwa die
Entscheidung für eine Panelstudie oder eine Querschnittsstudie. Ob der Forscher
sich für eine Panelstudie entscheidet, folgt aus seinen theoretischen Überlegungen
zur Forschungsfragestellung vor jeder Entscheidung für irgendeine Erhebungs-
form. So legen bestimmte Fragestellungen die Messung von Veränderungen anstatt
der Erhebung von Querschnittsdaten nahe. Trotz gewisser Abweichungen lässt sich
der Umfrageprozess aber als umfragespezifische Konkretisierung des Forschungs-
prozesses auffassen.
Die Durchführung einer Umfrage in einer spezifischen Zielpopulation setzt
Entscheidungen über zentrale Aspekte der Umfrage wie die Kommunikationsform
(auch: Befragungsform; engl.: mode; vgl. Teil II), die Länge des Erhebungsinstru-
ments, den Stichprobenumfang, etc. voraus, wobei Kostengesichtspunkte, die For-
schungsfragestellung, Form und Komplexität der Fragen und Items, Anzahl der
verfügbaren Interviewer (bei Interviewer-administrierten Interviews), etc. eine
einschränkende Rolle spielen können. So schließen z.B. bestimmte Kommunikati-
onsformen wie etwa telefonische Interviews die Anwendung bestimmter Antwort-
formate aus, die aber dennoch aus Sicht des Forschers notwendig sein können und
damit die Wahl einer alternativen Kommunikationsform nahelegen. Bestimmte
Fragen sind in der gewählten Zielpopulation eventuell optimal nur unter Einsatz
von Befragungshilfen zu präsentieren. Fragestellungen, welche die Präsentati-
on von Videos oder Bildern erfordern, können für die Durchführung einer On-
linebefragung sprechen. Kostengesichtspunkte können den Stichprobenumfang
einschränken. Im Sinne des in Abschnitt I.1 beschriebenen Bandbreite-Übertra-
gungstreue-Dilemma muss eventuell eine Entscheidung getroffen werden zwischen
einem längeren Fragebogen und einem größeren Stichprobenumfang. Anforderun-
gen an die Stichprobenqualität können zur Vermeidung einer Webumfrage führen.
I.2 Forschungsprozess, Umfragedesign und Umfrageprozess 13

Festlegungen dieser Art werden unter dem Begriff des Umfragedesigns zusam-
mengefasst (vgl. Biemer & Lyberg, 2003, p. 44). Das Umfragedesign (engl.: survey
design) betrifft also die Ausgestaltung aller Schritte der Vorbereitung und Durch-
führung der Umfrage unter Berücksichtigung aller organisatorischen Randbedin-
gungen.

Abbildung I.3: Umfrageprozess


14 I.2 Forschungsprozess, Umfragedesign und Umfrageprozess

Im Verlauf der letzten Jahrzehnte sind durch technologische Fortschritte bestimm-


te Teile des Umfrageprozesses an technische Hilfsmittel wie Computer und Soft-
wareprogramme delegiert worden. Die Durchführung computerunterstützter Um-
fragen beinhaltet in ihrem Ablauf im Wesentlichen aber die gleichen Schritte wie
die Durchführung von Befragungen ohne Computerunterstützung. Unterschiede
ergeben sich daraus, dass verschiedene, in den einzelnen Schritten involvierte Ak-
teure in ihren Aktionen ganz oder teilweise durch Hardware und/oder Software
ersetzt werden und auch der Kommunikationsprozess mit Hilfe von Instrumenten
der Kommunikationstechnologie erfolgen kann. Im Vergleich zu Umfragen ohne
Computerunterstützung können dabei einige neue Elemente des Umfragedesigns
dazukommen wie z.B. die Festlegung des Bildschirm-Layouts und die Program-
mierung des Erhebungsinstruments mit den entsprechenden Konsequenzen für
die Art der Evaluation der Instrumente wie Tests der technischen Funktionalität
und Benutzerfreundlichkeit (engl.: usability). Die Art und Weise, wie die Schritte
des Umfrageprozesses realisiert werden bzw. die konkrete Ausgestaltung der ein-
zelnen Schritte, hängt nicht zuletzt von der Kommunikationsform und ihren spezi-
fischen Anforderungen ab. So erfordert z.B. eine computerunterstützte Telefonum-
frage eine Auswahlgrundlage für die Ziehung von Telefonnummern und schließt
die Verwendung bestimmter Fragen und Befragungshilfen aus, Befragungen ohne
Interviewer stellen spezifische Anforderungen an die Fragebogengestaltung, etc. In
Bezug auf die Durchführung der Umfrage bedarf es ggf. der Setzung der relevan-
ten Parameter in der Verwaltungssoftware; die Schulung der Interviewer und – bei
selbst-administrierten Umfragen – der Befragten - erfordert eine Ergänzung der
Schulung um technische Schulungskomponenten.
Es empfiehlt sich in manchen Fällen, das anfängliche Umfragedesign nicht bis
zum Ende der Erhebung beizubehalten. Groves und Heeringa (2006) haben gezeigt,
wie Kosten und Umfragefehler durch eine Anpassung des Designs an Zwischener-
gebnisse der Umfrage reduziert werden können- Dabei werden an bestimmten
Punkten immer wieder Designentscheidungen getroffen. Ein solches Design be-
zeichnen die Autoren als responsives Design (engl.: responsive design). Es erfordert
eine Zerlegung in aufeinander folgende Designphasen und die Realisierung der
folgenden Schritte (vgl. Groves & Heeeringa, op.cit., p. 440):

• vor Erhebungsbeginn Identifikation von Merkmalen, welche Schätzfehler (vgl.


Teil VI) und Kosten der Umfrage beeinflussen können;
• Identifikation einer Menge von Indikatoren für diese Merkmale und Monito-
ring dieser Indikatoren in der ersten Phase der Erhebung;
I.3 Die Datenerhebungsphase 15

• Änderung der Designmerkmale in nachfolgenden Erhebungsphasen unter Be-


rücksichtigung des Trade-Offs zwischen Ausmaß der Fehler und den zur ihrer
Reduktion entstehenden Kosten;
• Verbindung der Daten aus den verschiedenen Designphasen zu einem einzigen
Schätzer.

Ziel eines responsiven Designs sollte nach Lundquist und Särndal (2013) sein, eine
finale Menge von Respondenten anzustreben, die sich durch messbare und günsti-
ge Eigenschaften auszeichnet. Dabei können sich Eingriffe in den Erhebungsablauf
als sinnvoll erweisen, die zu einer finalen Antwortmenge führen, die für die Ge-
samtstichprobe repräsentativer ist (zum Begriff der Repräsentativität vgl. Abschnitt
VI.5.) und die Auswirkungen von Ausfällen (Nonresponse) reduziert.

I.3 Die Datenerhebungsphase

I.3.1 Allgemeine Ablaufstruktur

Die Phase, in der Daten von Elementen einer Stichprobe erhoben werden sollen, wol-
len wir als Datenerhebungsphase (engl.: data collection period) bezeichnen. Sie setzt
sich aus einer Kontakt- und Screeningphase und der Interviewphase zusammen. Ziel
der Kontaktphase ist die Kontaktaufnahme mit der Zielperson, die im Fall Intervie-
wer-administrierter Interviews auf Grund von Faktoren wie Nichterreichbarkeit, etc.
häufig eine Vielzahl von Kontaktversuchen erfordern kann und oft erst über den
Kontakt mit einer Kontakt- oder Haushaltsperson (Haushaltskontakt) hergestellt
werden kann. Oft kann die Zielperson erst im Rahmen eines sog. Screenings ermit-
telt werden, bei der die definierenden Merkmale der Zielpopulation (z.B. Person in-
nerhalb einer bestimmten Altersgruppe, Person mit bestimmtem Migrationshinter-
grund) erhoben werden müssen. Der Screening-Aufwand kann reduziert werden,
wenn die Auswahlgrundlage, aus der die Ausgangsstichprobe gezogen wird (vgl. Teil
VI), bereits identifizierende Merkmale der Zielpopulation (Identifikatoren) enthält,
die zumindest eine teilweise Einschränkung der Auswahlgrundlage auf die Elemente
der Zielpopulation erlauben. Bei der Stichprobenauswahl aus Melderegistern kann
z.B. bereits eine Einschränkung der Stichprobe nach Altersgruppen erfolgen, so dass
das Alter nicht mehr im Rahmen eines Screenings erhoben werden muss.
Im Rahmen des schließlich erfolgten Erstkontakts mit der Zielperson werden
nach der Kurzdarstellung der Studienziele Auftraggeber und Umfrageinstitut ge-
nannt sowie die im Datenschutzrecht vorgesehenen Zusicherungen (z.B. Freiwil-
16 I.3 Die Datenerhebungsphase

ligkeit, Anonymität) gegeben. Bei schriftlichen Formen der Kontaktaufnahme kön-


nen noch weitere Unterlagen beigefügt sein (vgl. Abschnitt II). Anschließend wird
die Bitte um Teilnahme (engl.: survey request) vorgetragen. Es kann allerdings nicht
ausgeschlossen werden, dass die Kurzdarstellung der Studienziele, etc. bereits vor
dem Kontakt mit der Zielperson einer anderen Haushaltsperson vorgetragen wer-
den muss, um einen Zugang zur Zielperson zu ermöglichen.
Im Rahmen des Screenings, das die Form eines längeren Interviews
(Screening-Interview) annehmen kann – ein Beispiel ist die Erfassung des Migra-
tionshintergrunds –, kann versucht werden, weitere Paradaten zu erheben, die
zur Optimierung der Auswahl von Teilnehmern für eine bestimmte Kommuni-
kationsform (vgl. Sakshaug & Kreuter, 2011). Im Anschluss an Kontaktaufnahme
und Screening kann bei Kooperationsbereitschaft der Zielperson das Interview
stattfinden, wobei die Kommunikationsform des Interviews nicht notwendig mit
der Form übereinstimmen muss, in der die Kontaktaufnahme und das Screening
durchgeführt werden. So können der Kontakt und das Screening z.B. telefonisch
erfolgen, das Interview aber selbstadministriert über das Web. Die Wahl der Kom-
munikationsform für Kontakt, Screening und Interview kann allerdings mit be-
stimmten negativen Effekten auf Teilnahmebereitschaft und Datenqualität verbun-
den sein (sog. Mode-Effekte; vgl. Teil II).
Der grobe Normalverlauf der Datenerhebungsphase ist in Abbildung I.4 darge-
stellt. Dieser stellt sich je nach gewählter Kommunikationsform im Detail anders
dar (vgl. Teil II).
Natürlich kommt es nur dann zu einem Interview, wenn die Bitte um Teilnah-
me schließlich nach mehr oder weniger aufwändiger Überzeugungsarbeit positiv
beantwortet wurde. Dabei kann es mitunter gelingen, einen anfänglichen Verwei-
gerer doch noch zur Teilnahme zu überreden, allerdings mit nicht immer positiven
Konsequenzen für die Datenqualität (vgl. Teil VI). Oft stößt der Interviewer aber
gar nicht erst zur Zielperson vor, weil bereits die Haushaltsperson, mit der der Erst-
kontakt zunächst hergestellt werden musste, die Kooperation verweigert. Es wur-
de aus Gründen der Übersichtlichkeit darauf verzichtet, Abbildung I.4 nach allen
Eventualitäten auszudifferenzieren.
I.3 Die Datenerhebungsphase 17

Abbildung I.4: Grobe Ablaufstruktur der Erhebungsphase

I.3.2 Der Interviewprozess und seine Komponenten

Wesentlicher Teil des Umfrageprozesses ist die Feldarbeit und deren wesentlicher
Bestandteil, die praktische Durchführung bzw. Realisation von Interviews. Die
Durchführung von Interviews lässt sich als Prozess betrachten, an dem die folgen-
den Komponenten beteiligt sind:

• Administratoren (auch: Umfrageoperatoren)


Administratoren steuern die Applikation des Erhebungsinstruments, das bei
Umfragen, wie in Abschnitt 1.1 bereits ausgeführt, in der Regel aus weit-
gehend standardisierten Fragebögen besteht, sowie die Interaktion mit den
Befragten. Administratoren können menschliche Individuen sein oder auch
technische Geräte wie Computer. Im ersten Fall spricht man auch von In-
terviewern. Interviewer können ihrerseits technische Hilfsmittel zur Unter-
18 I.3 Die Datenerhebungsphase

stützung im Interview einsetzen. Je nach Typ des Administrators werden


den Befragten unterschiedliche Merkmale des Administrators sichtbar oder
hörbar, die einen möglichen Einfluss auf die Reaktionen der Befragten aus-
üben können. Grundsätzlich können ganz unterschiedliche Aktivitäten im
Interviewprozess aus dem humanen Bereich auf Maschinen übertragen wer-
den, d.h. die Arbeitsteilung zwischen Mensch und Maschine kann sehr un-
terschiedlich aussehen. Bei Selbst-administrierten Interviews etwa sind die
Administratoren die Befragten selbst
• Kommunikations- bzw. Übertragungskanal
Es muss ein Kommunikationskanal existieren und möglichst störungsfrei
genutzt werden können. Ein Kommunikationskanal bezieht sich auf eine
bestimmte Sinnesmodalität, in welcher sprachliche und ggf. visuelle Infor-
mationen vom Befragten empfangen werden können. Für die Erzeugung
von Informationen in einer bestimmten Sinnesmodalität können sowohl
menschliche als auch technische Systeme eingesetzt werden. Grundsätzlich
muss der Übertragungskanal für die Übermittelung der Informationen des
Administrators nicht notwendig identisch sein mit dem Übertragungskanal,
den der Befragte für die Übermittlung seiner Antwort wählt. So kann eine
Frage im Prinzip telefonisch gestellt werden und schriftlich/online beant-
wortet werden.
• Erhebungsinstrumente (Fragebögen)
Ein Erhebungsinstrument besteht, grob charakterisiert, aus einer Menge
von Fragen/Items sowie deren Bestandteilen (zu den Begriffen „Frage“ und
„Items“ vgl. Abschnitt III.1), Anweisungen zur Art und Weise, wie eine Fra-
ge auszuführen ist (z.B. welcher Teil vorgelesen werden soll, Betonungen,
etc.) sowie Navigationsanweisungen, welche den Verlauf des Interviews
steuern. Die im Interviewprozess eingesetzten Erhebungsinstrumente müs-
sen sowohl an die Administratoren (z.B. an Computer mit Browser) als auch
an die Kommunikationskanäle angepasst werden. Es handelt sich in der
Regel um sprachliche Repräsentationen von Fragen und Befragungshilfen,
die in einer bestimmten räumlichen und zeitlichen Anordnung sowie un-
ter Verwendung von weiteren Symbolen einer Symbolsprache im gewählten
Kommunikationskanal realisiert werden. Das Erhebungsinstrument kann
nicht unabhängig vom Sinneskanal gedacht werden. Wenn es nicht gesehen,
gehört oder irgendwie anders „gefühlt wird“ ist es für den Befragten nicht
existent. Das Erhebungsinstrument ist immer an eine physikalische Reprä-
sentation gebunden, die die Wahrnehmungsapparate von Administrator
und Befragten beeinflussen muss.
I.3 Die Datenerhebungsphase 19

• Befragte (auch: Respondenten)


Die Befragten sind sowohl Empfänger als auch Sender von Informationen
im Interviewprozess. Sie empfangen über einen oder mehrere Sinneskanä-
le Informationen vom Administrator unter denen sich auch Informationen
zu den geforderten Leistungen und zum Universum der vom Respondenten
erwarteten Antworten befinden. Letztere werden zumeist durch die Über-
mittlung von Antwortalternativen bzw. Skalenwerten realisiert. Vom Be-
fragten wird angenommen, dass es sich um einen zielgerichtet handelnden
Akteur handelt, der von seinen Kompetenzen her in der Lage ist, die mit der
Fragebeantwortung verbundenen Leistungen zu erbringen, dem aber in der
Regel ein Spektrum von Reaktionen zur Verfügung steht, welches weit über
die erwarteten zulässigen Antworten hinausgeht. Er könnte prinzipiell auch
nicht-adäquat reagieren und statt in zulässiger Weise zu antworten schimp-
fen, sich beschweren. mit dem Fuß aufstampfen, in Gelächter ausbrechen,
etc. Solche Reaktionen sind allerdings durch die im Interview definierte Rol-
lenverteilung selten und hängen nicht nur vom Inhalt der Frage, sondern
möglicherweise auch vom Verhalten der Interviewerin/des Interviewers ab.
Nicht-adäquate Reaktionen zeigen sich im günstigsten Fall bereits im Pretest
und können dann durch Modifikation oder Weglassen der Frage entschärft
oder sogar beseitigt werden. Zwischen dem Empfang der Informationen
und den Reaktionen der Befragten laufen für den externen Beobachter nicht
beobachtbare interne mentale und nicht-mentale, emotionale Prozesse ab,
über deren Struktur lediglich hypothetische Modelle entwickelt werden
können, die sich in experimentellen Studien mehr oder weniger überprü-
fen lassen. Modelle der mentalen Abläufe stellen eher eine theoretische Folie
dar, auf deren Hintergrund das Verhalten der Befragten für den Forscher
verstehbar wird.

In der Regel sind die genannten Komponenten in einen sequentiellen Ablauf einge-
bunden, des Stufen die in Abbildung I.5 dargestellte Struktur besitzen.
Alle Komponenten des Interviewprozesses müssen miteinander kompatibel
sein. Dies bedeutet insbesondere, dass das Erhebungsinstrument, die Kompeten-
zen des Administrators, die Kompetenzen des Befragten und die Sinneskanäle auf-
einander abgestimmt sein müssen. So sollte der Administrator in der Lage sein,
eine Repräsentation des Erhebungsinstruments in der gewählten Sinnesmodalität
zu erzeugen und der Befragte in der Lage sein, das Instrument in dieser Modali-
tät zu empfangen. Aus der Realisierung eines Interviews als sequentieller Ablauf
von dyadischen Interaktionen mit Personen in ihrer Rolle als Befragte zieht bereits
eine Reihe methodischer Fragestellungen nach sich wie z.B. die Beeinflussung der
20 I.3 Die Datenerhebungsphase

Antworten auf eine Frage durch die Antworten auf in der Sequenz vorangehende
Fragen (vgl. Teil III).

Abbildung I.5: Struktur einer Stufe des Interviewprozesses (n: Anzahl der Fragen)

Die in Abbildung I.5 dargestellte Interviewer-Befragten-Interaktion kann aufgefasst


werden als eine Konversation mit einer klaren Rollenverteilung zwischen Inter-
viewer und Respondent, die bestimmten impliziten und/oder expliziten Regeln
bzw. einer bestimmten Konversationslogik folgt (vgl. Grice, 1975; Schwarz, 1995,
1996, 1997). Zentrales Prinzip der Konversation ist das Kooperationsprinzip (co-
operative principle). Dieses Prinzip besagt, dass Teilnehmer an einer Konversation
von der impliziten Vereinbarung ausgehen, ihre Beiträge so zu gestalten, dass das
Ziel der Konversation unterstützt wird. Weitere Unterprinzipien sind die Maxime
der Quantität, nach der die Teilnehmer ihre Beiträge so informativ wie notwendig
gestalten sollten, die Maxime der Qualität, nach der die Teilnehmer keine Beiträge
leisten sollten, die sie für falsch halten, die Maxime der Relation, nach der die Kon-
versationsteilnehmer nur relevante Beiträge zur Konversation liefern sollten und
die Maxime der Art und Weise (manner), nach der die kommunikativen Beiträge
I.3 Die Datenerhebungsphase 21

der Teilnehmer klar verständlich sein sollten (vgl. hierzu auch die Ausführungen in
Faulbaum, Prüfer & Rexroth 2009).
Für das Verständnis sowohl der Bedingungen, unter denen ein Befragter an ei-
nem Interview teilnimmt als auch für die Einschätzung der Befragten-Reaktionen
erweist es sich oft als hilfreich, wenn Interviewer und Befragter als bewusst han-
delnde Personen gesehen werden, die unter Einbeziehung verfügbarer Informatio-
nen und unter Verfolgung bestimmter Interessen Fragen stellen und Antworten ge-
ben. Nicht nur das Stellen von Fragen, sondern auch die Antworten des Befragten
können als Konsequenzen bewusster Entscheidungen aufgefasst werden. Für den
Befragten sind es oft Entscheidungen unter Risiko, da er subjektiv keine Kenntnis,
sondern nur Vermutungen darüber hat, was mit seinen Antworten weiter geschieht,
was zu entsprechenden Bedenken, z.B. Anonymitätsbedenken, führen kann.
Wie bereits in Abschnitt I.1 erwähnt, verlaufen die Interviewprozesse bei Um-
fragen weitgehend über alle Befragten standardisiert. Standardisierung bedeutet,
dass für alle Befragten die gleichen Befragungsbedingungen gelten:
• gleiche Einleitungstexte;
• gleiche Fragen und gleiche Antwortvorgaben;
• die gleiche Reihenfolge der Fragen;
• die gleichen Befragungshilfen (z.B. Listen, Kärtchen, etc. bei Face-to-Face-In-
terviews);
• Anweisungen an den Administrator die Bestandteile des Erhebungsinstru-
ments in der vorgegebenen Form zu handhaben.
Die methodische Bedeutung der Standardisierung liegt in der Reduktion des In-
terviewer-Einflusses bzw. der durch den Interviewer erzeugten Varianz der Unter-
suchungsvariablen (vgl. hierzu auch Groves et. al. 2009, S. 295) und damit in der
Erhöhung der Objektivität der durchgeführten Messungen, indem sie die Funktion
des Administrators auf die reine Präsentation der Fragen und das kommentarlose
Registrieren der Antworten beschränkt. Ist der Administrator ein Computer, sind
die Anweisungen bereits programmiert, so dass die Administrator-Varianz bei der
Präsentation der Fragen entfällt. Die Regeln des standardisierten Interviews legen
fest, wie sich der Interviewer bei der Klärung von Nachfragen seitens der Befragten
und wie er bei nicht-adäquaten Antworten die relevanten Informationen verhalten
sollte (vgl. Prüfer & Stiegler, 2002).
22 I.4 Umfragequalität und Umfragefehler

I.4 Umfragequalität und Umfragefehler

I.4.1 Umfragequalität: Ideal und Wirklichkeit

Aus den Ausführungen des Abschnitts I.2 sollte bereits deutlich geworden sein,
dass sich die Qualität einer Umfrage als Qualität eines aus mehreren Schritten be-
stehenden Prozesses darstellt. Man spricht in diesem Fall auch von der Prozess-
qualität (engl.: process quality) von Umfragen (vgl. Lyberg et al., 1997; Schuman &
Kalton, 1985). Die Art und Weise, wie die einzelnen Schritte des Umfrageprozesses
realisiert werden, ist maßgebend für deren Qualität und damit für die Qualität der
gesamten Umfrage einschließlich der aus ihr resultierenden Daten; d.h. die Opti-
mierung einer Umfrage beinhaltet die Optimierung aller Schritte (vgl. Lyberg et
al., 1997; Biemer & Lyberg, 2003). Jeder einzelne Schritt des Umfrageprozesses be-
sitzt eigene Qualitätsmerkmale, die bei seiner Realisierung beachtet werden sollten.
Die Optimierung beginnt bereits bei der Präzisierung der Forschungsfragestellung
und der in ihr verwendeten Begriffe sowie der Operationalisierung, in der die the-
oretischen Begriffe durch Zuordnung empirischer Indikatoren messbar gemacht
werden müssen. Suboptimale Realisierungen sind mit Abweichungen von der er-
reichbaren Qualität verbunden. Qualitätseinbußen in einzelnen Stufen lassen sich
nach Abschluss einer Umfrage in der Regel nicht mehr oder nur mit einem z.T.
erheblichen methodisch/statistischen Zusatzaufwand korrigieren. Die Prozessop-
timierung erfordert eine entsprechende Ausbildung und Training des an Planung
und Durchführung einer Umfrage eingesetzten Personals (vgl. Faulbaum, 2016).
Mit Recht weist eine Denkschrift der Deutschen Forschungsgemeinschaft (vgl.
Kaase, 1999, S. 96) darauf hin, dass sich Methodenstudien in der Umfragefor-
schung in der Regel nur mit einzelnen Aspekten und Teilfragen befassen und dass
eine Methodologie der Qualitätsbewertung von Umfragen eher eine ganzheitliche
Perspektive einnehmen müsste. Die Denkschrift der DFG schlägt den Begriff des
Verfahrensmodells als Beschreibung eines Umfragetypus vor. Ein Verfahrensmodell
besteht aus der Spezifikation verschiedener Komponenten oder Dimensionen des
Gesamtablaufs einer Umfrage, wobei folgende Komponenten unterschieden wer-
den:
• Ausgangsstichprobe (Adäquation, coverage)
• Ausfälle in der Befragung (nonresponse)
• Interviewmethode (mode effects)
• Datenerfassung und -verarbeitung (Fehlermöglichkeiten/Fehlervermeidung)
• Zeitbedarf (Schnelligkeit)
• Dokumentation (Transparenz)
I.4 Umfragequalität und Umfragefehler 23

In der genannten Denkschrift wird in Bezug auf die Qualitätsbewertung die Tren-
nung von zwei Ebenen vorgeschlagen (vgl. Kaase, 1999, S. 107):
• die erreichbare Qualität der jeweiligen Verfahrensmodelle;
• die erreichte Qualität der Verfahrensmodelle.
Bei der Qualitätsbewertung mittels eines solchen Vergleichs wird man sich aller-
dings der Gefahr einer vorschnellen Relativierung auf niedrige Qualitätsnormen
bewusst sein müssen.
Der Vergleich zwischen erreichbarer und erreichter Qualität lässt sich durchaus
quantifizieren. Einen Vorschlag für die Quantifizierung der Abweichung einer Pa-
rameterschätzung unter den tatsächlichen Bedingungen der konkreten Durchfüh-
rung einer Umfrage vom Parameter unter Vorgabe der idealen Ziele haben Han-
sen, Hurwitz und Pritzker (1967; vgl. hierzu auch Dippo, 1997, pp. 461) gemacht.
Sie zerlegen den mittleren quadratischen Fehler der Abweichung des Schätzers auf
Basis der unter den konkreten operationalen und organisatorischen Bedingun-
gen realisierten Stichprobe vom idealen Wert in drei Abweichungskomponenten:
die Abweichung der konkreten Schätzung vom Erwartungswert (Mittelwert) des
Schätzers in Bezug auf die konkrete Realisierung, die Abweichung dieses Erwar-
tungswerts vom Erwartungswert des Schätzers unter den in der Planung getrof-
fenen Festlegungen für die Umfrage und die Abweichung dieses Erwartungswerts
vom idealen Parameter (zu den Begriffen „Parameter“, „mittlerer quadratischer
Fehler“ und „Schätzer“ siehe Teil VI).

I.4.2 Der totale Umfragefehler

Die Qualität von Umfragen steht auch im Mittelpunkt des Konzepts des totalen
Umfragefehlers (engl.: total survey error; kurz: TSE). Thematisiert werden in diesem
Konzept die Fehlerquellen, die während der Datenerhebung von der Stichprobenaus-
wahl bis zum vorliegenden, bereinigten Datensatz die Schätzung der Populationspa-
rameter verzerren könnten. Die mit dem Konzept verbundene Absicht ist also, die
Abweichung der Parameterschätzung (Schätzung von Populationsparametern wie
Mittelwert, Varianz, etc.) auf der Basis des (bereinigten) finalen Datensatzes auf ver-
schiedene Fehlerquellen zurückzuführen, die auf unterschiedlichen Stufen des Erhe-
bungsprozesses in unterschiedlichem Ausmaß zur Gesamtabweichung der Parame-
terschätzung vom wahren Populationswert beitragen. (Groves, 2004; Weisberg, 2005;
Faulbaum, 2018 ; vgl. auch die praktischen Anwendungen des Konzepts in Biemer et
al., 2017). Die Komponenten des TSE sind in Abbildung I.6 dargestellt.
24 I.4 Umfragequalität und Umfragefehler

Abbildung I.6: Zerlegung des totalen Umfragefehlers

Da haben wir zunächst den Stichprobenfehler, der einfach dadurch entsteht, dass
statt der vollständigen Grundgesamtheit nur eine Stichprobe erhoben wird. Dieser
Fehler wird gelegentlich noch einmal zerlegt in einen Schätzfehler (engl.: estimation
error) und einen Auswahlfehler (engl.: selection error) (vgl. Bethlehem 2009, p. 181).
Der Schätzfehler betrifft den Sachverhalt, dass bei einer Zufallsauswahl (zum Be-
griff der Zufallsstichprobe vgl. Teil VI) bei jeder Ziehung eine andere Schätzung re-
sultiert, die vom Populationswert mehr oder weniger stark abweicht. Der Auswahl-
fehler entsteht dadurch, dass in der Formel für den Schätzer des Populationswerts
die falschen Wahrscheinlichkeiten für die Auswahl einer Stichprobe eingesetzt wer-
den. In einigen Kommunikationsformen (zum Begriff der Kommunikationsform
vgl. Teil II) wie etwa in Webumfragen sind die Auswahlwahrscheinlichkeiten oft
unbekannt. In diesem Fall kann auch nicht mehr von einer Zufallsauswahl im sta-
I.4 Umfragequalität und Umfragefehler 25

tistischen Sinn gesprochen werden, da von einer Zufallsauswahl die Kenntnis bzw.
die Berechenbarkeit der Auswahlwahrscheinlichkeiten gefordert wird.
Vom Stichprobenfehler unterschieden sind die verschiedenen Arten des so
genannten Nicht-Stichprobenfehlers (engl.: nonsampling error), der weiter aufge-
schlüsselt werden kann in Nicht-Beobachtungsfehler (engl.: nonobservation error),
Beobachtungsfehler (engl.: observation error) und Spezifikationsfehler (engl.: speci-
fication error).
Nicht-Beobachtungsfehler betreffen einerseits die Abdeckung der Grundgesamt-
heit in der Auswahlgrundlage, andererseits die verschiedenen Arten von Nichtant-
wort (engl.: nonresponse), die entweder im Ausfall einer ganzen Untersuchungsein-
heit (engl.: Unit-Nonresponse) und oder im Ausfall von Antworten auf spezifische
Fragen (engl.: Item Nonresponse) (siehe Teil VII) bestehen kann.
Beobachtungsfehler werden im Rahmen des TSE-Ansatzes noch einmal unter-
teilt in Messfehler (engl.: measurement errors), Verarbeitungsfehler (engl.: processing
errors) und technische Fehler (engl.: technical errors). Beispiele für Verarbeitungs-
fehler sind Editierfehler, Eingabefehler, Tabellierungsfehler und Gewichtungsfehler
(vgl. Biemer & Lyberg, 2003, p.39). Letztere bestehen in der falschen Berechnung
von Gewichten zur Korrektur der Schätzer. Technische Fehler werden nicht immer
separat aufgeführt. Sie bekommen aber durch neue technologische Innovationen
in der Datenerhebung stärkeres Gewicht. Geräteausfälle, fehlerhafte Software, etc.
können zu technischen Fehlern führen, die das Antwortverhalten der Befragten
beeinflussen können. Von besonderer Bedeutung für die Datenqualität ist der
Messfehler. Er beschreibt, wie stark die tatsächliche Messung von der wahren Mes-
sung abweicht. Seine Formulierung basiert auf der klassischen Testtheorie mit ihrer
Zerlegung einer Messung in eine wahre Messung und in einen Fehler, wobei der
Fehler auch systematische Komponenten enthalten kann, die auf den Interviewer,
die Befragungssituation, etc. zurückgeführt werden können. Je größer dieser Feh-
ler, desto geringer die sogenannte Zuverlässigkeit bzw. Reliabilität einer Messung.
Diese Konzepte werden in Teil IV näher erläutert.
Der Spezifikationsfehler schließlich betrifft den Grad der Übereinstimmung
zwischen dem, was gemessen werden soll und dem, was tatsächlich gemessen wird,
also die sog. Validität bzw. Gültigkeit einer Messung. Je größer der Spezifikationsfeh-
ler, desto gefährdeter ist die inhaltliche Interpretierbarkeit der Daten. Theoretisch
wäre es möglich, dass sich die Parameterschätzung einer im Übrigen fehlerfreien
Umfrage auf eine falsch spezifizierte Variable bezieht, was bedeuten würde, dass die
Interpretation aller statistischen Ergebnisse, die sich auf diese Variable beziehen, in
Zweifel zu ziehen wäre. Der Spezifikationsfehler lässt sich im Rahmen spezifischer
Umfrage- und/oder Fragebogendesigns quantifizieren wie etwa durch Korrelation
eines empirischen Indikators mit dem durch ihn gemessenen Konstrukts (theoreti-
26 I.4 Umfragequalität und Umfragefehler

sche Validität; vgl. Teil IV). Im Falle der Validität von Modellen spielt insbesondere
die korrekte Spezifikation der Modellstruktur eine Rolle. Fehlspezifikationen der
Modellstruktur äußern sich vor allem in Defiziten der Modellanpassung.
Mit den genannten unterschiedlichen Fehlerarten kann immer auch eine
Stichprobenverzerrung (engl.: bias) oder eine Verzerrung durch Messfehler un-
terschiedlichen Ausmaßes verbunden sein, von denen Teilgruppen der Stichprobe
unterschiedlich stark betroffen sein können.
Die Frage bleibt, ob mit der Aufteilung des totalen Stichprobenfehlers alle
Einflüsse auf die Datenqualität erfasst sind. Im Rahmen ihrer kritischen Betrach-
tung des Konzepts des totalen Umfragefehlers und seiner Rolle in der Umfrage-
forschung zählen Groves und Lyberg (2010) einige Unzulänglichkeiten des in Ab-
bildung I.4 dargestellten Rahmenkonzepts vor, das nach wie vor eine akzeptable
Hintergrundfolie für die Optimierung des Umfragedesigns darstellt. Die Autoren
kritisieren insbesondere das Fehlen nicht-statistischer Qualitätsindikatoren wie
Transparenz, Glaubwürdigkeit, etc. sowie den Aufwand für die Messung bestimm-
ter Fehlerkomponenten, der die Messung in praktischen Anwendungen erschwert.
Sie fordern außerdem im Rahmen von Kausalanalysen eine verstärkte Suche nach
den Fehlerursachen sowie eine Betrachtung der Korrelationen zwischen den Feh-
lerkomponenten. Ähnlich wie Groves und Lyberg argumentiert auch Smith (2011),
der eine weitere Vervollständigung der Fehlerkomponenten und eine Anpassung
an die Erfordernisse des interkulturellen Vergleichs vorschlägt. Versucht werden
kann, weitere Prozessinformationen (Paradaten) zur Minimierung von Fehlern zu
verwenden (vgl. Kreuter, 2013a), wobei die Zuverlässigkeit dieser Daten immer
wieder hinterfragt werden muss.

I.4.3 Datenqualität und Antwortqualität

Wenn in der Umfrageforschung der Begriff der Datenqualität thematisiert wird,


lassen sich zwei Verwendungsweisen des Begriffs unterscheiden. Einerseits wird
der Begriff der Datenqualität synonym mit dem Begriff der Umfragequalität ver-
wendet und umfasst alle Einflüsse auf die Schätzung der Populationsparameter.
Andererseits wird der Begriff aber spezifisch auf die Antwortqualität bezogen, die
ihrerseits von den Determinanten des Antwortverhaltens bestimmt wird. Dazu
zählen eine ganze Reihe von Faktoren wie Leistungsvermögen und Leistungsbe-
reitschaft des Befragten, Merkmale der Kommunikationsform, der Frageformulie-
rung, des Interviewer-Verhaltens, etc. Für den Fragebogendesigner ergibt sich die
I.4 Umfragequalität und Umfragefehler 27

Aufgabe, seine Fragen und die in ihnen formulierten Aufgaben so zu gestalten, dass
die Antwortqualität optimiert wird.
Zu den zentralen empirischen Indikatoren der Qualität einer Antwort auf eine
Frage zählt zunächst deren Adäquatheit. Als adäquat bezeichnen wir eine Antwort
des Befragten dann, wenn sie in das vorgegebene Antwortformat passt, d.h. wenn
sie einer der vorgegebenen Antwortalternativen oder einem zulässigen Skalenwert
entspricht. In allen anderen Fällen spricht man von einer nicht-adäquaten Antwort.
Nicht-adäquate Antworten signalisieren Probleme des Befragten mit der Frage. Sie
stellen somit Indikatoren für mögliche Qualitätsgefährdungen dar wie Probleme
des Verständnisses des Fragetextes, generell Probleme mit der Lösung der im Fra-
getext beschriebenen Aufgabe, die der Befragten im Beantwortungsprozess erbrin-
gen muss und die von ihm eine bestimmte Leistung erfordert. Um einen Befrag-
ten nach einer nicht-adäquaten Antwort zu einer adäquaten Antwort zu bewegen,
bedarf es auf Seiten des Interviewers der Anwendung sog. neutraler Techniken,
die geeignet sind, auf den Befragten nicht beeinflussende Weise bei diesem eine
adäquate Antwort hervorzurufen. Die Vermittlung neutraler Techniken gehört zu
den Regeln des standardisierten Interviews und ist notwendiger Bestandteil des In-
terviewer-Trainings (vgl. Prüfer & Stiegler, 2002). Wir werden die Adäquatheit von
Antworten im Zusammenhang mit dem Antwortverhalten in Teil III noch einmal
genauer thematisieren.
Allerdings ist die Adäquatheit einer Antwort zwar notwendige Bedingung für
die Qualität einer Antwort, aber keine hinreichende Bedingung. Eine adäquate Ant-
wort kann auch dann erfolgen, wenn sie ohne Ernsthaftigkeit oder zufällig gegeben
wird, oder wenn die Frage im Befragten Wirkungen auslöst wie „Angst“, „Ärger“,
„Bedenken“, etc., die aus Sicht des Forschers Nebeneffekte darstellen, aber durch-
aus dazu führen könnten, dass die Antwort eines Befragten zwar adäquat ist, aber
von der Antwort abweicht, die der korrekten Lösung der im Fragetext beschriebe-
nen Aufgabe entspricht. Fragetexte, die solche Wirkungen entfalten, werden in der
Regel als sensitiv bezeichnet. Schließlich gibt es auch Antworten, die der Befragte
nach bestem Gewissen gibt, die aber dennoch verzerrt sein können wie etwa die
bekannte Überschätzung von Häufigkeiten oder Wahrscheinlichkeiten, fehlerhafte
Prozentangaben, etc. Solche Antworten, die mitunter schwer zu validieren sind,
stellen aus Sicht des Respondenten korrekte Antworten dar (er weiß es nicht bes-
ser), aus Sicht des Forschers sind sie aber nicht korrekt. Sie beeinflussen zweifellos
die Validität, was aber vom Forscher nicht unbedingt überprüft werden kann.
Für die Qualität einer adäquaten Antwort auf eine Frage bzw. der Einstufung
eines Items sind natürlich der zu den Beobachtungsfehlern gehörende Messfeh-
ler und die Gütekriterien der auf einer adäquaten Antwort beruhenden Messung
von entscheidender Bedeutung. Dem Begriff der Messung und ihrer Gütekriterien
28 I.4 Umfragequalität und Umfragefehler

der Validität und Reliabilität ist ein getrennter Abschnitt gewidmet (vgl. Teil IV).
Das Konzept der Reliabilität thematisiert die Abweichung einer auf einer Antwort
beruhenden Messung von einer wahren Messung, wobei der Begriff der wahren
Messung durchaus unterschiedliche Bedeutungen haben kann. Wichtige Varianten
sind:

• Die wahre Messung ist zwar prinzipiell beobachtbar wie z.B. ein faktisches Er-
eignis, das tatsächlich stattgefunden haben muss (z.B. Geburt eines Kindes),
das aber dem Forscher verborgen und nur dem Befragten bekannt sein kann.
Wird das Ereignis vom Befragten genannt, muss der Forscher dieser Informati-
on Glauben schenken und kann bei Fehlen unabhängiger objektiver Unterlagen
nicht beurteilen, ob die Information korrekt ist. In diesem Fall kann also die be-
obachtete Messung (z.B. des Geburtsdatums der Großmutter) von der wahren
Messung (tatsächliches Geburtsdatum) abweichen. Zur Fehlerkorrektur könn-
ten z.B. administrative Daten herangezogen werden.
• Die wahre Messung ist prinzipiell nicht beobachtbar wie z.B. im Fall einer Ein-
stellungsmessung, von Bewertungen, etc. Gibt der Befragte z.B. einen bestimm-
ten Zufriedenheitswert auf einer Zufriedenheitsskala an, so weiß der Forscher
nicht, ob dieser Zufriedenheitswert die „wahre“ Ausprägung repräsentiert. Um
dies sicherzustellen, müssen Maßnahmen ergriffen werden, um „störende“ Ein-
flüsse auf den wahren Wert zu kontrollieren oder zu eliminieren.

Grundsätzlich sind alle Variablen vom Messfehler „bedroht“, ob es sich nun um


sog. harte Faktenfragen und sozioökonomische Variablen handelt oder um Ein-
stellungsvariablen. Ob Abweichungen der tatsächlichen Messung von der wahren
Messung als zufällig oder systematisch betrachtet werden können, hängt von theo-
retisch/statistischen Überlegungen ab.
Das Gütekriterium der Validität betrifft vor allem die Rolle der Frage-Ant-
wort-Dyaden als Indikatoren für die zu messenden Konstrukte. Natürlich können
auch nicht-adäquate Antworten eine hohe Validität und eine hohe Reliabilität auf-
weisen. Nur messen sie in der Regel nicht die vom Forscher intendierten Konst-
rukte. So können etwa Antwortverweigerungen Indikatoren für unterschiedliche
Konstrukte der Sensitivität, aber auch Vorbehalte gegen die Inhalte der Studie ins-
gesamt messen. Ähnliches gilt für die übrigen Typen nicht-adäquater Antworten.
Grundsätzlich könnte eine in Bezug auf das intendierte Konstrukt des Forschers
nicht valide Messung ein anderes Konstrukt perfekt, d.h. ohne Messfehler messen.
Wichtige Determinanten der Antwortqualität seien bereits in diesem Über-
blickskapitel genannt:
I.4 Umfragequalität und Umfragefehler 29

• Leistungsvermögen und Leistungsbereitschaft des Befragten, ggf. vermittelt


über weitere Variablen wie Motivationsstärke, Konzentrationsfähigkeit, psy-
chologischen oder physischen Zustand, Einstellungen, die ihrerseits wieder
durch soziale Situation, etc. beeinflusst sein können;
• Ernsthaftigkeit der Bemühung des Befragten, die im Fragetext beschriebenen
Aufgabe zu lösen;
• Unerwünschte oder nicht-intendierte Nebeneffekte einer Frage:
• Sensitive Effekte des Fragetextes;
• Unerwünschte Wirkungen des Layouts und der Antwortformatierung;
• Unerwünschte Effekte der Antwortformate bzw. Antwortskalen und ihres Lay-
outs;
• Kontexteinflüsse durch vorangehende Fragen;
• Merkmale des Interviewers (sichtbare Merkmale wie z.B. Geschlecht, Alter,
stimmliche Merkmale oder unsichtbare Merkmale wie Einstellungen);
• Merkmale der Interviewsituation (z.B. Anwesenheit dritter Personen bei ei-
nem Interviewer-administrierten Interview oder einer weiteren Person bei
Selbst-administrierten Interviews), die auch von der sozialen Situation wie z.B.
Wohnausstattung, daheim zu pflegende Versandte, Verfügbarkeit eines Kinder-
gartenplatzes, etc. abhängen können;
• Merkmale der Kommunikationsform (Administrationsform, Kommunikati-
onskanal, Technologie).

Diese Effekte werden später an geeigneter Stelle näher beschrieben (vgl. Teil III).
Sie können sowohl die Parameterschätzungen als auch die Interpretation der sta-
tistischen Ergebnisse beeinflussen. Wenn etwa statt der Variablen „häusliche Ge-
walt“ die Variable „soziale Erwünschtheit“ (zum Begriff „Soziale Erwünschtheit“
vgl. Teil III) gemessen wird, weil der Befragte sich nicht auf den Inhalt der Frage
bezieht, sondern auf seine Außendarstellung sind alle Interpretationen statistischer
Modelle, welche die Variable „häusliche Gewalt“ einschließen, wertlos.

I.4.4 Empfehlungen zur Erhöhung der Umfragequalität:


Das maßgeschneiderte Design

Selbstverständlich tragen alle Maßnahmen, die eine Reduktion des totalen Umfrage-
fehlers und seiner Komponenten bewirken, dazu bei, die Umfragequalität zu erhö-
hen. Schon an dieser Stelle soll aber eine zentrale theoretische Perspektive vorgestellt
werden, aus der sich Empfehlungen ableiten lassen, die eine Reduktion von Kompo-
30 I.4 Umfragequalität und Umfragefehler

nenten des totalen Umfragefehlers erwarten lassen. Eine solche Perspektive wurde
von Don Dillman vorgeschlagen. Dillman (2000, Dillman, Smyth & Christian, 2014)
hat versucht, aus soziologischer Perspektive einen Ansatz zur Verbesserung der Um-
fragequalität zu entwickeln. Unter der Bezeichnung maßgeschneidertes Design (engl.:
tailored design) hat Dillman eine Reihe von Verfahren und Prinzipien für selbstadmi-
nistrierte Interviews zusammengefasst, die zu einer erhöhten Datenqualität führen
sollen. Diese Verfahren können aber analog durchaus auch für Interviewer-adminis-
trierte Interviews gelten. Sie betreffen sowohl den Entwurf von Erhebungsinstrumen-
ten als auch die Erhöhung der Teilnahmebereitschaft und die Reduktion der Anzahl
fehlender Werte, insbesondere bei heiklen Fragen. Dillman entwickelt seinen Ansatz
auf Grundlage der Theorie des sozialen Austausches (engl.: social exchange theory).
(vgl. Blau, 1964; Homans 1958). Diese postuliert, dass Beziehungen zwischen Part-
nern (Individuen, Organisationen, etc.) auf einer Kosten-Nutzen-Analyse basieren.
Eine Beziehung zwischen sozialen Akteuren wird aufgenommen und aufrechterhal-
ten, wenn und solange die Kosten den Nutzen nicht übersteigen. Nach dieser Theorie
sind Handlungen von sozialen Akteuren durch das motiviert, was sie durch diese
Handlungen als Gegenleistung erhalten. Der Ansatz legt also als Modell der Befrag-
ten-Entscheidung einen Rational-Choice-Ansatz bzw. ein „cost/benefit“-Ansatz (vgl.
Schnell, 1997; Singer, 2011) zugrunde. Dillmans schlägt vor, die folgenden Empfeh-
lungen im Umfragedesign zu berücksichtigen:

Etablierung von Vertrauen


• Es sollten schon beim ersten Kontakt Zeichen der Wertschätzung gegeben wer-
den;
• Auftraggeber sollten legitimierte Autoritäten sein (z.B. Ministerien, Universi-
täten, etc.);
• Die Umfrage sollte als wichtiges Ereignis dargestellt werden;
• Die Umfrage sollte mit anderen Austauschverhältnissen verbunden werden
(z.B. man nimmt an einer Umfrage teil, weil die Tochter studiert hat oder weil
man für eine Reform des Gesundheitssystems ist); Befragte nehmen eher teil,
wenn sie anderen damit etwas Gutes tun.
I.4 Umfragequalität und Umfragefehler 31

Erhöhung des Werts der Gegenleistung


• Zeigen von Achtung und Rücksicht;
• Bezeugung von Dankbarkeit;
• Unterstützung von Werten der Gemeinschaft/Gesellschaft, in welche die Be-
fragten eingebunden sind;
• greifbare Belohnungen;
• Konstruktion eines interessanten Fragebogens;
• Betonung der sozialen Anerkennung, z.B. durch den Hinweis darauf, dass an-
dere Personen schon ähnliche Handlungen ausgeführt haben;
• Betonung der Beantwortung als günstige Gelegenheit, die noch genutzt werden
kann.

Reduktion sozialer Kosten


• Vermeidung einer herablassenden Sprache bzw. von Befehlsformen;
• Vermeidung von Verlegenheit oder Verwirrung auf Seiten des Befragten;
• Vermeidung von Unannehmlichkeit bzw. Unbequemlichkeit, z.B. durch Beile-
gen einer Rückantwortkarte;
• Konstruktion eines kurzen und leichten Fragebogens;
• Minimierung von Forderungen nach persönlichen Informationen, die die Be-
fragten nicht gerne weitergeben;
• Entwurf untereinander konsistenter Fragen.

Diese Prinzipien liegen implizit oder explizit vielen Empfehlungen anderer Auto-
ren zur Reduktion von Nonresponse und zur Messqualität zugrunde. Zahlreiche
Untersuchungen bestätigen direkt oder indirekt das Konzept. Sie sollen nicht an
dieser Stelle aufgezählt werden, doch wird der Leser keine Schwierigkeiten haben,
diese Perspektive später im Zusammenhang mit Modellen der Teilnahmebereit-
schaft oder Ergebnissen zur Reduktion von Nonresponse und zur Erhöhung der
Antwortqualität wiederzufinden. Die obigen Empfehlungen lassen sich zwar nicht
bei allen Forschungsfragestellungen berücksichtigen und sind sicherlich auch un-
vollständig, in jedem Fall sollte man aber diese Gesichtspunkte dort, wo es sinnvoll
und möglich erscheint, in die eigenen Designüberlegungen einbeziehen. In Bezug
auf den Entwurf von Fragebögen und Fragen ergibt sich aus dem Ansatz vor allem
die Konsequenz, die Belastungen des Befragten, seien es kognitive, emotionale Be-
lastungen oder Belastungen durch schlechte Benutzerfreundlichkeit des Fragebo-
gens, gering zu halten (vgl. Teil III). Bei selbstadministrierten Interviews ergeben
sich aus diesen Prinzipien Vorschläge für die Gestaltung des Layouts (vgl. Dillman,
Smyth & Christian, 2014).
32 I.5 Methodenspektrum im Umfrageprozess

I.5 Methodenspektrum im Umfrageprozess

Das Spektrum der im Umfrageprozess eingesetzten Methoden besteht prinzipiell


aus allen Methoden, die für die Bearbeitung der einzelnen Schritte des Umfrage-
prozesses in Abschnitt 1.3 vorgeschlagen wurden. Entsprechend lassen sich grob
folgende Methoden unterscheiden:

Methoden der Konzeptspezifikation (vgl. z.B. Hox 1997)


Die Präzisierung der Umfrageziele erfordert eine Spezifikation der Konzeptuali-
sierungen, die Grundlage für die Festlegung dieser Ziele sind. Beispiele sind Kon-
zeptualisierungen des Migrationsbegriffs, des Begriffs „Minderheit“ oder des Be-
griffs „Lebenszufriedenheit“. Solche Begriffe erfordern nicht nur die Eingrenzung
des Begriffsumfangs durch Angabe der Merkmale und ihrer Ausprägungen, die
festlegen, welche Individuen unter den Begriff fallen, wie z.B. durch Angabe der
Merkmale von Personen, die zur Gruppe der Migranten gerechnet werden sollen.
Vielmehr geht es auch um eine Exploration der verschiedenen Aspekte (Dimensio-
nen) eines Begriffs. Ein Beispiel wäre etwa die Analyse des Begriffs „Zufriedenheit“
hinsichtlich seiner kognitiven und emotionalen Aspekte wie die Aufschlüsselung
in Bereichszufriedenheiten und die emotionale Bedeutung für die Lebensqualität.
Schon auf dieser Stufe können bereits empirische Verfahren eingesetzt werden wie
Sorting-Techniken (vgl. z.B. Coxon, 1999; Prüfer & Rexroth, 2005). Ein einfaches
Beispiel wäre die empirische Definition des Begriffs „Verkehrsunfall“, indem ver-
schiedene Szenarien von Verkehrsereignissen sortiert werden, um herauszufinden,
welche Szenarios zum Begriff „Verkehrsunfall“ gerechnet werden können (siehe
Teil V). Auch für den Sozialwissenschaftler eher exotisch anmutende formale alge-
braische Verfahren wie die formale Begriffsanalyse (vgl. z.B. Wolf, Gabler und Borg,
1994; Ganter & Wille, 1996) oder facettentheoretische Methoden und Methoden
der nicht-metrischen multidimensionalen Skalierung (vgl. z.B. Borg 2000; Borg
& Groenen, 2010; Borg & Shye 1996) können prinzipiell bei der Exploration der
Dimensionen eines Begriffs Anwendung finden, auch wenn ihre Anwendung im
Umfrageprozess in der Regel zu aufwändig sein dürfte.
I.5 Methodenspektrum im Umfrageprozess 33

Methoden der Operationalisierung und Fragebogenkonstruktion


In der Phase der Operationalisierung werden den theoretischen Untersuchungs-
variablen konkrete Messoperationen zugeordnet, um die Ausprägungen der the-
oretischen Variablen empirisch ermitteln zu können. Dies bedeutet konkret, dass
in dieser Phase nicht nur die Frageformulierungen und die dazu gehörigen Ant-
wortformate/Skalen festgelegt werden müssen, sondern auch die Kommunikati-
onsform inkl. des verwendeten Sinneskanals (visuell oder auditiv), und das Layout,
in dem die Texte und eventuell die Graphiken den Befragten präsentiert werden
sollen (vgl. Dillman, Smyth & Christian, 2014; Faulbaum, Prüfer & Rexroth 2009,
Porst, 2011). Eine Messoperation ist also nicht von der Art und Weise zu trennen,
in der sie konkret durchgeführt wird. Obgleich in der Umfrageforschung vor allem
die auditiven und visuellen Sinneskanäle zur Kommunikation eingesetzt werden,
kommt prinzipiell auch der taktile Sinneskanal in Frage, etwa bei der Befragung
von Blinden per Blindenschrift.
Zu den theoretischen Variablen gehören auch beobachtete soziodemographi-
sche Variablen wie z.B. das monatliche Nettoeinkommen. Auch hier ist die the-
oretische Ebene von der Operationalisierung zu trennen. So kann das Nettoein-
kommen in unterschiedlicher Weise durch Messoperationen realisiert werden, z.B.
durch eine kategorisierte Abfrage, durch eine direkte Frage, durch das Heraussu-
chen des Steuerbescheids, etc.

Methoden der Stichprobenauswahl


Die Methoden der Stichprobenauswahl umfassen alle Verfahren zur Auswahl von
Untersuchungseinheiten, mit den entsprechenden theoretischen und praktischen
Voraussetzungen. Zu den letzteren gehören etwa. die statistisch/mathematische Be-
wertung der Güte der Parameterschätzungen und die Methoden zur Verbesserung
der Schätzqualität wie die unterschiedlichen Methoden der Gewichtung von Um-
fragedaten (vgl. z.B. Bethlehem, Cobben & Schouten, 2010; Kalton & Flores-Cer-
vantes, 2003; Kish, 1965; Särndal, Swensson & Wretman, 1992; Särndal & Lund-
ström, 2005; vgl. auch die Beiträge in Gabler, Hoffmeyer-Zlotnik & Krebs, 1994).
Eine spezielle Form der Stichprobenauswahl stellt die adaptive Stichprobenauswahl
dar, bei der die Einbeziehung von Einheiten in die Stichprobe in Abhängigkeit von
Werten interessierender Untersuchungsvariablen während der Umfrage geschieht
(vgl. Thompson & Seber, 1996), um die Parameterschätzungen zu optimieren.
34 I.5 Methodenspektrum im Umfrageprozess

Methoden der Durchführung (Feldarbeit)


Mit „Durchführung“ ist hier die praktische Realisation einer Umfrage gemeint.
Sie wird vor allem bestimmt durch die Wahl der Kommunikationsform zusam-
men mit den geeigneten Technologien (vgl. Teil II), durch die Form der Intervie-
wer-Rekrutierung und- Schulung (bei Interviewer-administrierten Interviews), die
Form der Kontaktaufnahme einschließlich des möglichen Einsatzes von Ankün-
digungsschreiben, das Verhalten der Interviewer im Feld, die Feldplanung sowie
die Feldorganisation (bei Interviewer-administrierten Umfragen), Eine große Rolle
spielen auch die Maßnahmen zur Sicherung der Umfragequalität. Bei computer-
unterstützten Umfragen werden die Feldorganisation und damit der Feldverlauf in
weiten Teilen durch den Einsatz geeigneter Software gesteuert.

Methoden der Datenaufnahme und Dateneditierung


Die Methoden der Datenaufnahme haben sich seit Einführung des Computers in
der Datenerhebung grundlegend geändert. Nicht nur werden bei computerunter-
stützten Umfragen die Antworten der Befragten in verschlüsselter Form automa-
tisch in eine Datei eingetragen, sondern es lassen sich bereits während der Pro-
grammierung des Fragebogens Fehlervermeidungsstrategien einführen wie die
Vermeidung von Eingabefehlern durch Beschränkung auf zulässige Antworten,
Prüfung auf Antwortkonsistenz, etc. Der Vorgang der Editierung von Daten betrifft
alle Schritte des Datenerhebungsprozesses: Bei der Fragebogenentwicklung werden
bereits die Filter und die möglichen Inkonsistenzen definiert, empirische Pretests
und Tests der Funktionsfähigkeit des Erhebungsinstruments ergeben bereits Hin-
weise auf Fehler. Durch kontinuierliche Checks während der Feldphase lassen sich
fehlerhafte Angaben u.U. durch Maßnahmen wie Re-Kontaktierung der Befragten
korrigieren. Liegt der Datensatz vor, können Editierungen (engl. edits) entweder
auf der Ebene der Fälle bzw. „records“ mit der primären Absicht der Validierung
(engl.: micro edits) oder im Rahmen statistischer Analysen von aggregierten Daten
erfolgen (engl.: macro edits) (vgl. Pierzchala, 1990) Auf der Ebene der Fälle lassen
sich fehlende oder ungenaue Werte, Inkonsistenzen, etc. entdecken und bereinigen,
auf Aggregatebene lassen sich Besonderheiten von univariaten und/oder multiva-
riaten statistischen Verteilungen wie z.B. Mittelwerte, Varianz, Schiefe, Kurtosis,
gestutzte Verteilungen (engl. truncated distributions) und Deckeneffekte (engl.: cei-
ling effects) sowie Ausreißerwerte (engl.: outliers) entdecken, so dass entsprechende
Bereinigungsaktivitäten eingeleitet werden können. In beiden Fällen können die
erforderlichen Routinen programmiert werden, wodurch ein automatischer Ablauf
I.5 Methodenspektrum im Umfrageprozess 35

gesichert werden kann. Einen Überblick über die Verfahren der Editierung geben
Van de Waal, Pannekoek und Scholtus (2011).
Der Aufwand für den Editierprozess kann mehr oder weniger hoch sein (vgl.
Granquist & Kovar, 1997), was entsprechende Kosten nach sich zieht. Er sollte aber
Prüfungen und ggf. Korrekturen der folgenden Komponenten einbeziehen (vgl.
Pierzchala, 1990):

• Vollständigkeitsfehler (completeness errors)


Diese Fehler können bei telefonischen Interviews durch Abbrüche oder durch
fehlende Antworten auf bestimmte Fragen auftreten (fehlende Werte bzw. Item
Nonresponse). Da Abbrüche keine expliziten Verweigerungen darstellen, kön-
nen die Befragten noch einmal durch andere Interviewer kontaktiert werden,
um die Daten zu vervollständigen. Fehlende Werte können mit Hilfe von Im-
putationsverfahren ersetzt werden (vgl. Teil VII) ersetzt werden.
• Bereichsfehler (domain errors):
Diese Fehler treten auf, wenn Antworten gegeben werden, die außerhalb des
zulässigen Bereichs liegen (nicht-adäquate Antworten). Diese Art von Fehlern
lässt sich bei computerunterstützten Interviews bereits im Rahmen der Pro-
grammierung verhindern, da die entsprechende Software im Normalfall die
Definition solcher Bereiche erlaubt. Allerdings gibt es bei direkten numeri-
schen Angaben diese Möglichkeit nicht unbedingt, da selbst ungewöhnliche
Angaben gültig sein können.
• Konsistenzfehler (consistency errors):
Konsistenzfehler treten auf, wenn sich Antworten auf unterschiedlicheFragen
gegenseitig widersprechen (logische Konsistenz) oder sich zuwidersprechen
scheinen (mangelnde Plausibilität). Zu denKonsistenzprüfungen zählen auch
Prüfungen, ob Angaben für Teile mit den Angaben für ein Total kompatibel ist,
z.B. ob die Anzahl der angegebenen Fahrkilometer pro Jahr mit den angegebe-
nen Kilometern pro Monat kompatibel ist.
• Filterfehler (routing errors):
Filterfehler entstehen durch vom Fragebogen-Designer und vom Programmie-
rer nicht-intendierte Verzweigungen.

Bereichsfehler und Filterfehler lassen sich bereits in der Testphase des Fragebogens
identifizieren. Programmierungen können auf die Algorithmen von Fellegri und
Holt (1976) zurückgreifen. Alle identifizierten Fehler sollten in einem Fehlerproto-
koll sorgfältig dokumentiert werden. Das einzuleitende Maßnahmenpaket und die
Randbedingungen seiner Anwendung (z.B. Übereinstimmung der Randverteilun-
36 I.5 Methodenspektrum im Umfrageprozess

gen des editierten Datensatzes mit den dem Datensatz der unbeanstandeten Fälle)
müssen präzise definiert und begründet sein.
Mit einer Fehleranalyse ist die Qualität eines Datensatzes aber noch nicht er-
schöpfend analysiert. Sie kann ergänzt werden durch Analysen von Interviewer-Ef-
fekten, von Einflüssen der Interviewsituation und von Antwortstrategien der Be-
fragten.

Methoden der Datenanalyse


Die in der Analyse von Umfragedaten eingesetzten Verfahren richten sich im We-
sentlichen nach den Zielen der Umfrage. Ist nur eine statistische Beschreibung der
Daten beabsichtigt, so reichen in der Regel die Verfahren der deskriptiven Statis-
tik mit einer tabellarischen Aufbereitung, mit geeigneten graphischen Darstellun-
gen und einer Charakterisierung der empirischen Verteilungen durch statistische
Kennwerte aus. Sollen dagegen statistische Hypothesen, z.B. über Populationspara-
meter oder über die Form statistischer Verteilungen von Variablen geprüft werden,
so wird man inferenzstatistische Verfahren anwenden. Gegenstand der Analyse
können sowohl einzelne Variablen und ihre Verteilungen sein (univariate Analyse;
vgl. z.B. Fahrmeir et al., 2004; Hartung, Elpelt & Klösener, 2009; Jann, 2005; Kühnel
& Krebs, 2012) oder mehrere multivariat verteilte Variablen (multivariate Analyse;
vgl. Backhaus et al., 2006; Fahrmeier, Hamerle & Tutz, 1996; Hartung & Elpelt,
2007; Arminger, Clogg & Sobel, 1995). Auf Grund der bei Umfragen oft großen
Stichprobenumfänge eignen sich Umfragedaten besonders gut zur Überprüfung
von Modellen für komplexe Abhängigkeitsbeziehungen zwischen beobachteten
und/oder unbeobachteten (latenten) Variablen. Diese Modelle werden auch als
Strukturgleichungsmodelle bezeichnet (vgl. z.B. Bollen, 1989; Kaplan, 2008; Reine-
cke, 2014). In Teil IV, Abbildung IV.11 wird ein Beispiel für ein komplexes Struk-
turgleichungsmodell gegeben. Strukturgleichungsmodelle werden auch in metho-
dischen Studien der Umfrageforschung angewendet wie z.B. in der Untersuchung
vom Modeeffekten (vgl. Heerwegh & Loosveldt, 2011) oder in der international
vergleichenden Umfrageforschung beim Vergleich zwischen Messmodellen in ver-
schiedenen Nationen (vgl. Faulbaum, 1990; Billiet, 2003). Die Verfahren werden im
Zusammenhang mit der Überprüfung der Reliabilität und Validität von Messungen
in Teil III noch einmal aufgegriffen.
I.6 Grundsätzliche Probleme der Umfrageforschung 37

I.6 Grundsätzliche Probleme der Umfrageforschung

Oft treten bei Planung, Vorbereitung und Durchführung von Umfragen in der Re-
gel methodische Probleme auf, die nicht zuletzt mit den Fehlern bzw. Verzerrungen
zusammenhängen, die sich im Rahmen des Umfrageprozesses einstellen und die
die gesamte Qualität einer Umfrage negativ beeinflussen können. Einige Probleme
kann man durch entsprechende methodische Entscheidungen und die Anwendung
bestimmter Methoden zu minimieren versuchen. Andere Probleme lassen sich
nicht ohne weiteres lösen. Hier seien einige Entscheidungsprobleme aufgeführt,
mit denen immer zu rechnen ist:

Unvereinbarkeit bestimmter Anforderungen


Bei der Planung von Umfragen werden immer wieder Entscheidungen zwischen
zwei Anforderungen verlangt, die nicht oder nur schwer gleichzeitig optimiert wer-
den können und zwischen denen Kompromisse gefunden werden müssen:

• zwischen dem Leistungsvermögen der Befragten und der Komplexität der Fra-
gen, die gestellt werden können;
• zwischen den Belastungen (engl.: work load) von Befragten und Interviewern
und der Länge des Fragebogens;
• zwischen den Kosten der Umfrage und Merkmalen der Umfragequalität; z.B.
zwischen Kosten der Umfrage und der Länge des Erhebungsinstruments, der
gewählten Kommunikationsform oder dem Stichprobenumfang;
• zwischen der verfügbaren Interviewzeit, der Anzahl der Fragen und der Fra-
genkomplexität;
• zwischen der Kompetenz des Umfragedesigners und der Qualität des Fragebo-
genentwurfs;
• zwischen der soziokulturellen Heterogenität einer Stichprobe und der Formulierung
von Fragen, die für alle Subgruppen in gleicher Weise verstanden werden können.

Unvollständige Kontrolle von relevanten Befragten-Merkmalen


Ein weiteres Problem stellt die mangelnde totale Kontrollierbarkeit jener Befrag-
ten-Merkmale dar, welche Teilnahme und Antwortverhalten der Befragten maß-
geblich beeinflussen können. Dazu gehören insbesondere auch die Interviewsitua-
tion und das Befragungsklima. Messtheoretisch bedeutet dies, dass die relevanten
Komponenten des Messfehlers überhaupt nicht oder nicht mit ausreichender Ge-
nauigkeit bestimmt werden können.
38 I.6 Grundsätzliche Probleme der Umfrageforschung

Unvollständige oder ungenaue Kenntnisse der Populationsparameter


Oft liegen keine direkten Informationen über die zu schätzenden Parameter der
Grundgesamtheit vor. Zu erwarten sind solche Informationen eigentlichen nur bei
administrativen Daten und bei Totalerhebungen. Wenn solche Informationen vor-
liegen, sind diese oft noch nicht einmal aktuell, d.h. präzise auf den Befragungs-
zeitpunkt bezogen (z.B. bei Zensusdaten). Näherungsweise kann man sich dann an
anderen, auf sehr großen Stichprobenumfängen beruhenden, amtlichen Stichpro-
ben wie dem Mikrozensus orientieren. Dies gelingt aber in er Regel nur in Bezug
auf ausgewählte soziodemographische Variablen. In Abwesenheit von Kenntnissen
über die präzisen Populationswerte ist es notwendig, für die Schätzung dieser Wer-
te Schätzer zu verwenden, von denen mathematisch gezeigt werden kann, dass sie
zu einer erwartungstreuen (engl.: unbiased) Schätzung der Parameter führen bzw.
zu einer Schätzung, deren Verzerrung korrigiert werden kann. Voraussetzung ist
immer eine Zufallsstichprobe. Die Korrektur erfordert oft die Verwendung von
sog. Hilfsvariablen, für die Werte für alle Untersuchungseinheiten der Population
vorliegen (zum Begriff der Hilfsvariablen vgl. Teile VI und VII).

Unvollständige Kenntnis der Lebenswelt der Befragten und der interpre-


tativen Prozesse
Die Befragten sind in eine bestimmte Lebenswelt eingebunden mit ihren spezifi-
schen Ritualen und kulturell bestimmten Bedeutungen, die sie dem Verhalten der
Interviewer und den sprachlichen Formulierungen einschließlich der darin ent-
haltenen Begriffe geben. Insbesondere Vertreter des symbolischen Interaktionis-
mus und der interpretativen Ansätze in der Soziologie haben mit ihrer Kritik an
der „Variablensoziologie“ auf diesen Umstand immer wieder hingewiesen (vgl. z.B.
Blumer, 1969; Mead, 1934; Wilson, 1970). Unvollständige Kenntnisse dieser Art
betreffen in der Kontaktphase nicht nur die Einleitung in das Thema der Erhebung,
den Auftraggeber, sondern auch die Definition der Situation, deren Bedeutung Es-
ser in Bezug auf das Handeln der Befragten im Interview hervorgehoben hat (vgl.
Esser, 1986). Ganz praktisch kann dies bedeuten, dass eine kontaktierte Person die
Situation als eine Situation des Direktmarketings definiert und sofort nach einem
realisierten Telefonkontakt verweigert. Für manche mag ein Anruf spontan als si-
tuativ bedrohlich empfunden werden. Relevant ist hier das Framing der Situation.
Es bezeichnet im Zusammenhang mit der Definition der Situation ein Interpre-
tationsschema, das vom Befragten ausgewählt wird und in das die Art und Weise
Kontaktaufnahme eingeordnet wird. Diese Interpretation kann maßgeblich für die
Entscheidung des Befragten sein, an einer Umfrage teilzunehmen. Über die Defini-
I.6 Grundsätzliche Probleme der Umfrageforschung 39

tion der Situation stellen können in der Regel nur Vermutungen angestellt werden.
Durch die Art der Kontaktaufnahme kann eine gewisse Steuerung der Interpreta-
tion versucht werden.
Die Einbindung in das kulturell geprägte Alltagsleben und die Lebenswelt des
Befragten kann sich ebenfalls in den Bedeutungszuordnungen, die Befragte den
Fragetexten geben, also in der Interpretation der Frageformulierungen ausdrücken,
was wiederum Auswirkungen auf die Relevanz und die Form von kognitiven Inter-
views bei der Evaluation von Fragen haben kann (vgl. Miller, 2011). Die Lebens-
welt spielt infolgedessen insbesondere bei interkulturellen Umfragen eine Rolle,
bei denen mit unterschiedlichen Lebenswelten gerechnet werden muss. Da die Ge-
sellschaft kulturell inhomogen ist, ist beim Entwurf von Fragen die soziokulturel-
le Heterogenität auch bei nationalen Umfragen immer mit in Betracht zu ziehen.
Selbst durch kognitive Pretests (vgl. Teil V) wird man oft keine sichere Kenntnis
über die Interpretationen der Befragten erhalten können, da die Ergebnisse nicht
immer reichhaltig und präzise genug sind. Das Hinterfragen der von den Befragten
gelieferten Interpretationen kann wiederum problematisch werden, da die Fragen
des Forschers ihrerseits immer wieder vom Befragten interpretiert werden müssen,
d.h. die Nachfragen müssten ihrerseits wieder einem Pretest unterworfen werden,
etc. Das Problem ist ähnlich gelagert wie beim hermeneutischen Zirkel (Gadamer,
1990, S. 270) oder dem Basisproblem in der Wissenschaftstheorie (vgl. Popper,
1976, S. 60). Die Frage könnte hier sein, wie viele geschachtelte Pretests sind not-
wendig, um sichere Kenntnis von der Interpretation der Befragten zu erlangen? Als
weiteres Problem ergibt sich, dass mit Sicherheit in diesem Fall nur die subjektive
Sicherheit des Forschers gemeint sein kann.

Umfragen als Belastungen (engl.: burden) der Befragten


Insofern Befragungen fast immer einen Einbruch in den Alltag der Befragten
darstellen, werden sie oft als Störungen empfunden. Entscheidungstheoretisch
betrachtet entstehen für Befragte mit ihrer Entscheidung, an der Umfrage teilzu-
nehmen, Kosten im Sinne einer erbrachten Leistung und dem damit verbunde-
nen Aufwand, der zur Verfügung gestellten Zeit, etc. Die zu beantwortende Frage
ist, was der Forscher ihm dafür in Form von Zuwendungen (engl. incentives) oder
einem entgegenkommenden, reziproken Verhalten anbieten kann. In der Regel
zahlt der Befragte ohne eine Gegenleistung - ein Problem, dessen Lösung sich dem
Ansatz des maßgeschneiderten Designs besonders verpflichtet fühlen muss (siehe
Abschnitt 4.4 oben).
40 I.6 Grundsätzliche Probleme der Umfrageforschung

Bewertung der statistischen Ergebnisse einer Umfrage


Grundsätzlich kann die Bewertung statistischer Ergebnisse nicht vom Aspekt der
Verwendung der Ergebnisse klar getrennt werden (Aspekt des Verwertungszusam-
menhangs). Oft sind diese Bewertungen klar interessengesteuert. Politisch unter-
schiedlich ausgerichtete Medien neigen dazu, das gleiche statistische Ergebnis, z.B.
zur Parteineigung, unterschiedlich zu bewerten. Abbildung I.8 zeigt die Beziehun-
gen zwischen Umfrage, Daten und inhaltlichen Schlussfolgerungen.

Abbildung I.8: Umfrage und inhaltliche Schlussfolgerungen

Im Grunde gibt es drei Ebenen der Ergebnisinterpretation (vgl. Abbildung I.9): Auf
der untersten Ebene 1 haben wir die Schätzungen der Populationswerte (Parame-
terschätzungen), auf der zweiten Ebene haben wir die Ebene der Bewertung der
statistischen Daten und auf der dritten Ebene haben wir die inhaltlichen Schluss-
folgerungen.
Abbildung I.10 stellt ein fiktives Beispiel dieser dreistufigen Ergebnisinterpreta-
tion dar. Dargestellt ist, wie aus der Schätzung des Anteils rechtsradikaler Antwor-
ten eine inhaltliche Schlussfolgerung entstehen könnte.
Eine von der in Abbildung I10 abweichende Interpretation könnte den 12% An-
teil der Radikalen als gering einstufen, womit sich auch die inhaltlichen Schlussfol-
gerungen auf Ebene 3 ändern würden. Anstatt der Betrachtung der Ergebnisse zu
einem Zeitpunkt wäre die Betrachtung der statistischen Veränderungen in der Zeit,
I.6 Grundsätzliche Probleme der Umfrageforschung 41

also Anstieg oder Abnahme der Anteile. Voraussetzung ist allerdings, dass Ergeb-
nisse zu mehreren Zeitpunkten vorliegen. Der Umfrageforscher sollte sich dieser
Problematik insbesondere im Umgang mit den Medien bewusst sein, weil Stufe 3
oft den Medien überlassen wird.

Abbildung I.9: 3-Ebenen-Modell der Ergebnisinterpretation

Abbildung 1.10: 3-Ebenen-Modell der Ergebnisinterpretation: Beispiel


42 I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen

I.7 Umfragen, konfundierende Variablen und Kausali-


tätsaussagen

I.7.1 Beobachtungsstudien, experimentelle Designs und


konfundierende Variablen

Umfragen gehören zur Klasse der Beobachtungsstudien (engl.: observational stu-


dies; vgl. z.B. Cochran, 1983), genauer: zu den ex post facto-designs, bei denen der
Forscher keine Kontrolle über die Zuordnung von Untersuchungseinheiten zu
bestimmten Behandlungen (engl.: treatments) hat (Fehlen der Stimuluskontrolle).
Enthält eine Umfrage z.B. eine Frage nach der Einnahme bestimmter Medikamente
sowie eine Frage nach dem subjektiven Wohlbefinden, so werden den Medikamen-
ten nicht nach Zufall Personen zugeordnet und die Konsequenzen der Einnahme
beobachtet. Der Forscher bestimmt also nicht, welche Personen welchen Versuchs-
bedingungen unterworfen werden. Damit ist der Forscher nicht in der Lage, Stör-
variablen bzw. Merkmale, die nicht Einflussvariablen im Fokus der Analysefrage-
stellung sind, durch eine zufällige Zuordnung (engl. assignment) von Elementen zu
Stimuli zu kontrollieren. Dies unterscheidet Beobachtungsstudien von experimen-
tellen Designs.
In einem Experiment wird dagegen eine Menge unabhängiger Variablen (auch:
Experimentalvariablen, exogene Variablen, Faktoren, Behandlungen bzw. Treat-
ment-Variablen) manipuliert. Anschließend wird die Wirkung dieser Manipulation
auf eine Menge von Wirkungsvariablen (auch: Ausgabevariablen, Reaktionsvariab-
len, endogene Variablen) beobachtet und registriert. Dabei kommt es vor allem dar-
auf an, den Einfluss bekannter oder unbekannter Störvariablen zu minimieren oder
zu kontrollieren. Experimentalvariablen können sein: externe Variablen, interne
(kognitive oder emotionale) Variablen oder organismische Variablen eines oder
mehrerer Probanden. Die Manipulierbarkeit der Experimentalvariablen trennt das
Experiment begrifflich von der systematischen Beobachtung. Oft wird nur Experi-
mentalgruppe einer Kontrollgruppe gegenübergestellt, die keine Behandlung erfah-
ren hat.
Obgleich eine Umfrage selber kein Experiment darstellt, lassen sich Umfragen
aber im Rahmen von Forschungsdesigns einsetzen, die eine Intervention vorse-
hen. Solche Designs werden auch als quasi-experimentelle Designs bezeichnet (vgl.
Campbell & Stanley, 1963; vgl. auch Bredenkamp, 1969).
Eine Konsequenz aus der bei Umfragen auf Grund des Designs nicht möglichen
expliziten Kontrolle von Störvariablen, z.B. durch Randomisierung, besteht darin,
dass Störvariablen mit den unabhängigen Variablen, deren Einfluss auf abhängige
I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen 43

Variablen untersucht werden soll, konfundiert sein können. So kann etwa der Ein-
fluss der Häufigkeit eines Kontakts mit Migranten auf die Einstellung konfundiert
sein mit dem Geschlecht, indem etwa Männer oder Frauen eine niedrigere oder
höhere Kontakthäufigkeit aufweisen. Dieser Sachverhalt führt dazu, dass Effekte
auf die abhängigen Variablen nicht eindeutig auf die unabhängigen Variablen, de-
ren Einfluss geprüft werden soll und die im Fokus der Analysefragestellung stehen,
zurückgeführt werden können. Damit ist eine Isolation von Ursachen nicht mehr
ohne weiteres möglich. Mit der Konfundierung zwischen Experimentalvariablen
und Störvariablen ist eine Verminderung der internen Validität verbunden.
Eine Präzisierung des Begriffs der konfundierenden Variablen (engl.: con-
founding variable, confounder) liefern Szlklo und Nieto (zit. nach Weisberg, 2010,
p.128). Eine konfundierende Variable
• hängt kausal mit der Outcome-Variablen zusammen;
• hängt kausal oder nicht kausal mit dem Treatment zusammen;
• ist keine vermittelnde Variable auf dem Weg zwischen Treatment und Outcome.

Beispiel I.1 (Konfundierung mit Modeeffekt; vgl. Teil II):


Angenommen, eine Gruppe von Personen würde im Rahmen einer Umfrage
vor die Wahl gestellt, die Fragen entweder über das Web oder telefonisch zu
beantworten. Geprüft werden soll, ob die Kommunikationsform einen Einfluss
auf die Bereitschaft hat, an der Umfrage teilzunehmen. Dann wäre die Schul-
bildung eine konfundierende Variable genau dann, wenn (1) die Schulbildung
einen kausalen Einfluss auf die Teilnahmebereitschaft hat, (2) die Schulbildung
mit der Kommunikationsform zusammenhängt und (3) der Einfluss der Kom-
munikationsform auf die Teilnahmebereitschaft nicht über die Schulbildung
vermittelt ist.
Beispiel I.2 (Konfundierung in einem Zusammenhang zwischen Hilfs- und
Zielvariablen):
Angenommen, wir haben in einer Umfrage das Alter sowie die Einstellung zu
Ausländern erhoben. Wir wollen prüfen, ob das Alter einen kausalen Einfluss
auf die Einstellungsvariable hat. Dann wäre das Geschlecht eine konfundierende
Variable dann, wenn es (1) mit der Einstellung zu Ausländern zusammenhängt,
wenn es (2) mit dem Alter zusammenhängt und wenn es keine zwischen Alter
und Einstellung zu Ausländern vermittelnde Variable darstellt.

Die Vermutung, dass konfundierende Variablen die Beziehung zwischen zwei Va-
riablen beeinflussen können, führt zur Frage nach den Möglichkeiten ihrer Kon-
44 I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen

trolle. Die Kontrollierbarkeit setzt voraus, dass man die konfundierende Variable in
der Erhebung beobachten konnte und sie im Datensatz vorhanden ist. Ist dies der
Fall bieten sich folgende Kontrollmöglichkeiten an:

Matching bzw. Subklassifikation


Beim Matching werden in den Experimentalgruppen Untersuchungseinheiten mit
gleichen oder ähnlichen Merkmalsausprägungen getrennt analysiert. Stellt z.B. das
Alter eine konfundierende Variable dar, so würde man den Vergleich zwischen den
Gruppen nur innerhalb bestimmter Alterskategorien vornehmen.

Multivariate Analyse
Im Rahmen von Regressionsmodellen können die konfundierenden Variablen als
Kontrollvariablen (auch: Kovariate; engl.: covariate) in das Regressionsmodell auf-
genommen werden. Die Effekte der unabhängigen Variablen stellen dann Effekte
unter Konstanthaltung der Kontrollvariablen dar. Ein enstprechendes Vorgehen
stellt die Kovarianzanalyse dar, bei der die Effekte der konfundierenden Variablen
aus den Effekten der Faktorvariablen herausgerechnet sind.
Eine Variante des Matching stellt die Subklassifikation nach Propensity Scores
dar. Liegen zwei Gruppen von Untersuchungseinheiten mit ihren Messungen sowie
eine Reihe möglicher konfundierender Variablen vor, so kann der Einfluss dieser
Kovariaten auf die dichotome Variable „Gruppenzugehörigkeit“ im Rahmen eine
verallgemeinerten linearen Modells, z.B. logistisches Modell, Probit-Modell, etc.,
statistisch überprüft werden. In der Regel wird eine binäre logistische Regressi-
on gewählt. Die Wahrscheinlichkeit, einer der beiden Gruppen an der Stelle einer
bestimmten Merkmalskombination der Kovariaten anzugehören, wird auch als
Propensity Score bezeichnet (siehe auch die Ausführungen in Teil VI). Rosenbaum
und Rubin (1983: 44, Theorem 1) bewiesen, dass die Zuordnung von Untersu-
chungseinheiten zu zwei Treatments und die beobachteten Kovariaten unter der
Bedingung eines Propensity Scores von einander statistisch unabhängig sind, in
Symbolen:

x ⊥⊥ z | e ( x )

wobei x ein Vektor von Kovariaten, z die Behandlungszuordnung und e(x) der
Propensity Score. Dieses Theorem gilt für alle sog. balancing scores. Unter einem
balancing score b(x) ist eine Funktion der beobachteten Kovariaten zu verstehen, so
dass die bedingte Verteilung gegeben den balancing score unabhängig davon ist,
welcher Treatment-Gruppe eine Untersuchungseinheit zugordnet ist.
I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen 45

Aus dem genannten Theorem folgt, dass unter Konstanthaltung der Propensity
Scores, die multivariaten Verteilungen der konfundierenden Kovariaten in beiden
Gruppen gleich sein müssten bzw. sich die multivariaten Verteilungen der Kovari-
aten in beiden Gruppen nur zufällig unterscheiden dürften, was zugleich bedeutet,
dass Gruppenunterschiede für Untersuchungseinheiten mit dem gleichen Propen-
sity Score nur noch auf den Einfluss der Untersuchungsvariablen zurückzuführen
sind. Empfohlen wird eine Kategorisierung der Propensity Scores durch Intervall-
bildung und die Durchführung der Analysen innerhalb eines Propensity-Intervalls
(vgl. Rosenbaum & Rubin, 1984; vgl. auch die leicht verständliche Darstellung und
das epidemiologische Beispiel in Rubin, 1997).
Diese Form der Analyse findet sich in zahlreichen Methodenstudien der Um-
frageforschung, insbesondere bei der Kontrolle von Effekten der Kommunikations-
form (siehe Teil II). Die Verteilungsgleichheit innerhalb der Propensity-Kategorien
lässt sich durch Verteilungstests überprüfen. Sind die Verteilungen signifikant un-
terschieden, so kann man versuchen, die Kategorisierung der Propensity Scores zu
ändern.

I.7.2 Kausale Beziehungen zwischen Variablen

In der sozialwissenschaftlichen Forschung werden kausale Zusammenhänge in der


Regel auf gerichtete Beziehungen zwischen Variablen angewendet, worunter auch
der Einfluss von Treatment-Bedingungen auf eine abhängige Ergebnisvariable fällt.
Das Vorliegen einer kausalen Verbindung zwischen zwei Variablen wird an drei
Bedingungen geknüpft (vgl. Heise, 1975; Kenny, 1979):
Der Einfluss einer Variablen x auf eine Variable y, in Symbolen: x o y, stellt
eine kausale Verbindung (engl.: causal link) dar, wenn folgende Bedingungen erfüllt
sind:

1) x muss y zeitlich vorausgehen (Bedingung der zeitlichen Asymmetrie)


2) x muss mit y durch eine funktionale Beziehung verbunden sein; d.h. es muss
gelten: y = f(x) für irgendeine Funktion f.
3) Es darf keine Drittvariable z geben, die sowohl x als auch y kausal beeinflusst,
dergestalt, dass die Beziehung zwischen beiden Variablen verschwindet, wenn z
kontrolliert wird (Ausschluss von Scheinkorrelationen (engl.: non-spuriousness).

Neben diesen drei Kernannahmen werden gelegentlich noch eine Reihe weiterer
Annahmen aufgestellt (vgl. Klein, 1987). Dazu gehören die Annahme, dass die Ein-
46 I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen

flussbeziehungen nicht zwischen Werten, sondern nur zwischen Veränderungen


zwischen Werten angenommen werden dürfen, dass die Beziehung zwischen Vari-
ablen eine konstante Konjunktion darstellt (Stabilität der Kovariation und dass die
Zeitverzögerung der kausalen Wirkung hinreichend klein ist.
Das oben dargestellte Konzept einer kausalen Verbindung kann ohne Proble-
me auf den Fall multipler Verursachung (engl.: multiple causation) erweitert werden
und ist keineswegs auf beobachtete Variablen beschränkt. So kann z.B. in einem
statistischen Modell mit latenten Variablen, ein hypothetischer Einfluss einer ge-
meinsamen latenten Ursache postuliert werden.
Bedingung 2 der Definition einer kausalen Verbindung liegt die Forderung der
Manipulierbarkeit zugrunde: Wenn man statt des Wertes x = a den Wert x = b ein-
stellen würde, dann würde sich in der Ergebnisvariablen statt des Wertes y = f(a)
der Wert y = f(b) ergeben. Wenn man also gewissermaßen an x „drehen“ würde,
würde sich y auf Grund der funktionalen Beziehung f in vorhersagbarer Weise ver-
ändern. Diese Formulierung hat die Form einer sog. kontrafaktischen Bedingungs-
aussage (engl. counterfactual conditional; vgl. Lewis, 1973).
Bezieht man Bedingung 2 auf ein konkretes Individuum i so ergibt sich eine
Formulierung, die einigen Kausalitätsbetrachtungen in experimentellen Kontexten
zugrundeliegt (vgl. Holland, 1986; Rosenbaum & Rubin, 1983; Rubin, 1974). An-
genommen, wir nehmen eine Zuordnung von Individuen nach bestimmten Regeln
(engl.: assignment mechanism) zu zwei Treatmentgruppen 0 und 1 vor. Dann besagt
Bedingung 2: Wenn wir Individuum i der Gruppe 0 (z.B. Kontrollgruppe) zuord-
nen würden, würde die Ergebnisvariable R den Wert r0i annehmen. Würden wir i
dagegen der Gruppe 1 zuordnen, so würde sich der Wert r1i ergeben. Der kausale
Effekt bezieht sich auf den Vergleich zwischen r0i und r1i, d.h. auf die mögliche Ver-
änderung von R bezogen auf ein Individuum i.
Bedingung 3 der notwendigen Bedingungen für das Vorliegen einer kausalen
Verbindung bezieht sich auf die Abwesenheit des Einflusses von Drittvariablen und
damit des Einflusses konfundierender Variablen.
Verbindungen zwischen Variablen werden im Rahmen der statistischen Da-
tenanalyse auf der Basis von Stichprobeninformationen überprüft. Schon Fisher
(vgl. Fisher, 1946, p. 191) hatte aber vor kausalen Schlussfolgerungen ohne inhalt-
liche Vorannahmen über Verursachungszusammenhänge gewarnt und die in den
70iger Jahren des vergangenen Jahrhunderts geführte Diskussion über die Bedeu-
tung statistischer Signifkanzaussagen (vgl. z.B. Atkinson & Jarret, 1979; Morrison
& Henkel, 1970) hat zu Zweifeln darüber geführt, ob aus statistisch signifikanten
Zusammenhängen überhaupt theoretische Schlussfolgerungen gezogen werden
können (vgl. auch Baumrind, 1983). Insbesondere bei statistischen Modellen über
komplexe Zusammenhängen zwischen Variablen, wie sie in der Analyse von Ko-
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 47

varianzstrukturen (Strukturgleichungsmodelle) kann gezeigt werden, dass es zu


einem an die Daten gut angepassten Modell beliebig viele andere Modelle mit voll-
kommen anderer Struktur gibt, die aus rein mathematischen Gründen genau so
gut auf die Daten passen (vgl. Lee & Hershberger, 1990; Stelzl, 1986, vgl. auch die
Ausführungen in Abschnitt IV.2). Dabei kann sich die Richtung kausaler Einflüsse
sogar umkehren. Daraus folgt, dass in diesen Modellen Annahmen über kausa-
le Verbindungen nicht oder nur auf der Basis plausibler theoretischer Argumente
entschieden werden kann.
Insbesondere die Kritik am Subsumptionsansatz der kausalen Erklärung (auch:
Covering-Law-Modell) nach Hempel und Oppenheim (1948), der einen empiri-
schen Zusammenhang durch Ableitung aus gesetzesartigen Aussagen kausal zu
erklären sucht sowie an Hume (1981; Original erschienen 1758), der Kausaliät aus
einer konstante Konjunktion empirischer Ereignisse ableitet, haben zur Anregung
geführt, die Suche nach statistischen Zusammenhängen durch die Suche nach
generativen bzw.produktiven Mechanismen zu ersetzen (vgl. Baumrind, 1983).
Boudon (1979, p. 62) empfiehlt die Entwicklung generativer Modelle, in denen die
Handlungen der Individuen berücksichtigt werden sollten, aus denen die quantita-
tiven Zusammenhänge abgeleitet werden können.
Die Schlussfolgerung aus der Diskussion über die Kausalität von Variablenver-
bindungen ist, dass die statistische Signifikanz eines Zusammenhangs zwischen
Variablen für die Annahme einer kausalen Verbindung nicht ausreicht, sondern
dass zusätzliche theoretische Argumente, insbesondere, was die Prozessverbindun-
gen zwischen den Variablen angeht, angeführt werden müssen (vgl. hierzu auch
Faulbaum, 1991).

I.8 Umfragen im Rahmen spezieller Forschungsdesigns

Umfragen in Fallstudien
Im Zentrum von Fallstudien steht die Untersuchung einzelner Fälle (Untersu-
chungseinheiten). Fälle können sein: Personen, Gruppen, Schulklassen, Städte,
Stadtviertel, Kulturen, Haushalte, Betriebe, Organisationen, etc. Ziel ist die ge-
naue Beschreibung eines einzelnen Falls hinsichtlich verschiedener Aspekte eines
Forschungsproblems. Dabei steht oft nicht so sehr die Überprüfung von Theorien
und Hypothesen im Vordergrund, sondern die Zustandsbeschreibung sowie die
Hypothesengenerierung und Exploration. In diesem Zusammenhang werden oft
weniger strukturierte Erhebungsverfahren eingesetzt und eine große Vielfalt von
48 I.8 Umfragen im Rahmen spezieller Forschungsdesigns

Informationsquellen genutzt (Amtliche Statistik, Befragungen, offene Interviews,


Beobachtungen, etc.). Besteht ein Fall nicht nur in einer Person, sondern z.B. in
einem höheren Aggregat wie einem Stadtviertel, einer ganzen Stadt oder einer Re-
gion, können Umfragen wertvolle Informationen über die Bevölkerung und ihre
Einstellungen zu relevanten Merkmalen wie Versorgung mit infrastrukturellen
Einrichtungen, subjektiv empfundenen Sanierungsbedarf, etc. liefern. Ein bekann-
tes Beispiel stellt die Untersuchung von Jahoda, Lazarsfeld und Zeisel im Jahr 1933
über die Arbeitslosen von Marienthal dar, die neben zahlreichen anderen Erhe-
bungsmethoden auch Umfragemethoden einsetzte (vgl. Jahoda, Lazarsfeld & Zei-
sel, 1975).

Umfragen in Querschnittsstudien
In der Regel werden Umfragen im Rahmen von Querschnittsstudien (engl.: cross-sec-
tional studies) durchgeführt. Erhoben werden bei Querschnittsuntersuchungen
die Merkmalsausprägungen eines oder mehrerer Merkmale (Variablen) bei einer
großen Stichprobe von Individuen zu einem bestimmten Zeitpunkt bzw. einer be-
stimmten Gelegenheit (engl.: occasion). In der Regel handelt es sich bei den Zeit-
punkten um durch die Dauer der Erhebung (auch: Feldzeit) definierte Zeiträume.

Umfragen in Längsschnittstudien
Umfragedaten werden aber auch in verschiedenen Formen von Längsschnittstudi-
en erhoben. Zu den Längsschnittstudien werden Trendstudien, Panelstudien, Zeit-
reihenstudien und Studien, welche Ereignisse erheben, gezählt.
Trendstudien bestehen in zu mehreren Gelegenheiten erhobenen Querschnit-
ten; d.h.: mehrere Variablen werden zu mehreren Zeitpunkten erhoben, wobei die
Stichprobe der zu untersuchenden Einheiten von Zeitpunkt zu Zeitpunkt variiert.
Zu jedem Zeitpunkt wird also eine mit dem gleichen Auswahlverfahren ausgewähl-
te unterschiedliche Stichprobe von Personen gezogen und bezüglich der gleichen
Merkmale untersucht. Die Analyse von Trenddaten ermöglicht die Darstellung
statistischer Kennwerte bzw. Parameterschätzungen im Zeitverlauf, jedoch keine
Analyse und Messung individueller Veränderungen.
Bei einer Panelstudie wird dieselbe Menge von Untersuchungseinheiten über
mehrere Gelegenheiten (Wellen; engl.: waves) hinweg bezüglich einer Menge von
Merkmalen untersucht, wobei die Menge der Messzeitpunkte relativ klein ist. Zu-
mindest eine Teilmenge der Merkmale, manchmal sogar alle Variablen, ist über die
Messzeitpunkte hinweg identisch. Der Vorteil von Panelstudien besteht darin, dass
sie Aussagen über Art, Richtung und Ausmaß von Veränderungen gestatten. Neh-
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 49

men wir als fiktives Beispiel z.B. an, wir hätten zu zwei verschiedenen Zeitpunkten
t1 und t2 die gleichen 100 Personen befragt, ob sie gegenwärtig erwerbslos sind
oder nicht und die Ergebnisse in der in Abbildung I.11 dargestellten Übergangsta-
belle (engl.: turnover bzw. crossover-Tabelle) zusammengefasst.

  erwerbslos t2 nicht erwerbslos t2 Summe t1

erwerbslos t1 0 50 50

nicht erwerbslos t1 50 0 50

Summe t2 50 50 100

Abbildung I.11: Übergangstabelle

Wie man erkennt, würde man im Fall einer Trendstudie zu beiden Zeitpunkten
keine Veränderung feststellen können, obwohl sich eine enorme Dynamik entfaltet
hat: Alle zum Zeitpunkt t1 Erwerbslosen gehen zum Zeitpunkt t2 einer Erwerbstä-
tigkeit nach und umgekehrt. Solche Veränderungen, auch wenn sie nicht so radikal
sind wie im dargestellten Beispiel, lassen sich nur im Rahmen von Panelstudien
beschreiben und analysieren.
Die Ziele von Panelstudien lassen sich wie folgt zusammenfassen:

• Beschreibung, Erklärung und Prognosen von Veränderungen bzw. Verände-


rungsprozessen in Wirtschaft und Gesellschaft;
• Sammlung von Erkenntnissen über gesellschaftliche Veränderungen und Ent-
wicklungen, die gegebenenfalls auch als Planungsunterlagen für Entscheidun-
gen in bestimmten gesellschaftlichen Bereichen verwendet werden können, z.B.
Untersuchungen der Einkommensdynamik.
• Untersuchungen bestimmter theoretischer und methodischer Fragestellungen
wie z.B. Bestimmung der Reliabilität (z.B. Test-Retest-Reliabilität) und Stabili-
tät von Messinstrumenten [Trennung von Instabilität der Messung, Instabilität
der untersuchten Merkmale und Instabilität der exogenen Einflüsse (vgl. Hei-
se, 1969; Wiley &Wiley, 1970); vgl. auch die Beiträge in Bohrnstedt, Mohler
50 I.8 Umfragen im Rahmen spezieller Forschungsdesigns

& Müller, 1987], Schätzungen item-spezifischer Einflüsse (vgl. Raffalovich &


Bohrnstedt, 1987).

Spezialfälle von Paneldesigns sind:

• Test-Retest-Studie: Anzahl der Wellen = 2;


• Univariate Panelstudie: Anzahl der gemessenen Variablen = 1;
• Multivariate Panelstudie: Anzahl der gemessenen Variablen > 1;
• Follow-Back-Panelstudie (auch: retrospektives Panel): Zu einem bestimmten
Zeitpunkt wird eine Stichprobe gezogen, als Daten für die früheren Messzeit-
punkte werden Archivdaten oder Erinnerungsdaten verwendet;
• Catch-up-Panelstudie: Aus einem Archiv wird zu irgendeinem Zeitpunkt in der
Vergangenheit eine Stichprobe gezogen. Dann legt man die Analyseeinheiten
für die Gegenwart fest.

Ein Follow-Back-Panel kann auch im Rahmen von Umfragen realisiert werden,


indem Befragte nach ihrer Vergangenheit befragt werden (Problematik: Erinne-
rungsverzerrungen). In einigen Panelstudien wird nur eine Teilmenge der Variab-
len konstant gehalten, die durch variierende Mengen von Variablen ergänzt werden.
Weitere Varianten von Panelstudien bieten sich zur Kontrolle von Gewöh-
nungs- und Erinnerungseffekten an. Dazu gehören das alternierende Panel, bei dem
die gesamte Stichprobe in Subgruppen zerlegt wird, die abwechselnd in den Panel-
wellen befragt werden, und das rotierende Panel, bei dem nicht alle Befragten über
alle Wellen hinweg im Panel. Die Stichprobe wird in Gruppen zerlegt. Zu jedem
Erhebungszeitpunkt wird eine andere Gruppe der Ausgangsstichprobe durch eine
neu erhobene Gruppe ersetzt.
Bekannte Probleme von Panelstudien sind Veränderungen der Teilnehmer
durch die Teilnahme am Panel (Paneleffekt) und die Ausfallrate bzw. Panelmortali-
tät. Die Panelbereitschaft der Untersuchungseinheiten muss durch eine kontinuier-
liche Panelpflege aufrechterhalten werden.
Die Analyse von Paneldaten erfordert die Anwendung spezifischer statistischer
Modelle (vgl. Andreß, Golsch & Schmidt, 2013; Engel & Reinecke, 1994; Faulbaum,
1987a; Hsiao, 2003; Plewis, 1985; für eine Demonstration verschiedener Metho-
den an einer konkreten Umfrage vgl. die Beiträge in Bohrnstedt, Mohler & Müller,
1987). Da sich Paneldaten auch als Mehrebenen-Daten (siehe unten) auffassen las-
sen, können auch Verfahren der Mehrebenen-Analyse Anwendung finden.
Paneldaten eröffnen zusätzliche Möglichkeiten zur Untersuchung bestimm-
ter methodischer Effekte und zu einer detaillierten Betrachtung der Panelausfäl-
le. Ein Beispiel für die erweiterten methodischen Möglichkeiten ist die Schätzung
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 51

item-spezifischer Effekte, d.h. der Effekte von spezifischen Merkmalen einzelner


Items auf die beobachteten Variablen. Ein Beispiel ist in Abbildung I.12 zu sehen
(vgl. Jagodzinski, Kühnel & Schmidt, 1987, S. 266). Dort ist ein Panelmodell mit
drei Wellen abgebildet, in dem für jedes Item ein item-spezifischer Faktor einge-
führt wird, der jeweils alle drei Wiederholungsmessungen des gleichen Items be-
einflusst. Das Modell bezieht sich auf die in ALLBUS-Umfragen wiederholt erho-
benen sog. Ausländeritems:
• In Deutschland lebende Ausländer sollten ihren Lebensstil ein bisschen besser
an den der Deutschen anpassen (Variable ANPASS).
• Wenn Arbeitsplätze knapp werden, sollte man die in Deutschland lebenden
Ausländer in ihre Heimat zurückschicken (Variable REMIG).
• Man sollte in Deutschland lebenden Ausländern jede politische Bestätigung in
Deutschland untersagen (Variable NOPOL).
• In Deutschland lebende Ausländer sollten ihre Ehepartner unter ihren Lands-
leuten auswählen (Variable UNTSICH).
Die Items wurden auf einer 7er oder 5er Zustimmungsskala beurteilt (1: stimme
überhaupt nicht zu bis 7 (5): stimme voll und ganz zu) beurteilt. Sie bilden vier
Indikatoren einer latenten Konstruktvariablen „Einstellung zu Ausländer“, die zu
drei Messzeitpunkten wiederholt gemessen wird. Die Wiederholungsmessungen
der latenten Variablen sind mit Einst1-Einst3 bezeichnet.
Weiterhin erlauben Panelstudien eine genauere Darstellung der Eigenschaften
von Panelteilnehmern, die in einer oder mehreren nachfolgenden Wellen ausge-
schieden sind. Dabei lassen sich im Rahmen sog. multipler Gruppenvergleiche
Kausalstrukturen der Teilnehmer mit denen der Nichtteilnehmer vergleichen (vgl.
z.B. Faulbaum, 1987b). Schließlich lassen sich auch mit „Propensity“-Modellen die
Teilnahme oder Nichtteilnahme an einer Welle auf der Basis von Eigenschaften
vorhersagen, die in einer oder mehreren vorangegangenen Wellen teilgenommen
haben.
Im Unterschied zu Trend- und Panelstudien werden in Zeitreihenstudien (vgl.
Lüttgepohl, 2007; Schlittgen & Streitberg, 2001; Shumway & Stoffer, 2011; Thome,
2005) eine oder nur sehr wenige Untersuchungseinheiten bezüglich bestimmter
Variablen zu sehr vielen Messzeitpunkten (Anzahl der Messzeitpunkte > 50) beob-
achtet bzw. gemessen. Auch hier können Umfragedaten eine wichtige Rolle spielen,
indem z.B. Statistiken einer im Rahmen von Umfragen erhobenen Variablen einer
Untersuchungseinheit wie der Bundesrepublik Deutschland über eine große An-
zahl von Zeitpunkten dargestellt werden. In der Ökonometrie stellt die Analyse
solcher Zeitreihen ein wichtiges Thema dar. Im Übrigen werden bei einer ausei-
52 I.8 Umfragen im Rahmen spezieller Forschungsdesigns

chend großen Anzahl von Messzeitpunkten auch in der Panelanalyse Methoden


der Zeitreihenanalyse anwendbar.

Abbildung I.12: Panelmodell mit item-spezifischen Faktoren

Außer Trenddaten, Paneldaten und Zeitreihendaten gibt es eine weitere Art zeitab-
hängiger Daten, die als Ereignisdaten (vgl. Aalen, Borgan & Gjessing, 2008; Bloss-
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 53

feld, Hamerle & Mayer, 1988; Blossfeld & Rohwer, 2001; Yamaguchi, 1999) bezeich-
net werden. Ereignisdaten sind Daten über Lebensereignisse, ihren Wechsel und
ihre Dauer (z.B. Untersuchung der Zeit bis zum ersten Eintritt in den Beruf, Ehe-
zeiten, etc.), die im Rahmen der Ereignisanalyse (engl.: event history analysis; Analy-
se von Verweildauern, Wartezeiten, etc.) statistisch analysiert werden. Ereignisdaten
lassen sich auch im Rahmen von Querschnittsuntersuchungen erheben. Beispie-
le für Umfragen, in denen u.a. auch solche Daten erhoben werden oder wurden,
sind das Soziökonomische Panel des Deutschen Instituts für Wirtschaftsforschung
(DIW) in Berlin oder die Lebenslaufstudie des Max-Planck-Instituts für Bildungs-
forschung in Berlin. Auch Zeitbudgetstudien erheben solche Daten. Ihre Erhebung
erfordert oft den Einsatz spezifischer Erhebungsinstrumente wie z.B. Kalendarien.

Umfragen in Netzwerkstudien
Umfragen erlauben auch die Erhebung sozialer, egozentrierter Netzwerke (vgl.;
Bien & Marbach, 2008; Burt, 1984; McCallister & Fisher, 1978), wobei die Erhe-
bung von Netzwerken auch über das Web erfolgen kann (vgl. z.B. Manfreda, Veho-
var & Hlebec, 2004).

Umfragen in vergleichenden Untersuchungen


Umfragen spielen eine wichtige Rolle in vergleichenden Studien, etwa in Regional-
vergleichen, wobei oft bestimmte Merkmale und Teilpopulationen im Mittelpunkt
der Untersuchung stehen (vgl. z.B. Nauck & Bertram, 2005 in Bezug auf die Le-
bensverhältnisse von Kindern, Bundesministerium für Familie, Senioren, Frauen
und Jugend, 2012 in Bezug auf Familien) oder in Städtevergleichen, z.B. in Bezug
auf die Attraktivität als touristisches Ziel. Im Rahmen der Erhebung objektiver und
subjektiver sozialer Indikatoren wie Einkommen, Bevölkerungsstruktur, Lebens-
zufriedenheit, etc. werden Daten für regionale und internationale Vergleiche von
Staat und Gesellschaft bereitgestellt. Die Vergleiche erfolgen dabei in der Regel eher
rein deskriptiv mit graphischer Unterstützung (vgl. z.B. die Datenreports, heraus-
gegeben vom Statistischen Bundesamt und dem Wissenschaftszentrum Berlin und
in Zusammenarbeit mit dem Sozioökonomischen Panel). Das European System
of Social Indicators dient dem systematischen Monitoring der sozialstrukturellen
Veränderungen in Europa und enthält mehr als 600 Indikatoren in 13 Lebensbe-
reichen für den innereuropäischen Vergleich. Es erlaubt außerdem den Vergleich
mit außereuropäischen Referenzgesellschaften und kann über das System SIMon
(Social Indicators Monitor) von GESIS zusammen mit dem deutschen System sozi-
aler Indikatoren benutzt werden (vgl. http://www.gesis.org). Mit dem Ziel, zu einer
54 I.8 Umfragen im Rahmen spezieller Forschungsdesigns

Standardisierung der Regionalisierung von Umfragedaten mit Empfehlungen für


die Typisierung von Gebieten einschließlich der Georeferenzierung und für die
Nutzung von regionalen Hintergrundinformationen und geeigneten Datenquellen,
beizutragen, wurden vom Statistischen Bundesamt, dem Arbeitskreis Deutscher
Markt- und Sozialforschungsinstitut sowie der Arbeitsgemeinschaft Sozialwissen-
schaftlicher Institute die „Regionalen Standards“ herausgegeben (vgl. Arbeitsgrup-
pe Regionale Standards, 2013).
In international vergleichenden Studien, die oft auch als interkulturell ver-
gleichende Studien angelegt sind, werden Umfragen in mehreren Ländern paral-
lel durchgeführt (vgl. Harkness, Van de Vijver & Mohler, 2003; Harkness, 2008;
Harkness et al., 2010), was die Lösung einer Reihe spezifischer Probleme erfor-
dert. Dazu gehören die Harmonisierung und vergleichbare Konzeptualisierung von
Variablen wie z.B. Bildung (vgl. die Beiträge in Hoffmeyer-Zlotnik & Wolf, 2003;
Hoffmeyer-Zlotnik & Warner, 2013a, 2013b; Granda, Wolf & Hadorn, 2010), der
Entwurf semantisch äquivalenter Erhebungsinstrumente (vgl. z.B. Johnson, 2003)
oder die Ziehung internationaler Stichproben (vgl. Häder & Gabler, 2003; Häder
& Lynn, 2007; Heeringa & O’Muircheartaig, 2010). Da internationale Stichproben
sich dadurch auszeichnen können, dass einige der beteiligten Nationen unter-
schiedliche Stichprobendesigns verwenden, gilt es die daraus resultierenden Effekte
zu bestimmen und zu kontrollieren (vgl. Gabler, Häder & Lynn, 2006).
Interkulturelle Studien sind nicht auf internationale Studien beschränkt, da es
auch in einer einzelnen Nation kulturell unterschiedene Subgruppen geben kann.
Diese können allerdings nicht immer im Voraus an bekannten beobachteten Merk-
malen festgemacht werden und äußern sich daher in einer unbeobachteten He-
terogenität, die mit Hilfe von Klassifikationsverfahren und/oder Mischverteilungs-
modellen (engl.: mixture models; Arminger & Stein, 1997; McLachlan & Peel, 2000)
aufgedeckt werden kann.
In der vergleichenden statistischen Analyse können alle inferenzstatistischen
Verfahren des Vergleichs von einfachen und multivariaten Mittelwertvergleichen
bis zur univariaten und multivariaten Varianz- und Kovarianzanalyse sowie Me-
thoden des Vergleichs von Antwortfunktionen (vgl. Saris, 2003a) und multiplen
Gruppenvergleichen von Strukturgleichungsmodellen angewendet werden (vgl.
z.B. Billiet, 2003; Faulbaum, 1990). Die zuletzt genannten Vergleiche können ins-
besondere zum Vergleich der Eigenschaften von Messmodellen herangezogen
werden, wozu auch die theoretische Validität und die Reliabilität gehören. Unter-
stützt werden können diese Analysen durch spezifische Umfragedesigns wie Mul-
titrait-Multimethod-Designs (vgl. Saris, 2003b; Saris & Gallhofer, 2007). Besonde-
re Sorgfalt ist in interkulturell vergleichenden Umfragen auf die Übersetzung zu
legen, (vgl. z.B. Harkness, Pennell, Schoua-Glucksberg, 2004; Harkness, Villar &
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 55

Edwards, 2010), weil die messtheoretische Vergleichbarkeit wie die interkulturelle


Äquivalenz von Messungen durch die Übersetzung beeinflusst werden kann (vgl.
Davidov & De Beuckelaer, 2010).

Umfragen in Kohortenstudien
Bei Kohortenstudien werden Individuen, bei denen zum annähernd gleichen Zeit-
punkt ein spezielles Lebensereignis eingetreten ist, untersucht. Ein Beispiel stellen
Geburtenkohorten dar. Kohorten wurden etwa in der oben erwähnten Lebenslauf-
studie erhoben. Kohortenstudien erlauben Intra- und Interkohortenvergleiche.
Durch spezifische Designs lassen sich Perioden- von Alters- und Periodeneffekte
trennen (vgl. z.B. Mayer & Huinink, 1990).

Umfragen in experimentellen Studien


Wie bereits oben erwähnt, stellt eine Umfrage selber kein experimentelles Design
dar, sondern ein „ex-post-facto“-Design dar (vgl. Campbell & Stanley, 1963). Erst
nachdem die Umfrage realisiert wurde, lassen sich in der statistischen Analyse
Unterschiede zwischen Subgruppen prüfen, die sich durch bestimmte Merkma-
le auszeichnen. Umfragen werden seit längerer Zeit aber auch in genuin experi-
mentellen Studiendesigns als Erhebungsverfahren eingesetzt (vgl. z.B. die Beiträge
in Keuschnigg & Wolbring, 2015). Beispiele sind der Einsatz von Umfragen bei
Choice-Experimenten, bei denen die Respondenten aufgefordert werden, sich zwi-
schen verschiedenen Handlungsalternativen zu entscheiden, wobei sich die Alter-
nativen durch verschiedene Attribute mit bestimmten Abstufungen unterscheiden
können. Dabei kommen unterschiedliche experimentelle Anordnungen zur An-
wendung. In sozialwissenschaftlichen Fragestellungen werden die experimentellen
Bedingungen oft in Form sog. Vignetten vorgegeben (vgl. Rossi, 1979). Vignetten
sind Aussagen, die auf einer Antwortdimension bewertet werden sollen und die
eine bestimmte Kombination von Treatment-Bedingungen zum Ausdruck brin-
gen. Umfragen im Rahmen solcher Designs werden auch als faktorielle Surveys
bezeichnet (Rossi & Anderson, 1982; Liebig, Sauer & Friedhoff, 2015).
Mit Hilfe experimenteller Designs lassen sich auch die Wirkungen von Merk-
malen untersuchen, die einen Einfluss auf verschiedene Aspekte der Umfragequa-
lität wie Befragten-Verhalten und Antwortqualität, wie die Teilnahmebereitschaft,
etc. haben. Ein bekanntes Beispiel ist die Anwendung von „split ballot“-Designs
bei Pretests (vgl. Fowler, 2001; Krosnick, 2011). Voraussetzung ist, dass sich die
Untersuchungseinheiten, z.B. Befragte, Interviewer, etc. nach Zufall auf die experi-
mentellen Bedingungen verteilen lassen. Zur Optimierung des Erhebungsdesigns
56 I.8 Umfragen im Rahmen spezieller Forschungsdesigns

und zur Kontrolle der Wirkungen der Kommunikationsform werden Befragte in


Umfragen gelegentlich nach Zufall verschiedenen Modes, z.B. Telefon oder Web,
zugeordnet (vgl. z.B. Fricker et al., 2005).

Umfragedaten in Simulationsstudien
Umfragedaten können die Datenbasis für Mikrosimulationen abgeben (vgl. z.B. Es-
ser 1991; Gilbert & Troitzsch, 2005; Heike & Sauerbier, 1997; Leim 2008; Sauerbier,
2002; Troitzsch & Möhring, 1988). Dabei werden Daten von Umfragen wie des So-
zioökonomischen Panels oder des Mikrozensus in ein formales Simulationsmodell
eingespeist, das dann auf dieser Basis zukünftige demographische Entwicklungen
berechnet.

Mikro-Makroinformationen in Umfragedaten: Mehrebenen-Analyse


Wird als Design der Stichprobenauswahl ein mehrstufiges Verfahren eingesetzt, in
dem zunächst eine Menge von Makro- oder Mesoeinheiten (z.B. Schulen, Gemein-
den, Haushalte, Betriebe, etc.) gezogen wird, aus denen dann wiederum eine Menge
von Mikroeinheiten (z.B. Schüler, Haushalte, Haushaltsmitglieder, Mitarbeiter, Nach-
barschaftskontexte, etc.) gezogen wird, werden in einer Umfrage Informationen über
Makroeinheiten erhoben oder werden Umfragedaten Informationen über Makroein-
heiten zugespielt, so können diese Daten mit Hilfe von Verfahren der Mehrebenen-
analyse analysiert werden (vgl. z.B. Engel, 1998; Hox, 2010; Snijders & Bosker, 2012).
In der Mehrebenenanalyse geht es um das Zusammenspiel der Zusammenhänge zwi-
schen den Merkmalen der Mikroeinheiten, zwischen den Merkmalen der Makroein-
heiten sowie zwischen den Merkmalen der Makroeinheiten und den Merkmalen der
Mikroeinheiten. Im einfachsten Fall einer Makroebene, bei der das einzige Merkmal
eine feste Gruppenzugehörigkeit ist, z.B. die Zugehörigkeit zu einer Partei, ergibt sich
nach der Dummy-Codierung der Gruppenzugehörigkeit das einfache Modell einer
Varianzanalyse mit parallel verschobenen Interzepten (Abschnitten auf der y-Achse
für x=0). Die Modelle werden sehr schnell komplexer, wenn man bei zufälliger Aus-
wahl der Makroeinheiten die Interzepte und die Regressionskoeffizienten zwischen
den Makroeinheiten zufällig variieren lässt und wenn außerdem im multivariaten Fall
mehr als eine abhängige Variable vorliegt. Interessante Anwendungen ergeben sich
für die Analyse der Effekte von Eigenschaften von Einheiten einer höheren Aggre-
gatstufe auf die Einheiten einer niedrigeren Aggregatstufe. Auch andere Designs, die
nicht explizit als Mehrebenen-Studien konzipiert wurden, lassen sich durch Mehre-
benen-Modelle beschreiben. Ein Beispiel sind Panelstudien (vgl. z.B. Singer & Willett,
2003). In diesem Fall werden die Aggregateinheiten (zweite Ebene) durch die Indivi-
I.9 Durchführung von Umfragen auf der Basis von Access-Panels 57

duen und die Einheiten der ersten Stufe durch die Messzeitpunkte definiert. Anwen-
dungen lassen sich auch in der Analyse von Interviewer-Einflüssen finden, wenn die
Interviewer als Einheiten der zweiten Ebene und die Messwerte als Einheiten erster
Stufe eingeführt werden. So untersuchten Pickery und Loosveldt (1999, 2001, 2004)
mit Hilfe der Mehrebenenanalyse verschiedene Interviewereffekte, wobei u.a. gezeigt
wird, wie mit diesem Verfahren Ausnahmeinterviewer identifiziert werden können.
Sinibaldi, Durrant und Kreuter (2013) führen als zweite Ebene Kreuzklassifikationen
von Regionen und Interviewern ein, um deren Auswirkungen auf die Korrektheit
von Interviewer-Beobachtungen als Paradaten zu prüfen. Weitere Beispiele für das
Studium von Interviewer-Effekten geben Campanelli und O’Muircheartaig (2002),
Hox, De Leeuw und Kreft (1991) und Hox (1994).

I.9 Durchführung von Umfragen auf der Basis von


Access-Panels

Bei einem Access-Panel handelt es nicht, wie der Name vermuten ließe, um eine Pa-
nelstudie im klassischen Sinn (siehe oben), sondern um einen Pool von Befragten,
die sich im Verlauf eines Rekrutierungsvorgangs bereit erklärt haben, an weiteren
Befragungen. teilzunehmen. Mit einem Access-Panel lassen sich unterschiedliche
Studiendesigns realisieren (vgl. Abbildung I.10). Ein Access-Panel

• gestattet die Beobachtung und Messung von Richtung und Ausmaß an Verän-
derungen (gilt auch für die klassische Panelstudie);
• bietet die Möglichkeit der gezielten Befragung von Substichproben, die sich
durch bestimmte Merkmale (z.B. soziodemografische Merkmale, wie eine be-
stimmte Geburtskohorte oder bestimmte Gesundheitsmerkmale) auszeichnen,
ohne dass diese Spezialstichproben neu rekrutiert werden müssen (Verkürzung
der Kontaktphase);
• erlaubt interventionsbezogene, evaluative Erhebungen, in denen der Erfolg von
Maßnahmen (z.B. amtliche Verordnungen) abgeschätzt werden kann, die große
Bevölkerungsteile betreffen;
• erlaubt flexible Forschungsdesigns, insbesondere auch für unterschiedliche Ar-
ten von Längsschnittdesigns;
• erlaubt kurzfristige Ad-hoc-Erhebungen, die sich auf kurzfristig relevant ge-
wordene Inhalte beziehen;
• spart Rekrutierungskosten bei Folgebefragungen;
58 I.9 Durchführung von Umfragen auf der Basis von Access-Panels

• erlaubt die Abkürzung der Kontaktphase bei Folgebefragungen.

Im Unterschied zu einer klassischen Panelstudie müssen Befragungen von Teil-


nehmern eines Access-Panels also nicht notwendig in bestimmten Zeitinterva-
llen (Wellen) erfolgen. Vielmehr ergibt sich die Möglichkeit, ad-hoc-Befragun-
gen bestimmter Teilgruppen des Access-Panels (z.B. bestimmter Altersgruppen)
herauszugreifen und zu ausgewählten Themen zu befragen. Access-Panels lassen
sich grundsätzlich in allen Kommunikationsformen und ihren Mischungen („Mi-
xed-Mode“-Befragungen) durchführen, wobei innovative Erhebungsmethoden
zum Einsatz kommen können (vgl. Scherpenzeel, 2016).

Abbildung 1.13: Realisierbare Untersuchungsformen bei Access-Panels

Da im Fall eines Access-Panels nicht immer alle Teilnehmer in eine Befragung


eingebunden werden müssen, ergibt sich die Möglichkeit einer gezielten Kontrol-
le von Paneleffekten. Qualitätsanforderungen an Access-Panels sind in der inter-
nationalen ISO-Norm 26362 verbindlich gemacht worden (vgl. Österreichisches
Normungsinstitut, 2010). Um die Qualität eines Access-Panels zu sichern, muss
I.9 Durchführung von Umfragen auf der Basis von Access-Panels 59

ein erheblicher Aufwand für Panelverwaltung (Panelmanagement) und Panelpflege


betrieben werden.
Panelverwaltung und Panelpflege können eine ganze Reihe qualitätssichernder
Maßnahmen beinhalten. Dazu gehören:
• Die Kontaktpflege (z.B. Beantwortung von Rückfragen der Teilnehmer) und
das Updating von Teilnehmerinformationen (Updating von Adressänderun-
gen, etc.). Dies kann z.B. dadurch geschehen, dass jeder Teilnehmer mindestens
1 x pro Jahr, z.B. im Rahmen der geplanten Umfragen kontaktiert wird;
• Dokumentation der Teilnahmegeschichte aller Panelteilnehmer, um einen Über-
blick darüber zu behalten, wer wann befragt wurde, um auf diesem Weg auch
Paneleffekte zu kontrollieren;
• Die kontinuierliche Kontrolle der statistischen Eigenschaften des Panels (Ab-
gleich der Verteilung der demografischen Merkmale mit der amtlichen Statistik
und mit anderen vergleichbaren Datensätzen), da die Panelmitglieder kontinu-
ierlichen Veränderungen in den soziodemographischen Variablen unterworfen
sind, die nicht notwendig die Dynamik in der Population widerspiegeln;
• Vergleich der Panelstichprobe mit einer Kontrollgruppe ca. 1 x pro Jahr, um
Paneleffekte abschätzen und kontrollieren zu können;
• Statistische Analysen der Teilstichprobe von Personen, die innerhalb eines Jah-
res nicht kontaktierbar waren und daher als Panelteilnehmer ausscheiden.
Innerhalb von 12 Monaten nach Etablierung des Panels sollte jeder Teilnehmer ein-
mal für eine Umfrage kontaktiert worden sein. Informationen, die bei Einzelum-
fragen über die Teilnahmebereitschaft und die Kontaktphase gesammelt werden,
werden in die Panelkontaktdatenbank aufgenommen werden, in der die Teilnahme-
geschichte dokumentiert wird. Personen, die in mehr als fünf Umfragen nicht kon-
taktierbar waren, sollten als Ausfälle gewertet und aus dem Panel ausgeschlossen
werden. Inzwischen gibt es Softwareprodukte auf dem Markt, die die Rekrutierung
und Verwaltung von Online-Access-Panels übernehmen.
Bezogen auf die Kommunikationsform kann ein Access-Panel sowohl ein Off-
line-Panel (z.B. telefonisches Panel) oder ein Online-Panel sein. Will man eine
Einteilung nach der Administrationsform vornehmen, so könnte man zwischen
Interviewer-administrierten und Selbst-administrierten Access-Panels unterschei-
den. Auch Mischformen sind denkbar (vgl. Engel et al., 2013) in Bezug auf ein
gemischtes Panel mit einem Telefonzweig und einem Onlinezweig).
Sind Schätzungen von Parametern einer Zielpopulation beabsichtigt, muss die
Rekrutierung von Teilnehmern für Online-Access-Panels auf der Basis einer wohl
definierten Auswahlgrundlage und nach dem Prinzip der Zufallsauswahl erfolgen
was in der Regel eine Offline-Rekrutierung erfordert. Oft werden insbesondere in
60 I.9 Durchführung von Umfragen auf der Basis von Access-Panels

der Marktforschung Teilnehmer über einen längeren Zeitraum im Zusammenhang


mit in diesem Zeitraum stattfindenden Umfragen rekrutiert. Obgleich die Rekru-
tierung zufällig erfolgt, erlaubt dieses Verfahren keine Feststellung mehr, aus wel-
cher Grundgesamtheit die Teilnehmer für das Access-Panel eigentlich rekrutiert
wurden. Die über ein Access-Panel rekrutierten Teilnehmer werden für bestimmte
inhaltliche Themenstellungen gezielt nach Merkmalen ausgewählt und für die Teil-
nahme honoriert (z.B. durch Bonuspunkte). Methodisch besonders problematisch
sind Teilnehmerrekrutierungen für Access-Panels via Website, da die Auswahl-
grundlage in diesem Fall unbekannt ist. In diesem Fall ist mit Effekten der Selbst-
selektion zu rechnen, die mit Hilfe nicht ganz unproblematischer Gewichtungs-
verfahren etwa durch Einbeziehung von Referenzsurveys (vgl. Teil VI)korrigiert
werden müssen. Die angesprochenen Probleme sind überwiegend theoretischer
Natur. Deren praktische Auswirkungen können aber für bestimmte Fragestellun-
gen möglicherweise in Kauf genommen werden.
Die Offline-Rekrutierung von Teilnehmern für ein Online-Access-Panel er-
folgt in der Regel mehrstufig (Frage nach Teilnahmebereitschaft, Frage ob On-
line-Zugang, Frage nach E-Mail-Adresse, Verifizierung der E-Mail-Adresse,
Einladungsmail). Auf jeder Stufe kann es Ausfälle geben. In wissenschaftlichen
Anwendungen kann die Rekrutierung von Teilnehmern in zwei Phasen zerlegt
werden, in eine Rekrutierungsphase, in der die Teilnehmer rekrutiert werden
und in eine Initialisierungsphase, in welcher von den rekrutierten Teilnehmern
zusätzliche Informationen erhoben werden. Zur Abschätzung der Panelqualität
ist eine statistische Analyse des Rekrutierungsverlaufs sowie der nachfolgen-
den Nutzungsphasen erforderlich. Ein akribisches Beispiel für solche Analysen
liefern Engel et al. (2013). Ein methodisch anspruchsvolles, hervorragend do-
kumentiertes Panel ist das LISS (Longitudinal Internet Studies for the Social
Sciences) –Panel des MESS (Advanced Multi-Disciplinary Facility for Measu-
rement and Experimentation in the Social Sciences), einer an der Universität
Tilburg angesiedelten Forschungsinfrastruktur (vgl. z.B. Das, 2012). Für Zwe-
cke der akademischen Sozialforschung steht das von GESIS betreute gemischte
GESIS-Panel, deren Teilnehmer online oder schriftlich befragt werden können
(Website: http://www.gesis.org/unser-angebot/daten-erheben/gesis-panel/). Weitere
Access Panels für die Forschung sind das German Internet Panel (GIP) des Sonder-
forschungsbereichs 884 „Politische Ökonomie von Reformen“ an der Universität
Mannheim (Website: http://reforms.uni-mannheim.de/english/internet_panel/home/)
und das französische Panel ELIPSS des L’Institut National d’Études Démogra-
phiques (INED) und des Centre National de la Recherche Scientifique (CNRS
(Website: http://www.elipss.fr/elipss/recruitment/)).
I.10 Beispiele für Umfragen 61

Die Entscheidung für den Aufbau eines Access-Panels ist strenggenommen ei-
gentlich keine Frage des Forschungsdesigns, sondern betrifft eher eine praktische
Form der zielorientierten Rekrutierung von Stichproben und hätte daher auch in
Teil V vorgestellt werden können. Für die Einbeziehung an dieser Stelle spricht,
dass ein Access Panels die Grundlage für die Realisierung unterschiedlicher For-
schungsdesigns sein kann. Stichprobentheoretisch wird mit der Auswahl von Stich-
proben für Umfragen aus einem Access-Panel ein Zweiphasendesign realisiert.

I.10 Beispiele für Umfragen

I.10.1 Nationale Umfragen (Auswahl)

Wichtige Beispiele für Bevölkerungsumfragen sind:

Allgemeine Bevölkerungsumfragen der Sozialwissenschaften (ALLBUS)


Bei den allgemeinen Bevölkerungsumfragen der Sozialwissenschaften handelt es
sich um Bevölkerungsumfragen, die seit 1980 alle zwei Jahre als Serviceleistung
für die sozialwissenschaftliche Forschung und Lehre an einem repräsentativen
Querschnitt der Bevölkerung durchgeführt werden. Sie werden von einem am
Leibniz-Institut für Sozialwissenschaften angesiedelten Forschungsdatenzentrum
„ALLBUS“ betreut. Die Daten werden interessierten Forschern und Instituten nach
Aufbereitung und Dokumentation zur Verfügung gestellt. Die einzelnen Quer-
schnitte haben unterschiedliche inhaltliche Schwerpunkte. Außerdem enthalten
sie Replikationen von Fragen, um auf diese Weise Trendanalyse zu ermöglichen.
Weitere Informationen sind über die folgende Website zu erhalten:
Website:
http://www.gesis.org/dienstleistungen/daten/umfragedaten/allbus/

Das Sozioökonomische Panel (SOEP) des Deutschen Instituts für Wirt-


schaftsforschung (DIW)
Das Sozioökonomische Panel ist eine Wiederholungsbefragung (Längsschnittde-
sign), die seit 1984 durch das SOEP-Forschungsdatenzentrum jährlich durchge-
führt wird und auf diese Weise nicht nur Trendanalysen, sondern auch Analysen
individueller Veränderungen erlaubt. Sie ermöglicht über die Befragung aller
62 I.10 Beispiele für Umfragen

Haushaltmitglieder eine Einbeziehung des Haushaltkontexts. Über die Einbezie-


hung kleinräumiger regionaler Indikatoren werden auch Analysen unter Einbe-
ziehung des regionalen Kontexts möglich. Schließlich enthält das SOEP auch eine
Ausländerstichprobe (Haushalte mit türkischen, jugoslawischen, spanischen, italie-
nischen und griechischen Haushaltsvorständen) sowie eine Zuwandererstichprobe.
Mit Hilfe des SOEP können eine Vielzahl sozial- und wirtschaftswissenschaftlicher
und verhaltenswissenschaftlicher Theorien getestet werden. Der Datensatz gibt
Auskunft über objektive Lebensbedingungen, Wertvorstellungen, Persönlichkeits-
eigenschaften, den Wandel in verschiedenen Lebensbereichen und über die Ab-
hängigkeiten, die zwischen Lebensbereichen und deren Veränderungen existieren.
Anregungen der Nutzerinnen und Nutzer für theoriegeleitete Verbesserungen der
Erhebung werden regelmäßig aufgegriffen. Weitere Informationen sind über die
folgende Website zu erhalten:
Website:
http://www.diw.de/de/diw_02.c.221178.de/ueber_uns.html

Mikrozensus
Der Mikrozensus wird vom Statistischen Bundesamt der Bundesrepublik orga-
nisatorisch und technisch betreut. Die Erhebung erfolgt durch die Statistischen
Landesämter. Der Mikrozensus erhebt seit 1957, in den neuen Bundesländern seit
1991, Daten zur Bevölkerungsstruktur, die wirtschaftliche und soziale Lage der Be-
völkerung, der Familien, Lebensgemeinschaften und Haushalte, die Erwerbstätig-
keit, Arbeitsuche, Aus- und Weiterbildung, Wohnverhältnisse und Gesundheit. Für
eine Reihe kleinerer Erhebungen der empirischen Sozial- und Meinungsforschung
sowie der amtlichen Statistik dient der Mikrozensus als Hochrechnungs-, Adjus-
tierungs- und Kontrollinstrument. Ein wichtiges Instrument für europäische und
nationale Nutzer ist daneben die in den Mikrozensus integrierte Arbeitskräftestich-
probe, die in allen EU-Mitgliedsstaaten harmonisiert ist und Vergleiche zu Fragen
der Erwerbsbeteiligung und Erwerbslosigkeit ermöglicht. Die meisten Merkmale
der Arbeitskräfteerhebung sind zugleich Merkmale des Mikrozensus. Der Mikro-
zensus beinhaltet eine Zufallsstichprobe von 1% der Bevölkerung, bei der jeder
Haushalt die gleiche Wahrscheinlichkeit besitzt, in die Stichprobe zu kommen. Die
Durchführung des Mikrozensus wird auf der Grundlage spezieller gesetzlicher Be-
stimmungen durchgeführt. Für die ausgewählten Teilnehmer besteht Auskunfts-
pflicht.
I.10 Beispiele für Umfragen 63

Website:
http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Presse/
abisz/Mikrozensus,templateId=renderPrint.psml

Nationales Bildungspanel (NEPS: National Educational Panel Study


NEPS)
Das nationale Bildungspanel erhebt Daten zu zentralen Bildungsprozessen und
-verläufen über die gesamte Lebensspanne. Die Ziele dieser Studie beziehen sich
auf Fragen, wie sich Kompetenzen im Lebenslauf entfalten, wie Kompetenzen Ent-
scheidungsprozesse an verschiedenen kritischen Übergängen der Bildungskarrie-
re beeinflussen (und umgekehrt), wie und in welchem Umfang Kompetenzen von
Lerngelegenheiten in der Familie, der Gruppe Gleichaltriger und der Gestaltung
von Lehr- und Lernprozessen in Kindergarten, Schule, Hochschule und Berufsaus-
bildung sowie Weiterbildung beeinflusst werden. Zudem soll geklärt werden, wel-
che Kompetenzen für das Erreichen von Bildungsabschlüssen, welche für lebens-
langes Lernen und welche für ein erfolgreiches individuelles und gesellschaftliches
Leben maßgeblich sind. Dazu ist es notwendig, dass Kompetenzentwicklungen
nicht nur im Kindergarten oder im allgemeinbildenden Schulsystem, sondern auch
in der beruflichen Ausbildung, im Studium und nach Verlassen des Bildungssys-
tems gemessen werden. NEPS wird vom Bundesministerium für Wissenschaft und
Forschung unterstützt und von einem Leitungsteam an der Otto-Friedrich-Univer-
sität Bamberg koordiniert und geleitet.
Website:
http://www.uni-bamberg.de/neps/

pairfam – Das Beziehungs- und Familienpanel


Das Beziehungs- und Familienpanel pairfam (Panel Analysis of Intimate Relati-
onships and Family Dynamics) ist eine repräsentative, interdisziplinäre Längs-
schnittstudie zur Erforschung partnerschaftlicher und familialer Lebensformen
in der Bundesrepublik Deutschland. Erhoben werden Informationen zu Partner-
schaft, Elternschafts-Entscheidungen, intergenerationale Beziehungen, Erziehung
und kindliche Entwicklung sowie soziale Einbettung. Das auf 14 Jahre angelegte
Projekt wird von der Technischen Universität Chemnitz, der Universität Bremen,
der Ludwig-Maximilians-Universität München sowie der Universität Mannheim
koordiniert. Die Wiederholungen der Befragungen finden in jährlichem Abstand
statt. Die erste Befragung erfolgte 2008/2009.
64 I.10 Beispiele für Umfragen

Website:
http://www.pairfam.uni-bremen.de/

Einkommens- und Verbrauchsstichprobe (EVS)


Die Einkommens- und Verbrauchsstichprobe erhebt Daten zur Ausstattung von
privaten Haushalten mit Gebrauchsgütern, die Einkommens-, Vermögens- und
Schuldensituation sowie die Konsumausgaben. Die Einkommens- und Verbrauchs-
stichprobe wird auf gesetzlicher Grundlage vom Statistischen Bundesamt und den
Statistischen Landesämtern erhoben. Die organisatorische und technische Vorbe-
reitung sowie Datenaufbereitung und Ergebnisvermittlung liegen beim Statisti-
schen Bundesamt. Rekrutierung der Haushalte und Durchführung der Erhebung
liegen dagegen bei den Statistischen Landesämtern. Eine gesetzliche Verpflichtung
zur Teilnahme besteht nicht, das heißt alle Haushalte nehmen auf freiwilliger Basis
an der EVS teil. Im fünfjährigen Turnus werden rund 60.000 private Haushalte in
Deutschland im Rahmen der EVS befragt, darunter fast 13.000 Haushalte in den
neuen Ländern und Berlin-Ost. Die EVS ist damit die größte Erhebung dieser Art
innerhalb der Europäischen Union. Im früheren Bundesgebiet findet die EVS seit
1962/63 statt, in den neuen Ländern und Berlin-Ost seit 1993.
Website:
http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Presse/
abisz/Einkommens__Verbrauchsstichprobe,templateId=renderPrint.psml

IAB-Betriebspanel
Das Betriebspanel des Instituts für Arbeitsmarkt- und Berufsforschung befragt jähr-
lich im Zeitraum von Juni bis Oktober eine Zufallsstichprobe aus der Betriebsdatei
der Bundesagentur für Arbeit ca. 16.000 Betriebe aller Wirtschaftszweige und Grö-
ßenklassen zu betrieblichen Merkmalen wie Bestimmungsgrößen der Beschäfti-
gungsentwicklung (Produktion, Umsatz, Arbeitszeiten, Investitionen, Auslastung),
Personalnachfrage und Beschäftigungserwartungen (Vakanzen, offene Stellen, Fluk-
tuation, betriebliche Beschäftigungspolitik), Stand und Entwicklung der Technik und
Organisation sowie deren Auswirkungen auf Arbeitsplätze, Einflussgrößen auf die
Produktivität, z.B. technische, organisatorische und betriebswirtschaftliche Faktoren,
Daten zur Biografie von Betrieben, Inanspruchnahme von Fördermaßnahmen, Akti-
vitäten in der Aus- und Weiterbildung.
Website:
http://www.iab.de/de/erhebungen/iab-betriebspanel.aspx/
I.10 Beispiele für Umfragen 65

Panel Arbeitsmarkt und Soziale Sicherheit (PASS)


Das vom IAB durchgeführte Panel Arbeitsmarkt und soziale Sicherung stellt eine
Datengrundlage bereit, mit deren Hilfe die Dynamik des Grundsicherungsbezugs
und die soziale Lage von Haushalten im Grundsicherungsbezug untersucht werden
können. Es handelt sich um eine bundesweit durchgeführte, jährliche Wiederho-
lungsbefragung. Sie umfasst insgesamt ca. 12.000 Haushalte, die zum Teil telefo-
nisch und zum Teil persönlich befragt werden. Das Panel wird vom Institut für
Arbeitsmarkt- und Berufsforschung betreut.
Website:
https://www.iab.de/de/befragungen/iab-haushaltspanel-pass.aspx

Deutscher Alterssurvey
Der Deutsche Alterssurvey (DEAS) ist eine bundesweit repräsentative Quer- und
Längsschnittbefragung von Personen, die sich in der zweiten Lebenshälfte befinden
(d.h. 40 Jahre und älter sind). Der DEAS wird aus Mitteln des Bundesministeriums
für Familie, Senioren, Frauen und Jugend (BMFSFJ) gefördert. Die umfassende
Untersuchung von Personen im mittleren und höheren Erwachsenenalter dient
dazu, Mikrodaten bereitzustellen, die sowohl für die sozial- und verhaltenswissen-
schaftliche Forschung als auch für die Sozialberichterstattung genutzt werden. Die
erste Welle wurde im Jahr 1996 durchgeführt, die zweite Welle im Jahr 2002. Die
dritte Welle fand im Jahr 2008 statt. Erneut wurden Personen umfassend zu ihrer
Lebenssituation befragt, unter anderem zu ihrem beruflichen Status oder ihrem
Leben im Ruhestand, zu gesellschaftlicher Partizipation und nachberuflichen Ak-
tivitäten, zu wirtschaftlicher Lage und Wohnsituation, zu familiären und sonstigen
sozialen Kontakten sowie zu Gesundheit, Wohlbefinden und Lebenszielen. Der
DEAS wird vom Deutschen Zentrum für Altersfragen in Berlin betreut.
Website:
http://www.dza.de/nn_11404/DE/Forschung/Alterssurvey/alterssurvey__
node.html?__nnn=true

Politbarometer
Das Politbarometer ermittelt in repräsentativen Umfragen seit 1977 regelmä-
ßig Einstellungen zu Parteien, zur politischen Agenda und zu Spitzenpolitikern.
Gleichzeitig werden Meinungen zu aktuellen politischen und gesellschaftlichen
Themen erfragt und in leicht verständlicher Form in der ZDF-Sendereihe Polit-
66 I.10 Beispiele für Umfragen

barometer präsentiert. Die Umfrage wird von der Forschungsgruppe Wahlen in


Mannheim für das Zweite Deutsche Fernsehen (ZDF) durchgeführt.
Website:
http://www.forschungsgruppewahlen.de/Umfragen_und_Publikationen/Politba-
rometer/

Gesundheitssurveys des Robert-Koch-Instituts


Das Robert-Koch-Institut (RKI) ist ein Bundesinstitut im Geschäftsbereich des
Bundesministeriums für Gesundheit. Das RKI ist die zentrale Einrichtung der
Bundesregierung auf dem Gebiet der Krankheitsüberwachung und -prävention
und damit auch die zentrale Einrichtung des Bundes auf dem Gebiet der anwen-
dungs- und maßnahmenorientierten biomedizinischen Forschung. Es führte von
1984 bis 1991 nationale Gesundheitssurveys durch, ergänzt im Jahr 1992 durch den
Gesundheitssurvey Ost. Ab Oktober 1997 erfolgten die Erhebungen des Bundesge-
sundheitssurveys. Dabei wurden 7.124 Personen im Alter zwischen 18 und 79 Jah-
ren zu gesundheitsrelevanten Themen befragt. Zugleich wurden auch medizinische
Untersuchungen durchgeführt. Seit 2003 führt das RKI jährliche telefonische Ge-
sundheitssurveys (GEDA) durch, als Ergänzungen des Bundesgesundheitssurveys.
2009/2010 fand als Wiederholung des Bundesgesundheitssurveys von 1997/1998
die erste Welle der Studie zur Gesundheit Erwachsener in Deutschland (DEGS)
statt. Ergänzt werden die Erwachsenenbefragungen durch Kinderbefragungen
(KIGGS: Studien zur Gesundheit von Kindern und Jugendlichen in Deutschland).
Website:
http://www.rki.de

I.10.2 Internationale Umfragen

European Social Survey (ESS) 


Der ESS ist eine europaweite Umfrage, die die sozialen und politischen Einstellun-
gen von Bürgern in über 30 europäischen Ländern erhebt. Sie ist als Trendstudie
angelegt, d.h. als wiederholte Querschnittsbefragung konzipiert, die alle 2 Jahre
durchgeführt wird. Die erste Befragungswelle fand 2002/2003 statt. Neben einem
Kern von Fragen, die allen Ländern gleichgestellt werden, gibt es länderspezifische
Zusatzfragen sowie unterschiedliche thematische Schwerpunkte. Der ESS wird von
I.10 Beispiele für Umfragen 67

einer internationalen Koordinationsgruppe gesteuert. Die Leitung liegt beim Cen-


tre for Comparative Social Surveys der Londoner City University. Weitere Partner
sind GESIS – Leibniz Institut für Sozialwissenschaften (Deutschland), Norwegian
Social Science Data Service (NSD) (Norwegen), Katholieke Universiteit Leuven
(Belgien), Social and Cultural Planning Office (SCP) (Niederlande), Universitat
Pompeu Fabra (Spanien) und die Universität Ljubljana (Slowenien).
Website:
http://www.europeansocialsurvey.org/ (international)
http://www.europeansocialsurvey.de/ (national)

International Social Survey Programme (ISSP)


Das ISSP ist ein fortlaufendes Umfrageprogramm auf der Basis internationaler
Kooperationen, das jährlich durchgeführt wird. Es wurde 1984 ins Leben gerufen
und erhebt Daten zu wichtigen Themen der Sozialwissenschaften. Im Jahr 2010
nahmen, über die ganze Welt verstreut, insgesamt 47 Mitgliedsstaaten an dem Pro-
gramm teil. Die Teilnahme ist freiwillig und kann von Umfrage zu Umfrage wech-
seln. Inhaltliche Entscheidungen werden von allen Ländern gemeinsam getroffen.
Jedes Land finanziert die Umfrage im eigenen Land.
Website:
http://www.issp.org/

Standard und Spezial Eurobarometer


Aufgabe des Standard und Spezial Eurobarometer ist die Dauerbeobachtung der öf-
fentlichen Meinung in der Europäischen Union. Die Umfragen werden im Auftrag
der Europäischen Kommission seit den frühen 70er Jahren mindesten zweimal pro
Jahr von international renommierten Umfrageinstituten in allen Mitgliedsstaaten
der Gemeinschaft durchgeführt. In den 90er Jahren kamen die ad-hoc Flash Euro-
barometer, die Ost-Eurobarometer und später die Kandidatenländer hinzu.
Website:
http://ec.europa.eu/public_opinion/archives/eb_special_en.htm (international)
http://www.gesis.org/dienstleistungen/daten/umfragedaten/eurobarometer-da-
ta-service/(national)
68 I.10 Beispiele für Umfragen

The Survey of Health, Ageing and Retirement in Europe (SHARE)


SHARE ist eine internationale multidisziplinäre Panbelbefragung, die Daten über
Gesundheit, sozioökonomischen Status sowie soziale und familiale Netzwerke er-
hebt und an der mehr als 45,000 Personen im Alter von 50 und darüber teilneh-
men. Die Baseline-Studie wurde 2004 unter Beteiligung von 11 Nationen durchge-
führt. Die erhobenen Daten umfassen Gesundheitsvariablen (z.B. Selbstauskünfte
zur Gesundheit, Gesundheitsstatus, physische und kognitive Funktionstüchtigkeit,
Gesundheitsverhalten, Inanspruchnahme von Vorsorgeeinrichtungen), Bio-Mar-
ker (z.B. Greifstärke, Body-Mass-Index, Peak-Flow bzw. Stärke der Ausatmung),
psychologische Variablen (z.B..subjektives Gesundheitsempfinden, Lebensqualität,
Lebenszufriedenheit), ökonomische Variablen (gegenwärtige berufliche Tätigkeit,
berufliche Merkmale, Gelegenheiten zur Arbeit im Ruhestand, Quellen und Zu-
sammensetzung des Einkommens, Reichtum und Verbrauch, Wohneigenschaften,
Bildung), und Variablen der sozialen Unterstützung (z.B. Unterstützung innerhalb
der Familie, Transfers von Einkommen und Vermögen, soziale Netzwerke, ehren-
amtliche Tätigkeiten). Das SHARE-Projekt wird von Mannheimer Forschungsins-
titut Ökonomie und Demographischer Wandel (MEA: Mannheim Research Insti-
tute for the Economics of Aging).
Website:
http://www.share-project.org/

Programme for the International Assessment of Adult Competencies


(PIAAC)
PIACC ist eine weltweite Bevölkerungsumfrage der OECD, die in 26 Ländern
durchgeführt und von einem internationalen Konsortium gesteuert wird. PIAAC
hat zum Ziel, Fähigkeiten und Fertigkeiten von Erwachsenen zu identifizieren,
die den persönlichen und gesellschaftlichen Erfolg bedingen. Es wird erfasst, in
wieweit erwachsene Personen diese Fertigkeiten und Fähigkeiten im privaten und
beruflichen Alltag nutzen. Um einen Zusammenhang zwischen den Kompeten-
zen Erwachsener und möglichen Einflussfaktoren, wie zum Beispiel Bildung oder
Lernmotivation herzustellen, werden daneben wichtige demographische Informa-
tionen der befragten Personen erhoben.
Website:
http://www.oecd.org/document/57/0,3343,en_2649_33927_34474617_
1_1_1_1,00.html (international)
http://www.gesis.org/piaac/ (national)
I.10 Beispiele für Umfragen 69

Panel Study of Income Dynamics (PSID)


Der PISD ist eine Panelbefragung, die seit 1968 in den USA durchgeführt wird.
Teilnehmer sind 7.000 repräsentativ ausgewählte US-Familien. Erhoben werden
Daten zum ökonomischen, gesundheitlichen und sozialen Verhalten sowie Bildung
sowie zur Demographie. Sie wird betreut vom Survey Research Center, Institute for
Social Research, University of Michigan.
Website:
http://psidonline.isr.umich.edu/

European Union Statistics of Income and Living Conditions (EU-SILC)


Für die Gemeinschaftsstatistik über Einkommen und Lebensbedingungen (EU-
SILC) in Europa werden Erhebungen aktueller und vergleichbarer multidimen-
sionaler Quer- und Längsschnitt-Mikrodaten über Einkommen, Armut, soziale
Ausgrenzung und Lebensbedingungen durchgeführt. Sie ist im Europäischen Sta-
tistischen System (ESS) verankert. Befragt werden in den Querschnittserhebungen
130.000 Haushalte und 270.000 Personen im Alter ab 16 Jahren. In den Längs-
schnitterhebungen werden 100.000 Haushalte und 200.000 Personen im Alter ab
16 Jahren befragt.
Website:
http://epp.eurostat.ec.europa.eu/portal/page/portal/microdata/eu_silc

Longitudinal Internet Studies for the Social sciences (LISS)


LISS ist ein Online-Access-Panel von CentERdata, einem Institut für Sozialfor-
schung der Universität Tilburg (Niederlande). Es umfasst gegenwärtig 5.000 Haus-
halte der Niederlande. Es bildet das zentrale Element des MESS-Projekts. Das Panel
ist sehr gut dokumentiert und kontrolliert. Es kann auch von Forschern außerhalb
MESS in der Forschung verwendet werden.
Website:
http://www.lissdata.nl/lissdata/
In den USA und Großbritannien gibt es weitere sehr zahlreiche staatliche Umfra-
gen wie die verschiedenen Umfragen des „US Census Bureau“ zu Wirtschaft und
Demographie, den National Health Interview Survey (NHIS) des National Center
for Health Statistics oder den National Compensation Survey (NCS) des Bureau of
70 I.10 Beispiele für Umfragen

Labors Statistics. Mit diesen Surveys sind zahlreiche Methodenstudien der Umfra-
geforschung verbunden.

I.10.3 Datenzugang

Der Zugang zu Datensätzen wird in Deutschland über sog. Forschungsdatenzent-


ren (FDZ) geregelt, die Wissenschaftler/innen faktisch anonymisierte Datensätze,
sog. Scientific Use-Files zur Verfügung stellen. Faktisch anonymisierte Daten sind
Daten, die so anonymisiert wurden, dass von den Datennutzern nur mit einem
unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft eine Verbin-
dung zu den erhobenen Untersuchungseinheiten hergestellt werden kann. Zu den
Methoden der faktischen Anonymisierung gehören die Ziehung einer Substich-
probe, das Weglassen der Identifikationsnummern der Untersuchungseinheiten,
das Weglassen von Regionalinformationen (z.B. nur Nennung des Bundeslandes),
Weglassen der Staatsangehörigkeit bei Nationalitäten, deren Anteil unter einer be-
stimmten Grenze liegt.
Gegenwärtig (Stand August 2018) existieren nach Informationen des Rats für
Sozial- und Wirtschaftsdaten RatSWD folgende Forschungsdatenzentren
(vgl. http://www.ratswd.de/dat/fdz.php).

Forschungsdatenzentrum des Forschungsdatenzentrum der


Statistischen Bundesamtes Statistischen Ämter der Länder
(FDZ-Bund) (FDZ-Länder)
Forschungsdatenzentrum der Forschungsdatenzentrum der
Bundesagentur für Arbeit (BA) Rentenversicherung Bund (FDZ-RV)
im Institut für Arbeitsmarkt- und
Berufsforschung (IAB)
(FDZ BA im IAB)
Internationales Forschungsdatenzentrum Archiv für
Forschungsdatenzentrum des Gesprochenes Deutsch am Institut
Forschungsinstituts zur Zukunft der für Deutsche Sprache (FDZ AGD)
Arbeit (IZA) (FDZ IZA, IDSC)
I.10 Beispiele für Umfragen 71

Forschungsdatenzentrum im Forschungsdatenzentrum am
Bundesinstitut für Berufsbildung Institut zur Qualitätsentwicklung im
(BIBB-FDZ) Bildungswesen (IQB)
Forschungsdatenzentrum des Forschungsdatenzentrum ALLBUS
Sozioökonomischen Panels bei GESIS (FDZ ALLBUS)
(FDZ-SOEP)
Forschungsdatenzentrum Forschungsdatenzentrum Wahlen bei
Internationale Umfrageprogramme GESIS (FDZ Wahlen)
bei GESIS (FDZ Internationale
Umfrageprogramme)
Forschungsdatenzentrum des Survey Forschungsdatenzentrum des
of Health, Ageing and Retirement in Deutschen Zentrums für Altersfragen
Europe (SHARE) (FDZ SHARE) (FDZ-DZA)
Forschungsdatenzentrum Forschungsdatenzentrum des
PsychData des Leibniz-Zentrums Beziehungs- und Familienpanels
für Psychologische Information und (FDZ-pairfam)
Dokumentation
(FDZ PsychData des ZPID)
Forschungsdatenzentrum Ruhr LMU-ifo Economics & Business Data
am RWI-Leibniz-Institut für Center (EBDC)
Wirtschaftsforschung
(FDZ Ruhr am RWI)
Forschungsdatenzentrum Forschungsdatenzentrum German
„Gesundheitsmonitoring“ am Robert Microdata Lab bei GESIS
Koch-Institut (RKI) (FDZ GML)
(FDZ Gesundheitsmonitoring am
RKI)
Internationales Datenservicezentrum Forschungsdatenzentrum Betriebs-
des Forschungsinstituts zur Zukunft und Organisations-Daten (FDZ-BO)
der Arbeit (IZA)
Forschungsdatenzentrum Bildung am Forschungsdatenzentrum der
Deutschen Institut für Internationale Bundeszentrale für gesundheitliche
Pädagogische Forschung (DIPF) Aufklärung (FDZ BZgA)
(FDZ Bildung)
72 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

Forschungsdatenzentrum Forschungsdatenzentrum des


Wissenschaftsstatistik des Zentrums für europäische
Stifterverbandes für die Deutsche Wirtschaftsforschung (ZEW-FDZ)
Wissenschaft
(FDZ Wissenschaftsstatistik)
Forschungsdatenzentrum PIAAC bei Forschungsdatenzentrum des
GESIS (FDZ PIAAC) Leibniz-Instituts für Bildungsverläufe
e.V. an der Otto-Friedrich-Universität
Bamberg (FDZ-LIfBi)
Forschungsdatenzentrum des
Deutschen Jugendinstituts (FDZ-DJI)
Forschungsdaten- und
Servicezentrum der Bundesbank
(FDSZ Bundesbank)

Neben der Bereitstellung von Scientific Use-Files als sog. Off-Site-Nutzung gibt es
ferner die Möglichkeit der On-Site-Nutzung über kontrollierte Datenfernverarbei-
tung oder die Nutzung von Arbeitsplätzen für Gastwissenschaftler.
2013 wurde bei GESIS eine Registrierungsagentur für Sozial- und Wirtschafts-
daten da|ra gegründet, in der Wissenschaftler einen Zugang zu ihren Daten ermög-
lichen können (Website: http://www.da-ra.de/de/home/).

I.11 Rechtliche Rahmenbedingungen und Standesrichtli-


nien

I.11.1 Rechtliche Rahmenbedingungen

Die Durchführung von Umfragen unterliegt rechtlichen Rahmenbedingungen, die


im Wesentlichen durch das Bundesdatenschutzgesetz, die EU-Datenschutz-Grund-
verordnung sowie durch einschlägige Gerichtsurteile vorgegeben sind (vgl. hierzu
auch Häder, 1990). Daneben können einschlägige Bestimmungen des Sozialgesetz-
buchs und des Grundgesetzes wirksam werden. Zudem unterliegen Unternehmen
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 73

der Markt- und Meinungsforschung einer Meldepflicht beim zuständigen Landes-


datenschutzbeauftragten.
Ab 25. Mai 2018 gilt das Bundesdatenschutzgesetz neu (BDSG neu), das eine An-
passung des alten Bundesdatenschutzgesetzes an die EU-Datenschutz-Grundverord-
nung (EU-DSGVO) darstellt, welche den Datenschutz in der Europäischen Union
regelt. Die EU-Datenschutz-Grundverordnung wurde am 14. April 2016 vom EU-Par-
lament verabschiedet. Sie enthält zahlreiche Öffnungsklauseln, die eine Anpassung an
nationale Datenschutzrichtlinien erlauben. Das BDSG neu wurde als Teil des Daten-
schutz-Anpassungs- und -Umsetzungsgesetzes EU (DSAnpUG-EU) beschlossen.
Da das BDSG neu an vielen Stellen auf Artikel der EU-Datenschutz-Grund-
verordnung verweist, empfiehlt es sich, diese immer mit in den Blick zu nehmen.

Anwendungsbereich des BDSG neu


In § 1 wird der Anwendungsbereich des BDSG neu beschrieben. In Absatz 1
heißt es:

Dieses Gesetz gilt für die Verarbeitung personenbezogener Daten durch


1. öffentliche Stellen des Bundes,
2. öffentliche Stellen der Länder, soweit der Datenschutz nicht durch Landes-
gesetz geregelt ist und soweit sie
a) Bundesrecht ausführen oder
b) als Organe der Rechtspflege tätig werden und es sich nicht um Verwal-
tungsangelegenheiten handelt.

Für nichtöffentliche Stellen gilt dieses Gesetz für die ganz oder teilweise automati-
sierte Verarbeitung personenbezogener Daten sowie die nichtautomatisierte Verar-
beitung personenbezogener Daten, die in einem Dateisystem gespeichert sind oder
gespeichert werden sollen, es sei denn, die Verarbeitung durch natürliche Personen
erfolgt zur Ausübung ausschließlich persönlicher oder familiärer Tätigkeiten.
Weiter unten geht es in Absatz 4 um die Anwendung des Gesetzes auf nichtöf-
fentliche Stellen, wozu auch Institute der Markt- und Sozialforschung gehören:
Auf nichtöffentliche Stellen findet es Anwendung, sofern

1. der Verantwortliche oder Auftragsverarbeiter personenbezogene Daten im


Inland verarbeitet,
74 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

2. die Verarbeitung personenbezogener Daten im Rahmen der Tätigkeiten ei-


ner inländischen Niederlassung des Verantwortlichen oder Auftragsverar-
beiters erfolgt oder
3. der Verantwortliche oder Auftragsverarbeiter zwar keine Niederlassung in
einem Mitgliedstaat der Europäischen Union oder in einem anderen Ver-
tragsstaat des Abkommens über den Europäischen Wirtschaftsraum hat, er
aber in den Anwendungsbereich der Verordnung (EU) 2016/679 des Eu-
ropäischen Parlaments und des Rates vom 27. April 2016 zum Schutz na-
türlicher Personen bei der Verarbeitung personenbezogener Daten, zum
freien Datenverkehr und zur Aufhebung der Richtlinie 95/46/EG (Da-
tenschutz-Grundverordnung) (ABl. L 119 vom 4.5.2016, S. 1; L 314 vom
22.11.2016, S. 72) fällt.

Verarbeitung besonderer Kategorien personenbezogener Daten


Besondere Regelungen gelten für die Verarbeitung besonderer Kategorien perso-
nenbezogener Daten. Diese Daten sind gerade solche, mit denen es die Meinungs-
forschung in der Regel zu tun hat. Zu diesen Daten gehören:

• Rassische oder ethnische Herkunft


• Politische Meinungen
• Religiöse oder weltanschauliche Überzeugungen
• Gewerkschaftszugehörigkeit
• Genetische Daten
• Biometrische Daten Gesundheitsdaten
• Sexualleben sowie sexuelle Orientierung

Für die Umfrageforschung ist §27 von besonderer Bedeutung. Dort wird die Daten-
verarbeitung zu wissenschaftlichen oder historischen Forschungszwecken und zu
statistischen Zwecken geregelt. Dort heißt es:
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 75

1. Abweichend von Artikel 9 Absatz 1 der Verordnung (EU) 2016/679 ist die
Verarbeitung besonderer Kategorien personenbezogener Daten im Sinne
des Artikels 9 Absatz 1 der Verordnung (EU) 2016/679 auch ohne Einwilli-
gung für wissenschaftliche oder historische Forschungszwecke oder für statisti-
sche Zwecke zulässig, wenn die Verarbeitung zu diesen Zwecken erforderlich
ist und die Interessen des Verantwortlichen an der Verarbeitung die Interes-
sen der betroffenen Person an einem Ausschluss der Verarbeitung erheblich
überwiegen. Der Verantwortliche sieht angemessene und spezifische Maß-
nahmen zur Wahrung der Interessen der betroffenen Person gemäß § 22
Absatz 2 Satz 2 vor.
2. Die in den Artikeln 15, 16, 18 und 21 der Verordnung (EU) 2016/679 vor-
gesehenen Rechte der betroffenen Person sind insoweit beschränkt, als diese
Rechte voraussichtlich die Verwirklichung der Forschungs- oder Statistik-
zwecke unmöglich machen oder ernsthaft beinträchtigen und die Beschrän-
kung für die Erfüllung der Forschungs- oder Statistikzwecke notwendig ist.
Das Recht auf Auskunft gemäß Artikel 15 der Verordnung (EU) 2016/679
besteht darüber hinaus nicht, wenn die Daten für Zwecke der wissenschaft-
lichen Forschung erforderlich sind und die Auskunftserteilung einen unver-
hältnismäßigen Aufwand erfordern würde.
3. Ergänzend zu den in § 22 Absatz 2 genannten Maßnahmen sind zu wis-
senschaftlichen oder historischen Forschungszwecken oder zu statistischen
Zwecken verarbeitete besondere Kategorien personenbezogener Daten im
Sinne des Artikels 9 Absatz 1 der Verordnung (EU) 2016/679 zu anonymi-
sieren, sobald dies nach dem Forschungs- oder Statistikzweck möglich ist,
es sei denn, berechtigte Interessen der betroffenen Person stehen dem ent-
gegen. Bis dahin sind die Merkmale gesondert zu speichern, mit denen Ein-
zelangaben über persönliche oder sachliche Verhältnisse einer bestimmten
oder bestimmbaren Person zugeordnet werden können. Sie dürfen mit den
Einzelangaben nur zusammengeführt werden, soweit der Forschungs- oder
Statistikzweck dies erfordert.
4. Der Verantwortliche darf personenbezogene Daten nur veröffentlichen,
wenn die betroffene Person eingewilligt hat oder dies für die Darstellung von
Forschungsergebnissen über Ereignisse der Zeitgeschichte unerlässlich ist.
76 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

Angemessene Maßnahmen zur Wahrung der Interessen der betroffenen


Person
Nach Absatz 1 sind angemessene und spezifische Maßnahmen zur Wahrung der
Interessen der betroffenen Person vorzusehen. Diese werden in §22, Absatz 2 näher
beschrieben. Dort heißt es:
In den Fällen des Absatzes 1 sind angemessene und spezifische Maßnahmen
zur Wahrung der Interessen der betroffenen Person vorzusehen. Unter Berück-
sichtigung des Stands der Technik, der Implementierungskosten und der Art, des
Umfangs, der Umstände und der Zwecke der Verarbeitung sowie der unterschied-
lichen Eintrittswahrscheinlichkeit und Schwere der mit der Verarbeitung verbun-
denen Risiken für die Rechte und Freiheiten natürlicher Personen können dazu
insbesondere gehören:

1. technisch organisatorische Maßnahmen, um sicherzustellen, dass die Verar-


beitung gemäß der Verordnung (EU) 2016/679 erfolgt,
2. Maßnahmen, die gewährleisten, dass nachträglich überprüft und festgestellt
werden kann, ob und von wem personenbezogene Daten eingegeben, verän-
dert oder entfernt worden sind,
3. Sensibilisierung der an Verarbeitungsvorgängen Beteiligten,
4. Benennung einer oder eines Datenschutzbeauftragten,
5. Beschränkung des Zugangs zu den personenbezogenen Daten innerhalb der
verantwortlichen Stelle und von Auftragsverarbeitern,
6. Pseudonymisierung personenbezogener Daten,
7. Verschlüsselung personenbezogener Daten,
8. Sicherstellung der Fähigkeit, Vertraulichkeit, Integrität, Verfügbarkeit und
Belastbarkeit der Systeme und Dienste im Zusammenhang mit der Verarbei-
tung personenbezogener Daten, einschließlich der Fähigkeit, die Verfügbar-
keit und den Zugang bei einem physischen oder technischen Zwischenfall
rasch wiederherzustellen,
9. zur Gewährleistung der Sicherheit der Verarbeitung die Einrichtung eines
Verfahrens zur regelmäßigen Überprüfung, Bewertung und Evaluierung der
Wirksamkeit der technischen und organisatorischen Maßnahmen oder
10. spezifische Verfahrensregelungen, die im Fall einer Übermittlung oder Ver-
arbeitung für andere Zwecke die Einhaltung der Vorgaben dieses Gesetzes
sowie der Verordnung (EU) 2016/679 sicherstellen.
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 77

Die technisch organisatorischen Sicherheitsmaßnahmen (TOM) wurden im alten


BDSG in § 9 beschrieben Danach gilt es,

1. Unbefugten den Zutritt zu Datenverarbeitungsanlagen, mit denen perso-


nenbezogene Daten verarbeitet oder genutzt werden, zu verwehren (Zu-
trittskontrolle),
2. zu verhindern, dass Datenverarbeitungssysteme von Unbefugten genutzt
werden können (Zugangskontrolle),
3. zu gewährleisten, dass die zur Benutzung eines Datenverarbeitungssystems
Berechtigten ausschließlich auf die ihrer Zugriffsberechtigung unterliegen-
den Daten zugreifen können, und dass personenbezogene Daten bei der
Verarbeitung, Nutzung und nach der Speicherung nicht unbefugt gelesen,
kopiert, verändert oder entfernt werden können (Zugriffskontrolle),
4. zu gewährleisten, dass personenbezogene Daten bei der elektronischen
Übertragung oder während ihres Transports oder ihrer Speicherung auf Da-
tenträger nicht unbefugt gelesen, kopiert, verändert oder entfernt werden
können, und dass überprüft und festgestellt werden kann, an welche Stellen
eine Übermittlung personenbezogener Daten durch Einrichtungen zur Da-
tenübertragung vorgesehen ist (Weitergabekontrolle),
5. zu gewährleisten, dass nachträglich überprüft und festgestellt werden kann,
ob und von wem personenbezogene Daten in Datenverarbeitungssysteme
eingegeben, verändert oder entfernt worden sind (Eingabekontrolle),
6. zu gewährleisten, dass personenbezogene Daten, die im Auftrag verarbei-
tet werden, nur entsprechend den Weisungen des Auftraggebers verarbeitet
werden können (Auftragskontrolle),
7. zu gewährleisten, dass personenbezogene Daten gegen zufällige Zerstörung
oder Verlust geschützt sind (Verfügbarkeitskontrolle),
8. zu gewährleisten, dass zu unterschiedlichen Zwecken erhobene Daten ge-
trennt verarbeitet werden können (Trennungskontrolle).
Eine Maßnahme nach Satz 2 Nummer 2 bis 4 ist insbesondere die Verwendung
von dem Stand der Technik entsprechenden Verschlüsselungsverfahren.

Ernennung von Datenschutzbeauftragten


Die Verpflichtung zur Ernennung von Datenschutzbeauftragten in nicht öffentli-
chen Stellen wird in §38 geregelt. Dort heißt es:
Ergänzend zu Artikel 37 Absatz 1 Buchstabe b und c der Verordnung (EU)
2016/679 benennen der Verantwortliche und der Auftragsverarbeiter eine Da-
78 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

tenschutzbeauftragte oder einen Datenschutzbeauftragten, soweit sie in der Regel


mindestens zehn Personen ständig mit der automatisierten Verarbeitung perso-
nenbezogener Daten beschäftigen. Nehmen der Verantwortliche oder der Auf-
tragsverarbeiter Verarbeitungen vor, die einer Datenschutz-Folgenabschätzung
nach Artikel 35 der Verordnung (EU) 2016/679 unterliegen, oder verarbeiten sie
personenbezogene Daten geschäftsmäßig zum Zweck der Übermittlung, der anony-
misierten Übermittlung oder für Zwecke der Markt- oder Meinungsforschung, haben
sie unabhängig von der Anzahl der mit der Verarbeitung beschäftigten Personen eine
Datenschutzbeauftragte oder einen Datenschutzbeauftragten zu benennen.

Datenschutz-Folgenabschätzung gemäß Artikel 35 der EU-DGVO


Unter bestimmten Bedingungen muss eine Datenschutz-Folgenabschätzung vorge-
nommen werden. Dazu die EU-Richtlinie:

1. Hat eine Form der Verarbeitung, insbesondere bei Verwendung neuer Tech-
nologien, aufgrund der Art, des Umfangs, der Umstände und der Zwecke
der Verarbeitung voraussichtlich ein hohes Risiko für die Rechte und Frei-
heiten natürlicher Personen zur Folge, so führt der Verantwortliche vorab
eine Abschätzung der Folgen der vorgesehenen Verarbeitungsvorgänge für
den Schutz personenbezogener Daten durch. Für die Untersuchung mehre-
rer ähnlicher Verarbeitungsvorgänge mit ähnlich hohen Risiken kann eine
einzige Abschätzung vorgenommen werden.
2. Der Verantwortliche holt bei der Durchführung einer Datenschutz-Folgen-
abschätzung den Rat des Datenschutzbeauftragten, sofern ein solcher be-
nannt wurde, ein.
3. Eine Datenschutz-Folgenabschätzung gemäß Absatz 1 ist insbesondere in
folgenden Fällen erforderlich:
a) systematische und umfassende Bewertung persönlicher Aspekte natür-
licher Personen, die sich auf automatisierte Verarbeitung einschließlich
Profiling gründet und die ihrerseits als Grundlage für Entscheidungen
dient, die Rechtswirkung gegenüber natürlichen Personen entfalten oder
diese in ähnlich erheblicher Weise beeinträchtigen;
b) umfangreiche Verarbeitung besonderer Kategorien von personenbezo-
genen Daten gemäß Artikel 9 Absatz 1 oder von personenbezogenen
Daten über strafrechtliche Verurteilungen und Straftaten gemäß Artikel
10 oder
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 79

c) systematische umfangreiche Überwachung öffentlich zugänglicher Be-


reiche;
4. Die Aufsichtsbehörde erstellt eine Liste der Verarbeitungsvorgänge, für die
gemäß Absatz 1 eine Datenschutz-Folgenabschätzung durchzuführen ist,
und veröffentlicht diese. Die Aufsichtsbehörde übermittelt diese Listen dem
in Artikel 68 genannten Ausschuss.
5. Die Aufsichtsbehörde kann des Weiteren eine Liste der Arten von Verar-
beitungsvorgängen erstellen und veröffentlichen, für die keine Daten-
schutz-Folgenabschätzung erforderlich ist. Die Aufsichtsbehörde übermit-
telt diese Listen dem Ausschuss.
6. Vor Festlegung der in den Absätzen 4 und 5 genannten Listen wendet die
zuständige Aufsichtsbehörde das Kohärenzverfahren gemäß Artikel 63 an,
wenn solche Listen Verarbeitungstätigkeiten umfassen, die mit dem An-
gebot von Waren oder Dienstleistungen für betroffene Personen oder der
Beobachtung des Verhaltens dieser Personen in mehreren Mitgliedstaaten
im Zusammenhang stehen oder die den freien Verkehr personenbezogener
Daten innerhalb der Union erheblich beeinträchtigen könnten.
7. Die Folgenabschätzung enthält zumindest Folgendes:
a) eine systematische Beschreibung der geplanten Verarbeitungsvorgänge
und der Zwecke der Verarbeitung, gegebenenfalls einschließlich der von
dem Verantwortlichen verfolgten berechtigten Interessen;
b) eine Bewertung der Notwendigkeit und Verhältnismäßigkeit der Verar-
beitungsvorgänge in Bezug auf den Zweck;
c) eine Bewertung der Risiken für die Rechte und Freiheiten der betroffe-
nen Personen gemäß Absatz 1 und
d) die zur Bewältigung der Risiken geplanten Abhilfemaßnahmen, ein-
schließlich Garantien, Sicherheitsvorkehrungen und Verfahren, durch
die der Schutz personenbezogener Daten sichergestellt und der Nach-
weis dafür erbracht wird, dass diese Verordnung eingehalten wird, wobei
den Rechten und berechtigten Interessen der betroffenen Personen und
sonstiger Betroffener Rechnung getragen wird.
8. Die Einhaltung genehmigter Verhaltensregeln gemäß Artikel 40 durch die
zuständigen Verantwortlichen oder die zuständigen Auftragsverarbeiter ist
bei der Beurteilung der Auswirkungen der von diesen durchgeführten Ver-
arbeitungsvorgänge, insbesondere für die Zwecke einer Datenschutz-Fol-
genabschätzung, gebührend zu berücksichtigen.
80 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

9. Der Verantwortliche holt gegebenenfalls den Standpunkt der betroffenen


Personen oder ihrer Vertreter zu der beabsichtigten Verarbeitung unbescha-
det des Schutzes gewerblicher oder öffentlicher Interessen oder der Sicher-
heit der Verarbeitungsvorgänge ein.
10. Falls die Verarbeitung gemäß Artikel 6 Absatz 1 Buchstabe c oder e auf einer
Rechtsgrundlage im Unionsrecht oder im Recht des Mitgliedstaats, dem der
Verantwortliche unterliegt, beruht und falls diese Rechtsvorschriften den
konkreten Verarbeitungsvorgang oder die konkreten Verarbeitungsvorgänge
regeln und bereits im Rahmen der allgemeinen Folgenabschätzung im Zu-
sammenhang mit dem Erlass dieser Rechtsgrundlage eine Datenschutz-Fol-
genabschätzung erfolgte, gelten die Absätze 1 bis 7 nur, wenn es nach dem
Ermessen der Mitgliedstaaten erforderlich ist, vor den betreffenden Verar-
beitungstätigkeiten eine solche Folgenabschätzung durchzuführen.
11. Erforderlichenfalls führt der Verantwortliche eine Überprüfung durch, um
zu bewerten, ob die Verarbeitung gemäß der Datenschutz-Folgenabschät-
zung durchgeführt wird; dies gilt zumindest, wenn hinsichtlich des mit den
Verarbeitungsvorgängen verbundenen Risikos Änderungen eingetreten
sind.

Zentrale Begriffsbestimmungen (§ 3 des BDSG)


In den einschlägigen Bestimmungen tauchen Begriffe auf, deren Definition für das
Verständnis der Bestimmung wichtig ist:

(1) Personenbezogene Daten sind Einzelangaben über persönliche oder sachliche


Ver- hältnisse einer bestimmten oder bestimmbaren natürlichen Person (Be-
troffener).
(2) Automatisierte Verarbeitung ist die Erhebung, Verarbeitung oder Nutzung
personenbezogener Daten unter Einsatz von Datenverarbeitungsanlagen. Eine
nicht automatisierte Datei ist jede nicht automatisierte Sammlung personenbe-
zogener Daten, die gleichartig aufgebaut ist und nach bestimmten Merkmalen
zugänglich ist und ausgewertet werden kann.
(3) Erheben ist das Beschaffen von Daten über den Betroffenen.
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 81

(4) Verarbeiten ist das Speichern, Verändern, Übermitteln, Sperren und Löschen
personenbezogener Daten.
Im Einzelnen ist, ungeachtet der dabei angewendeten Verfahren:
1. Speichern das Erfassen, Aufnehmen oder Aufbewahren personenbezogener
Daten auf einem Datenträger zum Zweck ihrer weiteren Verarbeitung oder
Nutzung,
2. Verändern das inhaltliche Umgestalten gespeicherter personenbezogener Daten,
3. Übermitteln das Bekanntgeben gespeicherter oder durch Datenverarbeitung
gewonnener personenbezogener Daten an einen Dritten in der Weise, dass
a) die Daten an den Dritten weitergegeben werden oder
b) der Dritte zur Einsicht oder zum Abruf bereitgehaltene Daten einsieht
oder abruft,
4. Sperren das Kennzeichnen gespeicherter personenbezogener Daten, um ihre
weitere Verarbeitung oder Nutzung einzuschränken,
5. Löschen das Unkenntlichmachen gespeicherter personenbezogener Daten.
ǻśǼȱžĵŽ—ȱist jede Verwendung personenbezogener Daten, soweit es sich nicht
um Verarbeitung handelt.
(6) Anonymisieren ist das Verändern personenbezogener Daten derart, dass die
Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder
nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Ar-
beitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet
werden können.
(6a) Pseudonymisieren ist das Ersetzen des Namens und anderer Identifikations-
merkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffe-
nen auszuschließen oder wesentlich zu erschweren.
(7) Verantwortliche Stelle ist jede Person oder Stelle, die personenbezogene Da-
ten für sich selbst erhebt, verarbeitet oder nutzt oder dies durch andere im Auf-
trag vornehmen lässt.
(8) Empfänger ist jede Person oder Stelle, die Daten erhält. Dritter ist jede Person
oder Stelle außerhalb der verantwortlichen Stelle. Dritte sind nicht der Betrof-
fene sowie Personen und Stellen, die im Inland, in einem anderen Mitgliedstaat
der Europäischen Union oder in einem anderen Vertragsstaat des Abkommens
über den Europäischen Wirtschaftsraum personenbezogene Daten im Auftrag
erheben, verarbeiten oder nutzen.
82 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

(9) Besondere Arten personenbezogener Daten sind Angaben über die rassische
und ethnische Herkunft, politische Meinungen, religiöse oder philosophische
Überzeugungen, Gewerkschaftszugehörigkeit, Gesundheit oder Sexualleben.
(10) Mobile personenbezogene Speicher- und Verarbeitungsmedien sind Daten-
träger,
1. die an den Betroffenen ausgegeben werden,
2. auf denen personenbezogene Daten über die Speicherung hinaus durch die
ausgebende oder eine andere Stelle automatisiert verarbeitet werden können
und
3. bei denen der Betroffene diese Verarbeitung nur durch den Gebrauch des
Mediums beeinflussen kann.
(11) Beschäftigte sind:
1. Arbeitnehmerinnen und Arbeitnehmer,
2. zu ihrer Berufsbildung Beschäftigte,
3. Teilnehmerinnen und Teilnehmer an Leistungen zur Teilhabe am Arbeitsle-
EHQVRZLHDQ$ENOlUXQJHQGHUEHUXÀLFKHQ(LJQXQJRGHU$UEHLWVHUSUREXQJ
(Rehabilitandinnen und Rehabilitanden),
4. in anerkannten Werkstätten für behinderte Menschen Beschäftigte,
5. nach dem Jugendfreiwilligendienstgesetz Beschäftigte,
6. Personen, die wegen ihrer wirtschaftlichen Unselbständigkeit als arbeitneh-
merähnliche Personen anzusehen sind; zu diesen gehören auch die in Heim-
arbeit Beschäftigten und die ihnen Gleichgestellten,

I.11.2 Richtlinien und Normen für die Durchführung von Be-


fragungen

Um die Qualitätsstandards von Umfragen zu sichern und um den Datenschutz im


Rahmen der Selbstregulierung der deutschen Markt- und Sozialforschung für die
unterschiedlichen Erhebungsarten und Anforderungen sozialwissenschaftlicher
Untersuchungen zu präzisieren, wurden von den Verbänden der deutschen Markt-
und Sozialforschung im Rahmen der Selbstregulierung der Markt- und Sozialfor-
schung (vgl. Wiegand, 2012) Standards zur Qualitätssicherung in der Markt- und
Sozialforschung sowie Standards zur Qualitätssicherung für Online-Befragungen
formuliert und verabschiedet. In der ISO-Norm 20 252 sind bestimmte Qualitäts-
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 83

standards für die Markt- und Meinungsforschung international festgelegt worden.


Neben diesen Richtlinien für Qualitätsstandards haben diese Institutionen weitere
Richtlinien veröffentlicht (Stand August 2018):
• Richtlinie für die Aufzeichnung und Beobachtung von Gruppendiskussionen
und qualitativen Einzelinterviews
• Richtlinie für telefonische Befragungen
• Richtlinie für Befragungen von Minderjährigen
• Richtlinie für die Veröffentlichung von Ergebnissen der Wahlforschung
• Richtlinie zum Umgang mit Adressen in der Markt- und Sozialforschung
• Richtlinie für Online-Befragungen
• Richtlinie zum Umgang mit Datenbanken in der Markt- und Sozialforschung
• Richtlinie zur Abgrenzung zwischen Markt- und Sozialforschung und Direkt-
marketing
• Richtlinie für Studien im Gesundheitswesen zu Zwecken der Markt- und Sozi-
alforschung
• Richtlinie für den Einsatz von Datentreuhändern in der Markt- und Sozialfor-
schung
• Richtlinie für Untersuchungen in und mittels der Sozialen Medien
Diese Richtlinien können auf den Websites der Verbände eingesehen und/oder he-
runtergeladen werden (zu den Webadressen siehe Abschnitt 1.10.5). Bei Verstößen
gegen Qualitätsstandards werden entsprechende Sanktionen wie Ermahnung oder
veröffentlichte Rüge durch den Beschwerderat des Rats der Markt- und Sozialfor-
schung durchgeführt.
Internationale Standesrichtlinie in der Markt- und Sozialforschung ist der ICC/
ESOMAR Internationale Kodex für die Markt- und Sozialforschung zusammen mit
der Erklärung für das Gebiet der Bundesrepublik Deutschland. Ferner sind folgen-
de internationale Standardnormen entwickelt worden:
• ISO 20252: Market, opinion and social research – Vocabulary and service re-
quirements
• ISO 26362: Access Panels in market, opinion and social research – Vocabulary
and service requirements
• ISO 19731: Digital analytics and web analyses for purposes of market, opinion
and social research - Vocabulary and service requirements
Richtungweisend für die Durchführung von Umfragen sowie die Dokumentati-
on des Feldgeschehens und Methodenbericht sind die AAPOR-Standards (vgl.
AAPOR, 2011).
84 I.12 Institutionen der Sozialforschung

Website:
http://www.aapor.org/Standards-Ethics/Standard-Definitions-(1).aspx
Für die ethische Orientierung sollte der folgende Codex konsultiert werden:
WAPOR Code of professional ethics and practices
Website:
http://wapor.unl.edu/wapor-code-of-ethics/
Die Kernprobleme im Datenschutzrecht und für das Standesrecht der demoskopi-
schen Umfrageforschung sind in einer spezifischen Verlautbarung zusammenge-
fasst, die auf der Website des ADM (http://www.adm-ev.de/) abgerufen und herun-
tergeladen werden kann.
Es wird dringend empfohlen, sich mit diesen Richtlinien vertraut zu machen,
da eine Missachtung entsprechende datenschutzrechtliche und standesrechtliche
Konsequenzen nach sich ziehen kann. Wichtige Hinweise wie der Hinweis auf
die strikte Trennung von Umfrageforschung und forschungsfremden Tätigkeiten
wie Dialogmarketing, der Hinweis darauf, dass selbst bei Einwilligung der Befrag-
ten eine Weitergabe personenbezogener Daten nicht gestattet ist, etc. sind diesen
Richtlinien zu entnehmen. Die Weitergabe personenbezogener Daten sollte sich
stattdessen auf eine gesetzliche Erlaubnisnorm stützen.

I.12 Institutionen der Sozialforschung

I.12.1 Organe der Markt- Meinungs- und Sozialforschung in


Deutschland

ADM Arbeitskreis deutscher Markt- und Sozialforschungsinstitute e.V.


Der ADM vertritt als Wirtschaftsverband die Interessen die Interessen der
privatwirtschaftlichen Markt- und Sozialforschungsinstitute in Deutschland. Zu
seinen hauptsächlichen Aufgaben gehören die politische Interessenvertretung, die
Beratung und Vertretung der Mitglieder, die Bekämpfung unlauteren Wettbewerbs
und die Selbstregulierung der Markt- und Sozialforschung durch die Entwicklung
und Durchsetzung von Berufsgrundsätzen, Standesregeln und wissenschaftlichen
Qualitätsstandards.
I.12 Institutionen der Sozialforschung 85

Website:
http://www.adm-ev.de/

Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e.V. (ASI)


In der Arbeitsgemeinschaft Sozialwissenschaftlicher Institute (ASI) e.V. sind ge-
meinnützige sozialwissenschaftliche Forschungseinrichtungen und Universitäts-
institute der Bundesrepublik Deutschland zusammengeschlossen. Mitglieder sind
selbstständige gemeinnützige Forschungsinstitute, Universitätsinstitute und sozi-
alwissenschaftlich arbeitende Bereiche größerer Einrichtungen. Außerdem gibt
es persönliche Mitglieder. Ziel der ASI ist die Förderung und Intensivierung der
sozialwissenschaftlichen Forschung, insbesondere in ihrer empirischen Ausrich-
tung. Sie versteht sich als Ansprechpartner für alle empirische Sozialforschung
Betreibenden und deren fachliche und berufsständige Interessen. Die Entstehungs-
geschichte reicht bis in die unmittelbare Nachkriegszeit zurück. Bis 2013 war die
ASI Herausgeberin der Zeitschrift „Soziale Welt“. Im Oktober 1949 erschien Heft 1
dieser Zeitschrift. Sie wurde damals im Namen der Arbeitsgemeinschaft Sozialwis-
senschaftlicher Institute von der Sozialforschungsstelle Dortmund herausgegeben.
Am 16. April 1953 wurde die ASI in das Vereinsregister Köln eingetragen. Die ASI
ist Herausgeberin einer Schriftenreihe beim Verlag „Springer VS“.
Website:
http://www.asi-ev.org/

Bundesverband deutscher Markt- und Sozialforscher e.V. (BVM)


Der BVM Berufsverband Deutscher Markt- und Sozialforscher e.V. vertritt die In-
teressen seiner über 1.400 Mitglieder aus Deutschland, Österreich und der Schweiz.
Er bildet somit ein Experten-Netzwerk aus betrieblichen, akademischen und Insti-
tuts-Marktforschern, selbstständigen Beratern, Feldinstituten und anderen Dienst-
leistern. Das Selbstverständnis des BVM ist es, das Ansehen von Marktforschern
und Marktforschung in der Öffentlichkeit zu erhöhen und die Qualifikation von
Forschern sowie die Qualität der Forschung zu optimieren.
Website:
http://www.bvm.org/
86 I.12 Institutionen der Sozialforschung

Deutsche Gesellschaft für Online-Forschung e.V. (DGOF)


Die DGOF vertritt die Interessen der Online-Forscher im deutschen Sprachraum.
Ihre Mitglieder sind Wissenschaftler, Anwender und Unternehmen der deutschen
und internationalen Gemeinschaft der Online-Forschung. Online-Forschung um-
fasst in erster Linie jegliche Art von Forschung, deren Mittel bzw. Gegenstand das
Internet ist. Zur Online-Forschung zählt die DGOF auch Forschung über mobile
Kommunikation. Zentrales Anliegen der DGOF ist die Förderung wissenschaftli-
cher und anwendungsbezogener Online-Forschung. Ein wichtiges Ziel ist die kri-
tische Akzeptanz, Diskussion und Weiterentwicklung der Methoden zur Erhebung
von Daten mit Hilfe des Internet als gleichberechtigte Methode im Kanon der klas-
sischen Forschungsansätze. Die DGOF ist Veranstalter der jährlichen internationa-
len Konferenzen General Online Research GOR).
Website:
http://www.dgof.de/

Rat für Sozial- und Wirtschaftsdaten (RatSWD)


Der Rat für Sozial- und Wirtschaftsdaten wurde erstmals im Sommer 2004 vom
Bundesministerium für Bildung und Forschung (BMBF) im Einvernehmen mit
allen Bundesressorts berufen. Er löste den Gründungsausschuss des Rates für Sozi-
al- und Wirtschaftsdaten ab und führt seine Arbeit inhaltlich weiter. Der RatSWD
ist ein unabhängiges Gremium von empirisch arbeitenden Wissenschaftlerinnen
und Wissenschaftlern aus Universitäten, Hochschulen und anderen Einrichtungen
unabhängiger wissenschaftlicher Forschung sowie von Vertreterinnen und Vertre-
tern wichtiger Datenproduzenten und Servicezentren. Zu den Aufgaben des Rats
gehören:
• Empfehlungen zur Sicherung und weiteren Verbesserung des Datenzugangs,
insbesondere durch Einrichtung, Standardsetzung und kontinuierliche Evalua-
tion von Forschungsdatenzentren und Datenservicezentren,
• Empfehlungen zur Verbesserung der Datennutzung durch geeignete Doku-
mentation und Bereitstellung wissenschaftlicher und statistischer Daten (For-
schungsdatenportal; Metadaten),
• Beratung der Wissenschaftsinstitutionen und -organisationen zur Infrastruktur
daten-gestützter Forschung und Lehre,
• Empfehlungen zu Forschungsthemen und -aufgaben, welche die konzeptionel-
le Weiterentwicklung der Dateninfrastrukturen auf nationaler, europäischer
und internationaler Ebene betreffen,
I.12 Institutionen der Sozialforschung 87

• Empfehlungen, wie die Produktion und Bereitstellung von forschungsrelevan-


ten Daten effizienter gestaltet werden kann,
• Beratung des für Forschung zuständigen Bundesministeriums und der Landes-
regierungen entsprechend bei der Weiterentwicklung der wissenschaftsgetrage-
nen Dateninfrastruktur,
• Beratung öffentlicher (und privater) Datenproduzenten,
• Beratung von Datenproduzenten zur Anerkennung von wissenschaftlichen
Forschungseinrichtungen (Zertifizierung), bei denen die Zugehörigkeit zur un-
abhängigen Wissenschaft nicht institutionell gegeben ist,
• Vorbereitung und Durchführung der Konferenz für Sozial- und Wirtschaftsda-
ten und ggfs. weiterer Fachkolloquien und Workshops zur Forschungsdatenin-
frastruktur.

Website:
http://www.ratswd.de/

Rat der deutschen Markt- und Sozialforschung e.V.


Der Rat der Deutschen Markt- und Sozialforschung e.V. wurde im Jahr 2001 vom
ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V., von der
ASI Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e.V. und vom BVM Be-
rufsverband Deutscher Markt- und Sozialforscher e.V. gegründet. Seit dem Jahr
2006 gehört ihm auch die DGOF Deutsche Gesellschaft für Online-Forschung e.V.
an. Ziel und Aufgabe des Rates ist es, die Einhaltung der Berufsgrundsätze und der
Standesregeln zu sichern (vgl. Wiegand, 2012). Sie sind im ICC/ESOMAR Inter-
nationalen Kodex für die Markt- und Sozialforschung, in der dem Kodex vorange-
stellten Deutschen Erklärung und in den verschiedenen Richtlinien der deutschen
Verbände festgeschrieben und gewährleisten den Schutz der Befragten, der Auf-
traggeber und der Markt- und Sozialforscher. Zum Berufsethos der Markt- und
Sozialforschung gehört untrennbar auch das Arbeiten nach anerkannten wissen-
schaftlichen Methoden. Dem Rat ist ein Beschwerderat angeschlossen, dessen Be-
schwerdekammern Verstöße gegen die Standesrichtlinien bearbeitet und ggf. Sank-
tionen bis zur veröffentlichten Rüge erteilt.

Infrastruktureinrichtung für Sozialwissenschaften


GESIS – Leibniz-Institut für Sozialwissenschaften:
Das GESIS - Leibniz-Institut für Sozialwissenschaften ist die größte deutsche Infra-
struktureinrichtung für die Sozialwissenschaften. Mit seinen über 250 Mitarbeite-
88 I.12 Institutionen der Sozialforschung

rinnen und Mitarbeiter an drei Standorten (Mannheim, Köln, Berlin) erbringt GE-


SIS grundlegende, überregional und international bedeutsame forschungsbasierte
Dienstleistungen.
Website:
http://www.gesis.org/

I.12.2 Amtliche Statistik

Statistisches Bundesamt Deutschland


Das Statistische Bundesamt ist eine selbstständige Bundesoberbehörde. Es gehört zum
Geschäftsbereich des Bundesministeriums des Innern, welches die Dienstaufsicht aus-
übt. Wichtige organisatorische, personelle und finanzielle Fragen kann das Statistische
Bundesamt nur mit Zustimmung des Bundesministeriums des Innern entscheiden.
Die Fachaufsicht führen die für die jeweiligen Statistiken zuständigen Bundesministe-
rien, welche sicherstellen müssen, dass die entsprechenden Statistiken so durchgeführt
werden, wie es der entsprechende Rechtsakt anordnet. Das statistische Bundesamt hat
den Auftrag, statistische Informationen bereitzustellen und zu verbreiten, die objek-
tiv, unabhängig und qualitativ hochwertig sind. Diese Informationen stehen allen zur
Verfügung: Politik, Regierung, Verwaltung, Wirtschaft und Bürgern. Das Bundessta-
tistikgesetz präzisiert die Aufgaben des Statistischen Bundesamtes. Entsprechend dem
föderalen Staats- und Verwaltungsaufbau der Bundesrepublik Deutschland werden
die bundesweiten amtlichen Statistiken („Bundesstatistiken“) in Zusammenarbeit
zwischen dem Statistischen Bundesamt und den Statistischen Ämtern der 16 Länder
durchgeführt. Die Bundesstatistik ist also weitgehend dezentral organisiert. Wichtigste
Aufgabe des Bundesamts ist es, dafür zu sorgen, dass die Bundesstatistiken überschnei-
dungsfrei, nach einheitlichen Methoden und termingerecht erstellt werden. Zum Auf-
gabenkatalog des Statistischen Bundesamtes gehören
• die methodische und technische Vorbereitung der einzelnen Statistiken;
• die Weiterentwicklung des Programms der Bundesstatistik;
• die Koordinierung der Statistiken untereinander;
• die Zusammenstellung und Veröffentlichung der Bundesergebnisse.
Für die Durchführung der Erhebung und die Aufbereitung bis zum Landesergebnis
sind überwiegend die Statistischen Ämter der Länder zuständig.
I.12 Institutionen der Sozialforschung 89

Website:
http://www.destatis.de/

Statistisches Amt der Europäischen Union (Eurostat)


Eurostat ist das statistische Amt der Europäischen Union mit Sitz in Luxemburg.
Es hat den Auftrag, die Union mit amtlichen europäischen Statistiken zu versorgen,
die Vergleiche zwischen Ländern und Regionen ermöglichen.
Website:
http://ec.europa.eu/

I.12.3 Wissenschaftliche Vereinigungen

Die folgenden wissenschaftlichen Vereinigungen verdienen hinsichtlich ihrer Be-


deutung für die Umfrageforschung besondere Erwähnung:
Methodensektion der Deutschen Gesellschaft für Soziologie
Website:
http://www.soziologie.de/
Akademie für Soziologie e.V.
c/o Fakultät für Sozialwissenschaften
Universität Mannheim
Website:
https://akademie-soziologie.de/
European Survey Research Association (ESRA)
Website:
http://www.europeansurveyresearch.org/
World Association of Opinion Research (WAPOR)
Website:
http://wapor.org/
American Association of Public Opinion Research (AAPOR)
Website:
http://www.aapor.org/
90 I.13 Zusammenfassung

I.13 Zusammenfassung

Die vorangegangenen Abschnitte haben gezeigt, welche Schritte während der Vor-
bereitung und Durchführung einer Umfrage durchlaufen werden müssen. Wird
eine optimale Qualität der Daten angestrebt, sollten alle Schritte gleichermaßen op-
timiert werden. Um dies zu erreichen ist ein Team von Spezialisten (Umfrageope-
ratoren) notwendig, die für die Schritte einschlägig ausgebildet sind und die über
einschlägige Erfahrungen verfügen. Der Blick auf die Optimierung aller Schritte
des Umfrageprozesses ist insbesondere für alle Umfragen von wissenschaftlichem
und/oder gesellschaftlichem Interesse notwendig, deren Daten für die gesellschafts-
wissenschaftliche Forschung und die amtliche Statistik von besonderer Bedeutung
sind und die auf eine möglichst präzise Beschreibung einer Zielpopulation auf der
Basis von Stichprobendaten abzielen.
Der beschriebene Anspruch sollte immer in den Blick genommen werden, auch
wenn er sich unter Kosten- und Ressourcengesichtspunkten nicht realisieren lässt.
Wer mit der praktischen Durchführung von Umfragen vertraut ist, weiß, dass sich
dieser Anspruch nie vollständig umsetzen lässt. Zu vielfältig sind auch die nicht
vorhersehbaren internen und externen Einflüsse. Auf der anderen Seite erlaubt nur
der Blick auf das, was optimal an Qualität erreichbar wäre, eine Beurteilung der
möglichen Einflussfaktoren auf Qualitätsdefizite der Daten.
Wir werden in den Medien immer wieder mit Ergebnissen von Umfragen un-
terschiedlicher Thematik überschüttet, von denen wir nicht wissen, nach welchen
Qualitätsmaßstäben gearbeitet wurde. Viele Umfragen dienen nur der Unterhal-
tung bzw. der Moderation von Unterhaltungsveranstaltungen. Trotzdem erfolgt
die auf ihnen basierende Berichterstattung mit einer gewissen Ernsthaftigkeit. Erst
wenn man einen Eindruck davon hat, welche methodischen Defizite zu welchen
Ergebnisverzerrungen führen können und wie unterschiedlich interpretierbar Um-
frageergebnisse sind, kann man sie mit der notwendigen Vorsicht interpretieren.
Natürlich unterscheiden sich Umfragen in ihrer Komplexität. Manchmal han-
delt es sich nur um einen einfachen Fragebogen mit einfachen Fragen oder von
Fragen, die bereits mehrfach geprüft wurden, so dass man eventuell auf umfang-
reiche Pretest-Verfahren verzichten kann. Auch können eventuell einige Nicht-
beobachtungsfehler ausgeschlossen werden, so dass eine Unterrepräsentation der
Zielpopulation in der Auswahlgrundlage ausgeschlossen werden kann. Aber schon
die Unwägbarkeiten der Teilnahmebereitschaft und der Erreichbarkeit können zu
Beeinträchtigungen der Datenqualität führen.
Können bestimmte Standards aus verschiedenen Gründen nicht erfüllt werden,
heißt dies nicht unbedingt, das die Ergebnisse unbrauchbar sind, es heißt aber, dass
die Ergebnisinterpretation mit Vorsicht vorgenommen werden muss. Eventuell
I.13 Zusammenfassung 91

empfehlen sich nur sehr grobe Trendaussagen. In der Forschung erlauben Umfra-
gedaten wegen des eher hohen Stichprobenumfangs eine präzisere Beschreibung
der statistischen Eigenschaften der Grundgesamtheit, komplexere Analysen von
Verursachungszusammenhängen und Vergleiche von Subpopulationen. Die Ein-
bettbarkeit in unterschiedliche Forschungsdesigns erlaubt eine flexible Nutzung in
unterschiedlichen Forschungsfragestellungen.
Die Durchführung von Umfragen sollte transparent und unter Berücksichti-
gung der einschlägigen Qualitätsrichtlinien erfolgen. Die Beachtung der Daten-
schutz-Grundverordnung stellt eine Selbstverständlichkeit dar.
Teil II: Kommunikationsformen (Modes) und
ihre Wirkungen

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 93
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_2
II.1 Überblick

Der Informationsaustausch mit Kontakt- und/oder Zielpersonen im Verlauf der


Kontaktaufnahme mit potentiellen Interviewpartnern, sowohl im Rahmen des
Screenings als auch im Rahmen des eigentlichen Interviewprozesses kann unter
Anwendung unterschiedlicher Kommunikationsformen (auch: Befragungsarten,
Befragungsformen; engl.: modes) erfolgen (z.B. Kontaktaufnahme via SMS, via
E- Mail, schriftlich/ postalisch, etc.). Bezieht man die Kommunikationsform nur
auf das Interview, so wird auch von Interviewformen (engl.: interview modes) ge-
sprochen. Bezieht man die Kommunikationsform dagegen auf die Kontakt- und
Screeningphase, so spricht man von Kontaktformen oder Screening-Formen (engl.
contact modes bzw. screening modes). Unterschieden werden kann ferner zwischen
der Form, in welcher der Administrator seine Informationen kommuniziert bzw.
seine Fragen stellt und der Form, in welcher der Adressat des Administrators, also
die Kontakt- oder Zielperson, ihre Antworten kommuniziert. Beide Formen müs-
sen, zumindest, was die Kommunikationskanäle angeht, nicht unbedingt identisch
sein. So könnten etwa Zielpersonen schriftlich/postalisch eingeladen werden, an ei-
ner Befragung teilzunehmen, aber ihre Bereitschaft dazu nicht nur schriftlich, z.B.
auf einer Antwortkarte, sondern auch telefonisch oder per E-Mail kommunizieren.
Das eigentliche Interview könnte wiederum in einer anderen Form, etwa über das
Web erfolgen. Auch im Interview könnten dem Befragten die Fragen visuell auf
einem Bildschirm, z.B. auf dem Smartphone, eventuell über ein damit verbundenes
Google Glass, oder einer Smartwatch präsentiert werden, während dieser die Ant-
worten in ein Formular per Hand schriftlich einträgt.
Da im Rahmen der Kommunikation mit den Kontakt- und Zielpersonen
Sprechhandlungen wie Fragen, Bitten, Auffordern, Antworten, Instruieren und
Informieren, Beschreiben, etc. realisiert werden, lassen sich die Kommunikations-
formen auch als Ausführungsvarianten von Sprechhandlungen betrachten (vgl.
Faulbaum, Prüfer & Rexroth, 2009).
Mit der Wahl einer Kommunikationsform im Interview sind immer spezifische
Ausgestaltungen von Komponenten des Umfrageprozesses verbunden, darunter
die Art der Operationalisierung und Fragebogenkonstruktion, die Verfahren der
Stichprobenauswahl und die praktische Durchführung und Organisation der Um-
frage. Wir werden in Abschnitt II.7 die Auswirkungen auf die Vorbereitung und
Durchführung von Umfragen näher beschreiben und auf die spezifischen organi-
satorischen Maßnahmen eingehen, die mit der Entscheidung für eine bestimmte
Befragungsart verbunden sind und die das für die Planung und Durchführung der
Umfrage zuständige Team von Operatoren vor besondere Aufgaben stellen. So fal-
96 II.2 Grundlegende Dimensionen der Kommunikationsform

len Aufgaben wie das Interviewer-Training nur bei Kommunikationsformen an,


die den Einsatz von Interviewern vorsehen, der postalische Versand von Fragebö-
gen entsteht nur bei Kommunikationsformen, bei denen eine schriftliche Kommu-
nikation ohne Interviewer vorgesehen ist. Der Einsatz von menschlichen Operato-
ren in der Feldorganisation findet nur dann statt, wenn die Feldorganisation nicht
von einem Computer bewerkstelligt wird.
Die spezifischen Merkmale einer Befragungsform oder der modespezifischen
Kontaktaufnahme können sich in unterschiedlicher Weise auf die resultierenden
Daten auswirken. Diese auch als Mode-Effekte bezeichneten Wirkungen betreffen
die Merkmalsverteilungen der finalen Stichprobe durch selektive Teilnahme (sog.
Selektionseffekte) andererseits aber auch das Antwortverhalten und damit die Mes-
sung (sog. Messeffekte)

II.2 Grundlegende Dimensionen der Kommunikations-


form

II.2.1 Administrationsformen und Kommunikationskanäle

Grundsätzlich lassen sich die in Befragungen eingesetzten Kommunikationsfor-


men zwischen den Kommunikationspartnern während der Kontaktaufnahme oder
eines Interviews gemäß folgender Dimensionen differenzieren (vgl. Abbildung
II.1):

• nach der Administrationsform;


• nach den eingesetzten Informations- bzw. Kommunikationskanälen;
• nach der eingesetzten Befragungstechnologie.

Eine Kommunikationsform kann in einem Interview sowohl für einzelne Fragen


als auch für das gesamte Interview festgelegt werden, wobei es mitunter sinnvoll er-
scheinen kann, diese Festlegungen entsprechend der im Verlauf einer Umfrage ge-
machten Erfahrungen im Rahmen eines responsiven Umfragedesigns (vgl. Groves
& Heeringa, 2006) zu ändern, um eine Fehler- und Kostenreduktion zu erreichen
(vgl. Couper & Wagner, 2011).
Die Administrationsform bestimmt, wer die Fragen stellt und wer die Antworten
registriert bzw. dokumentiert. Dabei lassen sich grob zwei Klassen von Interviews
unterscheiden: Interviewer-administrierte Interviews (engl.; Interviewer-adminis-
II.2 Grundlegende Dimensionen der Kommunikationsform 97

tered interviews) und Selbst-administrierte Interviews (engl.: Self-administered in-


terviews bzw. Self-administered questionnaires; kurz SAQ; deutsch: Selbstausfüller).
Bezieht man die Administrationsform anstatt auf das vollständige Interview auf
einzelne Fragen oder Items (zur Präzisierung der Begriffe „Frage“ und „Item“ vgl.
Teil III) wird man eher von Interviewer- oder Selbst-administrierten Fragen bzw.
Items sprechen. Bei Interviewer-administrierten Interviews werden die Fragen von
einem Interviewer vorgelesen und je nach Befragungstechnologie in einen Papier-
fragebogen oder in einen auf einem Rechner abgelegten, zuvor programmierten
Fragebogen eingetragen. Handelt es sich um ein Interview von „Angesicht zu An-
gesicht“ (engl.: face-to-face) bei dem der Interviewer den Befragten unter persön-
licher Anwesenheit direkt anspricht und die Fragen an ihn adressiert, so spricht
man von einem Face-to-Face-Interview (kurz: FtF-Interview bzw. F2F-Interview).
Der Interviewer ist in diesem Fall also mit seinem visuellen Erscheinungsbild und
den Merkmalen seiner Stimme für den Befragten wahrnehmbar. Beim Telefonin-
terview, das ebenfalls zu den Interviewer-adminstrierten Interviews gehört, ist der
Interviewer dagegen nur mit seinen stimmlichen Merkmalen wahrnehmbar. Dank
fortgeschrittener Technologien, die über Web-Kameras (Skype) oder über mit dem
Smartphone verbundene Kameras auch eine visuelle Übertragung bei physischer
Nichtpräsenz ermöglichen, lassen sich Face-to-Face-Interviews auch ohne direkte
physische Anwesenheit der Kommunikationspartner realisieren.
Im Unterschied zu Interviewer-administrierten Interviews liest der Befragte bei
Selbst-administrierten Interviews die Fragen selber von einem Nachrichtenträger ab
und notiert die Antworten selber auf einem Nachrichtenträger. Eine typische Vari-
ante ist die schriftlich/postalische Interaktionsvariante von Mail-Umfragen.
Neben diesen reinen Administrationsformen sind allerdings auch Mischfor-
men denkbar. So können z.B. Interviewer-administrierte Interviews durchaus auch
Selbst-administrierte Elemente sowohl auf Seiten des Interviewers als auch auf
Seiten des Befragten enthalten. So besteht etwa die Möglichkeit, dass der Inter-
viewer die Frage vorliest, die Eingabe der Antwort auf einem Informationsträger
aber durch den Befragten selbst erfolgt. Umgekehrt könnten Fragen dem Befragten
schriftlich oder online zugeschickt werden und die Interviewer die Antwort beim
Befragten mündlich, z.B. über Telefon, abrufen. Es gibt also verschiedene Grade
und Arten der Einbeziehung des Interviewers (engl.: interviewer involvement; vgl.
Groves et al. 2009, p. 153).
98 II.2 Grundlegende Dimensionen der Kommunikationsform

Abbildung II.1: Dimensionen der Kommunikationsformen (Modes)

Mit unterschiedlichen Administrationsformen sind bestimmte Kommunikations-


bzw. Sinneskanäle sowohl auf Seiten des Interviewers als auch auf Seiten des Be-
fragten verbunden. Bei reinen Interviewer-administrierten Interviewformen ist
der bevorzugte Informationskanal der auditive Kanal; d.h. der Interviewer stellt
die Frage mündlich, der Befragte hört die Frage und antwortet mündlich. Daneben
können aber auch etwa bei Face-to-Face-Interviews unbeabsichtigtes nonverbales
Verhalten sowie sichtbare Merkmale des Interviewers über den visuellen Infor-
mationskanal mitübertragen werden. Außerdem bietet es sich aus methodischen
Gründen bei bestimmten Fragen an, im Face-to-Face-Interview vom akustischen
Kanal auf den visuellen Kanal zu wechseln. Dies wäre ein Beispiel für einen sog.
„mode switch“ im laufenden Interview (vgl. z.B. Couper & Rowe, 1996). So legt der
Interviewer etwa bei der sensitiven Frage nach dem persönlichen Nettoeinkommen
dem Befragten gelegentlich ein Blatt mit der Frage vor, in welches dieser die Ant-
wort einträgt. Das Blatt wird dann, ohne dass der Interviewer einen Blick darauf
wirft, in einen Umschlag gegeben. Ähnliches geschieht auch bei computerunter-
stützten Interviewer-administrierten Interviews. In diesem Fall wird der Befragte
II.2 Grundlegende Dimensionen der Kommunikationsform 99

gebeten, die Antwort selbst in den Computer einzugeben. Weitere Selbst-adminis-


trierte Elemente in Interviewer-administrierten Interviews sind Befragungshilfen
wie z.B. Skalenvorlagen in Form von Leitern, die dann vom Befragten über den
visuellen Informationskanal verarbeitet werden.
Selbst-administrierte Interviews verwenden bevorzugt den visuellen Informa-
tionskanal. Auch hier gibt es Mischformen wie etwa bei Audio-CASI (ACASI), bei
denen der Befragte nicht nur Fragen vom Bildschirm liest, sondern zusätzlich auch
die Fragen hört, also zusätzlich zum visuellen Kanal den auditiven Kanal nutzt.
Eine weitere Mischform stellen Administrationsformen dar, in denen die Fragen
nicht von einem während des Interviews real präsenten Interviewer gestellt wer-
den, sondern von einem System mit künstlicher oder vorher aufgenommener Stim-
me wir bei IVR bzw. T-ACASI (vgl. unten sowie Groves et al. 2009, p. 151).
Jede Administrationsform kann durch ihr spezifisches Bündel von Merkmalen
besondere Gefährdungen für die Datenqualität nach sich ziehen, was bei ihrem
Einsatz berücksichtigt werden sollte. Grundsätzlich können ganz unterschied-
liche Aufteilungen des Fragebogens zwischen Interviewer-administrierten und
Selbst-administrierten Formen sowie zwischen Formen mit und ohne Computer-
unterstützung sinnvoll sein. So kann etwa der „inhaltliche“ Teil eines Fragebogens
Selbst-administriert ohne Computerunterstützung durch Selbstausfüllen eines
Papierfragebogens bearbeitet werden, während die soziodemographischen Fragen
Interviewer-administriert und computerunterstützt (CAPI, siehe unten) adminis-
triert werden.

II.2.2 Befragungstechnologien

II.2.2.1 Allgemeines

Administrationsformen können zusammen mit Kommunikationskanälen unter


Einsatz unterschiedlicher Technologien realisiert werden. Die ursprünglich vor-
herrschende Technologie war die Paper-und-Pencil-Technologie, die in verschie-
denen Administrationsformen angewendet wird. Im Fall der Interviewer-Ad-
ministration liest der Interviewer die Fragen eines in Papierform vorliegenden
Fragebogens nacheinander vor und trägt die Antworten des Befragten in den
Fragebogen mit einem Stift in einen dafür vorgesehenen Raum (z.B. Kästchen)
ein bzw. markiert die Antworten an einer vorgegebenen Stelle. Im Fall der
Selbst-Administration liest der Befragte die Fragen von einem Papierfragebogen
ab und trägt die Antworten ein. Man bezeichnet ein in Papierform realisiertes
100 II.2 Grundlegende Dimensionen der Kommunikationsform

Interview auch als Papier-und-Bleistift-Interview (Paper-and-Pencil-Interview,


abgekürzt: PAPI bzw. P&P. Obgleich diese Bezeichnung beide Administrations-
formen, Selbst-administriert und Interviewer-administriert, einschließt, da in
beiden Formen mit Papier und Bleistift gearbeitet werden kann, wird sie in erster
Linie mit dem Face-to-Face-Modus verbunden, der vor dem verstärkten Einsatz
telefonischer Interviews dominant war. Auf Grund seiner damaligen Dominanz
ist es nicht überraschend, dass dieser Erhebungsmodus auch einfach als Um-
fragemethode (engl.: survey method) bezeichnet wurde (vgl. De Heer, De Leeuw &
Van der Zouwen 1999, p. 34). In den 1980iger Jahren wurde diese Befragungsart
zunehmend ergänzt durch telefonische und postalische Befragungen (auch: Mail-
umfragen; engl.: mail surveys). Mailumfragen stellen eine Form Selbst-administ-
rierter Interviews in Paper-und-Pencil-Technologie dar, bei der die Papierfrage-
bögen auf dem Postweg zugestellt werden. In anderen Erhebungsdesigns werden
Papierfragebögen nicht versandt, sondern z.B. als Ergänzungen im Anschluss an
einen Interviewer-administrierten Befragungsteil eingesetzt wie im ISSP vor Ein-
führung ergänzender CASI-Interviews (vgl. z.B. Kim et al., 2010) oder bei Grup-
penbefragungen im Klassenzimmer oder im Hörsaal.
Sowohl telefonische Interviews als auch postalische Interviews beinhalten
gegenüber Face-to-Face-Interviews bereits eine gewisse Liberalisierung des Be-
fragungsorts auf Seiten der Befragten, da telefonische Interviews überall dort
durchgeführt werden können, wo die Befragten es vorschlagen, und dies ist
angesichts der rapiden Zunahme der Mobilfunknutzung und der Internet-Te-
lefonie theoretisch grenzenlos in der ganzen Welt möglich. Ähnlich kann bei
postalischen Umfragen grundsätzlich der einmal zugestellte Fragebogen dort
ausgefüllt werden, wo der Befragte es vorzieht, z.B. unterwegs, zu Hause, im
Büro, etc. Auch die Postadresse kann sich ggf. den Wünschen der Befragten
anpassen.
Alle oben erwähnten Interviewformen zeichnen sich dadurch aus, dass sie
ohne Computerunterstützung arbeiten. Inzwischen gibt es zu allen oben aufge-
führten traditionellen Erhebungsmethoden verschiedene Varianten, die auf
unterschiedliche Art und Weise den Computer im Interview einsetzen bzw. ir-
gendeine Art von Befragungssoftware verwenden, wobei zahlreiche Funktionen
nicht nur des Interviewers, sondern auch der Feldorganisation auf den Compu-
ter übertragen werden können. Insgesamt hat sich durch die Erweiterung der
technologischen Möglichkeiten die Klasse der Befragungsmethoden sehr stark
erweitert, wobei diese Entwicklung noch nicht abgeschlossen ist und sich ständig
in Veränderung befindet.
Für Interviewformen, bei denen der Computer als Unterstützung eingesetzt
wird, spricht man auch von computerunterstützten Interviews. Computerunter-
II.2 Grundlegende Dimensionen der Kommunikationsform 101

stützte Interviews beinhalten im Vergleich zu ihren Entsprechungen ohne Com-


puterunterstützung keinen Wechsel des Sinneskanals, über den Informationen
ausgetauscht werden, sondern nur einen Wechsel zu einer anderen Form der tech-
nologischen Unterstützung. So handelt es sich etwa beim Wechsel von einem per-
sönlich/mündlichen Interview ohne Computerunterstützung zu einem Interview,
bei dem der Interviewer ein Notebook oder ein Tablet einsetzt, auch weiterhin
um eine Interviewer-administrierte Form der Befragung, bei der ein Interviewer
mündlich die Fragen stellt und die Antworten notiert. Entsprechendes gilt für Te-
lefonbefragungen.
Computerunterstützte Umfragen gehören wegen verschiedener methodischer
und organisatorischer Vorteile gegenwärtig zu den bevorzugten Befragungstech-
nologien und definieren zusammen mit den oben beschriebenen Administrations-
formen und Sinneskanälen spezifische Befragungsarten bzw. Modes. Sie werden
in der internationalen Forschung mit alternativen Bezeichnungen belegt wie CAI
(Computer Assisted Interviewing), CASIC (Computer Assisted Information Col-
lection) bzw. CADAC (Computer Assisted Data Collection) (vgl. De Leeuw & Ni-
cholls II, 1996; De Leeuw & Collins, 1997). Im Folgenden werden die Verfahren
mit Computerunterstützung näher beschrieben. Befragungsarten innerhalb einer
bestimmten Administrationsform lassen sich auch durch Zusätze in den Bezeich-
nungen unterscheiden, wie z.B. Web Self-Administered Questionnaires (WSAQ)
und Mail Self-Administered Questionnaires (MSAQ) (vgl. Vannieuwenhuyze &
Loosfeldt, 2013).
Ein weiteres technologisch orientiertes Einteilungsprinzip ist jenes nach dem
Grad der Mobilität der Nutzung und der Einsatzmöglichkeiten. Man spricht bei
Technologien wie z.B. Smartphones, Tablets, etc. von sog. mobilen Geräten (engl.:
mobile devices). Das Merkmal der Mobilität ändert nichts an den grundsätzlichen
Dimensionen der Kommunikation, sondern betrifft nur die Form der Nutzung.
Gelegentlich wird in diesem Zusammenhang auch von Geräteformen (engl.: de-
vice modes) gesprochen. Umfragen, die in einer Kommunikationsform, aber un-
terschiedlichen Geräten erfolgen, heißen auch „Mixed-Device-Surveys“. So können
etwa in einer Online-Umfrage etwa Smartphones, Tablets und Laptops eingesetzt
werden (vgl. z.B. Toepol & Lugtig, 2015).
102 II.2 Grundlegende Dimensionen der Kommunikationsform

II.2.2.2 Interviewer-administrierte Verfahren mit Computerun-


terstützung

Zu den Interviewer-administrierten computerunterstützten Interviewmethoden


können gerechnet werden:

CAPI (Computer Assisted Personal Interviewing)


CATI (Computer Assisted Telephone Interviewing)

CAPI
CAPI stellt die computerunterstützte Variante der Interviewer-administrierten
„Paper und Bleistift“- Methode dar. In CAPI-Interviews sucht der Interviewer die
Befragten mit einem tragbaren Computer, in der Regel einem Notebook, einem Ta-
blet oder auch einem Smartphone, (allgemein: mit einem mobilen Gerät) auf. Der
Fragebogen wird dem Interviewer auf dem Monitor präsentiert und den Befragten
vorgelesen. Die Antworten der Befragten werden vom Interviewer in den Com-
puter eingegeben. Nach Beendigung des Interviews können die Daten entweder
per E-Mail an einen zentralen Rechner geschickt oder entweder direkt über eine
sichere Verbindung per E-Mail oder ggf. auch durch Versand von Disketten bzw.
CD-ROMs an die Feldleitung geschickt werden. Interviewer-Instruktionen oder
Adressmaterial kann auf dem gleichen Weg an den Interviewer übermittelt werden.
Die Vorteile von CAPI gegenüber PAPI ergeben sich nicht zuletzt aus der Program-
mierung des Fragebogens, die die Möglichkeit eröffnet, Fehlerquellen wie unzuläs-
sige Eingaben oder Filterfehler bereits bei der Programmierung auszuschließen.
Hinzu kommt die bessere Lesbarkeit der Interviewer-Eingaben. Nachteile ergeben
sich möglicherweise bei kurzen Fragebögen durch längere Interviewzeiten (vgl.
Baker, Bradburn & Johnson, 1995). Bestimmend für die Interviewdauer sind aber
auch schlechte Beleuchtung, Schwierigkeiten, den Bildschirm zu lesen und hoher
Tipp-Aufwand. Um für Interviewer tragbar zu sein, sollte ein Notebook nicht mehr
als 7-8 Pfund wiegen (vgl. Couper & Groves, 1992). Durch die Nutzung von Tablets
und anderen mobilen Technologien spielt dieses Problem aber keine nennenswerte
Rolle mehr. Allerdings ergeben sich neue Probleme wie die des in seiner Größe ein-
geschränkten Screens, etc., welche vor dem Einsatz eine Erprobung auf die Hand-
habbarkeit (engl.: usability) des Geräts und damit auch eine entsprechende Gestal-
tung des Betriebssystems, des Browsers und der eingesetzten Software erfordert.
Neben dem Notebook können als Befragungsinstrumente auch sog. PDAs (Per-
sönliche Digitale Assistenten) zum Einsatz kommen. Bei den PDAs handelt es sich
II.2 Grundlegende Dimensionen der Kommunikationsform 103

um Taschenrechner, etwa so groß wie eine Handfläche (engl.: hand-held computer),


so dass sie bequem in einer Jacken- bzw. Hemdtasche getragen werden können (vgl.
Schneid, 2004). Ihr Einsatz ist sowohl bei Selbst-administrierten Varianten als auch
in CAPI- Varianten möglich (siehe unten).
Notebooks und Tablets sind sehr flexibel einsetzbar. Wird das Notebook etwa
an die Klimabedingungen angepasst und mit verschiedenen Zusatzoptionen wie
GPS-Empfang ausgestattet, so lassen sich CAPI-Umfragen auch in entlegenen
Gebieten wie dem Amazonas-Gebiet mit extremen Klimabedingungen, geringer
Populationsdichte und fehlenden Identifikationsmöglichkeiten von Adressen unter
Verwendung visueller Informationen mit Erfolg einsetzen (vgl. Caviglia-Harris et
al., 2012).

CATI
CATI stellt die älteste Form des computerunterstützten Interviews dar (vgl. Cou-
per & Nicholls II, 1998). Die erste CATI-Befragung wurde zu Beginn der 70er
Jahre vom Marktforschungsinstitut Chilton Research in Zusammenarbeit mit AT
&T durchgeführt. Ursprünglich wurden dabei Minicomputer-Systeme verwendet.
Heute werden Computernetzwerke eingesetzt, über welche die Interviewstationen
(Telefonplätze) miteinander verbunden sind. Alle Stationen können auf einen zen-
tralen Rechner (Server) zugreifen, auf dem die Adressdateien mit den dazugehö-
rigen Telefonnummern liegen. Die Interviewer sitzen, mit einer Sprecheinrichtung
(Headsets) versehen, an ihrem mit Telefon, Computer und Bildschirm eingerichte-
ten Telefonplatz und lesen die Fragen vom Bildschirm ab. Die Antworten der Be-
fragten werden per Tastatur in den Computer eingegeben, der diese direkt auf den
Server überträgt. Die Anwahl der Telefonnummern kann entweder über den Inter-
viewer oder über den Rechner erfolgen (sog. Autodialing, siehe unten). Die gesamte
Steuerung des Feldes wird von einer CATI-Verwaltungssoftware übernommen, die
sich auf einem Server befindet und die die Anruf-, Kontakt- und Terminverwaltung
übernimmt (siehe Abschnitt 3.1.2). Bei Terminvereinbarung mit einer Zielperson
wird die entsprechende Telefonnummer zum vereinbarten Termin auf einen freien
Interviewer- bzw. Telefonplatz gelegt. Das Verwaltungsprogramm kann so einge-
stellt werden, dass bei einem Besetztzeichen die Telefonnummer nach einem vor-
gegebenen, aber einstellbaren Zeitintervall (z.B. 40 Minuten) erneut vorgelegt wird.
Auch die Anzahl der Kontaktversuche kann vorher eingestellt werden.
In der Regel können vor Feldbeginn auch Quoten vorgegeben werden, die
durch Kombinationen mehrerer Merkmale (z.B. Alterskategorien und Geschlecht)
definiert sind. Sind die Quoten (z.B. 30 Männer im Alter zwischen 40 und 50 Jah-
104 II.2 Grundlegende Dimensionen der Kommunikationsform

ren) in einer Quotenzelle erfüllt, so werden unter dieser Quotenbedingung keine


weiteren Interviews mehr realisiert werden.
CATI-Interviews werden normalerweise in speziellen Räumlichkeiten, die
auch als Telefonstudio oder Telefonlabor bezeichnet werden, durchgeführt. Sie
können aber auch dezentralisiert vom Heimarbeitsplatz der Interviewer durch-
geführt werden (Decentralized CATI, kurz: DCATI; vgl. Bergmann et al., 1994;
Chapman & Weinstein, 1990). Durch die Koppelung mit Videoübertragungen
lassen sich die auditiven Merkmale der Befragten und Interviewer mit visuellen
Merkmalen verbinden. Allerdings muss bei Heimarbeitsplätzen eine Anbin-
dung an die CATI-Verwaltungssoftware unter Einhaltung des Datenschutzes
(z.B. sichere Datenleitung) gewährleistet sein.
Die Telefonplätze eines Telefonlabors (Abbildung II.2) sind im Rahmen eines
lokalen Computernetzes (LAN: Local Area Network) mit einem Server verbun-
den. Zum Betrieb des Netzes ist der Einsatz entsprechender Netzsoftware notwen-
dig. Wichtig ist, dass das Netz absolut zuverlässig funktioniert, um die Gefahr von
Zusammenbrüchen des Netzes und damit von rein technischen Einflüssen auf die
Umfragequalität zu reduzieren. Der Server sollte ferner mit einer Unterbrecher-
versorgung ausgestattet sein, um im Notfall, z.B. bei einem unvorhergesehenen
Stromausfall das geordnete Herunterfahren des Servers und des Abspeicherns aller
aktuellen Informationen zu ermöglichen.
Die Telefonplätze sollten den Interviewern genügend Raum zur Verfügung
stellen. Ein Telefonplatz besteht nicht nur aus einem Arbeitstisch, einem Tele-
fon, einem Rechner mit Monitor und einer Sprechgarnitur. Zusätzlich etwa sind
Ablagen für Instruktionen, etc. wünschenswert (siehe auch die Beschreibung in
Gwartney, 2007). Auf den Tischen sollten Begleitmaterialien, z.B. zu Argumen-
ten, mit denen Verweigerungsreaktionen begegnet werden kann, ausgebreitet
werden können. Die Stühle sollten gepolstert und mit einstellbarer Rückenlehne
versehen sein. Zu empfehlen ist auch eine Trennung der Plätze durch schalldäm-
mende Trennwände. Auch Decke und Wände des Telefonlabors sollten soweit
möglich mit schalldämmenden Materialien versehen sein, um den Geräuschpe-
gel gering zu halten.
II.2 Grundlegende Dimensionen der Kommunikationsform 105

Abbildung II.2: Telefonlabor

Neben dem Server und den Telefonplätzen gibt es noch einen oder mehrere Ar-
beitsplätze für die Supervisoren. Supervisoren überwachen die Durchführung der
Interviewsitzungen und können von ihrem Arbeitsplatz aus die aktuellen Daten
der Sitzung abrufen und sich gegebenenfalls nach Einholung der entsprechenden
Einwilligung in die Interviews einschalten, um sich von der ordnungsgemäßen
Durchführung der Interviews zur überzeugen, Fälschungen auszuschließen und
die Fähigkeiten der Interviewer zu überprüfen. Sie überwachen ferner den techni-
schen Ablauf und führen am Ende einer Sitzung die Datensicherung durch.
Vor allem kommerzielle Institutionen und Marktforschungsunternehmen ver-
fügen oft über geographisch auseinanderliegende regionale Zentren, die über die
Bundesrepublik, Europa oder darüber hinaus gestreut sind. Dabei werden entwe-
der getrennte regionale Umfragen durchgeführt oder eine Umfrage wird auf ver-
schiedene Niederlassungen verteilt. Dies macht vor allem die Fallverwaltung (siehe
unten) komplizierter. Man kann damit auf unterschiedliche Weise umgehen. Eine
Möglichkeit ist, die Stichprobe unter den einzelnen Zentren aufzuteilen, eine an-
dere die, den Zentren einen Online-Zugriff auf eine zentrale Datenbank zu gestat-
ten. Eine weitere Variante ist die, sich täglich Fälle und die Unterlagen über die
Tagesplanung von einem zentralen Host abzuholen und am Ende des Tages die
Ergebnisse dem Host zu übermitteln.
106 II.2 Grundlegende Dimensionen der Kommunikationsform

Voraussetzung für die Teilnahme an einer CATI-Befragung ist der Zugang zu


einem Festnetz- oder Mobilfunkanschluss. Grundsätzlich können Mobilfunk-Te-
lefone auch von Interviewern im Rahmen von Face-to-Face-Interviews eingesetzt
werden, so lange die korrekte Abwicklung der Interviews durch die Interviewer
kontrollierbar bleibt.

II.2.2.3 Selbst-administrierte Verfahren mit Computerunter-


stützung (CASI bzw. CASQ)

Selbst-administrierte Formen computerunterstützter Interviews gibt es seit den


1980er Jahren Kennzeichnend für diese Interviewmethoden ist, dass die Fragen
in der Interviewsituation nicht vom Interviewer persönlich (telefonisch oder Fa-
ce-to-Face) gestellt werden, sondern dass die Antworten von den Befragten selber
und nicht von Interviewern in den Rechner eingeben werden. Der Fragebogen wird
also nicht vom Interviewer appliziert, vielmehr wird der Interviewer durch eine
interaktive Befragungssoftware ersetzt, die den Befragten durch den Fragebogen
führt. Zu den Selbst-administrierten computerunterstützten Interviewmethoden
zählen:

CASI (Computer Assisted Self-Administered Interviewing) bzw.


CSAQ (Computerized Self-Administered Questionnaire):
• unter Anwesenheit und Anleitung eines Interviewers
• DBM (Disk By Mail)
• Inter- und intranetbasierte Umfragen:
• (06 (lectronic Mail 6XUYH\V E]Z(0DLO8PIUDJHQ
• CAWI (Computer Assisted Web Interviews) bzw.
Webumfragen (auch: Internet-Umfragen)

CASI mit auditiven Komponenten:


• $&$6, $XGLR&RPSXWHU$VVLVWHG6HOI,QWHUYLHZLQJ
• 7$&$6, 7HOHSKRQH$XGLR&RPSXWHU$VVLVWHG6HOI,QWHUYLHZLQJ

CAPAR (Computer Assisted Panel Research)

Eine weitere Variante der Selbstadministration, die insbesondere bei sensitiven


Fragen und bei Befragten mit sehr niedrigem Bildungsniveau Anwendung gefun-
den hat, ist die Nutzung von Apple iPods und MP3-Playern zur Präsentation von
Fragen (vgl. Chauchard, 2013; Galvez et al., 2009). Chauchard bezeichnet das Ver-
II.2 Grundlegende Dimensionen der Kommunikationsform 107

fahren einer Administration über einen MP3 Player als ASAQ (Audio Self-Admi-
nistered Questionnaire).
Unter den Begriffen CASI bzw. CSAQ werden alle Verfahren der computerun-
terstützten Selbstadministration zusammengefasst (vgl. De Leeuw, 2008); De Leeuw
& Collins, 1997). Durch das Voransetzen des Buchstaben „A“ werden die unter-
schiedlichen Verfahren mit auditiver Präsentation der Fragen, durch Voransetzen
des Buchstabens „T“ die Verfahren mit telefonischer Administration bezeichnet.
Da die Bezeichnungen nicht immer konsistent verwendet werden, empfiehlt es sich
immer, die Beschreibungen der Erhebungsmethode in den Veröffentlichungen ge-
nau zu studieren.
CASI-Interviews können wie SAQ-Interviews mit und ohne Anwesenheit des
Interviewers durchgeführt werden. Bei CASI-Interviews ohne Interviewer bittet
das Datenerhebungsinstitut den Befragten, den Fragebogen auf seinem eigenen
Computer zu beantworten. Dabei kann die dazu notwendige Software entweder
auf einer Diskette bzw. einer CD-ROM, die auch als Field Disk bezeichnet wird,
zugeschickt werden oder über ein LAN (Local Area Network), per E- Mail und/
oder per Zugriff auf Websites bereitgestellt werden.
Es kann sich aber auch, insbesondere bei Personen, die beruflich und privat nur
selten mit dem Computer arbeiten, empfehlen, die Befragten mit Notebooks oder
anderen passenden tragbaren Rechnern aufzusuchen, um diese in die Bedienung
des Computers und die Handhabung der Befragungssoftware einzuweisen sowie
für Rückfragen während des Interviews zur Verfügung zu stehen. Auch eine Mit-
arbeiterbefragung in einem Unternehmen oder eine Klassenzimmer-Befragung er-
fordert bei einer Selbst-administrierten Befragung an bereitgestellten Computern
in der Regel die Anwesenheit mindestens eines Interviewers, um bei Bedarf Hilfe-
stellungen zu geben. Diese Methode wird von einigen Autoren als CASIIP („CASI
Interviewer Present“) bezeichnet (Scherpenzeel & Saris, 1997, p.349), während sich
die Bezeichnung „CASI“ nur auf die Selbstapplikation hinsichtlich Lesen des Fra-
gebogens und Eintippen der Antworten bezieht.
Bei Interviews mit sensitiven Teilen kann es sinnvoll sein, CASI auch innerhalb
einer CAPI-Sitzung durchzuführen, indem der Interviewer dem Befragten den
Computer für eine kurze Zeit zur Beantwortung bestimmter Fragen überlässt (sie-
he oben). Eingesetzt wird diese Technik bei sensiblen Fragen und zur Reduktion
von Einflüssen der sozialen Erwünschtheit. Diese Form entspricht entsprechenden
Vorgehensweisen bei PAPI (siehe oben).
Bei einer CASI-Befragung mit Disketten-Versand der Befragungssoftware
spricht man von Disk-by-Mail (DBM)-Umfragen (vgl. Higgins, Dimnik & Green-
wood 1987; Schneid 1995). Nach Einlegen der Diskette rufen die Befragten zur Öff-
nung des Fragebogens eine Ausführungsdatei auf. Der Befragte geht Frage für Fra-
108 II.2 Grundlegende Dimensionen der Kommunikationsform

ge durch und gibt seinen Antworten über die Tastatur seines Computers ein. Nach
dem Ausfüllen des Fragebogens wird die Diskette wieder an das Umfrageinstitut
zurückgeschickt. Der Versand erfolgte früher vorwiegend postalisch, heute aber
in der Regel über ein Attachment zu E-Mails. Im Rahmen der Vorbereitung von
computerunterstützten Telefonumfragen können solche Field Disks zu Zwecken
der Kontrolle des programmierten Fragebogens an den Auftraggeber geschickt
werden, der die Interviewer-Tätigkeit am Computer simulieren kann, in dem er
selbst die Antworten eingibt und dabei inhaltliche Probleme, Layout-Probleme und
Probleme der Navigation aufdecken kann (vgl. auch Test programmierter Fragebö-
gen, Teil III).
Im Fall des Versands eines Fragebogens über E-Mail spricht man von EMS-Um-
fragen (Electronic Mail Surveys; auch: E-Mail-Umfragen). Bei EMS-Umfragen
werden an E-Mail-Nutzer E-Mails mit der Bitte geschickt, an einer Befragung teil-
zunehmen. Wenn sie zustimmen, wird ihnen über ein Interviewprogramm eine
Anzahl von Fragen gestellt oder sie erhalten eine elektronische Form des Fragebo-
gens, die sie später ausfüllen können.
Wie EMS-Umfragen, Informationsaustausch in Newsgroups und sozialen Netz-
werken, Internet-Relay-Chat-Kanäle (IRC) zum synchronen Austausch von Mittei-
lungen, basieren Webumfragen im Internet auf einem Informationsdienst, in diesem
Fall dem „World Wide Web“. Dieser Dienst erlaubt Zugriffe auf durch Hyperlinks
verbundene, ganz unterschiedliche Medientypen wie z.B. Texte, Grafiken, Videos
und Klänge, ähnlich wie bei CASI-Erhebungen per Notebook. Hierin liegen sowohl
Chancen als auch Risiken für die Qualität von Befragungen. Neue Anwendungen
ergeben sich aus der zunehmenden Verbreitung von internetfähigen Smartphones
mit ausreichend großen Displays, wodurch sich die Möglichkeit mobiler Webum-
fragen (engl.: mobile web surveys) ergibt (vgl. Fuchs, 2008, 2012; Fuchs & Busse,
2009; Peytchev & Hill, 2010; vgl. auch die Übersicht zur Nutzung in den Sozialwis-
senschaften von Raento, Oulasvirta & Eagle, 2009). Dabei können Wirkungen des
kleinen Bildschirms und der Tastatur auf das Antwortverhalten auftreten. Wenn
Antwortoptionen oder Fragetexte in den nicht sichtbaren Bereich des Bildschirms
fielen, wurden diese als nicht gesehen behandelt. Auch die Handhabbarkeit einer
kleinen Tastatur kann die Wahl einer Antwort beeinflussen (vgl. Peytchev & Hill,
2010).
Webumfragen gehören zur übergeordneten Klasse der Online-Umfragen. Unter
der Bezeichnung „Online-Umfragen“ werden alle Umfragen zusammengefasst, bei
denen Daten mittels eines Onlinefragebogens erhoben werden, unabhängig vom
benutzten Internetdienst (WWW, E-Mail, etc.) und unabhängig von der Rekru-
tierungsform. Zu den Online-Befragungen zählen auch Umfragen im Intranet ei-
II.2 Grundlegende Dimensionen der Kommunikationsform 109

nes Unternehmens bzw. einer Institution, etwa unter Mitarbeitern im Rahmen von
Mitarbeiterbefragungen.
Interessante Anwendungen ergeben sich durch die Nutzung der Telefonfähig-
keit von Smartphones in Verbindung mit der visuellen Darstellung von Fragen.
Diese Verbindung hat vor allem Vorteile für eine ereignis- und situationsorien-
tierte Auswahl. So wurden z.B. in einer Studie zur Belästigung durch Fluglärm
Palm-Rechner als PDAs (siehe oben) an Befragte verteilt, die zu bestimmten Ta-
geszeiten über das PDA angeläutet wurden. Zu diesen Zeitpunkten konnten die
Befragten eine tageszeitliche Einschätzung des Fluglärms („acute noise“) in das
PDA eingeben (vgl. Schreckenberg & Schümer, 2010). Bei Anwendungen dieser
Art handelt es sich um Beispiele für Erhebungen mit sog. Erfahrungsstichproben
(ESM-Verfahren), bei denen zu bestimmten Zeiten spezifische Erfahrungen von
Personen erhoben werden (vgl. Aellig, 2004; Hormuth, 1986; Pfister, Nussbaum &
Schallberger, 1999; Roduner et al., 2001; Wheeler & Reis, 1991). Erfahrungsstich-
proben können auch eingesetzt werden, um Gedanken, Gefühle und Handlungen
im Alltag der Befragten abzurufen. So kontaktierten Silvia et al. (2013) über 7 Tage
und 8x pro Tag 450 junge Erwachsene, indem sie ein Signal zu PDAs, welche den
Teilnehmern zur Verfügung gestellt wurde, sandten. Die dafür eingesetzte Software
administrierte auch den auszufüllenden Fragebogen. Der ausgefüllte Fragebogen
wurde ausgelesen oder via Mail direkt an das Institut geschickt oder Administrato-
ren übergeben. Die Autoren untersuchten in diesem Zusammenhang die Ursachen
von Nonresponse, z.B. durch die Nichtbeachtung von Signalen.
Statt PDAs lassen sich auch Smartphones einsetzen. Ein Beispiel für die Anwen-
dung von Smartphones in einer Zeitbudget-Studie geben Fernee und Scherpenzeel
(2013).
Entwicklungen wie CAMI (Computer Assisted Mobile Interviewing) versuchen
alle Komponenten zu verbinden, die Befragten zur Verfügung gestellt werden müs-
sen, wenn Fragen an beliebigen Orten über Notebook, Mobiltelefon, etc. beant-
wortet werden sollen. Grundsätzlich muss inzwischen davon ausgegangen werden,
dass alle Medien miteinander verknüpft werden können.

CASI mit auditiven Komponenten


Eine weitere CASI-Variante besteht darin, den Befragten die Fragen nicht nur visu-
ell über den Bildschirm darzubieten, sondern zusätzlich auch akustisch über digita-
lisierte Sprache oder über ein Tonband. In diesem Fall spricht man von Audio-CASI
bzw. ACASI. Eine weitere Variante, T-ACASI, stellt eigentlich eine Mischform dar,
bei der die Fragen telefonisch gestellt werden, jedoch nicht durch einen während
des Interviews anwesenden Interviewer. Stattdessen sind die Fragen entweder
110 II.2 Grundlegende Dimensionen der Kommunikationsform

vorher in akustischer Form auf Datenträger aufgenommen worden und werden


zum Zeitpunkt des Interviews vorgespielt, oder aber sie werden zum Zeitpunkt
des Interviews synthetisch erzeugt. In beiden Fällen ist der eigentliche Adminis-
trator das System. Die Befragten geben ihre Antworten durch Drücken von Tasten
ein. T-ACASI wird oft auch IVR (Interactive Voice Response) (vgl. Couper, Singer
& Tourangeau, 2004; Tourangeau, Steiger & Wilson, 2002) oder TDE (Touchtone
Data Entry; zur Arbeitsweise vgl. z.B. Jakhuh & Sauer, 2002) bezeichnet. Dabei gibt
es verschiedene Varianten in Anhängigkeit davon, ob die Befragten zunächst von
einem Interviewer kontaktiert werden und dann in ein IVR-System umgeleitet
werden („recruit and switch“-Version) oder ob die Befragten über ein Tastentelefon
eine gebührenfreie Nummer anrufen und sich direkt in das IVR-System einwählen.
Der Anruf aktiviert dann eine Interviewsitzung. Der Fragebogen liegt im System
in vorher aufgenommener Sprachversion vor und wird den Befragten vorgelesen.
Dieser gibt die numerischen Antworten durch Drücken der entsprechenden Taste
ein. Der Befragte wird über eine ID identifiziert, die mit einer Menge gespeicherter
IDs abgeglichen wird. TDE wird z.B. vom amerikanischen Bureau of Labor Stati-
stics eingesetzt. Der Vorteil ist, dass Befragte Tag und Nacht während der gesamten
Woche anrufen können. Werden die Antworten nicht durch Tastendruck, sondern
sprachlich gegeben, so spricht man von VRE (Voice Recognition Entry).
Insofern IVR, TDE und T-ACASI auf einem auditiv/telefonischen Kontakt
beruhen, lassen sich diese auch als Selbst-administrierte Varianten von CATI-In-
terviews auffassen. Mit dieser Technologie werden bestimmte Vorteile verbunden.
Dazu gehören reduzierte Stichprobenverzerrungen durch Effekte der sozialen Er-
wünschtheit (vgl. e.g. Gribble et al., 2000; Kreuter, Presser & Tourangeau, 2008;
Turner et al., 1996) sowie reduzierte Kosten in dem Fall, wo die Befragten gleich
mit dem IVR-System verbunden werden und nicht vorher von Telefoninterviewern
kontaktiert werden, ehe sie an das System überstellt werden. Tourangeau, Steiger
& Wilson (2002) machen allerdings darauf aufmerksam, dass beide Formen (mit
und ohne Rekrutierung durch Interviewer) hohe Nonresponse-Raten nicht zuletzt
durch Abbrüche haben können. Mit dem Wechsel zwischen Interviewer und Sys-
tem kann außerdem eine neue Art von Nonresponse entstehen, die darin besteht,
dass Befragte während des Wechsels den Hörer auflegen. Die Autoren überprüften
experimentell einige Effekte von IVR. Sie fanden, dass IVR-Interviews zu „ehrli-
cheren“ Antworten führen. Dagegen steigert IVR im Vergleich zu traditionellem
CATI die Tendenz, aus dem Interview auszusteigen, selbst dann wenn die Befrag-
ten vorher einem Interviewer versichert hatten, dass sie das Interview fortführen
wollen. Auch die Wartezeiten der Befragten, erhöhten die Anzahl der Abbrüche.
Eine Übersicht über verschiedene IVR-Studien bis zum Jahr 2000 geben Corkrey
und Parkinson (2002).
II.2 Grundlegende Dimensionen der Kommunikationsform 111

Der Frage, ob sich menschliche Stimme und vorher aufgenommene, eher


menschlich oder eher „maschinenhaft“ klingende Stimmen sowie synthetische
Computerstimme (erzeugt durch Text-to-Speech bzw. TTS-Systeme) in ihren
Wirkungen auf das Antwortverhalten unterscheiden, gingen Couper, Singer und
Tourangeau (2004) nach. Dabei fanden sie, dass das Geschlecht beim Einspielen der
Stimme keine Rolle spielt und bestätigten damit frühere Ergebnisse von Turner et
al. (1998), die selbst in Umfragen mit Sex-Themen keinen Einfluss des Geschlechts
der Interviewer nachweisen konnten, auch in Bezug auf Stimm-Einspielungen.
Ähnliche Ergebnisse erzielten Tourangeau, Couper und Steiger (2003) in Bezug auf
das Einspielen von Bildern, die eine unterschiedliche soziale Präsenz bei Webum-
fragen signalisieren sollten. Was den Unterschied zwischen synthetisierter Stimme
und menschlicher Stimme angeht, so fanden die Autoren, dass Interviews durch
Live-Interviewer (CATI-Interviewer) in der Tat von den Befragten qualitativ an-
ders wahrgenommen werden als IVR-Interviewer. Die verschiedenen Stimmtypen
werden zwar durchaus als unterschiedliche erkannt. Doch gab es keine Hinweise in
Hinblick auf negative Auswirkungen von „Computerstimmen“ auf das Antwortver-
halten. Negativ beeinflusst wurden weder die Bereitschaft, den Fragebogen bis zum
Ende durchzuführen, noch der Anteil von Antwortausfällen (Item-Nonresponse),
noch die Antworten selbst.
Die Eingabe komplexerer Sprachäußerungen setzt voraus, dass das System über
die Möglichkeit der automatischen Spracherkennung ASR (Automatic Speech Reco-
gnition) verfügt. ASR kann auf unterschiedliche Weise ablaufen (vgl. Blyth 1997).
Die grundlegende Methode beinhaltet das Erkennen des Musters, das durch das
Spektrogramm unterschiedlicher Worte erzeugt wird. Ein Spektrogramm reprä-
sentiert die Wellenform der Laute menschlicher Sprache im Zeitverlauf. Zunächst
wird der Computer trainiert, Muster verschiedener Worte durch Analyse wieder-
holter Aussprache zu erkennen. Anschließend werden Testworte mit einer Daten-
bank trainierter Modelle verglichen, und das Muster mit der größten Ähnlichkeit
wird identifiziert. Die Genauigkeit der Erkennung äußert sich im Prozentsatz
der Fälle, bei denen das Matching ein korrektes Ergebnis liefert. Varianten die-
ser Grundmethode entstehen in Abhängigkeit davon, ob die Sprachmodellierung
und das Training sprecherabhängig oder sprecherunabhängig gestaltet sind. Die
Einbeziehung unterschiedlicher regionaler Akzente, die geschlechterunabhängige
Erkennung, etc. erfordert eine sprecherunabhängige Sprachmodellierung. Letzte-
re ist auch Voraussetzung für die Anwendung in Umfragen. Ferner sind die Mo-
dellierungen abhängig vom Übertragungsmedium. Wird die Stimme z.B. über das
Telefon übertragen, so werden die oberen und unteren Teile des Frequenzbandes
abgeschnitten. Ein weiteres Problem stellen Hintergrundgeräusche dar. Auch die
Größe des Vokabulars stellt einen Faktor, vor allem für die Rechenkapazität, dar.
112 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

Eine weitere Variante computerunterstützter Selbstadministration stellt schließ-


lich CAPAR dar. Eine bekannte Variante ist das Tele-Interview (vgl. Saris, 1994,
1998). Dabei füllen die Befragten einmal in der Woche einen elektronischen Fra-
gebogen aus. Dazu bekommen ausgewählte Haushalte einen Mikrocomputer und
ein Modem zur Verfügung gestellt. In regelmäßigen Intervallen wählt das Modem
des Rechners der Befragungsperson automatisch einen entfernten Rechner (engl.:
remote computer) an und empfängt einen neuen Fragebogen. Nachdem die Fra-
gebögen mit Hilfe der Befragungssoftware ausgefüllt wurden, werden die Daten
direkt an den entfernen Rechner geschickt.

II.3 Funktionsweise der Software-Unterstützung in aus-


gewählten CAI-Anwendungen

II.3.1 Die Funktionsweise von CATI-Systemen

II.3.1.1 Allgemeine Struktur

Die zur Durchführung von computerunterstützten Telefonumfragen eingesetzte


CATI-Software enthält in der Regel zwei Komponenten:

• Softwarekomponente zur Programmierung und Testen des Fragebogens;


• Verwaltungssoftware zur Verwaltung der Telefonnummern und zur Steuerung,
Überwachung und Dokumentation der Interaktion mit den Interviewer-Ar-
beitsplätzen sowie des Feldgeschehens.

Die Möglichkeiten der Programmierung beziehen sich auf die Formulierung und
Positionierung von Fragetexten, die Wahl der Farben für Text und Hintergrund,
den Entwurf von Hilfen für die Interviewer (Hilfetasten), die Programmierung der
Filterführung in Abhängigkeit vom Ergebnis der Evaluation arithmetischer Aus-
drücke, die Spezifikation von Kriterien der Item-Rotation (z.B. zufällig), die zufälli-
ge Auswahl von Items in Abhängigkeit von bestimmten Befragtengruppen, etc. Die
Möglichkeiten der Bildschirm- und Skalengestaltung sind bei den verschiedenen
Softwareprodukten unterschiedlich flexibel, insbesondere dann, wenn Experimen-
te oder Pretests unter Einbeziehung möglicher Wirkungen unterschiedlicher Bild-
schirmgestaltung geplant sind, kann dieser Gesichtspunkt ein sinnvolles Auswahl-
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 113

kriterium darstellen. Die Programmierung erfolgt zumeist Menu-gestützt. Sie kann


aber auch im Fließtext erfolgen, der durch einen Interpreter interpretiert wird.
Abbildung II.3 zeigt das Beispiel eines Bildschirminhalts, den der Interviewer
im Rahmen eines Interviews vor sich sieht. Er liest die auf dem Bildschirm darge-
stellten Fragen vor und markiert die Antwortvorgaben, die der Befragten nennt.

Abbildung II.3: Beispieldarstellung eines Dialogfensters

II.3.1.2 Funktionen der CATI-Verwaltungssoftware

Die Verwaltungssoftware von CATI-Systemen erfüllt in der Regel folgende Funktionen:

A. Anrufverwaltung (engl.: call scheduling)


Der Anrufverwaltung obliegen die Planung, die Überwachung und die Steuerung
von Anrufen. Ziel der Anrufverwaltung ist die Steigerung der Effizienz, erfolg-
reiche Anrufe zu realisieren. Edwards, Suresh und Weeks haben 1998 insgesamt
achtzehn in den USA im Einsatz befindliche CATI-Systeme miteinander verglichen
114 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

und in diesem Zusammenhang die wichtigsten Aufgaben einer Anrufverwaltung


zusammengestellt:

• Die Buchführung der von den Interviewern getroffenen Terminvereinbarungen


und die Vorlage der Rückrufe (engl.: call backs) zu den vereinbarten Terminen;
• Die Steuerung und Kontrolle der Terminplanung unter Einbeziehung der In-
formationen über die Verfügbarkeit von Interviewern, um die vereinbarten
Termine wahrzunehmen;
• Die Verlegung von sog. cold calls, d.h. erstmaligen Anrufen oder Rückrufen
von Fällen, bei denen vorher noch kein Kontakt zustande kam, auf Zeiten, bei
denen die Wahrscheinlichkeit, einen in Frage kommenden Befragten zu errei-
chen, am größten ist;
• Die Implementierung vorher spezifizierter Wählalgorithmen für besondere
Typen von Fällen (z.B. besetzte Nummern, abgebrochene Terminvereinbarun-
gen);
• Anruf-Priorisierung, so dass die wichtigsten Nummern zuerst angerufen wer-
den;
• Zuordnung spezifischer Fälle zu passenden Typen von Interviewern (z.B. refu-
sal converters, d.h. Interviewern, die besonders geeignet sind, Verweigerer zu
Befragungsbereiten zu machen; zweisprachige Interviewer, etc.);
• Automatischer Ausschluss von Fällen oder Verweis von Fällen an den Supervi-
sor zur Nachprüfung;
• Projektierung des Bedarfs an Änderungen des Arbeitsablaufs für spätere Arbei-
ten auf der Basis der Anzahl und Typen verfügbarer Fälle;
• Erzeugung verschiedener Statusberichte wie Überblick über die Intervie-
wer-Produktivität, die Zusammensetzung der Stichprobe (vgl. Abbildung
II.4). oder einer Feldübersicht (engl.: sample report), welche einen Überblick
über die Dispositionscodes (zur Definition vgl. Teil VII) wie die Anzahl der
erfolgreichen Kontakte, Anzahl der Kontaktversuche, Anzahl der realisierten
Interviews, Anzahl der Verweigerer, etc. enthält (siehe Abbildung II.5). Die-
se Informationen können jederzeit auch als Zwischeninformation abgerufen
werden.
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 115

Abbildung II.4: Abruf von Stichprobeninformationen

Abbildung II.5: Beispiel eines Sample Reports


116 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

B. Die Verwaltung der Fälle


Connett (1998, p. 236) liefert einen Überblick über die Aufgaben eines CATI- Sys-
tems zur Verwaltung der Fälle (engl.: case management system). Case Manage-
ment-Systeme enthalten üblicherweise

• Stichprobenroutinen für die zufällige Auswahl von Stichproben oder die Ver-
wendung von Auswahllisten;
• Vorkehrungen, die es den Interviewern ermöglichen, sich über Fälle und An-
rufe Notizen zu machen;
• Automatisierte Erstellung der Anrufgeschichte, die es erlaubt, über die Zeiten
und Ereignisse im Zusammenhang mit einem Fall den Überblick zu halten;
• Pflege und Berichterstattung aller Ergebnisdaten der Anrufe;
• Verwaltung der Logins des Interviewer-Stabes, Zuordnung von Studien zu In-
terviewern bzw. Teams von Interviewern;
• Überwachungsroutinen, die es erlauben, Inhalte von Bildschirmen der Inter-
viewer auf den Rechnern der Supervisoren darzustellen und bei einigen Syste-
men dem Supervisor ermöglichen zu intervenieren;
• Mechanismen für den Falltransfer, um Teile eines Falls von einem Interviewer
auf den anderen zu legen;
• Fähigkeit, Gruppen von Interviewern und Kategorien von Anrufen zu verwal-
ten.

C. Anlage einer Datei mit den Daten der Befragten und/oder weiteren
Daten
Diese Datei ist Ausgangspunkt für die Konvertierung in eine Systemdatei eines Sta-
tistik-Programmpakets wie SPSS, SAS, STATA, STATISTICA, S-PLUS, etc. In der
Regel verfügen die CATI-Systeme über eigene einfache Auswertungsroutinen wie
z.B. Tabellenkalkulation.
Bei der Anschaffung eines CATI-Programms sollte das Augenmerk vor allem
auf die Beschränkungen gelegt werden. So kann z.B. in bestimmten Umfragen der
Zugriff auf eine umfangreiche externe Datenbank, z.B. eine ACCESS-Datenbank,
notwendig werden. Dies ist etwa dann der Fall, wenn Berechnungen in externen
Datenbanken durchgeführt werden müssen und das Ergebnis im Fragebogen ver-
wendet soll. Nehmen wir als Beispiel, dass eine Umfrage unter Zeitschriftenkäufern
in der Stadt X durchgeführt werden soll und dass in Abhängigkeit von der Entfer-
nung des Geschäfts, in dem die Zeitschrift gekauft wurde, zu einer bestimmten Fra-
ge im Fragebogen gesprungen werden muss. Dazu soll eine externe Datenbank mit
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 117

allen Adressen der möglichen Verkaufsstellen bereitgestellt werden. Nennt der Be-
fragte eine Verkaufsstelle, so wird deren Adresse herausgesucht und mit der Straße
verglichen, in der der Befragte wohnt. Anschließend wird nach einem Algorithmus
die Entfernung berechnet. Überschreitet die Entfernung einen bestimmten Wert,
wird zu einer bestimmten Frage verzweigt.
Ein weiterer wichtiger Gesichtspunkt bei der Anschaffung von CATI-Software
ist die Komplexität der Fragebögen, die vom System akzeptiert werden. Diese Be-
schränkungen verbergen sich z.T. hinter der Anzahl der zugelassenen Filter und
Schleifen.

D. Autodialing
Nahezu alle CATI-Systeme bieten ferner die Möglichkeit des sog. Autodialing in
der einen oder anderen Form. Autodialing-Einrichtungen können weiter unterteilt
werden in:

• Einfaches Autodialing
• Autodetecting
• Predictive Autodialing

Beim einfachen Autodialing wählt nicht der Interviewer, sondern eine Wähleinrich-
tung (z.B. ein Modem) im Server auf Anweisung des Interviewers eine Telefon-
nummer. Dadurch werden Fehler beim Anwählen vermieden. Ein weiterer Vorteil
ist ein schnellerer Wählvorgang als im Falle des manuellen Anwählens.
Beim Autodetecting erkennt eine Hardwarekomponente der telefonischen Sig-
nalverarbeitung gewisse Eigenschaften der Empfängersignale wie Besetztzeichen,
Modems, Fax-Anschlüsse und ungültige Nummern. Der Interviewer hört hier
zwar den Wählvorgang, tritt aber erst in Aktion, wenn er eine Stimme hört. Führt
der Wählvorgang zu keinem Ergebnis, so wird dies direkt dem System zu Num-
mernverwaltung mitgeteilt.
Beim prädiktiven Autodialing (engl.: predictive autodialing) wählt das System die
Nummern automatisch und überträgt die Anrufe an den Interviewer, sobald der
Anruf angenommen wurde. Der Interviewer hat hier auf den Wählvorgang keinen
Einfluss. Im einfachsten Fall führt der prädiktive Dialer dabei die gleichen Aufga-
ben aus wie das Autodetecting. Einige intelligentere Systeme bieten darüber hinaus
die Möglichkeit, reale Stimmen von Anrufbeantwortern zu unterscheiden.
Prädiktive Systeme verwenden Algorithmen, welche die Anzahl der auf einen
Kontakt wartenden Interviewer, die durchschnittliche Länge des Interviews und
die Gesamtzahl der Anrufversuche einbeziehen, um die Verfügbarkeit der Inter-
118 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

viewer einzuschätzen, den Anruf zu übernehmen (vgl. Edward, Suresh & Weeks,
1998, p.290). Ist ein Interviewer nicht verfügbar, wird der Anruf abgebrochen und
der Hörer aufgelegt. Dabei besteht die Möglichkeit, die Aufgaberate so festzule-
gen und das System an das Wähltempo so anzupassen, dass es im Rahmen der
Aufgaberate bleibt. Im Allgemeinen kann eine große Anzahl potentieller Inter-
viewer eine schnelle Anwählrate bei gleichzeitiger Minimierung der Aufgaberate
aufrechterhalten. Ein großer Pool mit Interviewern erhöht die Wahrscheinlichkeit,
dass wenigstens ein Interviewer verfügbar ist, wenn der prädiktive Dialer eine reale
Stimme entdeckt hat.
Prädiktive Autodialer finden bevorzugt bei Random-Digit-Dialing-Verfahren
Anwendung, wo Telefonnummern zufällig erzeugt werden, von denen eine große
Teilmenge nicht gültig ist. Sie werden entweder als getrennte Einzelprodukte oder
als integrative Komponenten in Verbindung mit der übrigen CATI-Software auf
dem Markt angeboten. Nachteilig bei prädiktiven Autodialern ist, dass erfolgreiche
Anrufe aufgegeben werden müssen, wenn kein Interviewer zur Verfügung steht.
Auch vergeht bei dieser Technologie Antwortzeit bis sich der Interviewer beim An-
gerufenen meldet, mit der Konsequenz, dass die Antwortraten negativ beeinflusst
werden. Blyth (1998) berichtet ein Anwachsen der Interviewer-Produktivität um
70% bei großen Stichproben und bei kurzen Interviews von fünf Minuten und we-
niger nach Einführung des prädiktiven Dialers. Beim Einsatz muss aber auch der
zusätzliche Stress und der Effekt auf das Selbstverständnis des Interviewers bedacht
werden, der sich in einer solchen Situation bemüßigt fühlt, Interviews möglichst
rasch zu realisieren.
Nicht selten wird diese Art von Dialern verwendet, um aus einer Menge zufällig
erzeugter Nummern vor Start der Umfrage die Teilmenge der gültigen Nummern
herauszufiltern, so dass bei der Durchführung der Umfragen nur noch mit der Teil-
menge der gültigen Nummern gearbeitet werden kann.

II.3.2 Funktionsweise internet-basierter Befragungstechnologien

II.3.2.1 Internetdienste und Typen internetbasierter Befragun-


gen

Aus Kostengründen wie etwa der Einsparung von Interviewer- und Organisations-
kosten und wegen der Möglichkeit, über den WWW-Dienst auf unterschiedliche,
miteinander durch Hyperlinks verbundene Medientypen wie Texte, Grafiken, Vi-
deos und akustische Informationen zuzugreifen (vgl. Bandilla et al. 1999; Bandilla
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 119

& Bosnjak 2000; Birnbaum 2004; Bosnjak 1997), haben sich Webumfragen inzwi-
schen zu einem Standardinstrumentarium der Umfrageforschung entwickelt. Auch
gewisse Vorteile, die z.T. aus der Eigenschaft der Selbstadministration folgen wie
geringere Ausfälle bei sensitiven Fragen habe zu dieser Entwicklung beigetragen.
Über die mit dieser Kommunikationsform verbundenen Mode-Effekte wird später
zu sprechen sein.
Auch wenn die Verwendung des Internets in Umfragen inzwischen keinerlei
Originalität mehr in sich birgt, sollte man doch zumindest grob wissen, welche
Form von Softwareunterstützung man zu erwarten hat. Moderne Software-Systeme
sind in der Lage, wie auch im Fall der CATI-Software die gesamte Feldorganisation
zu übernehmen und relativ rasch Fragen und Antwortskalen zu generieren, so dass
ein Fragebogen einschließlich Layout in Standardanwendungen problemlos erstellt
werden kann. Beispiele für die Umsetzung von bestimmten Fragetypen finden sich
in Teil III. Die Ergebnisse des Feldverlaufs und die Anteile verschiedener Arten von
Ausfällen werden von der Verwaltungssoftware berechnet und zusammengestellt.
Dies gilt auch für die komplexe Verwaltung eines Online-Panels.

II.3.2.2 Software-Komponenten zur Realisation internetbasier-


ter Umfragen

Obwohl der Fragebogen für eine einfache internetbasierte Umfrage vom Anwender
selber, z.B. in HTML programmiert werden kann, setzt die eigenständige Program-
mierung von Komponenten der automatischen Feldsteuerung doch Kompetenzen
voraus, die in der Regel bei normalen Anwendern nicht vorhanden sind. Inzwi-
schen gibt es zahlreiche Softwarelösungen für internetbasierte Umfragen. Wie bei
computerunterstützten Telefonumfragen enthält eine typische Software sowohl eine
Komponente zur Programmierung des Fragebogens und einen Verwaltungsteil für
die Feldsteuerung einschließlich einer Dokumentation des Feldverlaufs.
Zur Umsetzung von Online-Umfragen stellt der Markt zahlreiche Software-Sys-
teme zur Verfügung, die dem Benutzer die eigene HTML-Programmierung der
Fragebögen sowie die Schaffung der client- und serverseitigen Voraussetzungen
in unterschiedlichem Ausmaß ersparen und die gesamte Verwaltung der Umfrage
übernehmen. Auch im Bereich von Online-Umfragen gibt es Software, die zumin-
dest in einer Basisversion als Freeware im Internet kostenlos verfügbar ist. Beispiele
sind SurveyMonkey (siehe https://www.surveymonkey.com), Qset oder SurveyWiz
(vgl. Birnbaum, 2000). Die Arbeitsgruppe NEON (Network Online Research) des
Berufsverbandes Deutscher Markt- und Sozialforscher (BVM) hat die Anforderun-
120 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

gen, die an eine Online-Befragungssoftware zu stellen sind, zusammengefasst (vgl.


NEON, 2003). Dabei wurden folgende Merkmalstypen unterschieden:
• Technische Anforderungen an den Online-Fragebogen;
• Merkmale zur Unterstützung der Programmierung;
• Merkmale zur Gestaltung des Fragebogens;
• Merkmale zur Steuerung des Fragebogens (Navigation);
• Sicherheit und Stabilität, zusätzliche Merkmale.
Die untenstehende Darstellung lehnt sich an die Darstellung von NEON an. In Be-
zug auf jede Merkmalsklasse führen wir eine Klassifikation nach Basisanforderun-
gen, Leistungsanforderungen und gehobenen Anforderungen ein. Die Auflistung
dieser Anforderungen gibt einen Eindruck der Möglichkeiten, die Software für
Internetumfragen anzubieten in der Lage ist. Die meisten Anforderungen gehören
inzwischen zum Standardangebot der professionellen Softwareprodukte.

Basisanforderungen

A. Technische Basisanforderungen
Technische Basisanforderungen betreffen die Kompatibilität des Online-Fragebogens mit
den üblichen Browsertypen und Browserversionen, die Erfassung jedes Kontakts bei Inter-
zept-Umfragen zur Berechnung der Rücklaufquoten und der Ausschluss von Mehrfachaus-
füllern (z.B. durch Login-Funktion, optionale Setzung eines Cookies, Protokollierung der
IP-Nummern).

B. Basisanforderungen in Hinblick auf die Unterstützung der Programmierung


Zu den Basisanforderungen in Hinblick auf die Unterstützung der Programmierung gehören
(1) flexible Möglichkeiten des Layouts wie variable Zeichen- und Textdarstellung bezüg-
lich Schriftart, Farben, Fettdruck, Textgliederung (z.B. durch Absätze), (2) eine ausgereifte
Benutzeroberfläche mit geringer Lernzeit für die Programmierung und Edition sowie Ver-
schiebbarkeit von Fragen- und Reihenfolge der Items, (3) eine WYSIWYG (What You See Is
What You Get) - Funktion, die den Fragebogen und auch die Fragen vorab am Bildschirm
so anzeigt, wie sie den Befragten später auf dem Bildschirm erscheinen sowie (4) die Ein-
bindung von Multimedia-Elementen wie Logos, verschiedene Graphiken, Ton- und Video-
dokumenten.

C. Basisanforderungen hinsichtlich der Fragebogengestaltung


Basisanforderungen hinsichtlich der Fragebogengestaltung sind (1) die Möglichkeit einer
flexiblen Fragebogengestaltung bzw. Verteilung der Fragen auf HTML-Seiten (z.B. mehrere
Fragen/Items auf eine Seite oder für Fragen jeweils getrennte Seiten), (2) Variabilität der
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 121

Fragetypen und Antwortvorgaben wie Einfachauswahl bzw. -antworten, (3) Mehrfachant-


worten mit der Möglichkeit der Begrenzung der Anzahl wählbarer Alternativen auf einen
bestimmten Wert, (4) Matrixabfragen mit den Möglichkeiten Fragen und Antwortkategori-
en in Form von beschrifteten Zeilen und Spalten sowie der Möglichkeit, für Items zwei Ma-
trizen vorzusehen, z.B. eine für die Wichtigkeit und eine für die Zufriedenheit, (5) Darstell-
barkeit von semantischen Differentialen (auch: Polaritätsprofilen), d.h. einer Matrixabfragen
mit gegensätzlichen Merkmalsausprägungen, (6) Realisierbarkeit offener Fragen mit Textfel-
dern für die Texteingabe und Realisierbarkeit von Hybridfragen (auch: halboffene Fragen),
d.h. Fragen mit vorgegebenen Antwortalternativen und einer weiteren Kategorie „Sonstiges“
und schließlich (7) Zwischenseiten für Anweisungen und Kommentare, Möglichkeiten der
Randomisierung, d.h. der zufallsgesteuerten Präsentation von Antwortalternativen und die
korrekte Darstellung von Skalen in dem Sinne, dass z.B. die Abstände zwischen der Skalen-
punkten immer gleich sind. Auch eine Statusanzeige, die den Teilnehmern eine kontinu-
ierliche Einschätzung des restlichen Bearbeitungsaufwandes, etwa durch Angabe der noch
zu erwartenden Anzahl von Seiten oder Fragen, gestattet. Nachträgliches Einfügen oder
Herausnehmen sowie die Veränderung von Fragen in laufenden Umfragen sollte ebenfalls
möglich sein.

D. Basisanforderungen in Bezug auf die Steuerung des Fragebogens


Zu den Basisanforderungen in Bezug auf die Steuerung des Fragebogens gehören (1) eine
einfache adaptive Filterführung mit der Möglichkeit beliebiger Sprünge und Verzweigungen
auf der Basis von Antworten und Möglichkeit zur Filterführung auf der Basis sog. Stamm-
daten, d.h. von Daten (z.B. Alter, Geschlecht) bereits registrierter Teilnehmer. Weitere Ba-
sismerkmale sollten sein (2) die Möglichkeit zur Randomisierung der Abfolge von Fragen/
Items, wobei in Abhängigkeit von zufällig ausgewählten Fragen auch die Setzung eines
Filters möglich ist sowie die Durchführung einfacher Plausibilitäts-Checks nach erfolgter
Eingabe auf Art der Eingabe (Text oder Zahl) sowie auf Einhaltung von Intervallgrenzen
bei Zahlenangaben. (3) Auch die Alternative, die Befragten entweder zu einer Antwort zu
zwingen oder ihnen die Möglichkeit zum Überspringen der Frage einzuräumen, sollte für
jede Frage einstellbar sein. Schließlich sollten (4) auch Fehlermeldungen bei nicht korrekten
Eingaben möglich sein, wobei die Fehlermeldung nicht zum vollständigen Neuausfüllen der
Seite führen sollte.

E. Basisanforderungen hinsichtlich Sicherheit und Stabilität


Basisanforderungen zu Sicherheit und Stabilität sind der Einsatz geeigneter Firewall-Soft-
ware und ausschließliche Freigabe der notwendigen Ports, Möglichkeiten der SSL-Ver-
schlüsselung1, Backup-System, Zugangskontrollen zum Server, Feuersicherung, stabiles
Laufverhalten.

1 SSL (Secure Sockets Layer) ist ein Protokoll zur Verschlüsselung von Datenübertragungen
122 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

F. Basisanforderungen Anforderungen hinsichtlich weiterer Merkmale


Basisanforderungen zusätzlicher Merkmale betreffen den Datenimport und Datenexport.
Dazu gehören die Erzeugung von Ergebnisdateien in den Formaten der verbreiteten Aus-
wertungssoftware mit der Möglichkeit, alle Labels zu übernehmen und einer freien Wähl-
barkeit der Variablenlabels. Längere Item-Listen sollten aus Word oder Excel eingelesen
werden können.

Leistungsanforderungen

A. Technische Leistungsanforderungen
Zu den technischen Leistungsanforderungen an eine Online-Software können gezählt
werden: (1) die Browser-Kompatibilität, d.h. das stabile Abfangen veralteter Browser, (2)
Aufrechterhaltung der Grundfunktionen ohne Javaskript, bei Verwendung von Javaskript
sichere Kontrollierbarkeit der Einstellung vor dem Start der Befragung und (3) das Abfan-
gen einer nachträglichen Einstellungsveränderung sowie (4) die Möglichkeit, das Fragebo-
genskript zu editieren und zu modifizieren.

B. Leistungsanforderungen in Bezug auf die Unterstützung der Programmierung


Leistungsanforderungen in Bezug auf die Unterstützung der Programmierung sind (1) Ein-
steiger- und Profilfunktionen mit der Möglichkeit, auf fertige Templates zuzugreifen und
eigene Fragetypen zu generieren. Dabei sollten möglichst viele Bearbeitungsschritte automa-
tisiert sein, aber dennoch die Möglichkeit einer individuellen Modifikation der Funktionen
bestehen. Standardeinstellungen sollten gewährleisten, dass bereits ein komplett funktio-
naler Online-Fragebogen erstellt wird. Weitere Leistungsanforderungen sind (2) die Mög-
lichkeit zur Einrichtung von Fragebibliotheken zur Ablage vorformatierter Fragen, z.B. zur
Standarddemographie, die abgerufen und in Fragebögen integriert werden können und zur
Einrichtung von graphischen Bibliotheken, in denen bestimmte Buttons oder Buttonserien
abgelegt werden können. Leistungsanforderungen in Bezug auf die Unterstützung der Pro-
grammierung sind auch (3) die Gestaltung eigener Fragetypen und Styles wie die Erstellung
individueller Templates und (4) die Integrierbarkeit von CSS-Dateien2 und (5) eine Import-
funktion für Fragtexte, Antwortkategorien und in Word oder Excel erstellten Antwortlisten.

C. Leistungsanforderungen in Bezug auf die Gestaltung von Fragebögen


Leistungsanforderungen in Bezug auf die Gestaltung von Fragebögen sind (1) die Mög-
lichkeit zu einer stärkeren Elaboration von Fragetypen mit der Bildung von: Rangordnung
vorgegebener Antwortalternativen; (2) Spezifikation numerischer Fragen, bei denen nur

2 CSS (Cascading Style Sheets): Sprache für strukturierte Dokumente in Zusammenhang


mit HTML und XML. Sie gestattet eine Anpassung an unterschiedliche Ausgabemedien,
die Festlegung von Hintergrundbildern, etc.
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 123

Zahlen eines bestimmten Typs eingegeben werden, wobei in Abhängigkeit vom Zahlenwert
verzweigt werden kann oder bei denen der Abgleich dieser Zahl mit dem Wert einer nu-
merischen Funktion erfolgen kann, die auf der Basis der numerischen Angaben bei einer
anderen Frage berechnet wurde; die Möglichkeit von „Constant Sum Scales“, bei denen eine
vorgegebene Anzahl von Punkten auf mehrere Antwortalternativen erfolgen kann, so dass
die Summe der numerischen Angaben einer festen Summe entspricht; die Möglichkeit zu
Online-Conjoint, d.h. einer automatischen Einstellung von Conjoint-Designs. Weitere Leis-
tungsanforderungen sind die (3) Möglichkeit zur Ausrückung der Kategorie „weiß nicht/
keine Angabe“, (4) die Möglichkeit zur Randomisierung auf Zeilen- und Spaltenebene sowie
die Behandlung von Filtern in der Statusanzeige.

D. Leistungsanforderungen in Bezug auf die Navigation


Leistungsanforderungen in Bezug auf die Navigation beinhalten (1) die Möglichkeit zur
komplexen Sprungbefehlen mit mehreren in sich verschachtelten Filtern und (2) der Mög-
lichkeit zu Schleifenbefehlen mit Laufvariablen, elaborierte Filterführung im Sinne einer
Anzeige von Fragen nach z.B. Zeitpunkt der Umfrage, Subgruppen oder nach bestimmten
Metadaten, (3) die Einrichtung eines optionalen Passwortschutzes (Schutz des Fragebogens
durch ein Login vor Zugriffen nicht autorisierter Nutzer, (4) die Einrichtung einer Wie-
deraufnahmefunktion mit der Möglichkeit bei einer Unterbrechung des Interviews an der
Abbruchstelle die Befragung wieder aufzunehmen, (5) Durchführbarkeit von Konsistenz-
prüfungen und Ausschlüssen von bestimmten Antwortalternativen bei Mehrfachantworten,
wenn diese mit den bereits gewählten Alternativen nicht vereinbar sind, (6) Möglichkeit zu
kombinierten Plausibilitätschecks über mehrere Fragen, (7) Randomisierbarkeit von Fra-
geblöcken, (8) Importierbarkeit externer Parameter wie die Möglichkeit, über Parameter der
URL externe Daten an den Fragebogen zu übergeben und in die Befragung einzubinden
(z.B. ID’s für verschiedene Gruppen von Befragten oder für unterschiedliche Versuchsbe-
dingungen, Cookie-Inhalte oder technische Parameter wie Browser), (9) Übernahme ausge-
wählter Alternativen in Folgefragen wie z.B. die Übernahme von in einer Frage ausgewählter
Antwortalternativen in eine Folgefrage, bei der es um die Bewertung dieser Alternativen
geht oder die Anzeige eines Items in einer Folgefrage, wenn bestimmte Skalenpunkte in der
vorangehenden Frage angeklickt wurden, (10) die Übernahme von Vorantworten in die Fol-
gefrage wie „Sie haben ja „Text“ ausgewählt, (11) Möglichkeit zur unterschiedlichen Codie-
rung von nicht vorgelegten Fragen und nicht beantworteten vorgelegten Fragen, (12) die
Belegbarkeit einer identischen Variablen für mehrere Fragen wie das Gesamturteil verschie-
dener Beurteilungen der Arbeitsweise verschiedener Organisationen, (13) die Möglichkeit
zur Löschung nicht mehr aktueller Filterstränge, (14) Einfügbarkeit von „Zurück“-Buttons,
um unabhängig vom „Zurück“ des Browsers im Fragebogen zurückzublättern zu können,
damit so Korrekturen vorher gegebener Antworten vorgenommen werden können (dort, wo
124 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

es sinnvoll erscheint), (15) Möglichkeit zur Unterdrückung von Rücksprüngen innerhalb des
Fragebogens, damit keine Filter umgangen werden können.

E. Leistungsanforderungen in Bezug auf Sicherheit und Stabilität


Leistungsanforderungen in Bezug auf Sicherheit und Stabilität wären ein externes Sicher-
heits-Monitoring im Sinne einer regelmäßigen, professionellen und nachvollziehbaren
Überprüfung auf Schwachstellen der Infrastruktur, redundante Festplattensysteme, eine re-
dundante Internetanbindung und die schnelle Verfügbarkeit von Ersatzsystemen.

Gehobene Anforderungen

A. Gehobene technischen Anforderungen


Eine gehobene technische Anforderung wäre die Mausunabhängigkeit, d.h. zumindest bei
einfachen Interviews sollte die Eingabe auch allein über die Tastatur erfolgen können.

B. Gehobene Anforderungen in Bezug auf die Unterstützung bei der Programmierung


Gehobene Anforderungen in Bezug auf die Unterstützung bei der Programmierung wären
(1) ein Angebot editierbarer Texte zur Integration in den Fragebogen wie z.B. Texte zum
Datenschutz, vorformulierte Einladungs- oder Erinnerungs-E-Mails oder Standardtexte für
Pop-up-Fenster nach der Methode des n-ten Besuchs und (2) das Angebot automatischer
Syntax-Checks.

C. Gehobene Anforderungen in Bezug auf die Navigation


Gehobene Anforderungen in Bezug auf die Navigation wären (1) die automatische Führung
durch den Fragebogen, d.h. die automatische Weiterführung durch einen Click ohne „Wei-
ter-Button“ oder die Option eines „Reset-Buttons“, der die aktuelle Fragebogenseite in den
ursprünglichen Zustand versetzt.

D. Gehobene Anforderungen in Bezug auf Sicherheit und Stabilität


Gehobene Anforderungen in Bezug auf Sicherheit und Stabilität sind ein IDS-System (Int-
rusion Detection-System) zur Ermittlung und Verfolgung von Angriffen sowie eine redun-
dante Systemauslegung.

E. Gehobene Anforderungen in Bezug auf weitere Merkmale


Zusätzliche gehobene Anforderungen wären ein elaboriertes Online-Reporting-Systems,
z.B. Kreuztabellierung und Subgruppenanalyse sowie Angebote von Skripten und standar-
disierten Banner-Layouts.
II.4 Zusammenfassung der Vor- und Nachteile computerunterstützter Interviews 125

II.4 Zusammenfassung der Vor- und Nachteile computer-


unterstützter Interviews

II.4.1 Vorteile computerunterstützter Interviews

Gegenüber anderen Technologien wie Papier- und Bleistiftmethoden weist der Ein-
satz des Computers unabhängig von der Administrationsform und unabhängig
vom Übertragungskanal in Befragungen eine Reihe von Vorteilen auf. Dazu gehö-
ren:

• Minimierung von Filterfehlern (engl.: routing errors; vgl. hierzu Bethlehem


1999, 2000) auf Grund der Computersteuerung mit der Konsequenz einer Ent-
lastung der Interviewer (bei Interviewer-administrierten Interviews) bzw. des
Befragten (bei Selbst-administrierten Interviews);
• Sofortige Überprüfbarkeit der eingegebenen Daten durch interne Validitäts-
prüfungen. Dazu gehören Bereichsüberprüfungen (engl.: range checks), bei de-
nen geprüft wird, ob die eingegebenen Antworten im zulässigen Bereich liegen,
Inter-Item-Überprüfungen von Inkonsistenzen zwischen zwei oder mehr Ant-
worten sowie alphanumerische Überprüfungen bei inkorrektem Antwortfor-
mat;
• Möglichkeit, Online-Befragungshilfen für Begriffsklärungen, etc. vorzusehen
(vgl. Schober & Conrad 1997);
• Keine getrennte Dateneingabe durch Codierer, dadurch Vermeidung von Feh-
lern bei der Dateneingabe;
• Schnelle Verfügbarkeit der Daten, da die eingegebenen Daten sofort in eine
elektronische Datei eingetragen werden können;
• Ein kontinuierlicher, sofort abrufbarer Überblick über bestimmte Qualitäts-
merkmale der Erhebung wie Ausschöpfung, Interviewer-Produktivität, sozio-
demografische Zusammensetzung der Stichprobe, etc.;
• Zumindest teilweise Automatisierung der Feldsteuerung, weniger Fehler, die
auf mangelnde Feldorganisation zurückgehen, z.B. bei der Verwaltung der Te-
lefonnummern und ihrer zeitlichen Streuung über die gesamte Feldzeit; auto-
matisierte Panelverwaltung bei Panelerhebungen;
• Zusätzliche Möglichkeiten der nicht-reaktiven Beobachtung des Bedienungs-
verhaltens durch sog. Keystroke-Analysen, Zeitmessungen;
• Größere Objektivität und Standardisierungsmöglichkeit.
126 II.4 Zusammenfassung der Vor- und Nachteile computerunterstützter Interviews

Spezifische Vorteile ergeben sich für computerunterstützte Selbst-administrierte


Interviews. Dazu gehören:

• Reduktion von Ausfällen bei sensitiven Fragen (vgl. z.B. Tourangeau & Smith
1998; Tourangeau & Yan, 2007) sowie von sozial erwünschter Antworten;
• Nutzung aller Möglichkeiten des Computers zur Darstellung von Instruktio-
nen, Fragen- und Antwortformaten sowie zur Gestaltung des Layouts;
• Erweiterte Möglichkeiten der Skalendarstellung und der Auswahl von Ant-
wortkategorien bei Selbst-administrierten Befragungen;
• Einbindung von Bildern, Videos und akustischen Dokumenten in das Erhe-
bungsinstrument.

Internet-basierte Umfragen haben darüber hinaus für den Organisator der Um-
frage den Vorteil des geringen organisatorischen Aufwands, der geringen Kosten
und der globalen, weltweiten Erreichbarkeit der Zielpersonen. Für die Zielperso-
nen ergibt sich der Vorteil der zeitlichen Unabhängigkeit und der Ortsunabhängig-
keit in Bezug auf die Durchführung der Interviews. Letztere können überall dort
geführt werden, wo auch immer ein Zugang zum Internet verfügbar ist. Die ver-
breitete Nutzung mobiler Geräte wie Tablets und Smartphones mit Internetzugang
verstärkt die zeitliche und örtliche Unabhängigkeit erheblich, da keine festinstal-
lierten, stationären Geräte mehr aufgesucht werden müssen, um einen Zugang zu
erhalten.

II.4.2 Besondere Anforderungen und Qualitätsgefährdungen

Planung und Durchführung computerunterstützter Befragungen stellen aber auch


besondere Anforderungen, deren Nichteinhaltung Gefährdungen für die Umfrage-
qualität darstellen können. Zu den besonderen Anforderungen gehören:
bei allen CAI-Verfahren:
• Geschultes Personal für die Programmierung der Fragebögen und die Bedie-
nung der Verwaltungskomponenten der eingesetzten Software (z.B. Abruf von
statistischen Informationen während der Umfrage, etc.);
• besondere Anforderungen an die Zuverlässigkeit der eingesetzten Technologie.

bei Interviewer-administrierten CAI-Befragungen:


• technologische Schulung der Interviewer.
II.4 Zusammenfassung der Vor- und Nachteile computerunterstützter Interviews 127

bei Selbst-administrierten CAI-Befragungen:

• technologische Schulung der Befragten bzw. Voraussetzung von Bedienungs-


kompetenz bei den Befragten;
• Einbindung von Navigationshilfen, die es den Befragten ermöglichen, ohne
Schwierigkeiten den Weg durch das Erhebungsinstrument zu finden.

Qualitätsgefährdungen können entstehen durch:

• das Auftreten zusätzlicher Probleme der Handhabbarkeit mit der Folge fehler-
hafter Dateneingabe, zeitlicher Dehnung des Interviews, etc.;
• das mögliche Auftreten technologischer Fehler mit Auswirkungen auf den
Messfehler und Nonresponse, z.B. durch verschiedene Störungen des Systems
wie zu lange Wartezeiten auf die Systemreaktion, mangelnde Verständlichkeit
sprachlicher Informationen durch Störungen des Übertragungskanals, z.B. bei
CATI-Interviews, fehlerhaften Berechnungen, etc.;
• zusätzliche Arten von Nonresponse wie etwa das „Lurking“ bei Online-Inter-
views vgl. (Teil VII) oder Anrufbeantworter bei Telefonumfragen;
• fehlende oder unvollständige Auswahlgrundlagen für Bevölkerungsstichpro-
ben; Probleme der Selbstselektion bei nicht wahrscheinlichkeits-basierten We-
bumfragen (Lösung: Offline-Rekrutierung, z.B. per CATI mit zufälliger Stich-
probenziehung);
• Probleme der Authentifizierung bei internet-basierten Umfragen;
• niedrige Teilnahmebereitschaft (vgl. z.B. Kim et al., 2010 im Vergleich SAQ/
CASI); Manfreda et al., 2008 in Bezug auf reine Webumfragen)
• mangelndes Vertrauen in das Internet (vgl. z.B. Deutschmann & Faulbaum,
2001);
• zusätzliche Arten systematischer Auswahleffekte bei Selbst-administrierten
Befragungen durch Abhängigkeiten vom Vorhandensein und von der Art der
Hard- und Softwareausstattung;
• Gefahr zusätzlicher Einflüsse auf den Messfehler durch das Layout und die ge-
forderte Form der Antworteingabe; unterschiedliche Wirkungen des Layouts
können durch unterschiedliche Browser und unterschiedliche Bildschirmkon-
figurationen entstehen. Die Darstellung des Fragebogens auf dem Monitor des
Designers kann dabei maßgeblich von der Darstellung auf dem Monitor des
Befragten abweichen; bei Papierfragebögen ist das Layout des Fragebogens für
Designer und Befragten identisch.
128 II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-Surveys)

II.5 Umfragen mit mehreren Kommunikationsformen


(Mixed-Mode-Surveys)

Umfragen unter Verwendung mehrerer Kommunikationsformen, z.B. Verbindung


von Face-to-Face-Befragungen mit telefonischen Befragungen oder postalischen
Befragungen gehören traditionell zum Erhebungsrepertoire der Umfragefor-
schung. Die Erweiterung der technologischen Möglichkeiten in der Datenerhe-
bung hat auch zu erweiterten Möglichkeiten geführt, unterschiedliche Kommuni-
kationsformen miteinander zu kombinieren (vgl. z.B. Buskirk & Andrus, 2014).
Prinzipiell lassen sich alle Kommunikationsformen mit unterschiedlichen Geräten
(Computer, Smartphones, etc.) miteinander verbinden. Weitere technologische In-
novationen werden voraussichtlich auch in Zukunft die Varianten von Mixed-Mo-
de-Befragungen bereichern. Einen Überblick über die verschiedenen Möglichkei-
ten von Mixed-Survey-Erhebungsdesigns geben De Leeuw (2005) sowie Dillman
und Messer (2010). Einen Einblick in Designgesichtspunkte geben Dillman, Smyth
und Christian (2014).
Unter der Bezeichnung „Mixed-Mode-Befragung“ werden unterschiedliche
Anwendungen zusammengefasst:

• In einer bestimmten Kommunikationsform (z.B. telefonisch) rekrutierten Per-


sonen wird angeboten, das Interview in einer anderen, alternativen Kommuni-
kationsform zu führen.
• Im Rahmen eines Interviews wird bei bestimmten Fragen zu einem anderen
Mode übergegangen (z.B. von der Interviewer-Administration zur Selbstadmi-
nistration bei sensitiven Fragen; siehe oben).
• Unterschiedliche Teilmengen von Personen werden unter Einsatz unterschied-
licher Technologien befragt. Die Zuordnung erfolgt oft in der Rekrutierungs-
phase entweder durch Zuordnung der Kommunikationsform zu Teilgruppen
mit spezifischen Merkmalen (z.B. Zugang zum Internet) oder durch zufällige
Zuordnung zu verschiedenen Kommunikationsformen.
• Befragte werden nach dem Interview um das Ausfüllen eines Ergänzungsfrage-
bogens (engl. supplementary interview bzw. supplementary questionnaire) gebe-
ten, der in einem anderen Mode ausgeführt werden kann als der im Hauptin-
terview verwendete.
• Ein innerhalb einer Befragungstechnologie (z.B. CATI) unvollständig ausge-
füllter Fragebogen wird in einer anderen Befragungstechnologie (z.B. CAPI)
vervollständigt.
II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-Surveys) 129

• In einer Panelstudie werden die Daten in späteren Wellen mit einer anderen
Technologie erhoben werden als die davorliegenden Wellen.

Das übergeordnete Ziel eines Mixed-Mode-Designs besteht in der Regel darin, die
verschiedenen Schwächen einzelner Befragungsarten durch Kombination zu mini-
mieren. So dienen Mixed-Mode-Designs etwa dazu, eine optimale Ausschöpfung
der Stichprobe und eine Erhöhung der Teilnahmebereitschaft in der Kontakt- und
Rekrutierungsphase einer Umfrage dadurch zu erreichen, dass die Bevorzugungen
bestimmter Befragungsarten durch die Befragten respektiert werden (vgl. hierzu
Olson, Smyth & Wood, 2012; Shih & Fan, 2002). Durch einen Wechsel der Ad-
ministrationsform kann ferner versucht werden, Item-bezogene Nichtantworten
(Item Nonresponse) bei heiklen Fragen und damit den Einfluss der Sensitivität auf
den Messfehler zu vermindern. Erwartet wird von Mixed-Mode-Designs oft auch
eine Kostenoptimierung. Ferner lassen sich Probleme der Ausstattung minimieren,
indem z.B. jene Personen, die das Internet intensiver nutzen, über das Web befragt
werden, während Befragte, bei denen dies nicht der Fall ist, in einem anderen Mode
befragt werden. Der Übergang von einem Mode zum anderen ist wesentlicher Be-
standteil von responsiven Designs (vgl. Groves & Heeringa, 2006), wo es um die
Verbesserung von Parameterschätzungen sowie der Kostenstruktur durch Mode-
wechsel geht.
Die Verknüpfung verschiedener Kommunikationsformen kann grundsätz-
lich entweder sequentiell oder gleichzeitig erfolgen. Im Rahmen eines sequenti-
ellen Einsatzes unterschiedlicher Kommunikationsformen wird den potentiellen
Befragten zunächst nur eine Kommunikationsform für das Interview, d.h. ein
bestimmter Interviewmode angeboten. Erst, wenn die Befragten sehr lange mit
Ihrer Antwort auf die Bitte um Teilnahme zögern oder verweigern, wird ihnen
eine weitere Kommunikationsform angeboten. Der zuerst angebotene Mode wird
auch als primärer Mode bezeichnet, der danach angebotene Mode als sekundärer
Mode. Prinzipiell könnten danach noch weitere Mode-Angebote folgen. Die se-
quentielle Verknüpfung von Angeboten verschiedener Kommunikationsformen
in der Kontaktphase kann dabei zu einer erhöhten Responserate führen (vgl. Dill-
man et al., 2009).
Bei einer gleichzeitigen Verknüpfung werden den Befragten mehrere, zumeist
zwei, Kommunikationsformen gleichzeitig angeboten, zwischen denen sie wäh-
len können. Die gleichzeitige Verknüpfung besteht oft darin, dass die Befragung
in einem bestimmten Mode durchgeführt wird und ein weiterer Mode als Zu-
satzoption angeboten wird. Ein Beispiel wäre etwa, wenn in einem Mailsurvey
als Zusatzoption angeboten würde, den Fragebogen auch online im Web auszu-
füllen. Eine solche Option kann als Folge eine Reduktion der Responserate im
130 II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-Surveys)

Hauptmode nach sich ziehen. So fanden z.B. Medway & Fulton (2012), dass das
Angebot einer zusätzlichen Weboption die Responserate des Mailsurveys redu-
ziert. Bei einer Verbindung verschiedener Kommunikationsformen sollte immer
überlegt werden, welche Kosten das Angebot einer Kommunikationsform für
den Befragten beinhalten würde.
Für die Teilnahmebereitschaft ist das Zusammenspiel zwischen der Kommu-
nikationsform während Kontaktaufnahme/Rekrutierung (Kontaktmode), in de-
ren Rahmen die Anfrage zur Teilnahme (survey request) vorgetragen wird und
dem Interviewmode von Bedeutung. Wird der Befragte z.B. postalisch kontak-
tiert und ihm ein Interview via Web angeboten, muss bedacht werden, dass der
Befragte z.B. erst den Computer anschalten muss, die Website aufrufen muss,
etc., während er bei einer schriftlichen Bearbeitung des Fragebogens, im gleichen
Mode verbleiben kann. Dadurch kann z.B. zumindest teilweise erklärt werden,
warum die Antwortraten bei schriftlicher Bearbeitung höher sind als bei der Be-
arbeitung von Webfragebögen. Varianten der Verbindung von Web-Befragung
und postalischer Befragung haben Milar und Dillman (2011) experimentell un-
tersucht. Dabei setzten sie verschiedene Möglichkeiten der Übermittlung der Bit-
te um Teilnahme in Verbindung mit dem Angebot, das Interview über das Web
oder schriftlich auszuführen. Sie fanden heraus, dass bei einer Verbindung von
einer postalischen Anfrage gekoppelt mit gleichzeitigen Kontaktaufnahmen via
E-Mail, die Antwortrate der Teilnehmer an der Webumfrage vergleichbar war
mit der Antwortrate per Mail, während die Antwortrate bei einer Webumfrage
darunterlag, wenn nur postalisch kontaktiert wurde. Sie fanden außerdem, dass
das gleichzeitige Angebot der beiden Modes „schriftlich“ und „Web“ zu keiner
höheren Responserate führt als das Angebot „schriftlich“ allein. Dagegen führt
eine vorgetragene Bitte, an einer Webumfrage teilzunehmen zu einer Erhöhung
der finalen Responserate, wenn den Nichtteilnehmern der Wechsel zum Mode
„schriftlich“ angeboten wird. Allerdings wurde das Experiments mit Studieren-
den durchgeführt. Die Frage ist, ob diese Ergebnisse auf allgemeine Bevölke-
rungsumfragen übertragbar sind.
Allgemein ist eine Verbindung von Kommunikationsformen dann besser als
eine andere, wenn sie zu geringeren Kosten führt ohne die Responserate negativ zu
beeinflussen oder wenn sie zu höheren Responseraten führt. Einige Studien fanden
keine Unterschiede in den Responseraten bei verschiedenen Modeverknüpfungen
(vgl. Rodriguez et al., 2006; McMorris, 2009; Dillman et al., 2009). Andere Stu-
di-en berichten in Bezug auf die Reihenfolge „Telefon-Mail“ vs. „Mail-Telefon“ (vgl.
McHorney et al., 1994; Harris et al. 1997) und in Bezug auf „Mail-Web“ vs. „Web-
Mail“ (vgl. Beebe, 2007; Smyth, 2010) unterschiedliche Response-Raten. Vieles
spricht dafür, dass die Folge „Mail-Web“ höhere Responseraten produziert als die
II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-Surveys) 131

Folge „Web-Mail“. Wagner et al. (2014) untersuchten die Reihenfolge „Face-to-Face


vs. Mail-Face-to-Face“ und konnten zeigen, dass die Reihenfolge der Modes für
Screening und Hauptinterview („in-depth interview“) die Kosten reduzieren kann,
ohne die Response-Rate negativ zu beeinflussen. Dass die konkrete Sequenz der
Modes für die finale Teilnahmequote von Bedeutung sein kann, fanden auch Amaya
et al. (2015) in einer Untersuchung der Reihenfolge „Telefon-Mail vs. Mail-Telefon“.
Ihre Ergebnisse zeigen, dass das „Mail-first Design“ dem „Phone-first Design“ hin-
sichtlich der Responserate überlegen war, insbesondere dann, wenn der Anteil der
auswählbaren (eligible; zum Begriff vgl. Teil IV)) Fälle in der Auswahlgesamtheit
sehr hoch war.
Eine Erklärung für die höhere Teilnahmequote bei bestimmten Modekombi-
nationen gegen über anderen kann darin bestehen, dass die Form der sequenti-
ellen Verbindung verschiedener Modes unterschiedliche Gruppen von Befragten
ansprechen kann (vgl. Fleming et al., 2013).
Eine Einschätzung des Effekts der Kommunikationsform (Mode-Effekt) kann
im Rahmen eines in die Umfrage eingebetteten Experiments erfolgen, bei dem
die Teilnehmer den Modegruppen nach Zufall zugeordnet werden (Randomi-
sierung), um den Einfluss von konfundierenden Variablen, die außer den Mo-
des auch noch für Unterschiede verantwortlich sein könnten, zu kontrollieren
(Kontrolle von Störvariablen). Ein typisches Beispiel ist eine Umfrage, bei der
die Befragten telefonisch rekrutiert werden und jene mit einem Internetzugang
und einer E-Mail-Adresse nach Zufall auf eine zwei Gruppen verteilt werden,
eine Gruppe, der ein Telefoninterview angeboten wird und eine Gruppe, der ein
Web-Interview angeboten wird.
Es liegt nahe, Interviews mit sensitiven Fragen/Items wegen der empirisch
immer wieder bestätigten niedrigeren Verweigerungsraten Selbst-administriert
durchzuführen. Dabei kann es sinnvoll sein, wegen der Möglichkeit einer wahr-
scheinlichkeits-basierten Auswahl die Rekrutierung offline per CATI durchführen.
Wechselt man von CATI in das IVR-System oder in das Web muss mit einer erhöh-
ten Anzahl von Verweigerungen durch Auflegen des Telefonhörers (bei Übergang
zu IVR; vgl. Tourangeau et al., 2002; Couper, Singer & Tourangeau, 2004) oder mit
nicht eingehaltenen Zusagen, den Webfragebogen auszufüllen, gerechnet werden
(vgl. Fricker et al., 2005; Kreuter, Presser & Tourangeau, 2008).
Ein Wechsel der Kommunikationsform steht zur Diskussion, wenn neben ei-
nem Hauptfragebogen noch ein Ergänzungsfragebogen ausgefüllt werden soll.
Ein Beispiel ist das Ausfüllen des ISSP-Fragebogens nach dem ALLBUS-Interview
(zum ISSP vgl. Teil I, Abschnitt 10.2). Kim et al. (2010) untersuchten das Auftreten
von Ausfällen von Befragten, wenn nach einem Interviewer-administrierten PAPI-
oder CAPI-Interview zu SAQ (im Anschluss an PAPI) und CASI (im Anschluss an
132 II.6 Modeeffekte

CAPI) übergegangen wird. Die Autoren fanden, dass der Übergang von CAPI zu
CASI die Bereitschaft, den Ergänzungsfragebogen zu beantworten, im Vergleich
zum Übergang von PAPI zu SAQ verringert, wobei allerdings angemerkt werden
muss, dass es sich bei der Untersuchung um keine experimentelle Studie handelt
und nicht eingeschätzt werden konnte, wie die Wirkungen von PAPI und CAPI
auf die nachfolgende Nonresponse beim Ergänzungsinterview aussieht. Couper &
Rowe (1996) vermuten, dass die Bereitschaft, an einem CASI-Ergänzungsinterview
teilzunehmen, vor allem durch Lese- und Schreibfähigkeit sowie die Vertrautheit
mit dem Rechner beeinflusst wird.

II.6 Modeeffekte

II.6.1 Allgemeines

Die Wahl der Kommunikationsform kann einen Einfluss auf verschiedene As-
pekte der Umfragequalität und die Komponenten des totalen Umfragefehlers
(vgl. Teil I, Abschnitt 4.2) haben, wobei sowohl Beobachtungsfehler als auch
Nicht-Beobachtungsfehler betroffen sein können. Wie in Abschnitt 5 bereits er-
wähnt, erwartet man sich positive Effekte in Bezug auf eine präzisere Repräsenta-
tion der Zielpopulation und in Bezug auf die Kostenstruktur der Erhebung. Auf
der anderen Seite kann es prinzipiell auch Einflüsse auf die Messung geben, wel-
che eine einheitliche Interpretation der Ergebnisse über die Modes hinweg ge-
fährden.
Die drei wichtigsten Einflüsse von Modes auf Umfrageergebnisse sind:

• Einflüsse auf die Zusammensetzung der Stichprobe (Selektionseffekt; engl.:


selection effect);
• Einflüsse auf das Antwortverhalten (engl.: response effects) und auf den Mess-
fehler (Messeffekt; engl.: measurement effect) und die Antwortqualität;
• Einflüsse auf die Datenqualität, die durch die Qualität von Schritten der Um-
frageorganisation vermittelt sind, wie z.B. durch die Qualität der eingesetzten
Interviewer und der Interviewer-Schulung bei Interviewer-administrierten In-
terviews, die bei Selbst-administrierten Interviews entfällt.

Da jede Kommunikationsform durch ein Bündel von Merkmalen charakterisiert


werden kann, von denen einige der Administrationsform, andere dem Übertra-
II.6 Modeeffekte 133

gungskanal und wieder andere der Technologie zugeordnet werden können, muss
bei den Wirkungen der Kommunikationsform stets auch nach den Merkmalen
gefragt werden, die für diese Wirkungen konkret verantwortlich sind. Zu den
Merkmalen der Administrationsform gehören insbesondere Merkmale der Admi-
nistratoren. Im Fall von Face-to-Face-Umfragen gehören alle sprachlich/akustisch/
stimmlichen Merkmale (z.B. Tonhöhe und -stärke, Redefluss und Sprechgeschwin-
digkeit, Ausdrucksweise und Wortwahl, etc.) sowie alle visuellen äußeren Merk-
male des Interviewers einschließlich aller wahrnehmbaren Verhaltens- und Hand-
lungsmerkmale (z.B. Mimik, Gestik, Kleidung, Haar- und Hautfarbe, Körpergröße,
Body-Mass-Index, etc.). Diese wahrnehmbaren Merkmale ermöglichen es den
Befragten, Zuschreibungen wie „Höflichkeit“, „Hilfsbereitschaft“, „Zuwendung“,
„physische Attraktivität“, etc. zu konstruieren. Grundsätzlich können die wahr-
nehmbaren Merkmale Grundlage sein für die Bildung von Hypothesen über die
Person des Interviewers und seine soziodemographischen Merkmale einschließlich
seines sozialen Status sowie seine Einstellungen und charakterlichen Merkmale.
Verantwortlich sind hier psychologische Prozesse der Eindrucksbildung (engl.: im-
pression formation), zu deren Modellierung wiederum Theorien der Urteilsbildung
und der sozialen Kognition herangezogen werden können. Bei CATI-Umfragen
sind dagegen allein sprachlich/akustische/stimmliche Merkmale wahrnehmbar, so
dass die Befragten ihre Hypothesen über den Interviewer ausschließlich aus diesen
Merkmalen ableiten können.
Relative Effekte der Kommunikationsform auf die Aspekte „Selektion“ und
„Messung“ lassen sich durch einen Vergleich unterschiedlicher Kommunikations-
formen (Modevergleiche; engl.: mode comparisons) identifizieren und quantifizieren
(vgl. z.B. Fleming et al., 2013, Fricker et al., 2005; Yeager et al., 2011 in Bezug auf
Vergleiche Web vs. Telefon; Aquilino & Losciuto, 1990; Holbrook, Green & Kros-
nick, 2003, Gordoni, Schmidt & Gordoni, 2012 in Bezug auf Vergleiche Telefon
vs. Face-to-Face; Ye, Fulton & Tourangeau, 2011 in Bezug auf Telefon vs. andere
Modes; Fowler, Roman & Di, 1998, Denscombe, 2006, Heerwegh & Loosfeldt, 2011
in Bezug auf Telefon vs. Mail; Börkan, 2010; Barrios et al., 2011, Shin, Johnson
& Rao, 2012 in Bezug auf Web vs. Mail; Krysan et al., 1994 in Bezug auf Mail vs.
Face-to-Face; Wright, Aquilino & Supple, 1998 in Bezug auf computerunterstützt
vs. PAPI; Epstein, Barker & Kroutil, 2001 in Bezug auf ACASI vs. Face-to-Face;
McDonald & Thornburg in Bezug auf Telefon vs. Exit Poll; Klausch, Hox & Schou-
ten, 2013 in Bezug auf Face-to-Face, schriftlich, Web und Telefon; Gravlee et al.,
2013 in Bezug auf Face-to-Face vs. Web; De Bruijne & Wijnant, 2013 in Bezug auf
computer-assisted web survey vs. mobile web survey; Heerwegh, 2009; Revilla &
Saris, 2013 in Bezug auf Face-to-Face vs. Web; Kreuter, Presser & Tourangeau, 2008
in Bezug auf CATI vs. IVR vs. Web; Presser & Stinson, 1998 in Bezug auf Intervie-
134 II.6 Modeeffekte

wer-administriert vs. Selbst-administriert). Vergleichende Studien unterscheiden


sich in Bezug auf das Design (experimentell vs. nicht-experimentell, Mixed Mode
innerhalb einer Erhebung vs. Modes über unterschiedliche Erhebungen) und in
Bezug die untersuchte abhängige Variable (z.B. Datenqualität, Antwortverhalten,
Nonresponse et al.). Die Ergebnisse dieser Vergleiche sind immer spezifisch für die
miteinander verglichenen Modes.
Bei Modevergleichen kann es durchaus zu vermeintlich kontraintuitiven Er-
gebnissen kommen. Ein Beispiel stellen Modeunterschiede zwischen telefoni-
schen und Face-to-Face-Befragungen dar. Eigentlich sollte man bei telefonischen
Befragungen auf Grund der größeren sozialen Distanz zwischen Interviewer und
Befragten einen reduzierten Effekt der sozialen Erwünschtheit erwarten. Empiri-
sche Analysen scheinen aber eher das Gegenteil zu signalisieren (vgl. Aquilino &
LoSciuto, 1990; Holbrook, Green & Krosnick, 2003). Dieser Effekt wird auf von
einigen Forschern darauf zurückgeführt, dass Face-to-Face-Interviewer überzeu-
gender in der Vermittlung von Vertrauen sind (vgl. Holbrook, Green & Krosnick,
op. cit.)
Wir werden die Wirkungen verschiedener Kommunikationsformen später dort
thematisieren, wo von den spezifischen Phänomenen die Rede ist, die von ihnen
beeinflusst werden, also z.B. Wirkungen auf die Antwortqualität und die Messun-
gen dort, wo das Antwortverhalten und die Antwortqualität behandelt wird (Teil
III), die Wirkungen auf die Nonresponse dort, wo die Nonresponse behandelt wird
(Teil VII).

Statistische Identifikation und Kontrolle von Mode-Effekten


Im Rahmen von Mixed-Mode-Befragungen lassen sich die für die globalen Unter-
schiede zwischen den Modegruppen verantwortlichen Variablen durch statistische
Verfahren für die optimale Diskrimination zwischen Gruppen identifizieren. Ein
Beispiel für ein solches Verfahren stellt die Diskriminanzanalyse dar, bei der Li-
nearkombinationen beobachteter Variablen berechnet werden, die zwischen den
Gruppen optimal trennen. Je höher das Gewicht ist, mit denen eine Variable in die-
se Linearkombination eingeht, desto höher ist ihr Beitrag zur Gruppentrennung.
Bei multivariaten Verfahren lässt sich der allgemeine Mode-Effekt, der sich aus ei-
nem Selektionseffekt und einem Messeffekt zusammensetzt, durch die Integration
der Modevariablen in das statistische Modell kontrollieren (vgl. z.B. Kolenikov &
Kennedy, 2014). Sei Y eine Zielvariable, z.B. die Einstufung eines Items auf einer
quasimetrischen 5stufigen Rating-Skala. Sei M die Mode-Variable, die als Werte
zwei oder mehr verschiedene Modes annehmen kann. Seien X unabhängige Zielva-
II.6 Modeeffekte 135

riablen. Dann wäre der Einfluss von M auf Y im Rahmen der Analyse der linearen
Gleichung

Y = β0 + β M M + β Z X + ε

kontrollierbar.
Werden Modes sequentiell zur Optimierung der Responserate eingesetzt, also
etwa dann, wenn nach einer Face-to-Face-Umfrage als primärem Mode den Ver-
weigerern noch einmal die Möglichkeit einer telefonischen Teilnahme eröffnet
wird, lassen sich die Werte des sekundären Modes auch als fehlende Werte behan-
deln, die imputiert werden können (vgl. Kolenikov & Kennedy, 2014).

II.6.2 Selektionseffekte

II.6.2.1 Begriffliche Präzisierung

Merkmale von Kommunikationsformen können infolge der mit ihnen verbun-


denen unterschiedlichen Zugangsmöglichkeiten zu Befragungstechnologien,
unterschiedlichen Kompetenzanforderungen, Bevorzugungen bestimmter Be-
fragungsformen, etc., die über verschiedene Subgruppen der Bevölkerung un-
terschiedlich ausgeprägt sein können, zu einer Über- oder Unterrepräsentation
bestimmter Teilpopulationen der Gesamtpopulation in der finalen Stichprobe
(Nettostichprobe) führen. Der Effekt, der darin besteht, dass allein auf Grund der
Kommunikationsform bestimmte Teilgruppen abweichend von ihren Anteilen in
der Population in der finalen Nettostichprobe vertreten sind, stellt einen Selek-
tionseffekt dar (vgl. Voogt & Saris, 2005). Selektionseffekte können in der Regel
nur in Bezug auf Variablen festgestellt werden, deren Verteilungen sowohl in der
Stichprobe als auch in der Grundgesamtheit bekannt sind. Dies sind in der Regel
die soziodemographischen Hilfsvariablen. Aber auch wenn sich modespezifische
Verteilungsunterschiede zwischen theoretischen Verteilungen in der Zielpopula-
tion und empirischen Verteilungen in der finalen Nettostichprobe der Respon-
denten nur hinsichtlich jener Variablen überprüfen lassen, für die Informationen
sowohl in der Stichprobe als auch in der Auswahlgesamtheit vorliegen, können
Selektionseffekte prinzipiell natürlich auch die inhaltlich relevanten Zielvariablen
betreffen, für die nur die empirischen Verteilungen in der Stichprobe bekannt
sind. Oft sind Einflüsse der Modes auf Zielvariablen über den Zusammenhang
136 II.6 Modeeffekte

mit den demographischen Hilfsvariablen wie Alter, Geschlecht, Bildung, etc. ver-
mittelt. Wenn es einen Selektionseffekt in Bezug auf soziodemographische Varia-
blen gibt und diese mit bestimmten Zielvariablen zusammenhängen, ist auch ein
Selektionseffekt in Bezug auf diese Zielvariablen zu erwarten (siehe unten). So
weiß man z.B., dass es immer noch altersspezifische, geschlechtsspezifische und
bildungsspezifische Einflüsse auf die Teilnahme an Webumfragen gibt und dass
dementsprechend die Merkmalsverteilungen dieser soziodemographischen Va-
riablen in der mode-spezifischen Stichprobe der Webteilnehmer von den Vertei-
lungen der Grundgesamtheit abweichen. Es darf angenommen werden, dass dies
auch für jene Zielvariablen gilt, die mit diesen soziodemographischen Variablen
statistisch zusammenhängen können.
Stellen wir bei einer Single-Mode-Umfrage, bei der für die Durchführung der
Interviews nur ein einziger Mode zugelassen ist, Abweichungen von den Vertei-
lungen in der Grundgesamtheit fest, so ist ein eventuell bestehender Modeeffekt
nicht ohne weiteres isolierbar, da andere Ursachen für diese Abweichungen im
verwendeten Mode in Frage kommen (z.B. Sponsorship-Effekte, Effekte des Inter-
esses am Thema, et.). Nur wenn alternative Ursachen durch statistische Kontrolle
ausgeschlossen werden können, wäre ein Selektionseffekt durch den Mode nach-
weisbar. Dieser Nachweis kann auf Grund der Einmaligkeit der Randbedingun-
gen einer Umfrage nicht empirisch/statistisch geführt werden. Lediglich ein rein
theoretisch begründeter Ausschluss anderer Einflüsse auf die Teilnahme könnte
einen Rückschluss auf die Wirksamkeit des eingesetzten Modes ermöglichen. Die
Abschätzung eines Mode-spezifischen Selektionseffekts wäre nur im Rahmen spe-
zieller Umfragedesigns möglich. Wenn es z.B. gelingen würde, die Umfrage mit
den rein zufällig ausgewählten Respondenten unter sonst gleichen Bedingungen
noch einmal zu wiederholen, könnte man bei identischen Abweichungen von den
Merkmalsverteilungen in der Population auf einen Selektionseffekt schließen, der
auf den eingesetzten, spezifischen Mode zurückgeht.
Es gibt vor allem drei wichtige Typen von Ursachen für Selektionseffekte in Be-
zug auf eine wohldefinierte Population U:
Selektionseffekte auf Grund merkmalsabhängiger Verteilungen der Nutzungsvoraus-
setzungen in der Population U:
Diese Situation wäre dann gegeben, wenn die Ausstattungen mit Telefon (beim Te-
lefonmode) oder Zugang zum Internet (bei Webumfragen) in der Gesamtbevölke-
rung in verschiedenen soziodemographischen Teilpopulationen (z.B. Geschlecht-
ergruppen, Bildungsgruppen, Altersgruppen, etc.) unterschiedlich häufig vertreten
sind.
II.6 Modeeffekte 137

Merkmalsabhängige Kontaktierbarkeit:
Unterschiedliche Modes können in ihrer Funktion als Kontakt-Modes zu einer
unterschiedlichen Erreichbarkeit und damit Kontaktierbarkeit führen. Soll eine
Umfrage etwa telefonisch über das Festnetz durchgeführt werden, ist die Kontak-
tierbarkeit abhängig vom Muster der häuslichen Anwesenheit, von Urlaubszeiten,
etc. Grundsätzlich könnte der Fall eintreten, dass mobile Personen, die oft beruflich
unterwegs sind oder Personen, die im Schichtdienst arbeiten, schlechter erreichbar
sind. Ist dieses Merkmal auch noch von bestimmten soziodemographischen Varia-
blen abhängig, überträgt sich die Abhängigkeit auf weitere Merkmale. Dies würde
z.B. gelten, wenn männliche Arbeitnehmer mobiler sind als weibliche Arbeitneh-
merinnen. Natürlich hängt der finale Kontakterfolg auch von situativen Variablen
wie Jahreszeit, Tageszeit, etc. sowie verschiedenen Arten von Paradaten wie etwa
der Anzahl der Kontaktversuche ab.
Merkmalsabhängige Ablehnung oder Bevorzugung des in der Umfrage vorgesehenen
Interview-Modes:
Wenn kontaktierte Befragte bestimmte Modes als Interview-Modes bevorzugen
oder ablehnen, so kann dies zu einer selektiven Teilnahmebereitschaft führen.
Mitbestimmend für die Teilnahmeentscheidung ist in diesem Fall eine latente Prä-
ferenzordnung der Modes (siehe unten). Diese Bevorzugungen sind nicht unab-
hängig von den Nutzungsvoraussetzungen zu sehen, da davon auszugehen ist, dass
jener Mode eher bevorzugt wird, wenn man ihn auch bedienen kann.
Aus Sicht der statistischen Modellierung entstehen Selektionseffekte auf die Teil-
nahmeentscheidung nach erfolgreichem Kontakt dadurch, dass bestimmte, mit
Personen verbundene Merkmale (Individuen-spezifische Variablen), wozu z.B.
auch das soziale Umfeld, die Haushaltsgröße, Einstellungen gehören können, mit
einer Modevariablen, die unterschiedliche Modes als Ausprägungen annehmen
kann, in Wechselwirkung treten und diese Wechselwirkung einen signifikanten Ef-
fekt auf die Teilnahmeentscheidung hat, wenn also z.B. das Geschlecht mit den Mo-
des interagiert, indem Männer an Webumfragen eher teilnehmen als Frauen. Ur-
sache dafür, dass unterschiedliche Personengruppen bei bestimmten Modes eher
teilnehmen als bei anderen, ist also letztlich gleichbedeutend mit dem Effekt einer
Interaktion zwischen einer Menge I von Individuen-spezifischen Variablen und ei-
ner Modevariablen M (z.B. telefonisch, online) auf die Teilnahmeentscheidung. Sei
T eine dichotome abhängige Variable der Teilnahmeentscheidung mit den Werten
T = 1, falls eine Person x teilnimmt und T = 0, falls x nicht teilnimmt, so ergibt sich
die in Abbildung II.6 dargestellte Beziehung.
138 II.6 Modeeffekte

Da die abhängige Variable eine dichotome Variable darstellt, wird als statisti-
sches Modell eine verallgemeinerte lineare Regression (z.B. logistisches Modell,
Probitmodell, etc.) angenommen werden müssen.

Abbildung II.6: Darstellung des Selektionseffekts

Eine empirische Evaluation des beschriebenen Modells ist allerdings nur möglich,
wenn (1) Zielpersonen die Wahl zwischen der gleichen Menge von Modes haben
und wenn (2) die Individuen-spezifischen Variablen sowohl für Respondenten als
auch für die Nichtrespondenten gemessen werden konnten. Die zuletzt genannte
Voraussetzung ist in der Regel nicht gegeben. Sie kann allerdings zumindest dann
teilweise erfüllt werden, wenn die Ausprägungen dieser Variablen für jedes Stich-
probenelement in der Auswahlgrundlage enthalten sind, wenn die Daten also durch
entsprechende administrative Zusatzinformationen ergänzt werden können oder
wenn es gelingt, diesbezügliche Informationen in der Umfrage selbst, z.B. während
der Kontakt- und Screening-Phase etwa durch Einsatz eines Nonresponder-Frage-
bogens oder durch ein gekürztes Instrument zu erheben (vgl. Teil VII). Eine Alter-
native zur Formulierung eines Modells, bei dem alle Zielpersonen zwischen Modes
wählen können, wäre der Vergleich zwischen unabhängigen Zufallsstichproben,
die unterschiedlichen Modes zugeordnet werden (vgl. Abbildung II.7).
II.6 Modeeffekte 139

Abbildung II.7: Überprüfung des Selektionseffekts durch Modellvergleiche zwischen Modes

Das oben dargestellte Modell vernachlässigt allerdings die entscheidungstheoreti-


sche Perspektive, die den Nutzen der Teilnahmeentscheidung in den Blick nimmt.
Es ist nämlich davon auszugehen, dass der Mode wie andere Merkmale auch einen
Einfluss auf den mit den Alternativen der Teilnahmeentscheidung verbundenen
Nutzen hat, in dem etwa ein Mode für eine Zielperson einfacher zu bedienen ist
als ein anderer Mode. Geht man davon aus, dass eine Teilnahmeentscheidung nach
dem Modell der rationalen Wahl getroffen wird, so muss angenommen werden,
dass die Teilnahmeentscheidung auf Basis des Gesamtnutzens erfolgt, der mit den
Alternativen „Teilnahme“ und „Nichtteilnahme“ verbunden ist (zum Modell der
rationalen Wahl bei Teilnahmeentscheidungen vgl. Schnell, 1997 sowie Teil VI).
Selektionseffekte treten bei Teilnahmeentscheidungen immer dann auf, wenn
jene Variablen, welche die Teilnahmeentscheidung beeinflussen, auch die Vertei-
lungen der Zielvariablen beeinflussen (siehe unten). Dies ist der Fall, wenn es eine
gemeinsame Ursache für die über die Modepräferenz vermittelte Teilnahmeent-
scheidung und die Antwort auf eine Frage gibt (vgl. Abbildung II.8). So könnten
etwa einerseits die mit dem Alter verbundenen Merkmale die Teilnahmeentschei-
dung bei einer Webumfrage beeinflussen, andererseits aber auch die Antwort auf
140 II.6 Modeeffekte

die Frage nach der „Parteineigung“. Die Konsequenz wäre möglicherweise eine
Überrepräsentation des Alters in der Stichprobe und eine stärkere Bevorzugung
konservativer Parteien als in der Grundgesamtheit zu erwarten gewesen wäre.

Abbildung II.8: Gemeinsame Ursache für Kommunikationsform und Zielvariablen

Die gemeinsame Ursache stellt eine konfundierende Variable dar.


Neben den absoluten Selektionseffekten, die sich in Abweichungen der finalen
Stichprobe von der Auswahlgesamtheit äußern, kann es bei Befragungen, in de-
nen mehrere Interview-Modes angeboten werden, dank der mit demographischen
Hilfsvariablen und/oder Zielvariablen korrelierten Modebevorzugungen auch zu
unterschiedlichen Zusammensetzungen der mode-spezifischen Teilstichproben
kommen.
Solche relativen Effekte, die darin bestehen, dass eine Stichprobe in einem Mode
sich von einer Stichprobe in einem anderen Mode unterscheidet, lassen sich im
Rahmen von Modevergleichen (siehe oben) untersuchen. Dabei muss aber bedacht
werden, dass Verteilungsunterschiede zwischen mode-spezifischen Stichproben
auch durch den Einfluss von Modes auf die Messung entstehen können.
Eine Trennung des Mode-bedingten Selektionseffekts vom Mode-bedingten
Messeffekt erfordert besondere Überlegungen, auf die unten näher eingegangen
wird.
II.6 Modeeffekte 141

II.6.2.2 Modepräferenzen und ihre möglichen Ursachen

Selektionseffekte ergeben sich u.a. durch Bevorzugungen bestimmter Modes ge-


genüber anderen Modes, d.h. dadurch, dass Teilpopulationen, die sich durch be-
stimmte Merkmale auszeichnen, bestimmte Modes eher akzeptieren oder ablehnen
als andere. Beobachten lassen sich Bevorzugungen nur dann, wenn Personen die
Gelegenheit gegeben wird zwischen zwei oder mehr Modes zu wählen. Bei Sing-
le-Mode-Befragungen lässt sich dagegen nicht feststellen, welchen Stellenwert der
Mode in der unbekannten latenten Bevorzugungsordnung des Befragten hat, auch
wenn seine Teilnahme indiziert, dass die Stellung des angebotenen Modes in der
Präferenzordnung nicht zu einer Verweigerung geführt hat. Ferner kann die Ab-
lehnung von Modes auch dadurch bedingt sein kann, dass die kontaktierte Person
über die zur Durchführung notwendige Ausstattung nicht verfügt, weil ihm die
Realisierung des Modes zu umständlich ist und damit die Regel des maßgeschnei-
derten Designs (Dillmann, Smyth & Christian, 2014) verletzt ist. Im Folgenden
werden ohne Anspruch auf Vollständigkeit einige mögliche Gründe dafür, dass
bestimmte Modes anderen gegenüber bevorzugt werden, beschrieben. Mögliche
Gründe für Modebevorzugungen können sein:

A. Unterschiede in der technologischen Ausstattung (Mode-spezifische


Ausstattung)
Ein wichtiger Grund, einen angebotenen Mode zurückzuweisen und andere Mo-
des zu bevorzugen, besteht in dessen fehlender Verfügbarkeit. Dieser Grund lässt
sich im Rahmen eines Screenings der Ausstattung während der Kontaktaufnah-
me ausschließen. Die Anwendung computerunterstützter Befragungstechnologien
setzt stets den Zugang der Zielpopulation zu einer entsprechenden technischen
Ausstattung sowie außerdem deren tatsächliche Nutzung voraus. Unabhängig von
der Computerunterstützung ist etwa bei Telefonumfragen der Zugang zu einem
Telefonanschluss (Festnetz oder Mobilfunk) erforderlich. Für Selbst-administrierte
computerunterstützte Umfragen ist je nach Typ der Umfragetechnologie die Aus-
stattung mit einem Computer oder die Möglichkeit, E-Mails über eine E-Mail-Ad-
resse zu empfangen und abzuschicken, Voraussetzung. Bei Internetumfragen ist
der Zugang zum Internet-Dienst, oft auch eine E-Mail-Adresse notwendig. Die
technologischen Voraussetzungen betreffen dabei sowohl die Hard- also auch Soft-
warekonfiguration. Zur Softwareausstattung gehört z.B. auch die Ausstattung mit
geeigneten Browsern. Bei ACASI müssen z.B. Lautsprecher vorhanden sein, bei
T-ACASI und TDE Tastentelefone. Bei Face-to-Face-Umfragen über Skype ist eine
entsprechende Ausstattung mit einer Videokamera notwendige Voraussetzung.
142 II.6 Modeeffekte

Wichtig ist in diesem Zusammenhang die Kenntnis der Verbreitungsdichte der


Nutzungsvoraussetzungen in der Zielpopulation. Werden Erhebungstechnologien
verwendet, die in der Zielpopulation nur eine geringe Verbreitungsdichte haben,
besteht nicht nur die Gefahr von Selektionseffekten schon bei der Stichprobenaus-
wahl durch systematische Unterdeckung der Zielpopulation, sondern auch durch
systematischen Einfluss auf das Bevorzugungsverhalten und damit auf die Teilnah-
meentscheidung. Dies führt dann zu systematischen Verzerrungen der Ergebnisse,
wenn die Ursachen für die unterschiedliche Verbreitung mit den Zielvariablen zu-
sammenhängen. Nehmen wir als krasses Beispiel den Fall, dass in einer Erhebung
von Einstellungen zu technologischen Innovationen in der Allgemeinbevölkerung
eine Webumfrage als Kommunikationsform gewählt wird. Da die Einstellungen zu
technologischen Innovationen mit dem Vorhandensein/Fehlen der Ausstattung
(Internetzugang, Vorhandensein einer E-Mail-Adresse) korreliert sein kann, be-
steht in diesem Fall die Gefahr von Ergebnisverzerrungen, wenn die Ergebnisse
auf die Allgemeinbevölkerung übertragen werden sollen. Es stünde zu erwarten,
dass in der finalen Stichprobe vor allem Personen mit einer positiven Einstellung
vertreten sind. Da die Einstellungen zu technologischen Innovationen auch von
weiteren soziodemographischen Variablen wie Alter, Geschlecht, Bildung und eth-
nischer Zugehörigkeit abhängen können, besteht auch die Gefahr einer Verzerrung
hinsichtlich dieser Merkmale.
Sind die technologischen Voraussetzungen bei den befragten Personen bzw. in
den befragten Haushalten nicht vorhanden, kann die Unterdeckung dadurch ver-
mieden werden, dass den Befragten entweder die technologische Ausstattung zur
Verfügung gestellt wird, wie dies z.B. im LISS-Panel (vgl. Das, 2012) geschieht oder
dass den Befragten im Rahmen eines Mixed-Mode-Ansatzes alternative Kommu-
nikationsformen wie z.B. schriftlich/postalisch zur Durchführung der Interviews
eröffnet werden wie z.B. beim GESIS-Panel.
Einige Selektionseffekte werden sich mit weiter zunehmender Verbreitung
weiterer Varianten der Kommunikations- und Computertechnologie, der Erwei-
terung des in Befragungen einsetzbaren Gerätespektrums (vgl. die Beiträge in
Toepoel & Lugtig) und der zunehmenden Erfahrung in der Bedienung von Hard-
und Software in der Bevölkerung kontinuierlich weiter entschärfen. Immerhin lag
die Schätzung der Internetnutzung im Jahr 2016 bereits bei ca. 84%, 28% sind täg-
lich im Internet unterwegs (Quelle: Onlinestudie von ARD und ZDF: http://www.
ard-zdf-onlinestudie.de). Diese Anforderungen bilden gewisse Voraussetzungen
für deren Anwendung. Es ist anzunehmen, dass die Ausstattungsunterschiede kurz
nach Einführung einer neuen Befragungstechnologie am Größten sind.
II.6 Modeeffekte 143

B. Unterschiedlich ausgeprägte Kompetenzen für die Nutzung der ein-


gesetzten Technologien
Voraussetzung für die Durchführbarkeit computerunterstützter Umfragen ist nicht
nur das Vorhandensein der notwendigen technologischen Ausstattung, sondern
darüber hinaus das Vorhandensein entsprechender Nutzungskompetenzen. Diese
Kompetenzen reichen von der Kompetenz zur Bedienung der Tastatur und des
Betriebssystems bis zur Fähigkeit, die visuelle Darstellung auf dem Bildschirm er-
kennen und lesen zu können. Bei Interviewer-administrierten Interviews müssen
diese Kompetenzen bei den Interviewerinnen und Interviewern vorhanden sein,
bei Selbst-administrierten Interviews bei den Befragten.
Sind die notwendigen Kompetenzen nicht oder nur unzureichend vorhanden,
so ergibt sich die Notwendigkeit, die Nutzer zu schulen und in die Bedienung
einzuweisen. Bei Interviewer-administrierten Umfragen bedeutet dies eine Schu-
lung der Interviewer in Bezug auf die technische Handhabung. Im Fall Selbst-ad-
ministrierter Umfragen bedeutet dies die technische Schulung der Befragten. Oft
werden – etwa bei Online-Umfragen - diese Kompetenzen vorausgesetzt oder im
Rahmen der Befragung selbst vermittelt (z.B. durch Informationen über die Navi-
gation des Fragebogens). Insbesondere bei selbstselektiven Webumfragen könnten
unterschiedliche Kompetenzen sowie die Nutzungsgewohnheiten die Zusammen-
setzung der Stichprobe beeinflussen. So muss damit gerechnet werden, dass Per-
sonen, die sich den Umgang mit der Befragungstechnologie nicht zutrauen und
die vorher nicht entsprechend geschult werden, diese Technologie ablehnen und
eine andere bevorzugen. Angenommen, eine Zufallsstichprobe von Befragten wür-
de telefonisch kontaktiert und gebeten, einen Webfragebogen auszufüllen. Dann
ist in diesem Fall damit zu rechnen, dass auch Personen, welche die notwendige
Ausstattung besitzen, dann eher nicht teilnehmen, wenn ihnen die Teilnahme zu
umständlich ist, oder wenn sie einfach noch nicht geübt genug sind, die erforderli-
che Handhabung zu gewährleisten.
Ist die Vermittlung der zur Durchführung der Interviews notwendigen Kompe-
tenzen in der Zielpopulation nicht zu leisten, sollte die Umfrage zur Vermeidung
von Selektionseffekten mit der vorgesehenen technologischen Ausstattung in der
Zielpopulation nicht durchgeführt werden, da sich auch hier die Gefahr systema-
tischer Effekte auf die Datenqualität ergibt. Um diesen Effekten zu entgehen, kann
es sich anbieten, auf Kommunikationsformen auszuweichen, in denen das Vor-
handensein und die Nutzung technologischer Ausstattungen vorausgesetzt werden
kann, z.B. Einsatz von schriftlichen Fragebögen bei jenen Personen, die nicht kom-
petent genug sind, das Web zu nutzen.
144 II.6 Modeeffekte

C. Problemlose Anwendbarkeit
Manche Modes erfordern in der Anwendung einen besonderen Aufwand. So müs-
sen bei Webumfragen erst ein Gerät angeschaltet sowie Browser und die Website
aufgerufen werden. Schließlich ist in der Regel auch noch die Eingabe eines Zu-
gangscodes erforderlich. Der Ansatz des maßgeschneiderten Designs von Dillman
(vgl. Dillman, 2000; Dillman, Smyth & Christian, 2014) empfiehlt, zur Verbesse-
rung der Teilnahmebereitschaft den Aufwand für den Befragten zu reduzieren.
Dieser Aspekt spielt ins besonderen auch bei Modewechseln, insbesondere auch
vom Kontaktmode in den Interviewmode eine Rolle. So ist etwa der Wechsel von
einem primären Telefon-Mode in einen Online-Mode mit mehr Aufwand verbun-
den als der Wechsel vom schriftlich/postalischen Mode zum Online-Mode (vgl.
hierzu auch Millar & Dillman, 2011). Der Aufwand dürfte auch mit der Gewohn-
heit und der Nutzungshäufigkeit zu tun haben. Der Wechsel von einem häufig ge-
nutzten Mode in einen seltener benutzten Mode wird mit einem zumindest sub-
jektiv höheren Aufwand verbunden sein. Dies ist aber durchaus abhängig von den
alltäglichen Verhaltensweisen des Befragten. Die Problemlosigkeit der Anwendung
muss als möglicher Faktor bei der Nutzenbewertung der Teilnahmeentscheidung
in Betracht gezogen werden.

D. Mode-spezifische Voraussetzungen der physischen Ausstattung der


Befragten
Jede Kommunikationsform setzt eine bestimmte physische und mentale Ausstat-
tung der Befragten voraus. Beispiele für physische Voraussetzungen sind die Hörfä-
higkeit bei Interviewer-administrierten Interviews oder die Seh- bzw. Lesefähigkeit
bei Selbst-administrierten Interviews. Neben der Sehfähigkeit muss in der Regel
auch die Schreibfähigkeit vorausgesetzt werden. Unterschiede dieser Art können
z.B. neben der altersmäßigen Zusammensetzung auch die unterschiedliche ethno-
logische Zusammensetzung von Stichproben beeinflussen. Ferner müssen die kog-
nitiven Voraussetzungen gegeben sein, um die Fragen/Items zu verstehen, sei es das
Verständnis gesprochener Sprache, sei es das Verständnis geschriebener Sprache.

E. Ängste und Bedenken der Befragten


Auch Ängste und Bedenken der Befragten betreffen Kommunikationsformen in
unterschiedlichem Ausmaß, z.B. fehlendes Vertrauen in die Technologie wie z.B.
fehlendes Vertrauen in die Anonymität des Internet. Furcht vor Datendiebstahl
(Kriminalitätsfurcht).
II.6 Modeeffekte 145

Alle aufgeführten Beispiele können dazu führen, dass in Mixed-Mode-Umfra-


gen, in denen Wahlmöglichkeiten zwischen unterschiedlichen Kommunikations-
formen eröffnet werden, bestimmte Formen gegenüber anderen bevorzugt werden.
Empirische Studien sprechen dafür, dass mit einer höheren Teilnahmebereitschaft
gerechnet werden kann, wenn der Mode, in dem die Interviews durchgeführt wer-
den, der von den Teilnehmern bevorzugte Mode ist (vgl. Groves & Kahn, 1979;
Olson, Smyth & Wood, 2012).

F. Bevorzugungsrelationen zwischen Modes


Der aus unterschiedlichen Ursachen resultierende Selektionseffekt, der sich letzt-
lich aus den unterschiedlichen individuellen Wahrscheinlichkeiten der Akzeptanz
von Modes ergibt, kann theoretisch für jede Kommunikationsform unterschiedlich
sein. Nehmen wir etwa das Beispiel von Web, CATI und Mail. Möge xi ‫ ؼ‬yi be-
deuten, dass Mode x dem Mode y von Individuum i vorgezogen wird, dann sind
grundsätzlich folgende Bevorzugungsmuster zwischen den genannten Modes für
irgendein i denkbar:
CATI ‫ ؼ‬Web ‫ ؼ‬Mail
CATI ‫ ؼ‬Mail ‫ ؼ‬Web
Web ‫ ؼ‬CATI ‫ ؼ‬Mail
Web ‫ ؼ‬Mail ‫ ؼ‬CATI
Mail ‫ ؼ‬CATI ‫ ؼ‬Web
Mail ‫ ؼ‬Web ‫ ؼ‬CATI
In einer konkreten Umfrage haben wir kein Wissen darüber, durch welcher Be-
vorzugungsrelation ein Befragter folgt. In der Praxis ist die Kommunikationsform
aber nur eine der möglichen und nicht einmal die wichtigste Determinante der
Teilnahmeentscheidung.

II.6.2.3 Mode-abhängige Selektion der Antwortqualität

Selektionseffekte können neben Auswirkungen auf die Verteilung der Hilfsvariab-


len auch Auswirkungen auf die Verteilung von Indikatoren der Antwortqualität von
Zielvariablen haben. Dies ist etwa dann der Fall, wenn die Ursachen der Selektion
durch Modes auch Ursachen der Antwortqualität sind. Wenn das Alter einerseits
über die Modepräferenz die Teilnahmeentscheidung, andererseits aber auch die
Antwortqualität beeinflusst, weil ältere Befragte z.B. eine verminderte Ausprägung
bestimmter kognitiver Fähigkeiten oder der Schreib- und Lesefähigkeit haben, also
146 II.6 Modeeffekte

gerade jener Fähigkeiten, die zur korrekten Beantwortung der Fragen benötigt wer-
den, können auch Auswirkungen auf die Antwortqualität in Sinne eines verstärkten
Auftretens von „Fehlklassifikationen“, „don’t know-Antworten“, „Item-Nonrespon-
se“, etc. nicht ausgeschlossen werden (vgl. Abbildung II.9). Defizite in der Leis-
tungsfähigkeit können wiederum von psychophysischer Belastbarkeit, Konzentra-
tionsfähigkeit, Ermüdbarkeit und verstärkter Neigung zum Satisficing abhängen.

Abbildung II.9: Kommunikationsform und Antwortqualität

Gemeinsame Ursachen müssen nicht immer beobachtbar sein. Vielmehr kann die
Menge der die Selektion beeinflussenden Variablen auch unbeobachtete Variablen
enthalten. Ein Beispiel sind die latenten Konstruktvariablen „Selbstenthüllungs-
tendenz“ und „Soziale Erwünschtheit“, die zu einer Bevorzugung Selbst-admi-
nistrierter Kommunikationsformen führen können. Eine empirische Analyse der
Auswirkungen latenter Konstruktvariablen erfordert die vorherige Identifikation
empirischer Indikatoren für diese Variablen.
II.6 Modeeffekte 147

II.6.3 Effekte auf Messung und Antwortqualität

II.6.3.1 Messeffekte

A. Auswirkungen auf die Verteilung der beobachteten Variablen


Die Evaluation von Messeffekten setzt voraus, dass alle übrigen Einflüsse auf die
Messung außer den Modes sowie der Selektionseffekt kontrolliert werden. Ein ge-
eignetes Untersuchungsdesign zur Untersuchung von Messeffekten ist ein experi-
mentelles Design mit Messwiederholung („within subjects design“; vgl. z.B. Kirk,
1995; Winer, Brown & Michels, 1991), bei dem eine identische Zufallsstichprobe
von Personen unter unterschiedlichen Modes ohne systematische Nonresponse
hinsichtlich der gleichen Variablen gemessen wird. Verteilungsunterschiede zwi-
schen den Messungen unter den verschiedenen Modes sind in diesem Fall nur auf
die Modes zurückzuführen, weil alle übrigen Einflussgrößen durch Konstanthal-
tung kontrolliert sind und daher Konfundierungen ausgeschlossen sind. In einem
solchen Design können die Verteilungsunterschiede auch nicht durch eine unter-
schiedliche Selektion erklärt werden, so das der verbleibende Effekt nur noch ein
Effekt auf die Messung sein kann.
Es ist also folgerichtig, wenn Vannieuwenhuyze & Loosfeldt (2013) zur forma-
len Präzisierung des Messeffekts die folgende Definition eines marginalen Mess-
effekts M (f(x)) vorschlagen. Gegeben sei eine dichotomen Mode-Variable A mit
dem Wertebereich A = a und A = b sowie eine Wahrscheinlichkeitsverteilung f(X)
der Variablen X. Dann ist der marginale Effekt definiert als

M ( f ( X ) ) = P ( X|A = a ) − P ( X|A = b ) .

Der marginale Messeffekt ist also definiert als Differenz zwischen der Wahrschein-
lichkeit von X unter Mode a und der Wahrscheinlichkeit von X unter Mode b.
Die statistische Evaluation des Messeffekts kann im Rahmen eines Designs mit
Messwiederholung durch Überprüfung der Hypothese erfolgen, dass beide Stich-
proben aus derselben Zielpopulation stammen. Dazu eignen sich der t-Test für ab-
hängige Stichproben (bei metrischen Variablen) oder ein vergleichbares nichtpara-
metrisches Verfahren (z.B. Mann-Whitney). Ein signifikanter Unterschied spricht
dann für einen Messeffekt.
148 II.6 Modeeffekte

B. Auswirkungen auf die Validität einer Messung


Auswirkungen der Modes auf die Validität von Messungen bestehen darin, dass
in unterschiedlichen Modes mit der gleichen Messung unterschiedliches gemes-
sen wird. Ein Beispiel wäre dann gegeben, wenn in einem Mode mit Intervie-
wer-Administration statt der beabsichtigten Einstellung das Konstrukt „Soziale
Erwünschtheit“ gemessen wird, während in einem Mode mit Selbstadministration
die beabsichtigte Einstellung gemessen wird. Eine mögliche Erklärung wäre etwa
die größere soziale Distanz in Modes mit Selbstadministration, z.B. in Webum-
fragen im Vergleich mit solchen mit Interviewer-Administration wie z.B. in Fa-
ce-to-Face-Umfragen (vgl. Heerwegh, 2009). Auch die bei selbstadministrierten
Befragungen vermutete größere Aufrichtigkeit, mit der Antworten gegeben wer-
den, kann nicht nur die Reliabilität, sondern auch die Validität der Angaben positiv
beeinflussen. Modeeffekte auf Inhalte der Messungen können z.B. durch Vergleiche
zwischen Modegruppen hinsichtlich der Faktorstruktur der Messungen untersucht
werden (vgl. Heerwegh & Loosveldt, 2011). Auswirkungen auf die Validität beein-
trächtigen die inhaltliche Interpretation der Daten.

C. Auswirkungen auf die Reliabilität einer Messung


Auswirkungen von Modes auf die Reliabilität bestehen in den Wirkungen auf die
Höhe des Messfehlers. Während die Messung soziodemographischer Variablen in
der Regel als messfehlerfrei betrachtet wird, ist bei den eigentlichen Zielvariablen,
bei denen oft Ratingskalen verwendet werden, neben einem Selektionseffekt auch
ein Effekt der Kommunikationsform auf den Messfehler denkbar, der sich in einer
mode-bedingten Änderung der Messwerte äußert und daher wie die Selektion die
Verteilung der Zielvariablen beeinflussen kann. Der Messfehler betrifft die Genau-
igkeit, mit der eine zu messende theoretische Variable in eine beobachtete Ant-
wortvariable überführt bzw. transformiert wird (vgl. Voogt & Saris, 2005). Er kann
für Messungen der gleichen Variablen in zwei unterschiedlichen Kommunikations-
formen unterschiedlich groß sein. Nehmen wir in Übereinstimmung mit den An-
nahmen der klassischen Messtheorie an, dass sich eine Messung additiv aus einem
wahren Wert der Messung und dem Messfehler zusammensetzt (vgl. Teil IV), so
erhalten wir für die Messungen in zwei unterschiedlichen Kommunikationsformen
Mod1 und Mod2:
xMod1 = τ + εMod1,
xMod2 = τ + εMod2.
II.6 Modeeffekte 149

τ bezeichnet in diesen Formeln die wahre Messung. εMod1 und εMod2 bezeichnen die
Messfehler unter den beiden Modalitäten Mod1 und Mod2 (vgl. auch Abbildung
II.10). Die beobachteten Messungen xMod1 und Mod2 sind identisch, wenn die Mess-
fehler gleich sind.

Abbildung II.10: Zusammensetzung der Messung unter verschiedenen Modes

Wichtige Gründe für Modeeffekte auf Validität, Reliabilität und Antwortqualität


können sein:
• Zusammenhang zwischen mode-spezifischen Merkmalen (z.B. Administrati-
onsform) und der sensitiven Wirkung von Fragen; so können bestimmte Mo-
des die sensitiven Wirkungen von Fragen und Items reduzieren oder verstärken
(vgl. Teil IV);
• Die eingeräumte Bearbeitungszeit und der subjektiv empfundene Zeitdruck;
• Förderung bestimmter Arten und Ausmaße des Satisficing, z.B. durch besonde-
re Belastungen der Befragten;
• Wirkungen spezifischer Sinneskanäle (Art der visuellen Präsentation und Lay-
out von Items und Skalen);
• Erfordernisse besonderer Kompetenzen (z.B. Schreib- und Lesefähigkeit).
Wie der Selektionseffekt kann sich auch der Messeffekt auf die Parameterschätzung
auswirken. Nehmen wir z.B. an, eine Einstellungsfrage mit einem sozial erwünsch-
ten Inhalt würde in einem Mode zu höheren Bewertungen auf einer Rating-Skala
führen als in einem anderen Mode. Dann wären die Messungen systematisch ver-
150 II.6 Modeeffekte

schoben und auch der Mittelwertschätzer würde ebenfalls entsprechend verscho-


ben sein.

II.6.3.2 Wirkungen auf die Antwortqualität

Wir haben in Abschnitt 7.2.2 gesehen, dass die Antwortqualität in verschiedenen


Teilgruppen auf Grund von Selektionseffekten unterschiedlich stark repräsentiert
sein kann. Unabhängig von diesen Effekten kann es aber auch modespezifische
Wirkungen auf die Antwortqualität geben. Betroffen sein können z.B. die Anzahl
der Weiß nicht – Antworten (z.B. eine höhere Anzahl bei Webumfragen im Ver-
gleich zu Face-to-Face-Umfragen; vgl. z.B. DeRouvray & Couper, 2002; Heerwegh,
2009), die Anzahl der fehlenden Werte, die Genauigkeit der Angaben. Dabei sind
möglicherweise Eigenschaften des Layouts bei Selbst-administrierten Erhebungs-
instrumenten für Wirkungen auf die Antwortqualität mitverantwortlich. Ein Bei-
spiel hierfür ist, dass bei Webfragebögen die Anordnung der Items in Form von
Gittern zu einer mangelnden Differenzierung der Antworten führen kann (vgl.
Tourangeau, Couper, & Conrad, 2004).

II.6.4 Beziehungen zwischen Selektionseffekt und Messeffekt

Bei einer Single-Mode-Befragung sind bei Zielvariablen Messeffekt und Selekti-


onseffekt untrennbar miteinander vermengt, da die empirische Verteilung einer
Zielvariablen sowohl durch die Messung als auch durch die Selektion beeinflusst
sein kann. Bei soziodemographischen Hilfsvariablen ist eine solche Konfundierung
nicht zu erwarten, wenn man davon ausgeht, dass die Messung soziodemographi-
scher Variablen wie Alter oder Geschlecht mode-unabhängig möglich ist. Der
Versuch einer Trennung beider Einflüsse erfordert ein Mixed-Mode-Designs mit
der Möglichkeit eines Modevergleichs (vgl. hierzu Vannieuwenhuyze & Loosfeldt,
2013; Vannieuwenhuyze, Loosveldt, & Molenberghs, 2010).
Eine Trennung zwischen beiden Effekten erfordert die statistische Kontrolle des
jeweils anderen Effekts. Dafür bieten sich eine Reihe von Techniken an:
II.6 Modeeffekte 151

Kalibrierung bzw. Matching


Nehmen wir an, die Variable „Alter“ würde optimal zwischen den Modegruppen
trennen, mit der Konsequenz, dass in einer Modegruppe auf Grund einer Konfun-
dierung von Alter und Mode bestimmte Altersgruppen mehr oder weniger stark
vertreten sind als in der anderen Gruppe. Dann könnten wir den Effekt der al-
tersbezogenen Selektion ausschalten, indem wir die Befragten in Bezug auf die Al-
tersgruppen matchen. Statt von Matching wird auch von Mixed-Mode-Kalibrierung
(engl.: MM-calibration) gesprochen (vgl. Fricker, 2005; Lugtig et al., 2011; Vannieu-
wenhuyze & Loosfeldt, 2013).
Eine Kontrolle der Selektion durch Matching könnte allerdings sehr aufwändig
werden. Wird der Selektionseffekt durch mehrere Variablen bestimmt, so würde
ein Matching nach den Ausprägungen aller Variablen die Berücksichtigung einer
sehr großen Anzahl von Kombinationen der Selektionsvariablen führen. Rosen-
baum und Rubin (vgl. z.B. Rosenbaum & Rubin, 1983, 1984; Rubin, 1997) schlagen
daher vor, statt eines Matching durch direkte Subklassifikation nach den Ausprä-
gungskombinationen der Selektionsvariablen eine Subklassifikation nach Propensi-
ty Scores durchzuführen (siehe Abschnitt I.7.1). Dabei wird die Zugehörigkeit zu
einer von zwei Modegruppen A und B durch eine dichotome Variable Z angezeigt,
mit Z = 1 für Modegruppe A und Z = 0 für Modegruppe B. Im Rahmen einer
binären logistischen Regression mit den Selektionsvariablen als Kovariaten wird
dann die Wahrscheinlichkeit an der Stelle einer Ausprägung der unabhängigen
Variablen (Propensity Score) bestimmt, also die Wahrscheinlichkeit, mit der ein
Fall mit dieser Ausprägung zu dieser Modegruppe gehört unter der Bedingung der
Ausprägungen der Selektionsvariablen. Unter der Bedingung eines bestimmten
Propensity Scores sind die statistischen Verteilungen der Kovariaten für beide Mo-
degruppen identisch (vgl. Rosenbaum & Rubin, 1983, S. 42.), so dass statistische
Unterschiede zwischen den Gruppen nicht mehr auf die Selektion zurückgeführt
werden können. Anschließend werden eine Kategorisierung der Propensity Scores
und ein Matching auf Basis dieser Kategorisierung vorgenommen. Statt des logisti-
schen Modells kann im Rahmen eines verallgemeinerten logistischen Modells auch
eine andere Linkfunktion (z.B. Probit) verwendet werden.
Diese Methode zur Kontrolle des Selektionseffekts kann bei unterschiedlichen
Arten des Mixed-Mode-Designs angewandt werden, zum einen in dem Fall, wo
zwei Modes in einer Entscheidungssituation zur Wahl gestellt werden, zum ande-
ren auch bei einer zufälligen Zuteilung der Zielpersonen zu unterschiedlichen Mo-
des. Letzteres kann im Rahmen eines experimentellen Designs dadurch geschehen,
dass teilnahmebereite Personen, welche die Voraussetzungen für die Applikation
der Modes (Ausstattung, Nutzungskompetenz, etc.) verfügen, im Rahmen einer
152 II.6 Modeeffekte

Randomisierung nach Zufall auf die Modes verteilt werden. Experimentelle De-
signs können auch in Umfragen, d.h. in Beobachtungsstudien integriert werden,
indem die Befragten nach einer Kontakt- und Screeningphase nach Zufall verschie-
denen Modes zugeordnet werden, wobei allerdings nicht garantiert werden kann,
dass die Befragten nach erfolgter Zuordnung immer noch zum Interview bereit
sind, so dass mit einer selektiven Nonresponse gerechnet werden muss. Um diese
Nonresponse-Effekte abzuschätzen, sollte man versuchen, von allen Personen be-
reits in der Screeningphase möglichst viele Informationen zu erheben.
Die Anwendung der oben erwähnten Methoden zur Kontrolle von Selektions-
effekten kann bei einer vom Administrator vorgenommenen zufälligen Zuordnung
der Modes dadurch geschehen, dass beide Zufallsstichproben gepoolt werden und
die gepoolte Stichprobe entsprechend dem oben beschriebenen Vorgehen analy-
siert wird.
Vannieuwenhuyze, Loosfeldt & Molenberghs (2010) zeigen wie Mess- und
Selektionseffekt berechnet werden können, wenn eine Referenzstichprobe aller
Elemente in einem Referenzmode a zur Verfügung steht (erweiterter Mixed-Mo-
de-Vergleich).

Ausschaltung aller mode-bedingten Effekte in der statistischen Analyse


Hat man ein statistisches Model mit einer abhängigen Zielvariablen formuliert, so
kann eine Kontrolle aller mode-bedingten Effekte dadurch geschehen, dass die di-
chotome Variable „Mode“ als Kovariate in das Modell integriert wird (siehe oben).
Durch die Modekontrolle sollten dann alle Modeeffekte auf die Zielvariablen her-
auspartialisiert sein.
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 153

II.7 Einflüsse der Kommunikationsform auf die Organisa-


tion von Erhebungen

II.7.1 Besonderheiten Interviewer-administrierter Umfragen

II.7.1.1 Allgemeines

Die grundlegenden Schritte in Planung und Durchführung von Umfragen sollten


in allen Befragungsarten im Einklang mit dem in Abschnitt I 1.3 beschriebenen
Umfrageprozess stehen. Allerdings unterscheiden sich die verschiedenen Kommu-
nikationsformen in bestimmten Anforderungen an Organisation und Ablauf, die
Administratoren, die Nutzung der Technologie und die Eigenschaften des Übertra-
gungskanals. Auch in ihren Auswirkungen auf die Umfragequalität können sich die
verschiedenen Befragungsarten mit ihren spezifischen Besonderheiten unterschei-
den. In diesem Abschnitt und den folgenden Abschnitten geht es um die Besonder-
heiten der Befragungsarten und nicht um die von allen Befragungsarten gemein-
sam geteilten Aspekte des Umfrageprozesses.
Der Einfluss der Interviewer-Administration auf die Organisation einer Erhe-
bung unterscheidet sich von der Organisation Selbst-administrierter Erhebungen
durch alle Merkmale, die auf dem Einsatz von Interviewern beruhen. Dazu gehö-
ren:
Interviewer-bezogene organisatorischen Maßnahmen in der Vorbereitung und
Durchführung der Umfrage: Interviewer-Rekrutierung, Interviewer-Einsatzpla-
nung, Steuerung und Kontrolle des Interviewer-Verhaltens im Feld sowie Über-
prüfung der Interviewer-Leistung.
Maßnahmen zur Abschwächung und Kontrolle negativer Auswirkungen von In-
terviewer-Merkmalen und Interviewer-Verhalten: Zu solchen Maßnahmen gehören
Interviewer-Schulungen, Bereitstellung von Unterlagen für die Interviewer, Einbin-
dung von Interviewer-Instruktionen in den Fragebogen. Durch diese Maßnahmen
kann die Qualität der Leistungen des Interviewers und damit der Datenqualität
erhöht werden.
154 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

II.7.1.2 Interviewer-Einsatz und Umfrageorganisation in PAPI-


und CAPI-Umfragen

PAPI- und CAPI-Umfragen sind im Unterschied zu CATI-Umfragen dadurch ge-


kennzeichnet, dass die Interviewer zur Kontaktaufnahme und zur Durchführung
von Interviews in ein Erhebungsgebiet geschickt werden, in dem potentielle Be-
fragte aufgesucht, gesucht und kontaktiert werden. Für diesen Raum möglicher
Untersuchungseinheiten hat sich die Bezeichnung Feld (engl.: field) eingebürgert.
Die praktische Durchführung einer Umfrage mit allen dazu notwendigen Aktivi-
täten der Interviewer wird dementsprechend auch als Feldarbeit (engl.: fieldwork)
bezeichnet. Die Organisation der Durchführungsmodalitäten heißt auch Feldor-
ganisation. Ein Institut, dessen das sich ausschließlich auf die Feldarbeit und die
Feldorganisation konzentriert, wird auch als Feldinstitut bezeichnet.
Die organisatorischen Besonderheiten von PAPI- und CAPI-Umfragen ergeben
sich aus dem Einsatz von Interviewern im Feld. Dazu gehören:

Rekrutierung von Interviewern und Pflege der Interviewer-Datenbank


Die Rekrutierung von Interviewern ist eine notwendige Aktivität, die alle Intervie-
wer-administrierten Umfragen gemeinsam haben. Sie ist Voraussetzung für den
Einsatz von Interviewern im Feld. Die Rekrutierung verläuft entweder als Neure-
krutierung über verschiedene Kanäle (z.B. Presse, Empfehlungen, soziale Medien,
Jobbörsen und Job-Plattformen) oder als Rekrutierung aus einer bestehenden In-
terviewer-Datei/Datenbank bereits früher rekrutierter oder eingesetzter Intervie-
wer.
Die Neurekrutierung erfordert Neueinträge von Interviewern in eine bereits
existierende Datei/Datenbank oder die Einrichtung einer neuen Datei/Datenbank.
Die Interviewer-Datei/Datenbank sollte wichtige soziodemographische Daten der
Interviewer wie Geschlecht, Alter, Schulbildung, berufliche Tätigkeit, Berufsbe-
zeichnung) sowie bevorzugte Einsatzzeiten enthalten, um den Interviewer-Einsatz
an die Erfordernisse verschiedener Umfragedesigns und Zielpopulationen anzupas-
sen. Außerdem empfiehlt es sich, für jede Umfrage die Anzahl der durchgeführten
Interviews, die durchschnittliche Länge der Interviews und die Ausschöpfungsquo-
ten pro Interviewer festzuhalten. Diese Angaben dienen der Qualitätskontrolle der
Interviewer sowie der Kontrolle von Interviewer-Merkmalen in der statistischen
Analyse. Insbesondere wissenschaftliche Umfragen erfordern oft die Integration
von Interviewer-Merkmalen in den Datensatz, um Interviewer-Effekte auf die Zu-
sammensetzung der Stichprobe, die Messung und die Antwortqualität bestimmen
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 155

zu können. Interviewer-Effekte auf die Messung lassen sich u.a. durch Berechnung
der von den Interviewern verursachten Designeffekte (vgl. Teil VI) abschätzen.
So weit möglich sollten in einer Umfrage erfahrene Interviewer und Interviewer
mit einem positiven Selbstbild und einem Selbstvertrauen in die eigenen Fähig-
keiten eingesetzt werden. Beide Merkmale tragen zusammen mit der Einstellung
zu den Inhalten der Umfrage Erhöhung der Kooperationsbereitschaft bei (vgl.
Durrant et al., 2010; Groves & Couper, 1998; De Leeuw et al., 1998; Hox & De
Leeuw, 2002) Allerdings lässt sich dies nicht immer garantieren, da Neurekrutie-
rungen auf Grund von Fluktuationen unerlässlich sind.
Für die Festlegung der Anzahl der Interviewer für die Feldarbeit in einer kon-
kreten Umfrage sind in erster Linie folgende Gesichtspunkte relevant:

• die Minimierung von Interviewer-Effekten bei gleichzeitiger Sicherstellung, die


während der Erhebung gesammelten Erfahrungen zu nutzen;
• der Rekrutierungsaufwand;
• wachsende Rekrutierungsschwierigkeit bei sinkender Gesamtentlohnung pro
Interviewer;
• die den Interviewern zur Verfügung stehenden Zeitfenster für Kontaktaufnah-
me und Interview. Dieser Punkt betrifft vor allem die nebenberuflich tätigen
Interviewer.

Festlegung der Aufgaben der Interviewer


Während die Durchführung von Interviews zu den Standardaufgaben der Inter-
viewer gehört, die in jeder Umfrage unabhängig vom Design erfüllt werden müs-
sen, können sich andere Aufgaben je nach Stichprobendesign voneinander unter-
scheiden. Im Fall einer Zufallsziehung von Adressen von Privatpersonen, z.B. über
Meldeämter, werden dem Interviewer in der Regel, aber nicht immer, sowohl die
Kontaktaufnahme mit dem Haushalt als auch die Durchführung der Interviews
überlassen. Welche Aufgaben dem Interviewer obliegen, hängt ebenfalls davon ab,
ob die Kontaktaufnahme telefonisch oder schriftlich über das Institut erfolgt und
ob in Kontaktphase und Interviewphase dieselben oder unterschiedliche Inter-
viewer eingesetzt werden sollen. Bei der Kontaktaufnahme durch die Interviewer
muss der Kontaktmode festgelegt werden. So muss etwa entschieden werden, ob
die Kontaktaufnahme telefonisch, durch Aufsuchen der Adresse oder durch beide
Modi in einem bestimmten Zahlenverhältnis (z.B. 2 x Aufsuchen, 3 x telefonisch)
oder in einer bestimmten Sequenz (z.B. erste Kontaktaufnahme durch Aufsuchen)
erfolgen soll. Da der Kontaktmode erste Selektionseffekte beinhalten kann, ist diese
156 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

Festlegung, die in Abhängigkeit von der Zielgruppe getroffen werden muss, von
gewisser Bedeutung. Auch die Anzahl der Kontaktversuche in einer bestimmten
Kommunikationsform sollte vorher festgelegt werden.
Wieder andere Aufgaben nimmt der Interviewer wahr, wenn ein Random-Rou-
te-Verfahren (vgl. Abschnitt VI) als Methode der Stichprobenauswahl gewählt
wird. In diesem Fall gehört zu den Aufgaben des Interviewers eine Adressauswahl,
indem in einem wohldefinierten Gebiet, einem sog. Sampling Point, Adressen nach
bestimmten Begehungsvorschriften (Zufallsauswahl der Wege, festgelegter Schritt-
weite, wohldefiniertes Verhalten in Mehrfamilienhäusern) aufgesucht werden. Bei
Random-Route mit vorheriger Auflistung von Adressen, müssen die Adressen vom
Interviewer vor der Interviewphase an das Institut geschickt werden, das dann eine
Auswahl der Adressen vornimmt.
Im Fall einer Quotenstichprobe (vgl. Abschnitt VI) wird der Interviewer ange-
wiesen, eine bestimmte Anzahl von Personen nach vorgeschriebenen Merkmalen
zu befragen. Für die Art der Kontaktaufnahme können bestimmte zusätzliche For-
derungen gestellt werden (z.B. bitte nicht innerhalb des Verwandten- oder Bekann-
tenkreises suchen).

Interviewer-Einsatzplanung und Kontrolle der Feldarbeit


Die mit dem Einsatz von Interviewern im Feld zusammenhängenden Institutsak-
tivitäten umfassen:

• Prüfung der Verfügbarkeit von Geräten (bei CAPI-Umfragen);


• Bereitstellung von Kontaktprotokollen zur Aufnahme der Ausfallgründe für
jeden Kontaktversuch;
• Festlegung des Feldbeginns;
• Entscheidung darüber, wie viele Interviews pro Interviewer aus methodischen
Erwägungen angesetzt werden können,
• Erstellung einer Übersicht von Informationen darüber, wie viele Interviews je-
der einzelne Interviewer überhaupt durchzuführen bereit ist sowie die von den
Interviewern wahrnehmbaren Interviewtermine;
• organisatorische Vorkehrungen für die Substitution von Interviewern durch
Ersatzinterviewer bei Ausfällen von Interviewern aus verschiedenen Gründen
wie Krankheit und andere private Gründe;
• Organisation der Supervision/Betreuung der Interviewer während der Feldar-
beit durch Einrichtung einer Interviewer-Hotline bzw. Ansprechpartner für die
Interviewer;
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 157

• Entscheidung darüber, wann die Interviewer ausgefüllte Fragebögen an das


Institut zurückschicken sollen; dies kann bei CAPI-Umfragen ohne Probleme
sogar sofort nach dem Interview geschehen;
• Organisation der Überprüfung eingehender Erhebungsinstrumente (Eingangs-
kontrolle) auf Vollständigkeit;
• Organisation der Supervision des Stands der Feldarbeit und des Datenbestands:
Grundsätzlich sollte sichergestellt sein, dass der Auftraggeber nach Absprache
der Zeitpunkte während der Feldarbeit einen Überblick über deren Stand er-
hält. Zu diesem Überblick gehört nicht nur die Anzahl der durchführten In-
terviews, sondern auch ein Überblick über die noch ausstehenden, aber fest
vereinbarten Interviewtermine, auf Wunsch des Auftraggebers auch eine Aus-
falldiagnostik mit den wichtigsten Ausfallgründen auf der Basis der eingegan-
genen Kontaktprotokolle, die bei CAPI-Umfragen auch elektronisch geführt
werden können und genauso wie die Interviewdaten rasch an das Institut auf
elektronischem Weg geschickt werden können (elektronische Kontaktproto-
koll). Bereits während der Feldarbeit sollten die Daten in eine Systemdatei ver-
fügbarer Statistik-Softwarepakete aufgenommen werden, um rasch statistische
Zwischenanalysen durchführen zu können. Dies ist bei computerunterstützten
Befragungen kein Problem, da in diesem Fall die Daten bereits während des
Interviews zumindest in der Befragungssoftware als Datei angelegt werden, die
dann rasch in eine Systemdatei übertragen werden kann;
• ggf. Festlegung von Art der Incentives und Organisation der Bereitstellung und
Verteilung von Incentives.

Alle Aktivitäten einschließlich der Abrechnungen für die Interviewer können


durch einschlägige Software-Systeme unterstützt werden. Die Feldorganisation
mit den oben dargestellten Maßnahmen liegt oft in den Händen einer gesonderten
Feldabteilung bzw. in den Händen einiger geschulter Personen mit entsprechenden
Kompetenzen.

II.7.1.3 Interviewer-Einsatz und Umfrageorganisation in


CATI-Umfragen

CATI-Umfragen unterscheiden sich von PAPI- und CAPI-Umfragen vor allem da-
durch, dass die Interviews in der Regel in Räumlichkeiten und Telefonplätzen des
Instituts erfolgen. Allerdings sind heute die technischen Möglichkeiten vorhanden,
die Interviews auch durch Interviewer zuhause durchführen zu lassen. Wird der
zuletzt genannte Weg beschritten, muss die Kontrolle der Interviewer nicht nur in
158 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

Bezug auf die Verifikation der Durchführung, sondern auch in Bezug auf Qualität,
Korrektheit und Datenschutz (sichere Verbindung zum Datenaustauch zwischen
dem Gerät des Interviewers und dem CATI-Server) sichergestellt sein. Der Vorteil
einer Durchführung der CATI-Interviews in den Institutsräumen liegt in den Mög-
lichkeiten einer intensiveren Supervision der Arbeitsweise der Interviewer und der
Funktionstüchtigkeit der Technik, die vor Ort und kontinuierlich erfolgen kann.
Es sollte sichergestellt sein, dass zumindest zwei Supervisoren anwesend sind, die
für die Beantwortung von Fragen und Problemen der Interviewer zur Verfügung
stehen, den Betrieb des CATI-Systems überwachen und für den Abruf relevanter
Systeminformationen sorgen. Ob in einer Umfrage nicht nur im Pretest, sondern
auch in Teilen der Hauptbefragung ein Hineinhören in die Interviews gestattet sein
sollte, hängt von methodischen Erwägungen und Erwägungen zum Datenschutz
ab. Die Wirkungen auf die Befragten sind durchaus nicht klar. Bei sensitiven Fragen
spricht einiges gegen ein solches Vorgehen. Ein Hineinhören ist ohne Zustimmung
der Interviewer und der Befragten nicht gestattet.

II.7.1.4 Interviewer-Schulung

Mit dem Einsatz von Face-to-Face-Umfragen in der sozialwissenschaftlichen For-


schung setzten schon sehr frühzeitig Betrachtungen darüber ein, wie sich Merk-
male der Interviewer auf verschiedene Arten des Befragten-Verhaltens auswirken
können (vgl. hierzu auch Abschnitte III.3.4 und VII.8.5). Dabei ging es zunächst
um die sichtbaren Merkmale der Erscheinung des Interviewers wie Geschlecht,
Hautfarbe, geschätztes Alter, stimmliche Merkmale, Kleidung, wahrgenommene
soziokulturelle Herkunft, dann auch um auf verschiedenen Sinneskanäle bezogene
Verhaltensmerkmale wie Art des Auftretens, verbales Verhalten, etc. und schließ-
lich um Einstellungen des Interviewers zu den erfragten Themen, zu den Befragten
und zu sich selbst als Ursachen des Interviewer-Verhaltens und damit indirekt des
Befragten-Verhaltens.
Zu den durch Interviewer-Merkmale beeinflussbaren Aspekten der Umfrage-
qualität gehören:

• das Kontakt- und -Teilnahmeverhalten (Kontakterfolg, Teilnahmeentschei-


dung, Teilnahmebereitschaft, Teilnahmewahrscheinlichkeit) bzw. die Teilnah-
meverweigerung;
• die Antwortverweigerung auf bestimmte Fragen (Item-Nonresponse);
• die Sorgfalt der Fragebeantwortung und die Antwortqualität.
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 159

Zwischen diesen Variablen kann es noch wechselseitige Einflüsse geben. So gibt


es etwa Hinweise, das Befragte, die bei der Teilnahmeentscheidung eher zögerlich
sind, eine geringere Antwortqualität aufweisen (vgl. Teil VI).
Alle Formen Interviewer-administrierter Interviews erfordern eine Schulung
der Interviewer, deren Ziel darin besteht, die erwähnten negativen Auswirkungen
des Interviewer-Verhaltens auf die Umfragequalität zu reduzieren oder ganz zu
vermeiden, wobei sich die Intensität der Schulung auch von der Fragestellung, dem
Umfang des Erhebungsinstruments, möglichen Problemen von Fragen im Feld,
den bereits bestehenden Erfahrungen der Interviewer allgemein und speziell in
Bezug auf das Themengebiet der Umfrage sowie von den soziodemographischen,
die Zielpopulation definierenden Merkmalen (z.B. eine bestimmte Altersgruppe)
abhängt. Zahlreiche Untersuchungen bestätigen Zusammenhänge zwischen Da-
tenqualität und Interviewer-Verhalten.
In Tests verschiedener Training-Schemata konnten positive Wirkungen des
Trainings nachgewiesen werden (vgl. Billiet & Loosfeldt, 1988; Groves & Gonagle,
2001).
Eine Interviewer-Schulung besteht aus mindestens zwei, bei computerunter-
stützen Interviews aus drei Stufen:

Schulungsstufe 1
Neu eingestellte Interviewer/innen sollten einen mehrstufigen Schulungsprozess
durchlaufen, im Rahmen dessen zunächst in einer mündlichen und schriftlichen
Schulung die Regeln des standardisierten Interviews vermittelt werden. Im Rah-
men dieser Schulung sollten auch die Techniken neutralen Klärens bei Nachfragen
des Befragten und des neutralen Nachfragens durch den Interviewer bei unkla-
ren Antworten des Befragten vermittelt werden. Als Schulungsunterlagen können
die GESIS-Richtlinien zur Durchführung standardisierter Interviews zugrunde
gelegt werden (vgl. Stiegler & Prüfer, 2002). Schon auf dieser Stufe sollten Pro-
beinterviews mit einem Beispielfragebogen durchgeführt werden. Interviewpart-
ner können dabei andere Interviewer und/oder fremde Personen sein. Im Fall von
Telefonumfragen kann leicht eine kleine Stichprobe von Telefonnummern gezogen
werden, mit denen telefonische Trainingsinterviews durchgeführt werden. Auch
ein zusätzliches Training zur Optimierung der Kontaktaufnahme und zur Erhö-
hung der Teilnahmebereitschaft sollte auf dieser ersten Stufe erfolgen, wozu als
wichtige Komponente ein Verweigerungstraining gehört, in dem der argumentative
Umgang mit Verweigerungsäußerungen trainiert wird. Um die Teilnahmebereit-
schaft zu steigern, haben sich bestimmte Strategien als hilfreich erwiesen. Groves
und Gonagle (2001) heben die kombinierte Anwendung von zwei Strategietypen
160 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

hervor: die Aufrechterhaltung der Interaktion mit der Kontaktperson (maintaining


interaction) und das Maßschneidern (tailoring) des Interviewer-Verhaltens. Die
Aufrechterhaltung der Interaktion ist eine Strategie, die sich förderlich auf die Zu-
stimmung auswirken kann. Das Maßschneidern des Verhaltens betrifft die durch
eigene Beobachtung des Interviewers gesteuerte Optimierung seines Verhalten, bei
der es nicht so sehr darum geht, die Wahrscheinlichkeit eines „Ja“ zur Teilnahme zu
erhöhen, sondern die Wahrscheinlichkeit eines „Neins“ zu reduzieren. Wichtig ist
dabei vor allem, die Bitte um Teilnahme nicht vorschnell vorzutragen. Es gibt Hin-
weise darauf, dass Interviewer mit schriftlichen Verhaltensvorgaben weniger er-
folgreich sind als Interviewer ohne solche Vorgaben (vgl. Morton-Williams, 1991).
Um die genannten Strategien zu bei Interviewern zu etablieren, schlagen Groves
und McGonagle (2001) folgendes Vorgehen vor:
1) Auflistung der Bedenken der Kontaktperson in Bezug auf die Bitte um Teilnah-
me (z.B. „Ich bin zu sehr beschäftigt“);
2) Entwicklung alternativer Entgegnungen, die für diese Argumente von Bedeu-
tung sind (z.B. „Es dauert nur wenige Minuten“);
3) Schulung der Interviewer, um die Äußerungen der Kontaktperson in Kategori-
en einzuordnen wie z.B. „zu starke Belastung“;
4) Schulung der Interviewer dahingehend, eine schnelle und in der Wortwahl pas-
sende Antworten auf die Bedenken der Kontaktperson zu geben wie z.B. „Was
wäre ein besserer Zeitpunkt für Sie?“
Um dieses Verhalten bei Interviewern zu etablieren, haben die Autoren einen Trai-
nings-Workshop als Teilnahmebereitschaftsmodul mit folgenden Lernzielen vorge-
schlagen:
• Lernen der Themen, die in den Bedenken der Kontaktperson angesprochen
werden;
• Lernen, die Äußerungen der Kontaktperson in diese Themen einzuordnen (Di-
agnose-Stufe);
• Lernen wünschenswerter Verhaltensweisen, um den Bedenken zu begegnen;
• Lernen, der Person eine Menge von Sätzen zu übermitteln, die relevant für die
Bedenken der Person sind und mit der Wortwahl der Person kompatibel sind;
• Erhöhung der Geschwindigkeit der Reaktion des Interviewers.
Beispiele dafür, wie Kontaktpersonen ihre Bedenken artikulieren, lassen sich in
Fokusgruppen mit erfahrenen Interviewern sammeln. Moderatoren dieser Fokus-
gruppen sollen versuchen, die Anzahl der vorgetragenen Beispiele zu maximieren.
Hat man eine solche umfassende Aufstellung solcher Beispiele, lassen sich diese
thematisch ordnen.
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 161

In einem Experiment fanden Groves und Gonagle, dass ein Training der be-
schriebenen Art am effektivsten bei Interviewern ist, die eine geringe Performance
haben.

Schulungsstufe 2 (technische Schulung bei CATI- und CAPI-Umfragen)


Im Fall von CATI- und CAPI-Umfragen muss eine intensive technische Einwei-
sung in den Umgang mit Geräten und Software (Handhabbarkeit) sowie eine Schu-
lung in der praktischen Durchführung computerunterstützter Interviews erfolgen.
Auch hier sollten sich Probeinterviews anschließen, um den Schulungserfolg zu
evaluieren.

Schulungsstufe 3 (inhaltlich/thematische Schulung)


Die dritte Schulungsstufe betrifft die konkrete, fragespezifische Einführung in das
Erhebungsinstrument und eventuelle Besonderheiten des Interviews und der In-
terviewsituation. Auf dieser Schulungsstufe geht es auch um die Motivation der
Interviewer für die konkrete Umfrage. Daher ist es von Vorteil, dass die mit den
inhaltlichen Themen der Umfrage vertrauten Mitarbeiter des Auftraggebers auf
dieser Stufe anwesend sind und den Interviewern Ziel und Zweck der Umfrage
verdeutlichen können.

Zusätzlich (empfohlen): Verhaltensoptimierung während der Feldarbeit


Um das Verhalten von Interviewern, insbesondere bei schwierigen Umfragen, zu
verbessern, empfiehlt es sich, einen regelmäßigen Erfahrungsaustausch unter den
Interviewern einzurichten. Dabei können erfolgreiche Interviewer Ihre Strategien
den weniger erfolgreichen vermitteln und mit ihnen besprechen. Dieses kann ins-
besondere in Bezug auf die Strategien der Kontaktaufnahme hilfreich sein.
Ob und in welchem Umfang Trainingsmaßnahmen durchgeführt werden,
hängt ab von den Ansprüchen, die von einem Institut an die Umfragequalität ge-
stellt werden sowie von der Bedeutung, die der Datenqualität eingeräumt wird.
Trainingseinheiten wie die, welche von Gonagle und Groves empfohlenen Einhei-
ten erfordern fest eingestellte, hauptamtliche Interviewer. Oft sind Interviewer in
Umfrageeinrichtungen aber freiberuflich tätig mit der Folge einer mehr oder weni-
ger hohen Fluktuation.
162 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

II.7.2 Besonderheiten Selbst-administrierter Umfragen

II.7.2.1 Allgemeines

Bei Selbst-administrierten Befragungen (Mail-Befragungen, CASI-Befragungen,


internetbasierten Befragungen) hängen viele Determinanten der Datenqualität
und des totalen Umfragefehlers stärker als bei Interviewer-administrierten Um-
fragen von den Befragten selber ab, ihrer Motivation, ihrer physischen Ausstattung
(z.B. Seh- und Hörvermögen), ihrem Leseverhalten, ihrer Beeinflussbarkeit durch
die Form des Layouts.
Darüber hinaus müssen ihnen die Kompetenzen zur erfolgreichen Bewältigung
des Selbst-administrierten Interviews oft in Form von schriftlichen Anweisungen
oder sogar im Rahmen Interviewer-administrierten Schulungen vermittelt wer-
den. Um die Qualität speziell Selbst-administrierter Umfragen zu optimieren, hat
Dillmann zunächst im Rahmen der Total-Design-Methode (engl.: total design me-
thod) (vgl. Dillmann, 1978; Hippler, 1985) später des bereits mehrfach erwähnten
maßgeschneiderten Designs (engl.: tailored design) hat Dillman (vgl. Dillman, 2000;
Dillman, Smyth & Christian, 2014) eine Menge von Verfahren und Prinzipien zu-
sammengefasst, die bei selbst-administrierten Umfragen wie z.B. internetbasierten
Umfragen zu einer erhöhten Datenqualität und zur erhöhten Antwortraten führen
sollen. Wichtige Teilmenge dieser Verfahren betreffen den Entwurf von Erhebungs-
instrumenten, die Erhöhung der Teilnahmebereitschaft, die Reduktion der Anzahl
fehlender Werte, insbesondere bei heiklen Fragen, etc. Die wichtigen Eckpunkte
des Ansatzes wie Etablierung von Vertrauen, Erhöhung der Gegenleistung und der
Reduktion sozialer Kosten wurden in Abschnitt I.4.4 bereits vorgestellt.

II.7.2.2 Organisation und Ablauf von Mailumfragen

Organisation und Ablauf Selbst-administrierter Umfragen erläutern wir in zent-


ralen Aspekten am Beispiel postalischer Umfragen. Die Organisationsprinzipien
übertragen sich analog auch auf computerunterstützte Verfahren (CASI).
Eine postalische Umfrage (engl. mail survey) zeichnet sich dadurch aus, dass
den Personen der Bruttostichprobe die Befragungsunterlagen per Post zugstellt
werden, vom Befragten nach der Zustellung ausgefüllt und anschließend, in der
Regel per Post, an die Institution zurückgeschickt werden, welche die Umfrage or-
ganisatorisch betreut. Die Durchführung der Umfrage folgt im Normalfall der in
Abbildung II.11 dargestellten Ablaufstruktur. Nach einer optionalen Kontaktphase,
die in einer vorherigen Ankündigung in einem geeigneten Mode, z.B. postalisch,
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 163

telefonisch, per E-Mail, bestehen kann, erfolgt der Versand der Befragungsunter-
lagen. Nach dem Versand erfolgt eine Kontrolle des sog. Rücklaufs. Der Rücklauf
betrifft den Prozess des Eintreffens der von den Befragten zurückgeschickten Fra-
gebögen. Bei ungenügendem Rücklauf können sog. Nachfassaktionen durchgeführt
werden. Diese bestehen in Erinnerungen an das Ausfüllen des Fragebogens. Neben
einfachen Erinnerungen in verschiedenen Modes, können sie auch die Form eines
wiederholten Versands der Befragungsunterlagen bestehen. Schließlich müssen die
in den Fragebögen erhobenen Informationen mit Hilfe geeigneter Software in den
Computer eingegeben und ein analysefähiger Datensatz erstellt werden.

Abbildung II.11: Allgemeiner Ablauf einer postalischen Befragung


164 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

Porst (2001) hat die notwendigen Bestandteile eines Versands der Befragungsun-
terlagen zusammengestellt. Sie bestehen im Normalfall aus den folgenden Kompo-
nenten:

• Fragebogen;
• Kuvert für alle Unterlagen;
• Anschreiben;
• weitere Begleitmaterialien wie Referenzen, Datenschutzblatt/Beschreibung der
Maßnahmen zum Datenschutz;
• Publikationen, die über die Umfragen informieren (nicht obligatorisch);
• eventuell Informationen über Incentives (z.B. Informationen über die Teilnah-
me an einem Preisausschreiben, oder direkte Incentives wie Gutscheine, etc.).

Das Versandkuvert sollte

• einen seriösen Eindruck vermitteln und sich von den Werbematerialien, die
täglich im Briefkasten zu finden sind, unterscheiden;
• ein Logo oder Absender enthalten; die absendende Institution sollte eindeutig
identifizierbar sein;
• ein DIN-A4-Format aufweisen,
• nach Möglichkeit mit Briefmarke; ein Postwertstempel ist weniger günstig;
• bei Briefmarke, nach Möglichkeit Sonderbriefmarke:
• mit einer vollständigen und korrekten Anschrift versehen und möglichst
persönlich adressiert; falls Zielperson nicht bekannt: Name des Haushalts
mit persönlicher Anrede besser als „Familie…“ oder „An den Haushalt“.

Die Form des Anschreibens sollte beinhalten:

• einen „seriösen“ Briefkopf;


• eine in den Text integrierte Anschrift und persönliche Anrede („Liebe Frau…“
oder „Sehr geehrter Herr…“)
• Erläuterung der Untersuchungsziele und Informationen über die Institution,
die mit der Durchführung beauftragt ist;
• Zusicherung der Anonymität unter Vermeidung einer Dramatisierung;
• Name und Telefonnr. eines Ansprechpartners, Angabe der Bürozeiten, eventu-
ell Fax-Nr.;
• handgeschriebene Unterschrift(en) (kann auch eingescannt werden);
• Eine Länge von nicht mehr als einer Seite, um den Leseaufwand zu reduzieren;
• Für weitere Informationen weiteres farbiges Blatt.
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 165

Der Inhalt des Anschreibens sollte eine überzeugende Begründung der Untersu-
chung und der Umfrage enthalten, wobei Wichtigkeit und Sinnhaftigkeit einer Teil-
nahme herausgestellt werden sollten. Der Befragte sollte den Eindruck gewinnen,
dass eine Teilnahme an der Befragung für ihn selbst von Bedeutung ist. Sofern es
später auch wirklich umgesetzt werden kann, erscheint es günstig, den Versand von
Ergebnissen in Kurzform anzukündigen.
Das anzustrebende Format ist das DIN-A4-Format. Dabei sind A3-Bögen, die
man falten und in der Mitte heften kann. Nach Porst (2001) sollte Anzahl der Seiten
nicht über 16 liegen, eher darunter.
Was die Gestaltung des Anschreibens angeht, so sollten Schriftgröße und Schrift-
typ gut lesbar sein. Alle Bestandteile (Fragetexte, Antwortskalen und- vorgaben,
Hinweise) sollten in der gleichen Art und Weise gegeben werden (Standardisie-
rung). Sinnvolle und logische Anordnung der Fragen, Abfolge muss einsehbar sein.
Thematisch zusammenhängende Fragen sollten zu Blöcken zusammengefasst wer-
den.
Die im Fragebogen gestellten Fragen sollten nach Möglichkeit geschlossen
sein. Offene Fragen setzen eine angemessene sprachliche Kompetenz sowie eine
Schreibkompetenz voraus. Wird diese Voraussetzung nicht beachtet, muss mit
Nichtantwort wegen mangelnder Kompetenz gerechnet werden. Auch auf Filterfra-
gen sollten verzichtet werden. Sie stellen eine große Fehlerquelle dar und erwecken
den Anschein, als wären die dazwischenliegenden Fragen nicht so wichtig.
Während man im Fragebogen selbst ablenkende Informationen vermeiden
sollte, kann die Titelseite bzw. das Deckblatt durchaus eine „werbewirksame“ Auf-
machung haben. Die Titelseite sollte umfassen: die durchführende Institution mit
Adresse und Kontaktmöglichkeiten, eventuell Bild auf der Titelseite; auf der In-
nenseite: Hinweise zum Ausfüllen des Fragebogens (Wann darf ich nur ein Kreuz
machen, wo mehrere Kreuze, Hinweise zur angemessenen Verwendung der Skalen,
Funktion der Filtersprünge).
Am Ende des Fragebogens sollte Raum für eigene Bemerkungen zur Befragung
gelassen werden mit einem Hinweis wie (Vorschlag von Porst 2001):
„Falls Sie noch Anmerkungen zur unserer Umfrage haben, oder falls Sie uns noch
etwas mitteilen möchten, können Sie das hier tun. Nehmen Sie kein Blatt vor den
Mund!“
Schließlich bedarf auch noch das Datenschutzblatt einer gesonderten Betrach-
tung. Das Datenschutzblatt kann den Charakter einer Datenschutzerklärung bzw.
eines Datenschutzkonzepts haben. Es besteht eine Verpflichtung zur Beilage des
Datenschutzblatts, wenn mit der Auswertung der Daten zeitlich vor Vernichtung
der Deanonymisierungsmerkmale wie z.B. der Adressen begonnen wird.
166 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

Im Datenschutzblatt wird mitgeteilt,

• wie die Daten verarbeitet werden: Trennung von Adresse und Inhalt, elektroni-
sche Auswertung in anonymer Form und in Gruppen zusammengefasst;
• welche Sicherheitsvorkehrungen getroffen werden: Anonymität, keine Weiter-
gabe an Dritte
• wer für die Einhaltung der Sicherheitsmaßnahmen zuständig ist (z.B. der Insti-
tutsdirektor, der/die Datenschutzbeauftragte)
• Termin für die Löschung der personenbezogenen Informationen (Löschda-
tum).

Um die Rücklaufquote zu erhöhen, empfiehlt sich, sofern die finanziellen Mittel


dafür vorhanden sind, die Durchführung von Nachfassaktionen, die nicht notwen-
dig postalisch, sondern auch in alternativen Kommunikationsformen (telefonisch,
per E-Mail) erfolgen können. Der Anteil, um den sich die Rücklaufquote bei je-
der Nachfassaktion erhöht, lässt sich wie folgt abschätzen: Sei n die Anzahl der
verschickten Fragebögen zum ersten Zeitpunkt (erste Befragungswelle) und k die
Anzahl der von den angeschriebenen Personen zurückgeschickten, ausgefüllten
Fragebögen. Die Rücklaufquote wäre dann (in Prozent):

k
u100.
n

Diese Rücklaufquote wäre dann auch in Bezug auf die Säumigen späterer Nachfass-
aktionen zu erwarten Obige Formel lässt sich rekursiv immer wieder auf die neu
entstandenen Rücklaufquoten der Säumigen anwenden. Nach der i-ten Nachfass-
aktion wäre zum Zeitpunkt i + 1 eine Rücklaufquote von

ki
i −1
× 100.
n − ∑ l =1kl

zu erwarten, wobei ki die Anzahl der Personen, die den Fragebogen in Nachfassak-
tion i zurückgeschickt haben. n – ∑i-1
l=1kl ist der Bestand an Säumigen zum Zeitpunkt
der Nachfassaktion i.
In den Erinnerungsschreiben sollte verdeutlicht werden, dass die Nichtteilnah-
me den Wert der Ergebnisse (Aussagefähigkeit) in Frage stellt. Die Dringlichkeit
sollte für die Befragten spürbar gemacht werden. Die Anzahl der Nachfassaktionen
hängt von Zeit und Geld ab. Von weiteren Nachfassaktionen sollte abgesehen wer-
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 167

den, wenn der zu erwartende Rücklauf in keinem Verhältnis mehr zu den Kosten
steht. Voraussetzung für die Berechnung der Rücklaufquote und die Durchführung
von Nachfassaktionen sind eine vollständige Liste der Adressen und die Ausstat-
tung der Fragebögen mit einer Paginiernummer. Nur wenn die Nummern mit den
Adressen abgeglichen werden können, können Nachfassaktionen realisiert werden.
Abbildung II.12 enthält den Ablauf der Nachfassaktionen einschließlich der emp-
fohlenen Zeiträume zwischen den Aktionen.

Abbildung II.12: Ablauf von Nachfassaktionen

Der Ablauf Internet-basierter Befragungen erfolgt analog zum Ablauf postalischer


Umfragen. Der Zusendung von Fragebögen in postalischen Umfragen entspricht
der Versand von Einladungsmails mit einer Mitteilung, wo der Fragebogen zu fin-
den ist, z.B. über einen Link zu einer Website sowie einen Zugangscode (engl.: access
code). Einladungsmails werden bei Feldstart versendet. Ihnen gehen selbstverständ-
lich Rekrutierung und Kontaktaufnahme voraus, die auch in einem alternativen
Mode, d.h. nicht per Mail, erfolgen kann. Den Nachfassaktionen bei postalischen
Umfragen entsprechen bei Internet-basierten Umfragen die Erinnerungsmails.
Allerdings ist der organisatorische Aufwand bei Versand, Rücklaufkontrolle und
Nachfassaktionen nun erheblich reduziert ist. Auch die Kosten sind auf Grund des
Wegfalls von Druck- und Versandkosten, der Dateneingabe und der Reduktion des
erforderlichen Personals unvergleichlich geringer. Die Rücklaufkontrolle und der
Versand von Erinnerungsmails werden in der Regel von der Online-Software ge-
168 II.8 Zusammenfassung

steuert. Auch die Kommunikationsform bei Erinnerungen muss nicht notwendig


ausschließlich online erfolgen. Zusätzlich können z.B. Interviewer-administrierte
Erinnerungen wie telefonische Erinnerungen erfolgen.

II.8 Zusammenfassung

Eine Umfrage ohne Kommunikationsform gibt es nicht. Die Durchführung einer


Umfrage ist stets mit einer Entscheidung für einen bestimmten Mode verbunden,
wobei diese Entscheidung durch methodische Überlegungen zur Zielgruppe, zu
den möglichen Formen der Stichprobenrekrutierung, zu den Frageinhalten und zu
möglichen Modeeffekten begleitet sein sollte. In einer Single-Mode-Umfrage lassen
sich Modeeffekte weder kontrollieren noch in ihrem Ausmaß bestimmen. Dies
kann nur im Rahmen bestimmter Umfragedesigns, die Modevergleiche erlauben,
geschehen. Jede Kommunikationsform stellt besondere Ansprüche an die Kompe-
tenzen und die physische Ausstattung der Befragten, die bei der Entscheidung für
die eine oder andere Form berücksichtigt werden müssen. Bei jeder Kommunikati-
onsform muss mit Mess- und Selektionseffekten gerechnet werden. Die sollten
durch geeignete Maßnahmen minimiert oder kontrolliert werden.
Durch die Erweiterung der zur Verfügung stehenden, vor allem mobilen Gerä-
te hat sich der Anwendungsbereich verschiedener Kommunikationsformen stark
erweitert. So hat sich insbesondere durch das mobile Internet grundsätzlich die
Möglichkeit eröffnet, dass Befragten an einen Fragebogen an jedem Aufenthaltsort
den Fragebogen ausfüllen können. Allerdings sind auf Grund des erweiterten Ge-
rätespektrums technische Probleme wahrscheinlicher und Prüfungen der Hand-
habbarkeit dringlicher geworden.
Kommunikationsformen beeinflussen aber nicht nur die Datenqualität, son-
dern auch die gesamte Umfrageorganisation und damit auch die Struktur von
Feldinstituten. Die fachliche Zusammensetzung der Operatoren-Teams, welche
die Planung und die Durchführung von Umfragen betreuen, wird durch die Kom-
munikationsformen wesentlich mitbestimmt. Institute, die sich ausschließlich auf
Online-Umfragen spezialisiert haben, haben eine andere Organisationsstruktur als
Institute, die sich auf Face-to-Face-Umfragen spezialisiert haben. Bei institutionel-
len Mischformen sind mehrere Teams zur Betreuung der unterschiedlichen Kom-
munikationsformen notwendig.
Teil III: Fragen und Antworten

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 169
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_3
III.1 Fragen und ihre Bestandteile

III.1.1 Der Aufbau von Fragen

Fragen sind nicht nur wichtige Bestandteile der Alltagskommunikation, sondern


stellen zentrale Instrumente des Umfrageforschers im standardisierten Interview
dar. In der Definition einer Frage folgen wir den Ausführungen von Faulbaum,
Prüfer und Rexroth (2009). Die Autoren summieren unter dem Begriff der Frage
alle sprachlichen Ausdrücke, die der Beschaffung von Informationen (Auskünfte,
Selbstauskünfte) mit Hilfe der sprachlichen Kommunikation dienen. Dazu gehören
nicht nur Fragen im engeren Sinne wie „In welchem Jahr sind Sie geboren?“, son-
dern auch Aufforderungen wie „Sagen Sie mir bitte, in welchem Jahr Sie geboren
sind“ oder Wünsche wie „Ich hätte nun gerne von Ihnen gewusst, in welchem Jahr
Sie geboren sind“. Alle angeführten Ausdrücke dienen dem gleichen Ziel, nämlich
der Beschaffung der Information über das Geburtsjahr. Grundsätzlich können sich
Fragen auf alle Aspekte vergangener, gegenwärtiger und zukünftiger innerer und
äußerer Realität des Befragten beziehen. Sehr oft wird eine Frage ausschließlich
mit einer konkreten Äußerung identifiziert. Dass eine Frage mehr ist als nur eine
bestimmte sprachliche Äußerung wird sofort deutlich, wenn man sich die unter-
schiedlichen Äußerungsformen verdeutlicht, welche unter der gleichen Frage sub-
summiert werden können.
Unter dem Aspekt, dass mit Hilfe einer Frage schließlich numerisch codier-
te Antworten erzeugt werden können, kann eine Frage auch als Messinstrument
aufgefasst werden, durch dessen Anwendung in Interaktion mit den Befragten eine
Antwort und nach der Regel-gesteuerten Zuordnung (Codierung) von Zahlen eine
Messung erzeugt wird (vgl. Teil IV). Wir vertreten also die Auffassung, dass eine
Messung an numerische Zuordnungen geknüpft ist. Alternativ können wir auch
die Auffassung vertreten, dass bereits die verbalen Äußerungen selbst ohne nume-
rische Abbildung Messungen darstellen. Insofern Antworten auf Fragen zugleich
Daten über Befragte darstellen, handelt es sich bei Fragen auch um Instrumente zur
Erhebung von Daten. Fragen sind gewöhnlich Bestandteile eines umfassenderen Er-
hebungsinstruments, das generalisierend auch als Fragebogen bezeichnet wird und
zur Steuerung bzw. Navigation des standardisierten Interviews eingesetzt wird. Da-
rüber hinaus gibt es aber eine ganze Reihe anderer Aspekte von Fragen, die jeweils
unterschiedliche Merkmale thematisieren. So handelt es sich etwa aus linguistischer
Sicht bei einer Frage um eine Sprechhandlung. Eine Sprechhandlung ist nicht not-
wendig an eine bestimmte sprachliche Ausdrucksform gebunden. So kann etwa
die Frage „Ist es nicht kalt hier? in einem bestimmten Kontext eine Aufforderung
172 III.1 Fragen und ihre Bestandteile

bedeuten, das Fenster zu schließen; d.h. eine Frage wird in diesem Fall als eine
Aufforderungshandlung verstanden. Sie wurde vollzogen durch eine Frage, die mit
einem bestimmten Ziel in einer bestimmten Situation verbunden war. Ebenso kann
mit einer Aufforderung oder einer Bitte die Sprechhandlung einer Frage vollzogen
werden. Einige Autoren ziehen es vor, statt von Fragen (engl.: questions) eher von
Aufforderungen bzw. Bitten um Antworten (engl.: requests) zu sprechen (vgl. z.B.
Saris & Gallhofer, 2014).
Im Fall eines persönlich-mündlichen Interviews wird diese Handlung im Rah-
men einer nach eindeutig festgelegten Regeln verlaufenden Konversation vollzo-
gen. Nach Austin (1962) besteht ein wesentliches Merkmal einer Sprechhandlung
darin, dass eine gewisse Kraft auf den Hörer ausgeübt wird. Er spricht in diesem
Zusammenhang von einer illokutionären Kraft. Mit der Sprechhandlung wird ein
illokutionärer Akt mit bestimmten konventionellen Wirkungen vollzogen wie etwa
die Erzeugung einer Antwort auf eine Frage. Daneben kann es auch nicht-konven-
tionelle Wirkungen geben wie z.B. demütigen, erschrecken, provozieren. Austin
spricht in diesem Zusammenhang von perlokutionären Akten. Wirkungen dieser
Art stellen in einem Interview in der Regel vom Forscher nicht intendierte Ne-
beneffekte dar, die es zu kontrollieren oder sogar zu vermeiden gilt.
Von der Frage als einer Handlung des Forschers/Administrators ist die konkrete
Ausführung der Handlung zu unterscheiden, die in der Übertragung der zur Erzeu-
gung einer Antwort durch den Befragten notwendigen Informationen (Nachricht)
über einen bestimmten Kommunikationskanal besteht. Diese Übertragung kann
z.B. durch das Verhalten von Interviewern (Sprechverhalten) auf akustischem Weg
übertragen werden, oder auf über den visuellen Kanal durch Präsentation auf einem
Bildschirm. In diesem Sinn sind Fragen immer mit bestimmten Befragungsarten
(Modes) verbunden (vgl. Teil II). Die an den Befragten übertragenen Informatio-
nen, die Realisationen von sprachlichen Ausdrücken auf einem Nachrichtenträger
darstellen, müssen mit den Konventionen des Sprachsystems vereinbar sein, d.h. sie
müssen den syntaktischen und semantischen Konventionen genügen. Dazu gehört
nicht nur die grammatikalische Korrektheit, sondern auch die logische Korrektheit
in dem Sinne, dass logisch-falsche Aussagen bzw. Widersprüche vermieden werden.
Auch logisch-wahre Aussagen (Tautologien) sollten nach Möglichkeit aus den über-
mittelten Informationen verbannt werden, da sie keinen Informationsgehalt besitzen.
Eine Frage bzw. Aufforderung erfordert vom Befragten stets die Lösung einer Auf-
gabe wie z.B. das Erinnern eines Ereignisses und damit die Erbringung einer Leistung.
Die Frage ist dann vollständig, wenn sie alle zur Lösung der Aufgabe notwendigen In-
formationen enthält. Dazu gehört auch die Beschreibung der Art und Weise, in welcher
Form der Befragte antworten soll, welche Antwortkategorien er verwenden soll, welche
Vorlagen, z.B. graphische Vorlagen, er zur Mitteilung seiner Antwort verwenden soll.
III.1 Fragen und ihre Bestandteile 173

Es empfiehlt sich, die auf die Antworten bezogenen Informationen von den übrigen
Informationen, die sich auf den Gegenstand der Aufgabe beziehen, zu trennen, so dass
sich die in Abbildung III.1 dargestellte grobe Struktur einer Frage ergibt.

Abbildung III.1: Grobstruktur einer Frage

Rechnet man zu den Bausteinen eines Fragebogens nicht nur die Fragen, sondern
auch mögliche Anweisungen zu den konkreten Ausführungsformen an die Inter-
viewer (z.B. „Bitte langsam vorlesen“); Sprung- bzw. Navigationsanweisungen: (z.B.
„bei Antwort „ja“ bitte zu Frage Y übergehen“) oder – bei Selbst-administrierten
Interviews – an die Befragten selbst (z.B. „Lesen Sie die Frage genau durch“), so bie-
tet sich zur Bezeichnung dieser umfassenden Beschreibung eines Fragebogen-Bau-
steins die Bezeichnung „Survey-Item“ an, den einige Autoren verwenden (vgl.
Andrews, 1984; Saris & Gallhofer, 2014, p. 32 und pp. 60; Schnell, 2012). Anwei-
sungen an die Interviewer werden auch als Interviewer-Instruktionen bezeichnet.
Im Fall von programmierten Fragebögen werden Instruktionen an die Interviewer
durch Instruktionen an den Interpreter des Software-Programms ersetzt. Fragen,
die Sprunganweisungen beinhalten, werden oft als Filterfragen bezeichnet.
Wie bereits erwähnt, kann die Aufgabenbeschreibung einer Anforderung weite-
re Elemente enthalten. Dazu gehören:
Szenarios oder Situationsbeschreibungen, auf die sich die Antworten des Befragten
beziehen sollen. Ein Beispiel sind standardisierte Situations- oder Personenbe-
schreibungen, die auch als Vignetten bezeichnet werden und in faktoriellen Surveys
verwendet werden;
174 III.1 Fragen und ihre Bestandteile

Orientierende Ausdrücke wie „Wenn Sie einmal an… denken“. Sie dienen zur kognitiven
und emotionalen Orientierung sowie zur Einstimmung des Befragten und sollen einen
bestimmten kognitiven und/oder emotionalen Zustand im Befragten erzeugen;
Ausdrücke, welche über eventuelle Hilfmittel zur Beantwortung (Befragungshilfen)
informieren wie, „Hier habe ich einige Kärtchen, auf denen Sätze stehen. Bitte….“
oder: „Ich lege Ihnen jetzt eine Liste vor, auf der verschiedene Berufe stehen. Bitte
sagen Sie mir…“. Davon wird vor allem bei Face-to-Face-Interviews ohne Compu-
terunterstützung Gebrauch gemacht.
Definitionen, Erläuterungen und Klärungen durch den Interviewer (bei
Interviewer-administrierten Interviews), in denen die Bedeutung von im Fragetext
verwendeten sprachlichen Ausdrücken präzisiert wird,
Bilder, Videos:
Bei Selbst-administrierten Interviews, insbesondere bei Webinterviews besteht die
Möglichkeit, in die Fragen visuelle Informationen in Form von Bildern oder Videos
einzubetten (vgl. Couper, Tourangeau & Kenyon, 2004; Peytchev & Hill, 2010).
Im Fall des Dependent Interviewing (DI; vgl. Jäckle, 2008, 2009; Lynn et al., 2006,
2012; Mathiowetz & McGonagle, 2000): Bitten an den Befragten sich an Antwor-
ten, die er an früherer Stelle des Interviews oder früher in einem anderen Interview
gegeben hat, zu erinnern, um die Validität der Antworten z.B. durch Vermeidung
von Fehlklassifikationen, insbesondere in Panelerhebungen (z.B. Erinnern an Be-
rufsangaben) in vorangegangenen Wellen) zu erhöhen.
Saris und Gallhofer (2014, pp. 115) fassen die Funktionen möglicher Bestand-
teile von Survey-Items wie folgt zusammen:
• Einführung;
• Motivation;
• Inhaltsinformation;
• Information bezüglich einer Definition;
• Instruktion des Befragten;
• Interviewer-Instruktion;
• Anforderung zur Antwort (engl.: requests);
• Antworten: Kategorien und Antwortskalen.
Einige dieser Elemente sind optional und werden nicht in jeder Administrations-
form benötigt. So sind etwa Instruktionen der Interviewer nur bei Interviewer-ad-
ministrierten Interviews notwendig. Die Anforderungen werden von den Autoren
nach ihrer linguistischen Struktur weiter subklassifiziert.
III.1 Fragen und ihre Bestandteile 175

Von der Frage als Handlung muss der aus sprachlichen Ausdrücken bestehen-
de Fragetext unterschieden werden. Er beinhaltet die an den Befragten über einen
Übertragungskanal übermittelte, strukturierte Nachricht im Sinne konkreter Fra-
geformulierungen (engl. question wording).

III.1.2 Items

In der Aufgabenbeschreibung einer Frage werden oft Leistungen des Befragten


verlangt, die sich auf die Bewertung oder Klassifikation von Aussagen beziehen.
Wir wollen für diese Aussagen den Begriff „Item“ verwenden, der vom Begriff des
Survey-Items strikt zu trennen ist. Unter dem Begriff des Items, der nicht selten
in der Bedeutung der kleinsten Einheit eines Fragebogens verwendet wird, wollen
wir sprachliche Formulierungen/Beschreibungen von Eigenschaften, Situationen,
Verhaltensweisen, Sachverhalten, etc. verstehen, die als Teil der in der Frage formu-
lierten Aufgabe auf einer Antwortdimension bewertet werden sollen. Die zu bewer-
tenden Aussagen sind entweder vollständig oder in abgekürzter Form wiedergege-
ben. Ein Beispiel für eine abgekürzte Form ist etwa dann gegeben wenn statt „Ich
halte Pflichtbewusstsein für wünschenswert“ nur „Pflichtbewusstsein“ steht, wäh-
rend die Antwortdimension „wünschenswert“ im Fragetext erscheint (z.B. Für wie
wünschenswert halten Sie…). Ein Beispiel für die Aufgabe einer Itembewertung ist
in Abbildung III.2 zu sehen. In diesem Fall nimmt die Frage Bezug auf insgesamt
sechs Items, die auf einer Antwortskala (vgl. Abschnitt III.1.4) eingestuft werden
sollen. In diesem Sinne wird der Begriff traditionell in der psychometrischen Lite-
ratur verwendet (vgl. z.B. Guilford, 1954).
176 III.1 Fragen und ihre Bestandteile

Abbildung III.2: Beispiele für Items

Items zum gleichen Thema und gleichen Bewertungsdimensionen lassen sich in


Itemlisten bzw. Itembatterien zusammenfassen. Die inhaltlichen Dimensionen
solcher Itembatterien lassen sich mit Hilfe von Techniken der explorativen Fak-
torenanalyse identifizieren (vgl. zur explorativen Faktorenanalyse Abschnitt IV).
Abbildung III.3 enthält das bekannte Beispiel einer Liste der sog, Berufswerte bzw.
beruflichen Orientierungen.

Abbildung III.3: Itembatterie der Berufswerte


III.1 Fragen und ihre Bestandteile 177

Itembatterien werden oft gezielt entwickelt, um ein oder mehrere Konstrukte wie
Rechtsextremismus, Einstellung zu in Deutschland lebenden Ausländern, Politik-
verdrossenheit, etc. zu messen. Einzelitems haben die Bedeutung von Indikato-
ren für die zu messenden Konstrukte. Ein bekanntes Beispiel ist die Messung der
als „Big Five“ bezeichneten Persönlichkeitsfaktoren (vgl. John, Naumann & Soto,
2008), für die es eine Kurzfrom gibt, die in Bevölkerungsumfragen zur Bestim-
mung der menschlichen Ressourcen eingesetzt werden kann (vgl. z.B. Rammstedt,
2004; Rammstedt & John; 2007).

Zu den Skalenbeispielen von Bedeutung für die Methodik der Umfrageforschung


gehören Skalen zur Erfassung der sozialen Erwünschtheit wie die MC-SDS-Skala
von Marlowe und Crowne (Crowne & Marlowe, 1964) oder die Edwards SDS-Ska-
la (Edwards, 1957).
Itemlisten können aber auch einfach dazu dienen, unter einem inhaltlichen
Dach zusammengefasste Informationen wie z.B. gesundheitliche Beschwerden zu
erheben. Dazu gibt es zahlreiche Beispiele in der Psychologie und der Medizin. Ein
einfaches Beispiel zur Erhebung von Beschwerden ist die folgende Frage des Bun-
desgesundheitssurveys 1998:
Wie stark leiden Sie unter den folgenden Beschwerden?:
Kloßgefühl, enge oder Würgen im Hals
Kurzatmigkeit
Schwächegefühl
Schluckbeschwerden
178 III.1 Fragen und ihre Bestandteile

Stiche, Schmerzen oder Ziehen in der Brust


(Antwortkategorien: stark, mäßig, kaum, gar nicht)
Aus den Bewertungen der Einzelitems lassen sich nach bestimmten Regeln (z.B.
durch Summation der Einzelwerte) Gesamtscores bilden, die Bewertungen auf ei-
nem quantativ abgestuften Konstrukt bzw. einer latenten theoretischen Variablen
darstellen. Insofern eine Itembatterie konzipiert wurde, um bestimmte theoretische
Variablen zu messen, handelt es sich um eine Skala (zum psychometrischen Begriff
der Skala vgl. Abschnitt IV.).

III.1.3 Grundlegende Typen von Fragen

Fragen lassen sich nach unterschiedlichen Gesichtspunkten kategorisieren. Ein


weit verbreitetes Einteilungsprinzip stellt die Einteilung nach Antwortformaten
dar. Antwortformate sind standardisierte, mündlich oder schriftlich vorgetragene
Vorgaben, welche die Form festlegen, in der die Befragten ihre Antworten kom-
munizieren sollen.
Je nach Antwortformat lassen sich Fragen grob einteilen in:

• Geschlossene Fragen (engl: closed-ended questions):


Alle Antwortmöglichkeiten sind durch Antwortvorgaben abgedeckt.
Anwendungsvoraussetzung: Universum der Antwortalternativen ist bekannt.
• Offene Fragen (engl.: open-ended questions):
Fragen ohne Antwortvorgaben.
• Hybridfragen (auch: halboffene Fragen):
Feste Antwortvorgaben mit der Möglichkeit, zusätzliche, in den Antwortkategori-
en nicht vorgesehene Antworten zu geben (Beispiel: Sonstiges, und zwar…).
Anwendungsvoraussetzung: Universum der Antwortalternativen ist nicht voll-
ständig bekannt.

Andere Einteilungsprinzipien von Fragen basieren auf dem Inhalt der Frage bzw.
auf der Art der in der Frage gewünschten Information. Sehr populät ist eine Eintei-
lung nach folgenden Frageinhalten:
III.1 Fragen und ihre Bestandteile 179

• Faktfragen (engl.: factual questions):


Fragen nach gegenwärtigen oder vergangenen Fakten, wobei sich diese Fakten
auf Ereignisse oder das Verhalten des Befragten beziehen können (vgl. Touran-
geau, Rips & Rasinski 2000).
Beispiel:
Haben Sie im letzten Monat persönlich einen Arzt aufgesucht? (Ja/Nein)
Beziehen sich Faktfragen auf das Verhalten des Befragten, wird gelegentlich
von Verhaltensfragen gesprochen.
• Wissensfragen (knowledge questions):
Wissensfragen beziehen sich auf Kenntnisse des Befragten, z.B. die Bekanntheit
einer Produktmarke, einer Institution, einer Person, etwa eines Politikers.
• Einstellungs- und Meinungsfragen:
Fragen, die von den Befragten Beurteilungen bzw. Bewertungen von bestimm-
ten Aussagen (Items) auf verschiedenen Antwortdimensionen erheben sollen.
Beispiel (Einstellung zum Beruf): Für wie wichtig halten Sie die folgenden Merk-
male für Ihren Beruf und ihre berufliche Arbeit? (sehr wichtig/eher wichtig/
eher unwichtig/sehr unwichtig)
• Überzeugungsfragen:
Fragen nach Überzeugungen, Einschätzungen gegenwärtiger, vergangener oder
vermuteter zukünftiger Ereignisse und Zustände.
Beispiel: Was glauben Sie: Gewinnt Politiker X die bevorstehende Bundestags-
wahl? (Ja/Nein)

Einteilungen dieser Art sind nicht unproblematisch, weil eine Typentrennung nicht
immer ohne Willkür möglich ist. So würde eine Faktfrage nach einem vergangenen
Ereignis unter der Bedingung, dass der Befragte meint, ein Ereignis hätte stattge-
funden, obwohl es niemals stattgefunden hat, eher einer Frage nach einer Überzeu-
gung entsprechen. Der Befragte ist in diesem Fall mehr oder weniger stark davon
überzeugt, dass das Ereignis stattgefunden hat. Auch erfordern Faktfragen oft die
Durchführung kognitiver Operationen wie z.B. Summenbildung wie z.B. bei Fra-
gen nach der Anzahl der Stunden, die ein Befragter in seiner beruflichen Funktion
wöchentlich tätig ist. Es erscheint daher sinnvoller, die vom Befragten geforderten
kognitiven Leistungen in die Kategorisierung der Fragetypen einzubeziehen. So
erörtern Tourangeau, Rips & Rasinski (2000) Faktfragen im Zusammenhang mit
verschiedenen Arten der Urteilsbildung. Die Autoren unterscheiden dabei folgen-
de Arten von Urteilsprozessen, die bei der Beantwortung von Faktfragen eine Rolle
spielen:
• Urteile bezüglich der Vollständigkeit oder Genauigkeit des Gedächtnisabrufs;
• auf dem Gedächtnisabruf basierende Schlussfolgerungen;
180 III.1 Fragen und ihre Bestandteile

• Schlussfolgerungen, welche die Erinnerungslücken füllen;


• Integration der Ergebnisse des Gedächtnisabrufs in ein Gesamturteil;
• Schätzungen, welche die Auslassungen im Gedächtnisabruf adjustieren.
Es ist also bei Faktfragen keinesfalls vom Modell eines einfachen, zuverlässigen Ge-
dächtnisabrufs auszugehen.
Ein weiteres Einteilungsprinzip auf Basis der linguistischen Struktur und der
Formulierung von Fragen haben Saris und Gallhofer vorgeschlagen (vgl. Saris &
Gallhofer, 2014).

III.1.4 Antwortformate und Antwortskalen

Mit einer Frage sind in standardisierten Interviews stets auch bestimmte Antwort-
vorgaben verbunden, in welche die Befragten die von ihnen gewünschten Infor-
mationen einpassen müssen. Im Grenzfall kann eine Frage in einem freien Format
auch offen gestellt werden. Grundsätzlich erfordern bestimmte Fragen konventi-
onell, d.h. nach den in der Gesellschaft gelernten Konversationsregeln spezifische
Arten von Antworten. Einige Fragen können z.B. angemessen nur mit „Ja“ oder
„Nein“ beantwortet werden. Es ist wichtig, dass bei der Konstruktion von Frage-
texten und Antwortkategorien die Sprachkonventionen im Hinblick auf das Ver-
hältnis von Frage und Antwort beachtet werden. Bei geschlossenen Fragen wer-
den den Befragten verschiedene Antwortalternativen (auch: Antwortkategorien,
Antwortvorgaben; engl.: response alternatives) präsentiert, die manchmal eher den
Anforderungen des Forschers an die Qualität der Messung als den Konventionen
der Alltagskommunikation folgen. Stellen Antwortalternativen Abstufungen auf
einer gemeinsamen Dimension bzw. Merkmals wie z.B. „Zufriedenheit“ dar, so
spricht man auch von einer Antwortskala (engl.: response scale). Durch Zuordnung
von Zahlen zu den Antwortkategorien nach bestimmten Regeln entstehen aus den
Merkmalen mit ihren Ausprägungen numerische Variablen mit ihren Werten, die
dann als Messungen einer statistischen Analyse unterzogen werden können. Oft
werden von den Befragten auch direkte numerische Angaben verlangt, so dass sich
eine numerische Codierung erübrigt.
Vom Begriff der Anwortskala ist der messtheoretische Begriff der Skala zu un-
terscheiden (vgl. z.B. Orth, 1976; Suppes & Zinnes, 1963; vgl. Abschnitt IV). Ob
Antworten auf einer Antwortskala eine Skala im messtheoretischen Sinn bilden,
kann nur auf Basis messtheoretischer Analysen entschieden werden.
III.1 Fragen und ihre Bestandteile 181

Antwortskalen, auf denen Urteile abgestuft werden können, heißen auch Ra-
ting-Skalen (engl.: rating scales). In den meisten Fällen handelt es sich um Ab-
stufungen in Form diskreter Kategorien. In diesem Fall spricht man auch von
Kategorialskalen (engl.: category scales). Kategorialen Einstufungen können kon-
tinuierliche latente Bewertungen des Befragten auf einer Dimension zugrunde lie-
gen, die der Befragte in kategoriale Formate übertragen bzw. einfügen muss. In
diesem Fall übersetzt der Befragte seine subjektive Bewertung auf einer latenten
Antwortskala in beobachtbare diskrete Kategorien (zu den Details vgl. Abschnitt
III.1.5). Im Grenzfall kann eine Antwortskala auch dichotom sein wie etwa eine
„Ja/Nein“-Skala.
Werden die Abstufungen auf einer Antwortskala numerisch dargestellt bzw.
benannt und nur die Endpunkte verbalisiert, so spricht man auch von einer nume-
rischen Skala (engl.: numerival scale) Sind alle Abstufungen verbalisiert, so heißt
die Skala Verbalskala oder verbalisierte Skala (engl.: verbal scale). Beispiele für Ant-
wortdimensionen, auf denen Urteile abgestuft werden können, sind:

• Grad der Zustimmung (Zustimmungsskalen)


• Wichtigkeit (Wichtigkeitsskalen)
• Zufriedenheit (Zufriedenheitsskalen)
• Häufigkeit (Häufigkeitsskalen)
• Intensität (Intensitätsskalen; Grad der Stärke)
• Ausmaß, in dem eine Aussage auf einen Sachverhalt zutrifft („Trifft zu“-Skalen)
• Wahrscheinlichkeit (Wahrscheinlichkeitsskalen)
• Sympathie (Sympathieskalen)
• Interesse (Interessenskalen)

Antwortdimensionen stellen quantitativ oder qualitativ abstufbare Urteile und Be-


wertungen in Bezug auf Eigenschaften der zu beurteilenden Gegenstände wie z.B.
„wichtig“, „zufrieden“, etc. oder abstufbare Arten des eigenen Urteilsverhaltens (z.B.
Zustimmungsverhalten, Bewertungsverhalten, Schätzverhalten) dar. Eigenschaften
werden dabei durch Adjektive oder Adverbien bezeichnet, das Urteilverhalten dage-
gen durch Verhaltensbezeichnungen (z.B. „zustimmen“). Die Abstufungen erfolgen
durch Adverbien oder linguistische Partikel wie „sehr“, „kaum“, etc. Sie werden auch
als adverbiale Modifikatoren (adverbial modifiers, intensifiers, qualifiers) bezeichnet.
Im Fall quantitativer Graduierungen wurde zwischen den unmodifizierten Adjekti-
ven und den durch Modifikatoren modifizierten Adjektiven gelegentlich ein linearer
Zusammenhang empirisch nachgewiesen (Cliffsches Gesetz; vgl. Cliff 1959; Kristoff
1966). Bei der Einführung adverbialer Modifikatoren sollte stets bedacht werden,
dass diese ebenfalls Träger von Bedeutungen sind, die prinzipiell bei unterschiedli-
182 III.1 Fragen und ihre Bestandteile

chen soziokulturellen Teilgruppen der Stichproben zu einem unterschiedlichen Ver-


ständnis führen können (vgl. Kristoff, op. cit.; Wegener, Faulbaum & Maag 1982).
Abbildung III.4 zeigt den Aufbau einer 7stufigen numerischen Antwortskala mit Bei-
spielen verschiedener Antwortdimensionen, bei der nur die Endpunke benannt sind
und die adverbialen Modifikatoren die jeweils extremen Bewertungen kennzeichnen.
Die gezogene Linie dient wie auch in den übrigen Abbildungen nur der graphischen
Illustration. Die Antwortkategorien können selbstverständlich auch in anderen For-
maten, z.B. in Form einer Liste, dargeboten werden.
Numerische Antwortskalen können graphisch unterstützt werden, etwa
durch unterteilte Linien oder durch Leitern. Diese können den Respondenten in
Face-to-Face-Interviews als Befragungshilfen visuell vorgelegt werden. Im Fal-
le unterteilter Linien spricht man gelegentlich auch von graphischen Skalen (vgl.
Guilford, 1954, p. 265).

Abbildung III.4: Aufbau einer 7-stufigen unipolaren numerischen Antwortskala

Bei mündlichem Vortrag wie z.B. in Telefoninterviews werden den Befragten ent-
sprechende Instruktionen gegeben wie etwa in folgendem Beispiel einer Zustim-
mungsskala:
„Ich nenne Ihnen nun einige Aussagen, den man mehr oder weniger stark zustimmen
kann. Bitte sagen Sie mir auf einer Skala von 1 bis 5, wie stark Sie den Aussagen zu-
stimmen. 1 bedeutet „stimmte überhaupt nicht zu“ und 5 bedeutet „stimme voll und
ganz zu“. Mit den Zahlen dazwischen können Sie Ihr Urteil abstufen.“
III.1 Fragen und ihre Bestandteile 183

Ein bekanntes Beispiel für eine Verbalskala stellt jener Typ einer 5stufigen Ant-
wortskala dar, die von Likert (1932) in seiner Methode der summierten Ratings ver-
wendet wurde (vgl. Abbildung III.5).

Abbildung III.5: Antwortskala vom Likert-Typ

Gelegentlich wird auch eine Antwortskala, welche die „Trifft-zu“-Dimension ver-


wendet, als Likert-Skala bezeichnet (vgl. Bortz & Döring, 2006). Prinzipiell lassen
sich Verbalisierungen auch bei mehr als fünf Abstufungen vornehmen. Abbildung
III.6 zeigt eine 7-stufige Verbalskala, deren Benennungen (labels) nach einer Un-
tersuchung von Rohrmann (1978) als gleichabständig angesehen werden konnten
(vgl. Faulbaum, 1984).

Abbildung III.6: Beispiel für eine 7-stufige Verbalskala

Auch zur Präsentation von Verbalskalen werden in Face-to-Face-Interviews in der


Regel Befragungshilfen verwendet, bei denen die verbalen Abstufungen noch ein-
mal aufgeführt sind. In Telefoninterviews wird man eine solche Skala nicht ver-
wenden, da die Befragten die Abstufungen im Kurzzeitgedächtnis speichern müs-
sen und mit Recency-Effekten zu rechnen ist. Eine getrennte Abfrage der einzelnen
Abstufungen ist nicht sinnvoll. Bei Selbst-administrierten Interviews kann zum
besseren Verständnis der Skala eine graphische Unterstützung erfolgen. Obwohl
eher nicht zu empfehlen, ist es prinzipiell auch möglich, die Verbalisierungen le-
diglich in einer Liste von Alternativen aufzuführen und die zutreffende Alternative
ankreuzen zu lassen wie z.B.
184 III.1 Fragen und ihre Bestandteile

☐ überhaupt nicht wichtig


☐ wenig wichtig
☐ etwas wichtig
☐ eingermaßen wichtig
☐ ziemlich wichtig
☐ überwiegend wichtig
☐ sehr wichtig
Unter messtheoretischen Gesichtspunkten entsteht eine Skala aus Antwortvorga-
ben erst dann, wenn den Vorgaben numerische Werte zugeordnet worden sind.
Antwortvorgaben wie „immer“, „oft“, „manchmal“, „selten“, „nie“, die den Befrag-
ten ohne numerische Werte präsentiert werden, werden zu einer Skala im messthe-
oretischen Sinn als numerische Repräsentation also erst, nachdem der Forscher
oder der Befragte selbst den Kategorien Zahlen zugeordnet hat. Bei Schätzungen
und Berechnungen haben die Befragten oft zwar konkrete Zahlen wie Anzahl der
Arztbesuche im Kopf, müssen diese aber in bestimmte Antwortformate übertra-
gen. Dabei kann es dann zu Informationsverlusten kommen: Der Befragte hat etwa
eine Schätzung auf einer kontinuierlichen Skala im Kopf und der Forscher transfor-
miert diesen Wert durch die Art seiner Antwortvorgaben in einen Wert auf einer
Ordinalskala.
Skalen können unipolar oder bipolar sein. Ein Beispiel für eine bipolare 7-stufi-
ge numerische Skala ist in Abbildung III.7 wiedergegeben:

Abbildung III.7: Beispiel für eine bipolare numerische Skala

Auch bei einer bipolaren Skala können die Abstufungen benannt sein wie z.B bei
einer 5-stufigen Wichtigkeitsskala mit den Abstufungen „sehr wichtig“, „eher wich-
tig“, „eher unwichtig“, „sehr unwichtig“.
Statt in irgendeiner Weise Abstufungen zu benennen, können letztere auch rein
visuell, z.B. durch Grautöne signalisiert werden (vgl. Abbildung III.8).
III.1 Fragen und ihre Bestandteile 185

Abbildung III.8: Abstufungen einer Antwortskala durch Grautöne

Natürlich könnten auch hier wieder zusätzlich Benennungen, entweder nur an den
Endpunkten oder bei jedem Grauton eingeführt werden. Statt Grautönen wären
prinzipiell auch Farbtöne als Abstufungen einsetzbar. Das Problem bei der Einfüh-
rung solcher Typen von Visualisierungen ist, dass ein eigenständiger Effekt auf das
Antwortverhalten wegen möglicher Farbbevorzugungen nicht ausgeschlossen wer-
den kann. Auch bei unterschiedlich starker Grautönung besteht die Gefahr, dass
Befragte dunkle Abschnitte meiden.
Vielfache Anwendungen, insbesondere bei Imageerhebungen, Erhebungen
von Stereotypen, Erhebungen von Anmutungsqualitäten sowie von konnotativen
Bedeutungen finden Skalen, in denen die Skalenendpunkte durch gegensätzliche
Adjektive gekennzeichnet sind, wobei die Urteile auf einer mehrstufigen Ska-
la abgestuft werden. Eine Zusammenstellung solcher Gegensatzpaare wird auch
als semantisches Differential oder Polaritätsprofil bezeichnet (vgl. Osgood, Suci &
Tannenbaum, 1957; Hofstätter & Lübbert, 1958). Abbildung III.9 enthält den Aus-
schnitt eines Beispiels von Hofstätter (1963, S. 259).

Abbildung III.9: Ausschnitt eines Beispiels für ein Polaritätsprofil

Antwortskalen beziehen sich immer auf Items, in denen Fakten, Überzeugungen,


Meinungen und Einstellungen sowie Verhaltensweisen beschrieben werden. Im
Rahmen einer Frage wie z.B. „Für wie wichtig halten Sie…“ bzw. einer Bitte wie z.B.
186 III.1 Fragen und ihre Bestandteile

„Bitte sagen Sie mir, wie stark Sie der Aussage zustimmen“, werden die Befragten
um die Bewertung der Items auf der Skala gebeten. Insbesondere in Webfragebö-
gen wird auf die numerischen Bezeichnungen der Abstufungen oft verzichtet. Ab-
bildung III.10 zeigt ein Beispiel aus einem Webfragebogen, wo nur die Endpunkte
verbalisiert sind und die Abstufungen durch sog. Radioknöpfe (radio buttons) dar-
gestellt sind.

Abbildung III.10: Darstellung der Abstufungen durch Radioknöpfe

Neben Ordinalskalen, die ab ca. fünf Abstufungen statistisch wie metrische Skalen
behandelt werden können (pseudometrische Skalen; vgl. Bentler & Chou 1985),
gibt es auch die Möglichkeit, kontinuierliche Urteile mit Hilfe von visuellen Ana-
logskalen zu erfassen (vgl. Couper, Tourangeau & Conrad 2007). Bei einer visuellen
Analogskala (VAS) werden kontinuierliche Abstufungen durch Markierungen auf
einer Linie vorgenommen (vgl. Abbildung III.11).
III.1 Fragen und ihre Bestandteile 187

Abbildung III.11: Visuelle Analogskala

Die Ausprägung kann dann direkt gemessen werden. Visuelle Analogskalen sind
auch als Online-Tool verfügbar (vgl. Reips & Funke 2008). Eine ähnliche Skala
stellt die Schiebereglerskala dar, die auch in vielen CAPI- und CASI-Programmen
verwendet wird:

Auch sog. psychophysische Skalen (Magnitudeskalen) können zur metrischen Ska-


lierung von Urteilen verwendet werden. Bei der Magnitudemessung werden die
Befragten gebeten, das relative Verhältnis ihrer subjektiven Einschätzungen (z.B.
Einschätzungen der Intensität der Bevorzugung bestimmter politischer Parteien),
Einschätzungen des sozialen Ansehens von Berufen, Einschätzungen der Wich-
tigkeit verschiedener beruflicher Merkmale) in mindestens einer Antwort- bzw.
Reaktionsmodalität vorzunehmen (in Bezug auf die Anwendung in den Sozialwis-
senschaften vgl. Lodge 1981; Saris 1988; Wegener 1982, Wegener 1983; Faulbaum
& Maag 1982). Modalitäten können Zahlen, Tonstärken, Gewichte, etc. sein. Ab-
bildung III.12 gibt ein Beispiel für eine Magnitudemessung in der Modalität „Lini-
en“. In dem abgebildeten Beispiel wird darum gebeten, zunächst eine Vergleichlinie
und anschließend Linien im Verhältnis zu dieser Vergleichslinie zu ziehen, die die
Stärke ihrer Urteile der übrigen Stimuli im Verhältnis zur Stärke des Urteils in Be-
zug auf die Vergleichslinie wiedergeben.
188 III.1 Fragen und ihre Bestandteile

Für wie wichtig halten Sie die folgenden Merkmale für die berufliche Arbeit und
den Beruf?

Hohes Einkommen

VERGLEICHSLINIE

Eine Tätigkeit, bei der man selbständig arbeiten kann

ANTWORTLINIE

Gibt mir das Gefühl, etwas Sinvolles zu tun

ANTWORTLINIE

Ein Beruf, bei den man anderen helfen kann

ANTWORTLINIE

Abbildung III.12: Beispiel für Magnitudemessung in der Modalität “Linien“

Funktionale Beziehungen zwischen den Einstufungen in verschiedenen Antwort-


modalitäten lassen sich im Rahmen des sog. „cross-modality matching“ (vgl. Lodge,
1981; Stevens, 1959; Stevens & Marks, 1980) als Potenzbeziehungen formulieren
(indirektes cross-modality matching Funktionen bzw. ICMM-Funktionen; vgl. We-
gener, 1978, S. 11) formulieren:

M1 = aM 2β2 / β1 .

In diesem Ausdruck sind M1 und M2 die auf den Modalitäten 1 und 2 abgegeben
Bewertungen. E1 und E2 sind die Exponenten der Funktionen, welche nach Stevens
(1946) die psychophysischen Beziehungen zwischen physikalischen Reizintensitä-
ten und den numerischen Reaktionen kennzeichnen. Diese Exponenten sehen je
III.1 Fragen und ihre Bestandteile 189

nach physikalischer Modalität unterschiedlich aus. Die Skalenwert für ein Item I
ergibt sich durch geometrische Mittelung:

( )
1/2
Si = M1βi1 M 2βi2 .

Auf der Magnitude-Skalierung und der ICMM-Beziehung basiert die Magnitu-


de-Prestige-Skala (MPS) der Berufe von Wegener (vgl. Wegener, 1978, 1982, 1983;
Frietsch & Wirth, 2001).
Neben den bereits erwähnten Antwortformaten gibt es zahlreiche weitere Ant-
wortformate mit unterschiedlichen Folgen für die zu erwartende Datenqualität in
Fragen wie z.B. die Auswahl mehrerer Alternativen aus einer vorgegebenen Menge
von Antworten, die eine Bedingung erfüllen, z.B. die Menge kultureller Einrichtun-
gen einer Stadt, von denen man Kenntnis besitzt (sog. „check-all-that-apply“-Fra-
gen), oder auch Fragen, bei denen Antwortalternativen hinsichtlich ihrer Intensität
in eine Rangordnung gebracht werden sollen.
Durch den Einsatz von Computern als Administratoren haben sich die Möglich-
keiten der Skalendarstellung bei selbst-administrierten Interviews stark erweitert
(vgl. Couper 2008; Dillman, Smyth & Christian, 2014; Tourangeau, Conrad & Cou-
per, 2013). So zeigt Abbildung III.13 ein Beispiel für eine sog. „drop-down“-Box.

Abbildung III.13 „drop-down“-Box


190 III.1 Fragen und ihre Bestandteile

Bei der Skalenkonstruktion müssen stets die besonderen Eigenschaften der gewähl-
ten Kommunikationsform (siehe Teil II) bedacht werden. Bei Telefonumfragen ist
bei der Nennung von Antwortalternativen zu bedenken, dass Befragte nur wenige
Alternativen im Gedächtnis speichern können (in der Regel nur maximal vier), an-
dernfalls unterliegen die Antworten mit höherer Wahrscheinlichkeit Recency,- und
Primacy-Effekten. Nach Miller (1956) können zwar 7 +/- 2 Alternativen im Kurz-
zeitgedächtnis gespeichert werden. Unter dem subjektiv eher empfundenen Zeit-
druck der telefonischen Fragebeantwortung sollte die Anzahl eher darunter liegen.

III.1.5 Empirische und latente Antwortvariablen

Grundsätzlich kann nicht davon ausgegangen werden, das die subjektiven Infor-
mationen (Ergebnisse von Urteilen, Gedächtnisinhalte, allgemein: Ergebnisse von
mentalen Operationen) im gleichen Format vorliegen, wie die vom Fragendesig-
ner vorgegebenen Formate. So kann etwa eine subjektive Wichtigkeitseinstufung
Werte auf einer kontinuierlichen Wichtigkeitsdimension repräsentieren, während
die vom Befragten verlangte Antwort nur die beiden Kategorien „eher wichtig“ vs.
„eher unwichtig“ zulässt. Die Konsequenz aus dieser Überlegung ist, dass zwischen
einer subjektiven Antwort des Befragten und der formatierten Antwort unterschie-
den werden muss. Die Antworten im vom Fragedesigner vorgegebenen Format bil-
den Abstufungen einer beobachtbaren, empirischen Antwortvariablen. Die subjekti-
ve Antwort, die der Befragte durch die formatierte Antwort ausdrücken soll, stellt
dagegen eine unbeobachtete bzw. latente Antwortvariable (engl.: latent response va-
riable) dar. Sie stellt strenggenommen, ähnlich wie die später (vgl. Teil IV) latente
Konstruktvariable eine theoretische Variable im Modell des Forschers dar. Sie ist
aber mit den theoretischen Konstruktvariablen nicht zu verwechseln.
Latente Antwortvariablen (vgl. Maddala, 1983; Muthén, 1979, 1983) sind the-
oretische subjektive Bewertungsdimensionen, von denen angenommen wird, dass
die Befragten auf ihnen ihre Antworten abstufen, ehe sie die beobachteten Ant-
worten geben. Dabei wird angenommen, dass die Erzeugung der beobachteten
Antwort in Abhängigkeit von Schwellenwerte auf der latenten Antwortvariablen
erfolgt. Latente Antwortvariablen werden ebenso wie beobachtete Antwortvaria-
blen in mathematischen Modellen numerisch dargestellt. Prinzipiell können diese
Variablen als stetig im Sinne der Menge der reellen Zahlen oder aber als kategorial
angenommen werden.
In Abbildung III.14 ist am Beispiel einer 3stufigen Zustimmungsskala das Ver-
hältnis zwischen einer stetigen latenten Zustimmungskala und den beobachteten,
III.1 Fragen und ihre Bestandteile 191

im Antwortformat vorgegebenen verbalen Zustimmungskategorien dargestellt.


Es wird angenommen, dass die beobachteten Antworten in Abhängigkeit von be-
stimmten Schwellenwerten (engl.: thresholds) erfolgt. Die numerische Zuordnung
erfolgt so, dass die Werte der beobachteten Antwortvariablen die durch die Schwel-
lenwerte definierten Intervallen wiederspiegeln.

Abbildung III.14: Latente Antworvariable y* und beobachtete Antwortvariable y.

⎧1, wenn y * ≤ k1 ⎫
⎪ ⎪
2, wenn k 1 > y* ≤ k2
⎪ ⎪
⎪⎪# ⎪⎪
y=⎨ ⎬
⎪i, wenn ki − 1 > y * ≤ ki ⎪
⎪# ⎪
⎪ ⎪
⎪⎩k, wenn y * > kk − 1 ⎪⎭
In Bezug auf die statistischen Verteilungen der latenten Antwortvariablen y* kön-
nen unterschiedliche Annahmen getroffen werden. In der Regel wird eine Normal-
verteilung der latenten Antwortvariablen angenommen. Die Beziehung zwischen
den Schwellenwerten latenter Antwortvariablen und k beobachteten Antwortkate-
gorien lässt sich folgendermaßen zusammenfassen:
Latente Antwortvariablen können aus theoretischen Überlegungen auch als ka-
tegorial angenommen werden. Ein Beispiel für eine kategoriale latente Antwortva-
riable wäre z.B. die Antwort auf die Frage nach dem höchste allgemeinbildenden
Schulabschluss, wobei die latente Antwort z.B. „Hauptschule“ lauten könnte und
die empirische, vom Befragten geäußerte Antwort ebenfalls „Hauptschule“. In die-
sem Fall wird zwischen den latenten Antworten und der beobachteten Antwort
192 III.1 Fragen und ihre Bestandteile

in der Regel eine deterministische Beziehung angenommen; d.h. es wird erwartet,


dass der Befragte mit Wahrscheinlichkeit 1 „Hauptschule“ sagt, wenn er „Haupt-
schule“ denkt. Man könnte auch die Annahme machen, dass der Befragte nur mit
einer gewissen Wahrscheinlichkeit „Hauptschule“ äußert, um die Möglichkeit
zuzulassen, dass er mit einer gewissen Wahrscheinlichkeit im Sinne sozialer Er-
wünschtheit statt des tatsächlichen Abschlusses einen höheren Abschluss angibt.
Von den latenten Antwortvariablen sind die latenten Konstruktvariablen zu
unterscheiden, die in Teil IV näher behandelt werden. In unserem Schulbeispiel
wäre die Schulbildung eine Konstruktvariable, die wir über die Frage nach dem
allgemeinbildenden Schulabschluss als Indikator messen wollen. Die Beziehung
zwischen einer latenten Antwortvariablen und einer beobachteten Antwortvari-
able sollte nicht verwechselt werden mit den Beziehungen zwischen einem quan-
titativen Konstrukt, etwa einer Fähigkeit, und der Wahrscheinlichkeit einer dis-
kreten Antwort, etwa der Lösung einer Aufgabe mit den Ausprägungen „gelöst“
vs. „nicht gelöst“, auch wenn die statistischen Modelle der Analyse dieser Zusam-
menhänge sich weitgehend entsprechen. Eine quantitativ abgestufte Fähigkeit ist
ein quantitatives Konstrukt und keine latente Antwortvariable.

III.1.6 Die Bedeutung von Fragetexten und Antwortvorgaben

Äußerungen im Interview, seien es Äußerungen von Fragen oder Äußerungen


von Antworten, erhalten ihre kommunikative Funktion erst durch ihre Rolle als
Zeichen. Unter semiotischer (zeichentheoretischer) Perspektive (vgl. Morris 1946)
stellen Äußerungen im Interview Zeichen dar, die auf einem Zeichenträger wie Pa-
pier oder wie einem Bildschirm realisiert sind und die durch drei Bezüge charak-
tersierbar sind: einen syntaktischen, einen semantischen und einen pragmatischen
Bezug (vgl. Abbildung III.15).
III.1 Fragen und ihre Bestandteile 193

Abbildung III.15: Zeichentheoretische Bezüge von Fragetexten

Der syntaktische Bezug besteht darin, dass Zeichen nach bestimmten grammati-
kalischen Regeln erzeugt sind und insofern wohlgeformte sprachliche Ausdrücke
darstellen. Einen semantischen Bezug haben Zeichen insofern, als sie etwas bedeu-
ten, wobei zwischen der designativen, extensionalen Bedeutung (dem bezeichneten
Gegenstand) und der detonativen, intensionalen Bedeutung (Sinn) unterschieden
wird (vgl. Frege 1892; Morris 1938). Frege verdeutlicht den Unterschied zwischen
diesen beiden Bedeutungsbegriffen in seinem berühmten Beispiel des Planeten Ve-
nus (vgl. Abbildung III.16). Die Worte „Morgenstern“ und „Abendstern“ bezeich-
nen beide den Planeten Venus. Dennoch haben beide Worte eine unterschiedliche
intensionale Bedeutung. Je nachdem, ob dieser Planet situationsabhängig am Mor-
gen oder am Abende betrachtet wird, wird er mit einer unterschiedlichen konnota-
tiven Bedeutung verbunden.
194 III.1 Fragen und ihre Bestandteile

Abbildung III.16: Extensionale und intensionale Bedeutung

Für die Anwendung auf Fragen und Items bedeutet dies, dass in den Texten ver-
wendete Begriffe in unterschiedlichen soziokulturellen und psychologischem Kon-
texten eine unterschiedliche Bedeutung aufweisen können.
Der pragmatische Bezug thematisiert die Beziehung zwischen den Zeichen und
ihren Nutzern. Er besteht darin, dass Zeichen in bestimmter Weise verwendet wer-
den, etwa um bestimmte Ziele zu verfolgen bzw. bestimmte Wirkungen zu erzielen.
Betrachten wir Fragetexte in einem Fragebogen als Zeichen, so stehen diese eben-
falls in einem syntaktischen, semantischen und pragmatischen Bezug. Der syntak-
tische Aspekt bezieht sich also auf den grammatikalischen Aufbau des Textes, der
zweite auf die Bedeutung des Textes und der dritte Aspekt auf die Verwendung der
Frage und die Wirkung der Frage auf den Befragten.
Von besonderer praktischer Bedeutung sind der semantische und der pragma-
tische Bezug von Fragen und Antwortvorgaben. Es ist wichtig, sich immer wieder
klar zu machen, dass die Befragten nicht auf den Fragetext reagieren, sondern auf
die Bedeutungen, die sie dem Fragetext und den Bestandteilen der Antwortformate
geben. Die Bedeutungen können bei Fragetexten mehr oder weniger komplex sein.
Wenn z.B. in einem Item eine Episode beschrieben wird, besteht die designative
Bedeutung in einer mehr oder weniger komplexen episodischen Struktur. Durch
Worte bezeichnete Begriffe können in eine mehr oder weniger komplexe Struktur
von Begriffen eingebettet sein (vgl. z.B. Collins & Quillian, 1970; Quillian, 1968).
Um die Wirkung sprachlicher Äußerungen zu verstehen, sollte nicht nur die de-
signative Bedeutung ins Kalkül gezogen werden. Vielmehr wird die sprachliche
Bedeutung in semantische Strukturen und Wissensstrukturen integriert. Darüber
hinaus können durch sie auch vergangene Erfahrungen, Ängste, Bilder, etc. ange-
sprochen werden. Dabei steht die Komplexität der semantischen Struktur nicht
unbedingt in direktem Zusammenhang mit der Komplexität der syntaktischen
III.1 Fragen und ihre Bestandteile 195

Struktur. Schon einzelne Worte wie „Behörde“, „Regierung“, „Familie“ müssen als
in umfassendere Wissensstrukturen eingebettet betrachtet werden.
Nicht nur Fragetexte, sondern auch vorgegebene Antwortformate mit den oben
beschriebenen Antwortalternativen und Antwortkategorien einschließlich der
adverbialen Modifikatoren unterliegen der Interpretation. Nicht die sprachlichen
Ausdrücke selbst, sondern die von den Befragten zugeordneten qualitativen oder
quantitativen Interpretationen sind die Basis für die Wahl der Antwortalternati-
ven oder die Wahl einer kategorialen Ausprägung. Die Bedeutungswahrnehmung
adverbialer Modifikatoren kann die Messung wesentlich beeinflussen (vgl. z.B.
Hippler et al., 1991; Moxey & Sanford, 1991, Rohrmann, 1978, 2007; Schwarz et
al., 1993).
Schon sehr früh hat sich die Psychologie mit der Wirkungsstärke, d.h. mit den
quantativen Bedeutungen von adverbialen Modifikatoren beschäftigt. Berühmt ge-
worden ist das oben erwähnte sog. Cliffsche Gesetz (vgl. Cliff, 1959), welches Adver-
bien als auf Multiplikatoren auffasst und die folgende lineare Beziehung postuliert:
Qij (MA) = wMj Qi (A) + K,
wobei

Qij (MA) : Skalenwert des i-ten Adjektivs in Kombination mit dem j-ten Mo-
difikator;
wMj : Multiplikationskoeffizient für den j-ten Modifikator;
Qi (A) : psychologischer Skalenwert des i-ten Adjektivs;
K : Differenz zwischen dem beliebigen Nullpunkt der Skalenwerte und
ihrem psychologischen Nullpunkt.

Die Ableitung der Beziehung erfolgte aggregiert auf der Basis der Methode der suk-
zessiven Intervalle (vgl. z.B. Guilford, 1954). Wegener, Faulbaum und Maag (1982a,
1982b) konnten unter Anwendung der Magnitude-Skalierung zur Abschätzung der
quantitativen Bedeutung von adverbialen Modifikatoren auf Ebene der Individuen
für die ausgewählten Adjektive „wichtig“ und „sicher“ folgende Potenzbeziehung
nachweisen:
Ql (MA) = k Ql (A)wM
bzw.
logQl(MA) = wMlogQl(A) + logk.
Die betrachteten Modifikatoren waren „außerordentlich“, „sehr“, „ziemlich“, „über-
wiegend“, „halbwegs“, „einigermaßen“, „teilweise“, „etwas“, „wenig“. Die Untersuchung
ergab nicht nur die obige Potenzbeziehung, sondern ergab auch Hinweise dafür, dass
196 III.1 Fragen und ihre Bestandteile

die Wirkungsstärke von dem betrachteten Adjektiv abhängt. Tabelle III.1 gibt einen
Überblick über die Wirkungsstärken der Modifikatoren für die Adjektive „sicher“ und
„wichtig“. Man sieht, dass die Wirkungsstärken für das Adjektiv „wichtig“ durchweg
höher sind als für das Adjektiv „sicher“. Die Tabelle enthält außerdem die Korrelatio-
nen (R) zwischen den Einstufungen des Adjektivs und den Einstufungen des Modi-
fikators.

Tabelle III.1: Wirkungsstärken von adverbialen Modifikatoren

sicher wichtig
wM R wM R
außerordentlich .904 .823 1.063 .882
sehr .837 .846 .944 .887
ziemlich .785 .857 .900 .874
überwiegend .801 .855 .871 .853
halbwegs .693 .849 .739 .817
einigermaßen .681 .823 .665 .789
teilweise .641 .789 .640 .753
etwas .388 .672 .429 .649
wenig .361 .618 .361 .495

Mittelwerte .677 .792 .735 .778

Die Autoren fanden, dass sich die Wirkung eines Modifikators zur Wirkung des
nächst stärkeren Modifikators proportional verhält. Mit ähnlichen Methoden der
Magnitude-Schätzung untersuchten Hofmans et al., (2007) im Rahmen von Ex-
perimenten den Einfluss des Kontextes, in dem ein Modifikator steht, auf die mit
ihm verbundene quantitative Bedeutung. Sie fanden Hinweise dafür, dass bei Zu-
stimmungsskalen die Intensität der Modifikatoren nicht von der Orientierung der
Skala („aufsteigend“ vs. „absteigend“) abhängt. Zahlreiche frühe Studien befassen
sich mit der Bedeutung von Worten, die Quantitäten ausdrücken sollen wie z.B.
Häufigkeitsabstufungen (vgl. Griffin, 2013; Hakel, 1968; Hammerton, 1976; Howe,
1962; Lilly, 1968a, 1968b; Schaeffer, 1991). Rohrmann (1978) untersuchte die quan-
titativen Abstände von Modifikatoren und fand, dass folgende Adverbien ungefähr
gleichabständig sind:
III.1 Fragen und ihre Bestandteile 197

Nicht
Wenig
Etwas
Einigermaßen
Ziemlich
Überwiegend
Sehr
In einem weiteren Projekt untersuchte Rohrmann die besten verbalen Benen-
nungen in Bezug auf Gleichabständigkeit, linguistischer Unterscheidbarkeit und
Verständnis bei Skalen mit zwischen 5 und 9 Abstufungen (vgl. Rohrmann, 2007).
Eines der Resultate war, dass die Benennungen „strongly-disagree/disagree/neit-
her-agree-nor-disagrsee/agree/strongly-agree“ der bekannten Zustimmungsskala
nicht gleichabständig sind. So lange die Frage der Gleichabständigkeit nicht geklärt
ist sollten man die Skalen in der Analyse nur ordinal interpretieren (zum Begriff
der Ordinalskala siehe Teil IV).
Grundsätzlich sollte der Forscher davon ausgehen, dass Bedeutungszuordnun-
gen zu Fragetexten und adverbialen Modifikatoren zwischen den Befragten variie-
ren und sich auch von den Bedeutungen unterscheiden können, die der Forscher
mit den sprachlichen Ausdrücken verbindet (vgl. Abbildung III.17). Angestrebt
werden sollte eine Bedeutungsinvarianz zwischen Forscher und Respondenten so-
wie zwischen den Respondenten.
Die Wahl einer Antwortalternative bzw. eines Skalenpunkts ist Ergebnis einer
Urteilsbildung, die im Rahmen einer Frage von Befragten gefordert wird. Im Rah-
men der Urteilsbildung können die in Fragetexten und Skalenbenennungen darge-
botenen Informationen in umfassendere Metaphern eingebunden werden (vgl. z.B.
Lee & Schwarz, 2012; Zhang & Schwarz, 2014). Ein Beispiel ist der Zusammenhang
zwischen der räumlichen Anordnung von Beschreibungen und der zeitlichen Aus-
richtung. So scheinen Vergangenheit und Zukunft mit den Richtungen „links“ und
„rechts“ verbunden zu sein (vgl. Zhang & Schwarz, 2014). Personen wählten zur
Selbstbeschreibung und zur Beschreibung ihres Landes in der Vergangenheit eher
Beschreibungen, die bei einer horizontalen Darbietung eher links lokalisiert waren.
In der Regel wird die Bedeutung von Fragen nicht hinterfragt. Stattdessen legt
der Forscher oft uneingestanden seine eigene Bedeutungswahrnehmung zugrunde
und vergisst, dass die Befragten unterschiedliche Alltagsinterpretationen mit ih-
nen verbinden könnten, die von der von ihmr unterstellten Bedeutung abweichen.
Verantwortlich für unterschiedliche Interpretationen von Fragetexten sind nicht
zuletzt soziodemographische und soziokulturelle Unterschiede.
198 III.1 Fragen und ihre Bestandteile

Abbildung III.17: Bedeutungsvariation von Fragetexten zwischen Befragten

Interpretative Unterschiede zwischen Begriffsbezeichnungen wurden vor allem in


den Arbeiten von Conrad und Schober (Conrad & Schober 2000; Conrad, Schober
& Coiner 2007; Schober & Conrad 1997, Schober, Conrad & Fricker 2004; Suess-
brick, Schober & Conrad 2000, 2001; Peytchev et al., 2010; Redline, 2013; Touran-
geau et al., 2006). untersucht. Im Mittelpunkt steht dabei der Begriff der Klärung
(engl.: clarification). Unter Klärung wird dabei die Instantiierung bzw. Konkreti-
sierung von Begriffen und Konstrukten verstanden. Instantiierung bezeichnet die
Fixierung der semantischen Bedeutung, wobei es sich um konkrete Ausprägungen
des Begriffs oder um Beschreibungen handeln kann. So untersuchten Tourangeau
et al. (2006) die Fehlzuordnungen („malalignments“) von Begriffen und die man-
gelnde Übereinstimmung zwischen Begriff und Instanz in Bezug auf Alltagsbegriffe
wie „Aufenthaltsort“(„residence“)“ und „Unfähigkeit“ („disability“) mit Hilfe von
Vignetten als Träger für die semantische Definitionen. Ross and Murphy (1999)
untersuchten die Instantiierungen von Nahrungsbegriffen (“food terms”). Schober
und Conrad schlagen die Integration von Klärungen in das Interview vor und wei-
chen damit bewusst von den strengen Regeln des standardisierten Interviews ab.
III.1 Fragen und ihre Bestandteile 199

Angesichts zunehmender Globalisierung und kultureller Heterogenität in Um-


fragen ist damit zu rechnen, dass sich in allgemeinen Bevölkerungsumfragen kultu-
relle Unterschiede in den Bezeichnungen und den Konnotationen von Worten und
sprachlichen Ausdrücken verstärkt niederschlagen können. Worte mit quantitati-
ven Ausprägungen wie Häufigkeitsangaben können in Kombination mit Worten
wie z.B. „Kriminalität“ durchaus mit unterschiedlichen subjektiven quantitativen
Ausprägungen verbunden sein. Ausdrücke wie „zahlreiche Verbrechen“ können
für jemand, der in einer Gegend aufgewachsen ist, in der es kaum Kriminalität gab
etwas anderes bedeuten als für jemand, der in einem sozialen Brennpunkt aufge-
wachsen ist. Smith (2003, 2004) verglich die unterschiedlichen Stärken von adver-
bialen Modifikatoren zwischen verschiedenen Ländern. Schon eine frühe Studie
von Kristof aus den 60iger Jahren (vgl. Kristof, 1966) über den Vergleich der Modi-
fikatorstärken verschiedener adverbialer Modifikatoren zwischen Deutschland und
den USA konnte starke Unterschiede in den quantiativen Bedeutungen der Mo-
difikatoren nachweisen (vgl. Abbildung III.18). So ist z.B. das amerikanische Ad-
verb „slightly“ mit einer höheren Stärke versehen als das deutsche Adverb „etwas“.
Faulbaum, Wegener und Maag (1982a, 1982b) fanden Hinweise für Unterschiede
in den Stärken zwischen Alters- und Geschlechtergruppen.

Abbildung III.18: Modifikatorstärken deutscher Adverbien und ihrer englischen Übersetzungen


200 III.1 Fragen und ihre Bestandteile

Oyserman und Lee (2008) untersuchten die Auswirkungen kultureller Un-


terschiede auf den Denkprozess und die Informationsverarbeitung. Schwarz,
Oyserman und Peytcheva (2010) fanden Unterschiede im Antwortprozess
zwischen kollektivistischen und individualistischen Kulturen, d.h. zwischen
Kulturen, in denen die Einbettung von Individuen in soziale Gefüge und der
Zusammenhang zwischen Gruppenmitgliedern betont wird wie in asiatischen
Gesellschaften und Kulturen, in denen eher die Unabhängigkeit des Selbst
betont wird wie in westlichen Gesellschaften. Einige Befunde stützen die un-
terschiedliche Betonung von Bescheidenheit, Ehre und Steigerung des Selbst-
wertgefühls zwischen diesen Kulturen (vgl. Uskul, Oyserman & Schwarz, 2010).
Schon frühe Untersuchungen ergaben Unterschiede in den Interpretationen
von Begriffen zwischen Nationen. So berichtete Hofstätter bereits 1957 (vgl.
auch Hofstätter, 1963, S. 264) über Unterschiede in den Konnotationen zwi-
schen dem deutschen Begriff „Einsamkeit“ und dem englischen Begriff „lone-
liness“ in den USA. So wird die Bedeutung des Begriffs „loneliness“ in den USA
am besten durch den deutschen Begriff „Angst“ beschrieben. Ein weiteres Bei-
spiel ist der Begriff „Vertrauen“, der in unterschiedlichen kulturellen Kontexten
unterschiedlich verstanden wird (vgl. Freitag & Bauer, 2013). Auch Messungen
der nationalen Identität scheinen über Nationen hinweg nicht mit der gleichen
Bedeutung verbunden zu sein (vgl. Heath, Martin & Spreckelsen, 2009). Die
Beispiele deuten bereits an, vor welchen Schwierigkeiten die Entwicklung eines
international vergleichbaren Fragebogens steht.
Nicht immer müssen Begriffe in Fragtexten hinsichtlich ihrer Bedeutung prob-
lematisiert und hinterfragt werden. Jedoch können sich hinter Begriffen mit schein-
bar unproblematischer einheitlicher Alltagsbedeutung dennoch unterschiedliche
Bedeutungen verbergen. Wie weit reicht z.B. die Ausdehnung des Begriffs „Nach-
bar“; was verstehen die Menschen unter „Haushalt“, unter „Familie“ oder unter
„Ausländer“? Für Untersuchungen der Bedeutung von Begriffen in Fragetexten
bieten sich bestimmte Pretest-Verfahren wie z.B. kognitiven Interviews an, von de-
nen in Abschnitt… noch die Rede sein wird.
Die empirische Bedeutung eines Fragetextes ergibt sich auch aus seiner Rolle als
Indikator für ein theoretisches Konstrukt, die ihm im Rahmen der Operationali-
sierung (vgl. Teil III.1.7) zugewiesen wurde. Ob sich seine Bedeutung erschöpfend
in den empirischen Indikatoren widerspiegelt, ist in der Regel eher zweifelhaft, da
einerseits nicht auszuschließen ist, dass es noch weitere Indikatoren gegen könnte,
die weitere Bedeutungsdimensionen erschließen, andererseits überhaupt unklar
ist, ob sich theoretische Begriffe vollständig durch empirische Begriffe ersetzen las-
sen und ob es nicht doch so etwas gibt wie einen Bedeutungsrest, der empirisch
nicht aufgelöst werden kann (sog. „surplus meaning“). Diese Frage ist jedenfalls
III.1 Fragen und ihre Bestandteile 201

eine wissenschaftstheoretische Frage, die in unterschiedlicher Weise je nach wis-


senschaftsphilosophischer Grundeinstellung beantwortet werden kann (vgl. z.B.
Carnap, 1956; Beiträge in Suppe, 1977).

III.1.7 Fragen und Antworten als Indikatoren: Operationalisie-


rungen

Unabhängig von der Kommunikationsform spielen Fragen und Items immer die
Rolle von Indikatoren für die Inhalte, über die der Forscher etwas erfahren möch-
te. Bei diesen Inhalten handelt es sich nicht immer um solche, die durch direkt
messbare Begriffe beschrieben werden können wie z.B. das Einkommen oder das
Alter, sondern um unbeobachtete, theoretische (auch: latente) Konstrukte. Die Zu-
ordnung von empirischen Variablen zu Inhalten, die nicht der direkten äußeren
Beobachtung zugänglich sind, heißt auch Operationalisierung. Voraussetzung für
eine gelungene Operationalisierung ist eine Präzisierung der Inhalte und ihrer zen-
tralen Dimensionen im Rahmen einer Konzeptspezfikation (vgl. Abbildung III.19).
Werden empirische Informationen wie z.B. die Höhe des Einkommens durch Fra-
gen erhoben, so sind selbstverständlich auch diese Informationen für den Forscher
nicht direkt beobachtbar, weil diese Informationen in der Regel aus dem Gedächt-
nis des Befragten abgerufen werden müssen, es sei denn, objektive Informationen
wie Kontoauszüge oder Arbeitsverträge und ähnliche Materialien werden bei der
Beantwortung hinzugezogen. Obgleich es sich beim Einkommen um eine nicht
direkt beobachtbare Variable handelt, ist es dennoch prinzipiell beobachtbar. Die
Antwort auf eine direkte Frage nach dem Einkommens ist ein Indikator für die
Höhe des Einkommens. Letzteres hätte aber auch durch einen anderen Indikator
erhoben werden können, wie z.B. die Aufforderung, sich in Einkommenskategori-
en einzuordnen.
202 III.1 Fragen und ihre Bestandteile

Abbildung III.19: Konzeptspezifikation und Operationalisierung

Im Unterschied zum Einkommen gibt es Typen von Variablen, die nicht-empi-


rischer, rein theoretischer Natur sind und den theoretischen Begriffen der ana-
lytischen Wissenschaftstheorie entsprechen, die in Bezug auf Theoriensprachen
zwischen theoretischen Begriffen der theoretischen Sprache und Beobachtungsbe-
griffen der Beobachtungssprache unterscheidet. Beide sind durch sog. Korrespon-
denzregeln miteinander verbunden. Auf die damit verbundenen Probleme muss an
dieser Stelle nicht eingegangen werden (vgl. hierzu z.B. Stegmüller, 1984; Suppe,
1977).
Formal besteht der Vorgang der Operationalisierung in der Angabe einer oder
mehrerer theoretischer Konstruktvariablen und einer Menge von Indikatoren für
diese Variablen. Letztere stellen Messungen dar, die mutmaßlich von dieser Kons-
truktvariablen direkt beeinflusst werden. Im Fall einer Umfrage bestehen die Indi-
katoren in unter Verwendung von Fragen oder Items erhobenen Messungen (vgl.
Abbildung III.20). Die Indikatoren werden auch als empirische oder manifeste Va-
riablen bezeichnet.
III.1 Fragen und ihre Bestandteile 203

Abbildung III.20: Operationalisierung

Die Operationalisierung erfordert eine Entscheidung des Forschers darüber, wel-


che Fragen/Items als Indikatoren verwendet werden sollen. Das Ergebnis dieser
Entscheidung stellt zunächst nur ein Modell dar, das im Rahmen statistischer Ver-
fahren hinsichtlich seiner Eignung noch überprüft werden muss. Abbildung III.21
zeigt eine mögliche Operationalisierung der latenten Konstruktvariablen „Einstel-
lung zu Ausländern“.

Abbildung III.21: Operationalisierung „Einstellung zu Ausländern“


204 III.1 Fragen und ihre Bestandteile

Die Items wurden wiederholt in der Allgemeinen Bevölkerungsumfrage der Sozi-


alwissenschaften (ALLBUS) verwendet (zur ausführlichen Analyse dieser Items in
einer methodischen Zusatzstudie zum ALLBUS 1984 vgl. Bohrnstedt, Mohler &
Müller, 1987).
Ein weiteres Beispiel für eine Operationalisierung ist die Operationalisierung
des Konstrukts „Extrinsische Berufsorientierung“ durch Berufsmerkmale, die auf
einer Wichtigkeitsskala eingestuft werden sollten (vgl. z.B. Faulbaum, 1983, 1984,
1990; Abbildung III.22.).

Abbildung III.22: Operationalisierung „Extrinsische Berufsorientierung“

Wir kommen in Teil IV auf die Überprüfung von Operationalisierungen zurück.


Sie bilden sog. Messmodelle, die sich statistisch analysieren lassen.
III.1 Fragen und ihre Bestandteile 205

III.1.8 Von Fragen zum standardisierten Fragebogen

III.1.8.1 Allgemeine Charakterisierung

In standardisierten Interviews, die auf einer asymmetrischen Rollenverteilung von


Fragesteller und Respondenten basieren, dergestalt, dass ein Administrator nach-
einander Fragen stellt und der Befragte auf jede Frage antwortet, ohne dass der
Administrator mit dem Befragten in einen Dialog eintritt, werden die Fragen in
linearer Reihenfolge in einem Fragebogen schriftlich auf Papier oder auf einem
Bildschirm fixiert. Die Normalform eines Fragebogens in Paperform kann folgen-
dermaßen beschrieben werden:

Fragebogen = Deckblatt + Einleitung + Fragen + Instruktionen


Lässt man Deckblatt und Einleitung weg und beschränkt den Begriff des Fragebo-
gens auf Fragen und Instruktionen, so kann ein Fragebogen folgendermaßen cha-
rakterisiert werden:

Fragebogen = Fragen + Navigationsanweisungen.


Der Administrator eines Fragebogens kann ein menschlicher Administrator (der
Befragte selbst oder ein Interviewer) oder eine Befragungssoftware sein. Die Fi-
xierung der Fragenfolge bedeutet nicht, dass die Ausführung des Fragebogens im
Interview in der gleichen Reihenfolge erfolgt. Vielmehr können Filterfragen bzw.
Navigationsanweisungen dazu führen, dass die Reihenfolge mehr oder weniger
stark verändert wird. In diesem Sinn stellt der Fragebogen ein Programm dar, das
auch mit Filteranweisungen versehen sein kann und das schließlich von einem
Intepretierer der Anweisungen ausgeführt wird. Mehrere Filterfragen können zu
einer großen Menge möglicher Ablaufstrukturen (engl.: routing structures) des In-
terviews führen (vgl. Bethlehem, 1999; 2000, 2004).
Nachdem die Menge der in einer Umfrage zu stellenden Fragen festgelegt wor-
den ist, müssen folgende Entscheidungen getroffen werden:
• Einleitungstext: Wie soll der Befragten in das Interview eingeführt werden?
• Interviewer- und/oder Befragten-Instruktionen: Welche Informationen braucht
der Interviewer (bei Interviewer-administrierten Interviews ) oder der Befragte
(bei Selbst-administrierten Umfragen), um die Fragen zu bearbeiten? Welche
motivierenden Aussagen sollten einbezogen werden?
206 III.1 Fragen und ihre Bestandteile

• Festlegung der Fragensukzession: In welcher Reihenfolge sollen die Fragen ge-


stellt werden? Von den Antworten welcher Fragen soll die Präsentation der
nächsten Frage abhängen? Soll der Interviewer/Befragte die Möglichkeit ha-
ben, im Verlauf des Interviews auf früher gestellte Fragen zurückzukommen
(Zulassung des Zurückblätterns z.B. bei Webinterviews)?
• Deckblatt: Wie soll das Deckblatt bzw. die Eröffnungs- bzw. Startseite gestal-
tet sein? Welche Informationen sollen dort eingetragen werden (z.B. Befrag-
ten-Identifikationsnummer (Id), Interviewer-Id, Datum, Befragungsort bzw.
-region, Anfangs- und Endzeitpunkt des Interviews, Angaben zur Auswahl der
Person im Haushalt)?
Der erste Punkt betrifft die Frage, wie eine informative und gleichzeitig motivieren-
de Einleitung aussehen kann. Stellt die Einleitung gleichzeitig die Kontaktaufnah-
me dar, sollte sie auf eine Erhöhung der Teilnahmewahrscheinlichkeit ausgerichtet
sein und weitere grundlegenden Informationen über die Freiwilligkeit der Teilnah-
me und zum Datenschutz enthalten. Auch in dem Fall, wo die zuletzt genannten
Informationen bereits im Rahmen einer vorherigen Kontaktaufnahme gegeben
wurden, sollten die ensprechenden Aussagen zumindest in Kurzform noch einmal
wiederholt werden.
Der zweite Punkt bezieht sich auf die Instruktionen, die der Befragte und/oder
der Interviewer braucht, um korrekt mit den Antwortformaten umzugehen und
z.B. Skalenwerte korrekt zu platzieren, etc..
Der dritte Punkt bezieht sich auf die konkrete Reihenfolge der Fragen und auf
die Navigation durch das Interview. Zahlreiche Studien zeigen, dass die Sukzes-
sion der Fragen über Kontexteffekte Auswirkungen nicht nur Auswirkungen auf
die Datenqualität haben kann, sondern auch auf die Korrektheit der Interpretation
statistischer Ergebnisse. So zeigt, z.B. Bartels (2002) am Beispiel abnehmenden öf-
fentlichen Vertrauens in Wahlen, dass die Verlaufsformen in Trendstudien durch
Änderungen in der Fragesukzession erklärt werden können.
Der vierte Punkt bezieht sich auf die notwendigen Informationen zur Einfü-
gung des Falls in den Datensatz. Abbildung III.23 enthält ein Beispiel für die Ge-
staltung eines Deckblatts für einen Papierfragebogen einer Face-to-Face-Umfrage
ohne Computerunterstützung. Die Information auf dem Deckblatt zur Beteiligung
an einer Nachbefragung ist optional und dem Studiendesign geschuldet.
III.1 Fragen und ihre Bestandteile 207

Abbildung III.23: Beispiel für ein Deckblatt


208 III.1 Fragen und ihre Bestandteile

Ein Fragebogen wird im klassischen Fall Interviewer-administrierter Interviews


ohne Computeruntersützung als Papierfragebogen realisiert, der vom Intervie-
wer mündlich vorgetragen wird. Er hat in seiner „Normalform“ die in Abbildung
III.24 dargestellte Grobstruktur. Im Fall computerunterstützter Interviewer-admi-
nistrierter Interviews werden die Fragen auf dem Bildschirm in einer Reihenfolge
präsentiert, die von der Software in Abhängigkeit von den Antworten der Befragten
gesteuert wird. Die konkrete Festlegung der Fragereihenfolge sollte auf der Basis
verschiedener Überlegungen erfolgen. Der wichtigste Gesichtspunkt betrifft die
Vermeidung von Effekten der Fragereihenfolge auf das Antwortverhalten.

Abbildung III.24: Grobstruktur eines Fragebogens bei Face-to-Face-Umfragen ohne Com-


puterunterstützung (Papierfragebogen)
III.2 Von Fragen zu Antworten 209

III.2 Von Fragen zu Antworten

III.2.1 Frage-Antwortbeziehungen

Wird eine Frage gestellt, erhält man immer eine Reaktion, insofern man „keine
Reaktion“ zu den prinzipiell möglichen Reaktionen zählt. Nicht jede Reaktion ist
allerdings eine Antwort auf die Frage. Die Reaktionen der Befragten sind dabei
nicht durch den Fragetext allein bestimmt, sondern hängen vielmehr davon ab,
was die Befragten mit dem Fragetext anfangen. Unter einer rein funktionalen Be-
trachtungsweise wird die funktionale Beziehung zwischen Fragetext und Antwort
moderiert durch die körperlichen und psychischen Zustände der Befragten sowie
Vorgänge, die in den Befragten ablaufen (vgl. Abbildung III.25).

Abbildung III.25: Frage-Antwort-Beziehung

Diese Zustände können mehr oder weniger stabile oder auch veränderliche Eigen-
schaften der Befragten sein. Sie definieren z.T. auch, wie etwa im Fall der kognitiven
Fähigkeit, welche interne internen Vorgänge überhaupt möglich sind sowie die Art
und Weise ihrer Ausführung. Nicht immer spiegeln sich Zustände und Vorgänge
in äußerlich wahrnehmbaren Zeichen wie Aussehen, Mimik, Antwortzeiten, etc.,
so dass von zuverlässigen manifesten empirischen Indikatoren für dies Zustände
ausgegangen werden könnte.
Unterstellt man, dass der Fragetext im Sinne des Forschers interpretiert wurde
und die im Fragetext beschriebene Aufgabe verstanden wurde, so hängt die Reakti-
on nicht mehr von interpretativen Prozessen ab, so dass statt nach dem Zusammen-
210 III.2 Von Fragen zu Antworten

hang zwischen Fragetext und Reaktion nach dem Zusammenhang zwischen inter-
pretierten Fragetext bzw. der Aufgabe und der Reaktion gefragt werden kann. Trotz
aufrichtigen Bemühens der Befragungsteilnehmer um eine ernsthafte Lösung der
Aufgabe kann es hier bei bestimmten Aufgaben zu Verzerrungen von Antworten
kommen, die durch immer wieder empirisch bewährte Verhaltensregelmäßigkei-
ten und „Naturkonstanten“ bedingt sind. Beispiele für solche Aufgaben sind Häu-
figkeits- und Wahrscheinlichkeitsschätzungen.
Ein frühes Beispiel stellen die Ergebnisse einer Studie von Preston und Baratta
(1948) dar. Die Forscher fanden heraus, dass objektive Wahrscheinlichkeiten unter
0,05 überschätzt wurden, objektive Wahrscheinlichkeiten über 0.25 aber unter-
schätzt wurden. Zu ähnlichen Ergebnissen kamen auch andere Autoren wie Att-
neave (1953). Ein weiteres Beispiel für systematische Über- und Unterschätzungen
von Größen, ist die Überschätzung von Ereignisdauern durch Frauen (vgl. Loftus
et al., 1987). Diese Ergebnisse bedeuten, dass z.B. Antworten auf Fragen nach der
Wahrscheinlichkeit oder nach Ereignisdauern die objektiven Daten in der einen
oder anderen Richtung verzerrt wiedergeben.
Bei in Fragen gestellten Aufgaben, die objektive Intensitäten mit subjektiven In-
tensitäten verbinden, muss davon ausgegangen werden, dass die Antworten der Be-
fragten das psychophysische Gesetz von Fechner (1889) respektieren. Danach gilt:
R = ClogS.
In dieser Formel sind R eine quantitative Reaktion (z.B. ein quantitatives Urteil), C
eine Konstante und S ein quantitativer Reiz.
Gesetzmäßigkeiten dieser Art muss bei der Ergebnisinterpretation Rechnung
getragen werden. Sie sind durch besondere Maßnahmen wie Anpassungen der Fra-
geformulierungen nicht zu beeinflussen. Dagegen gibt es andere Verhaltensregel-
mäßigkeiten, denen durch Anpassung des Frage- und Antwortformats Rechnung
getragen werden kann wie z.B. Telescoping-Effekten oder Antworttendenzen wie
„Primacy“ oder „Recency“-Effekten (siehe unten).

III.2.2 Intervenierende Prozesse und Handlungen

Fragen und Antworten stehen wie im Alltag so auch im Interview in einer Verbin-
dung, die durch intervenierende Prozesse und Handlungen charakterisiert ist. Ant-
worten entstehen im Interview dadurch, dass eine Person in Übereinstimmung mit
den Regeln des standardisierten Interviews und den Konversationsregeln mit einem
Fragetext konfrontiert wird, in der eine Aufgabe beschrieben wird, die vom Befragten
III.2 Von Fragen zu Antworten 211

gelöst werden muss und als deren Ergebnis eine Selbstauskunft über einen subjektiv
wahrgenommenen und interpretierten Zustand in einem in der Frage vorgegebenen
Antwortformat erwartet wird, der in der Befragungssituation von den Befragten
möglicherweise erst konstruiert wird. Solche Zustände können sein: „Gedächtnisin-
halte“, „Erwartungen“, „Wahrnehmungen von Teilen der Außenwelt“, „Intensitäten
des Glaubens an das Eintreffen von Ereignissen“, „Schätzungen“ etc. Auch auf objekti-
ve Ereignisse und mutmaßliche Fakten bezogene Antworten sind als Indikatoren für
subjektive Zustände zu bewerten, da sie sich auf interne Repräsentationen beziehen,
wobei schon äußere Wahrnehmungen Repräsentationen darstellen.
Insofern sich zwischen Wahrnehmung des Fragetextes und Antwort interne
Handlungen und Prozesse im Befragten vollziehen, stellen Antworten Ergebnis-
se von Handlungen und Prozessen dar, die durch Fragetexte angestoßen wurden
(vgl. Abbildung III.26). Die intervenierenden Prozesse sind mit Ausnahme gewis-
ser nonverbaler Indikatoren (z.B. Minenspiel), nicht extern beobachtbar, sondern
höchstens der internen Selbstbeobachtung des Befragten zugänglich. Extern be-
obachtbar sind in der Regel nur der in einem spezfischen Mode realisierte Fra-
getext und die in einem spezfischen Mode erzeugten Antworten. Was sich zwi-
schen Fragetext und Antwort im Befragten ereignet, stellt aus Sicht des externen
Beobachters/Forschers eine Black Box dar, die durch hyothetische Annahmen über
Inhalt und Struktur aufgefüllt werden kann. Diese Annahmen haben in der Regel
die Form psychologischer Hypothesen über Prozesse, die in der Regel weitere psy-
chologische Theorien wie z.B. Gedächtnistheorien und Theorien der Informations-
verabeitung heranziehen (siehe unten).
Welche Art von Prozessen, kognitive oder emotionale, unbewusste oder be-
wusste, involviert sind, hängt u.a davon ab, wie die Frage verstanden wird, d.h. wie
der Befragte den Fragetext interpretiert (zur Frage, inwieweit bewusste Gedanken
Verhalten beeinflussen können, vgl. Baumeister, Masicampo & Vohs, 2011). Er-
zeugt die Frage im Sinne von Austin’s perlokutionären Akten emotionale Reaktio-
nen wie Angst, Wut, etc. sind emotionale Erregungsprozesse zumindest Bestandteil
des Prozesses der Antworterzeugung.
Auch unter der Bedingung, dass der Fragetext im Fokus der Aufmerksamkeit
des Befragten steht, muss davon ausgegangen werden, dass durch die Bitte um
Beantwortung einer Frage interne Prozesse im Befragten angestoßen werden, in
denen auch Informationen verarbeitet werden, die nicht allein den Fragetext be-
treffen sondern weitere situative Informationen wie Informationen über Inter-
viewermerkmale und Interviewerverhalten, Interviewsituation, etc. und deren
Bewertungen durch den Befragten. Eingabeinformationen können weiterhin das
eigene Antwortverhalten bei vorangegangenen Fragen sein sowie Veränderungen
aller Art, die sich im Verlauf des Interviewprozesses ergeben haben. Es muss also
212 III.2 Von Fragen zu Antworten

damit gerechnet werden, dass die Eingabeinformationen zum Zeitpunkt des Stel-
lens einer Frage nicht nur extern beobachtete Merkmale umfassen, sondern intern
gespeicherte Informationen über den bisherigen Verlauf des Interviewprozesses
sowie möglicher Veränderungen der Interviewsituation. Erst unter diesen Annah-
men werden bestimmte Effekte wie Effekte des Kontextes der Fragebeantwortung
erklärbar.

Abbildung III.26: Erzeugung einer Frage-induzierten Antwort

Voraussetzung für eine Antwort des Befragten auf den Inhalt einer Frage und
die Bewältigung der im Fragetext formulierten Aufgabe (z.B. Erinnerung eines ver-
gangenen Ereignisses, Bildung einer Meinung, etc.) ist, dass der Fragetext wahrge-
nommen und inhaltlich interpretiert wurde. Schon die Interpretationsleistung, d.h.
die Entschlüsselung der Bedeutung des Fragetextes und nicht nur die Lösung der
Aufgabe, erfordert mannigfaltige mentale Operationen. Aus Sicht des Forschers ist
relevant, dass das Ergebnis der Interpretationsleistung, d.h. das Frageverständnis,
mit dem Verständnis des Forschers übereinstimmt, bzw. dass die im Fragetext be-
schriebene und vom Forscher vorgesehene Leistung auf der Basis des Textverständ-
nisses vom Befragten identifiziert werden kann und keine vom Verständnis des
Forschers abweichende Interpretation erfolgt. Im Anschluss an die Interpretation
des Fragetextes durch den Befragten, können Reaktionen des Befragten erfolgen,
die aus Sicht des Forschers unerwünschte Nebeneffekte darstellen. Zu diesen Wir-
kungen gehören etwa die Verweigerung einer Antwort oder Verschiebungen der
III.2 Von Fragen zu Antworten 213

Antwort aus verschiedenen Ängsten, Bedenken, etc. wie Angst for Sanktionierung,
Angst vor Selbstenthüllung, Angst vor negativer Beurteilung, etc. In diesen Fällen
wird der Prozess der Beantwortung u.U. gar nicht erst initialisiert und eine Ant-
wort erzeugt, die keine Lösung der gestellten Aufgabe darstellt. Solche Wirkun-
gen werden eventuell durch bestimmte Merkmale der Kommunikationsform wie
z.B. Anwesenheit des Interviewers oder Frageformulierungen verstärkt oder abge-
schwächt; d.h. sie können durch die mit der Frage verbundenen Kommunikations-
form und den Ausprägungen ihrer Dimensionen „Übertragungskanal“, „Adminis-
trationsform“ und „Technologie“ in positiver oder negativer Richtung moderiert
werden.
Das Bestreben muss selbstverständlich sein, alle Einflüsse, die nichts mit der In-
tention der Frage zu tun haben, zu minimieren bzw. auszuschalten und die mögli-
chen Einflüsse auf die vom Befragten erzeugte Antwort auf den Fragetext und seine
Bedeutung zu beschränken, da für die Beantwortung der Forschungsfragestellung
allein die Operationalisierung von Konstrukten durch Fragen/Items und ihren Be-
deutungen relevant sein sollte. Dennoch empfiehlt es sich, das Design der Umfrage
so zu gestalten, dass eine Kontrolle von Nebeneffekten möglich wird. Wenn z.B.
eine sensitive Faktfrage zur Häufigkeit sexueller Aktivitäten gestellt wird, so muss
der Forscher daran interessiert sein, eine Häufigkeitsangabe zu erhalten, die nicht in
Richtung eines sozial erwünschten Verhaltens verschoben ist. Für eine Forschungs-
fragestellung, welche die soziale Erwünschtheit nicht explizit zum Forschungsthe-
ma macht, sind sensitive Wirkungen, die zu Antwortverschiebungen und damit
zu Erhöhungen des Messfehlers führen, Nebeneffekte, die es zu minimieren oder
auszuschalten gilt. Um dies zu erreichen, können bestimmte Maßnahmen ergriffen
werden wie die Desensitivierung des Fragetextes oder die Wahl einer geeigneten
Kommunikationsform (siehe Teil II).
Durch Zuordnung von Zahlen zu den Antworten des Befragten nach bestimm-
ten Regeln werden aus den Antworten Messungen unterschiedlicher Qualität (zu
den Details siehe Abschnitt IV). Diese Zahlen können entweder direkt im Ant-
wortformat vorgesehen sein und daher direkt vom Befragen geäußert werden oder
erst nach gegebener Antwort nachträglich zugeordnet werden. Da die Antworten
von Prozessen im Befragten abhängen, kann davon ausgegangen werden, dass die
Art und Weise, wie diese Prozesse durchlaufen werden, nicht nur einen Einfluss
auf die Antwort, sondern auch auf die durch Zahlen repräsentierte Messung hat.
Aus der Tatsache, dass die im Befragten ablaufenden Prozesse auch vom physi-
schen Zustand des Befragten abhängen, wird klar, dass die physische Verfassung
des Befragten ebenfalls einen Einfluss auf die Messung haben kann. Die internen
Prozesse des Befragten stellen insofern wichtige Determinanten des Messfehlers
(siehe Abschnitt IV) dar.
214 III.2 Von Fragen zu Antworten

III.2.3 Der Antwortprozess

Die während der Beantwortung einer Frage im Befragten ablaufenden menta-


len Prozesse werden oft in dem in Abbildung III.27 dargestellten Modell des Ant-
wortprozesses zusammengefasst (vgl. Tourangeau 1984, 1987; Tourangeau, Rips &
Rasinski 2000). Der Antwortprozess stellt eine der zahlreichen Möglichkeiten dar,
die Blackbox zwischen Fragetext und geäußerter Antwort durch kognitonspsycho-
logische Hypothesen auszufüllen. Um eine Frage beantworten zu können, muss die
Frage zunächst wahrgenommen werden. Dabei stellt die akustische oder visuelle
Wahrnehmung eines Fragetextes eine Leistung des Befragten dar, die nicht immer
ohne geeignete Bewegungen des Körpers und die Funktionsfähigkeit jenes Wahr-
nehmungsorgans erbracht werden kann, das den Übertragungskanal kennzeichnet,
über den die Frage kommuniziert wird. So erfordert die visuelle Wahrnehmung
eines Textes bei selbst-administrierten Fragen die Fähigkeit zu lesen und dafür
bestimmte Blickbewegungen auszuführen (vgl. hierzu Jenkins & Dillman 1997).
Das Hören einer Frage am Telefon erfordert, dass das Telefon an das Ohr gehalten
werden kann, dass das Telefon in der durch die Klingeldauer vorgegebenen Zeit
erreicht werden kann etc. Diese Beispiele zeigen, dass die Leistung eventuell nicht
von allen Befragten erbracht werden kann, sofern nicht vorher eine Anpassung der
Kommunikationsform an die Leistungsfähigkeit der Befragten erfolgt ist.
An der Erzeugung einer Antwort sind neben den zur Erbringung der Interpre-
tationsleistung notwendigen kognitiven Prozessen des Sprachverstehens inkl. des
Abrufs syntaktischen (grammatikalischen), semantischen und pragmatischen Wis-
sens und des Aufbaus semantischer Repräsentationen weitere Prozesse beteiligt.
Dazu gehören (1) Prozesse der Informationsgewinnung einschließlich des Abrufs
von Erfahrungen und Erinnerungen, etc. sowie Prozesse der Ereignisdatierung,
(2) Prozesse der Urteilsbildung einschließlich der Auswahl von Entscheidungsal-
ternativen und Prozesse der Informationsintegration sowie (3) die Schätzung ein-
schließlich eventuell geforderter Berechnungen. Schließlich muss die Antwort for-
matiert und die formatierte Antwort geäußert werden. Ob die gefundene Lösung
(Antwort) tatsächlich geäußert wird oder nicht, muss als bewusste Entscheidung
des Befragten angesehen werden, der diese Entscheidung noch einmal auf dem
Hintergrund möglicher Nachteile für sich selbst überprüft, wozu insbesondere die
Konsequenzen für sein Selbstkonzept (vgl. den Überblick über Selbst und Identi-
tät von Leary, 2007) gehören. Das dargestellte Modell kann in mehrerer Hinsicht
weiter detailliert, modifiziert werden. So ist davon auszugehen, dass für die Lösung
der im Fragetext erforderlichen Aufgabe weitere spezifische mentale Prozesse wie
z.B. Schlussfolgerungsprozesse, oder auch beobachtbare Handlungen wie z.B. das
Heraussuchen einer Rechnung bei Fragen zum Stromverbrauch oder eines Vertrags
III.2 Von Fragen zu Antworten 215

bei Fragen zur gesundheitlichen Absicherung, etc. erforderlich sein können. Ferner
ist in der Spezifikation der Bestandteile des Antwortprozesses noch nicht festge-
legt, wie die dargestellten Prozesse ausgeführt werden (z.B. parallel oder sequenti-
ell) und wie die Abläufe aufeinander bezogen sind. Im Rahmen der „dual proces-
sing“-Ansätze (vgl. Kahnemann & Frederick 2002; Stanovich 1999; Evans 2008)
wird etwa zwischen automatisch ablaufenden und bewusst ablaufenden Prozessen
unterschieden. Eine solche Unterscheidung hätte z.B. Konsequenzen für Annah-
men über die Fähigkeit der Befragten, mentale Prozesse bewusst abzubrechen.
Die in der Beschreibung des Antwortprozesses zur Anwendung kommenden
kognitionspsychologischen Modellvorstellungen basieren auf dem Paradigma der
Informationsverarbeitung, das sich, nicht zuletzt befördert durch Entwicklungen in
der Linguistik, Informatik und in der kognitiven Psychologie durchgesetzt hat und
auch in der Umfrageforschung zur Erklärung des Befragtenverhaltens herangezo-
gen wird (vgl. Hippler, Schwarz & Sudman 1987; Schwarz 1997, 2007; Tourangeau
1984, Tourangeau et al. 2000). Gigerenzer (1991) hat die Bildung dieses Paradigmas
als Weg von Werkzeugen zu Theorien charakterisiert. Fortschritte im Bereich der
neurophysiologischen Forschung und des Neuroimaging legen außerdem neuro-
physiologische Beschreibungen des Antwortprozesses nahe (vgl. z.B. Crites et al.,
1995). Grundsätzlich kämen statt kognitionspsychologischer Erklärungen des Ant-
wortverhaltens auch andere Erklärungsparadigmen, etwa neobehavioristische Pa-
radigmen in Betracht.
Unter dem Informationsverarbeitungsparadigma wird vermutet, dass die er-
folgreiche Beantwortung einer Frage die Realisierung aller aller Abbildung III.22
dargestellten Schritte voraussetzt. Es kann allerdings davon ausgegangen werden,
dass, obwohl eigentlich notwendig, nicht immer und nicht unter allen Bedingun-
gen alle Schritte durchlaufen werden. Beispiele sind spontane Antworten ohne wei-
tere Überlegungen, z.B. als Konsequenz von inhaltsunabhängigen Antworttenden-
zen bzw. Antwortstilen wie etwa der Jasagetendenz oder der inhaltsunabhängigen
Wahl der Mittelkategorie (vgl. z.B. Vaerenbergh & Thomas, 2013). Auch zufällige
willkürliche Antworten sind ein Beispiel. Ob eine Frage ernsthaft beantwortet wird
und die zur Beantwortung erforderlichen Prozesse durchlaufen werden, ist leider
nicht eindeutig durch Beobachtung prüfbar und kann auch nicht aus den Kon-
versationsregeln und einer impliziten oder expliziten Kooperationsvereinbarung
zwischen Interviewern und Befragten abgeleitet werden, sondern wird vom For-
scher vielmehr nicht selten auf Grund vermuteter Umstände wie z.B. Nachlassen
der Konzentration am Ende eines längeren Interviews oder mangelnder Motivation
einfach unterstellt, wenn datenanalytische Befunde Hinweise darauf ergeben.
216 III.2 Von Fragen zu Antworten

Abbildung III.27: Modell des Antwortprozesses

Voraussetzung für das Durchlaufen des Antwortprozesses ist, dass der Versuch
unternommen wird, die Frage ernsthaft zu beantworten. Ob dies der Fall ist, lässt
sich an der Antwort auch dann nicht erkennen, wenn sie zulässig bzw. adäquat ist.
Die Zulässigkeit bzw. Adäquatheit einer Antwort, d.h. die beobachtete Überein-
stimmung der Antworten mit dem vorgegebenen Format ist zwar ein notwendiger,
aber nicht hinreichender Indikator für die Ernsthaftigkeit der Fragebeantwortung.
Hinreichend ist sie darum nicht, weil der Befragte eine adäquate Antwort geben
könnte, ohne dass ein erfolgreicher Lösungsversuch der im Fragetext beschriebe-
nen Aufgabe vorliegt und die in der Frage geforderte Leistung erbracht wurde (vgl.
Krosnick 1991; Krosnick & Alwin 1987).
Verschiedene Analysen des Problems der sog. Nonattitudes (vgl. Converse 1964)
zeigen, dass Befragte in Einstellungsfragen eine Meinung äußern, also eine adäqua-
III.3 Einflüsse auf das Antwortverhalten 217

te Antwort geben, auch wenn sie gar keine Meinung haben (vgl. auch Bishop, Ol-
dendick & Tuchfarber 1980; Krosnick et al. 2002). Auch andere Arten adäquater
Antworten werden eventuell nur deshalb gegeben, weil z.B. Nichtwissen verschlei-
ert werden soll. Andererseits zeigen Studien, dass die Wahl von in den Antwortvor-
gaben vorgesehenen „weiß-nicht“-Kategorien kein wirkliches Nichtwissen wider-
spiegelt, sondern auch dann erfolgt, wenn der Antwortprozess unvollständig oder
gar nicht durchlaufen wurde (weak oder strong satisficing, vgl. Abschnitt III.3.1.1).
Die formale Schematisierung des zwischen Frage und Antwort intervenieren-
den Antwortprozesses sollte nicht darüber hinwegtäuschen, dass das Stellen einer
Frage den Eintritt in die soziokulturell geprägte Lebenswelt des Befragten bedeutet,
und dass die Art und Weise ihres möglichen Einflusses auf den Antwortprozess
noch nicht voll verstanden ist.

III.3 Einflüsse auf das Antwortverhalten

III.3.1 Aspekte der Antwortqualität

III.3.1.1 Die Adäquatheit von Antworten

Antworten auf eine Frage können sich in ihrer Qualität unterscheiden. Eine Mi-
nimalvoraussetzung für eine gute Antwortqualität ist die, dass die verbale Reak-
tion des Befragten auf die Präsentation des Fragetextes einer der zulässigen Ant-
wortalternativen entspricht. Wir wollen die Reaktion in diesem Fall eine adäquate
Antwort nennen (zum Begriff der Adäquatheit vgl. auch Sykes & Collins, 1992).
Dagegen stellt die Reaktion eines Befragten eine nicht-adäquate Antwort dar, wenn
sie nicht zu den zulässigen Antwortalternativen gehört. Zu den nicht-adäquaten
Antworten können gerechnet werden:
218 III.3 Einflüsse auf das Antwortverhalten

• Fehlende Antworten durch Überlesen/Überhören von Fragen;


• Antwortverweigerungen;
• Nicht zu den zugelassenen Antwortalternativen gehörende Antworten wie
„weiß nicht (engl.: don’t know; kurz: DK)“, „keine Meinung (engl.; no opinion
bzw. „non attitude)“ oder „trifft nicht zu“;
• Ungenaue oder unvollständige Antworten (z.B. „prima“ statt „sehr gut“, vage
Antworten wie „ungefähr 10 Tage“), Rundungsfehler bei numerischen Anga-
ben;
• Spontane Kommentare statt einer Antwort (z.B. „Das ist aber eine schwierige
Frage“, „Die Frage verstehe ich nicht“, „Es ist unverschämt, mir eine solche Fra-
ge zu stellen“, etc.);
• Voreilige Antworten (Antworten, die sich nicht auf den vollständigen Fragetext
beziehen können, da der Befragte ihn gar nicht vollständig wahrgenommen
hat).

Bei einigen nicht-adäquaten Antworten wie z.B. ungenauen Angaben kann


durch den Einsatz neutraler Nachfragetechniken versucht werden, den Befragten
schließlich zu einer adäquaten Antwort zu bewegen und somit eine Korrektur der
Nicht-Adäquatheit zu erreichen (vgl. Prüfer & Stiegler, 2002). Die oben aufgeführ-
ten Arten nicht-adäquater Antworten beziehen sich nur auf geschlossene Fragen.
Bei offenen Fragen sollten die Angaben in einem sinnvollen Zusammenhang mit
der Frage stehen.
„Weiß nicht“-Alternativen beziehen sich auf Faktfragen. Bei ihnen wie auch
bei „keine Meinung“-Antworten ergibt sich die Frage, ob man sie explizit zulas-
sen soll, indem man eine entsprechende Kategorie als Antwortalternative ein-
führt oder nicht. Wird keine „Weiß nicht“-Kategorie vorgesehen, können solche
„weiß nicht“-Antworten nur spontan außerhalb der zulässigen Antwortalternati-
ven geäußert werden. Es gibt Hinweise, dass bei fehlender Aufnahme in die Men-
ge der zulässigen Antwortalternativen die Zahl der substantiellen Antworten bei
Fakt-Fragen steigt (vgl. Poe et al., 1988). Es gibt auch empirische Hinweise dafür,
dass die explizite Zulassung von „weiß nicht“-Antworten die Validität der Mes-
sungen reduziert und den Messfehler erhöht (vgl. Rodgers, Andrews & Herzog,
1992). DK-Antworten sind nicht nur von der Frage, sondern auch vom Befragten
abhängig. So haben Analysen gezeigt, dass Befragte, die DK-Antworten geben, eher
weiblich, weniger gebildet und eher älter sind sowie den niedrigeren Einkommens-
gruppen angehören (vgl. die Übersicht in Feick,1989). Feick (op. cit.) zeigt, dass die
Nichtberücksichtigung von DK-Antworten in statistischen Modellen zu inhaltli-
chen Fehlinterpretationen führen kann. Besondere Aspekte ergeben sich bei We-
bumfragen. Dort kann man entweder explizit eine DK-Option vorsehen oder aber
III.3 Einflüsse auf das Antwortverhalten 219

die DK-Alternative implizit durch eine „prompt“-Option realisieren, d.h. durch


einen eingestreuten Hinweis auf das Interesse an einer Antwort des Befragten und
die Möglichkeit, zur nächsten Frage überzugehen, wenn er keine Antwort geben
will und auf die vorherige Frage zurückzugehen, wenn er doch antworten will. Es
gibt empirische Hinweise dafür, dass man vollständigere Fragebögen erhält, wenn
man die „prompt“-Option wählt (vgl. DeRouvray & Couper, 2002).
„Weiß nicht“-Antworten bei Faktfragen entsprechen den „Keine Meinung“-Ant-
worten bei Einstellungsfragen. Bei „keine Meinung“-Antworten ist nicht immer
klar, was sie bedeuten. Genauso, wie es Befragte geben kann, die eine Meinung
äußern, ob wohl sie keine haben (engl.: non-attitude; vgl. Converse, 1964, 1970; für
empirische Nachweise vgl. Bishop et al., 1980; Schuman & Presser, 1981), ist auch
mit dem Gegenteil, d.h. mit falsch negativen Antworten zu rechnen; d.h. Befragte,
die keine Meinung äußern, haben doch eine Meinung (vgl. Gilljam & Granberg,
1993). Es gibt empirische Hinweise dafür, dass „keine Meinung“-Antworten über
die Zeit hinweg nicht stabil sind und daher eventuell bedeuten, dass die Meinung
unsicher ist (vgl. Duncan & Stenbeck (1988). Mit einer expliziten Vorgabe einer
„keine Meinung“-Option soll eigentlich verhindert werden, dass Befragte, die kei-
ne Meinung haben, sich weniger unter Druck fühlen, dennoch eine Meinung zu
äußern. Damit verbunden ist die Erwartung, dass eine Erhöhung der Validität der
Antworten erreicht wird. Wird eine solche Option angeboten, so scheint der Anteil
der „keine Meinung“-Antworten höher zu sein als der Anteil der freiwillig geäu-
ßerten Angabe „keine Meinung“ (vgl. z.B. Bishop, Oldendick & Tuchfarber, 1983).
Krosnick et al. (2002) haben die Wirkungen von unterschiedlichen Versionen
expliziter „keine Meinung“-Optionen experimentell unter dem Gesichtspunkt un-
tersucht, dass sie Befragte auch dazu einladen könnten, die zur Beantwortung der
Frage notwendigen kognitiven Prozesse abzukürzen oder gar nicht erst zu durch-
laufen. Sie fanden höhere Anteile von „keine Meinung“-Angaben bei Befragten mit
geringeren kognitiven Fähigkeiten, bei Befragten, die ihre Meinung nicht münd-
lich, sondern Selbst-administriert geben, bei Fragen, die erst spät im Interview
gestellt werden oder bei geringer Motivation. Diese Befunde sprechen dafür, dass
„keine-Meinung“-Äußerungen durch Satisficing und die Vermeidung von An-
strengung bei der Fragebeantwortung erklärt werden können und viele Befragte
dennoch eine Meinung haben. Die Befunde von Bishop, Oldendick & Tuchfarber
(1986) in Bezug auf fiktive Items, bei denen klar ist, dass es keine vorgefasste Mei-
nung geben kann, zeigen, dass ein bedeutender Anteil von Befragten eine Meinung
äußert, obwohl er objektiv keine Meinung haben kann.
Erklärungen für das Auftreten nicht-adäquater Antworten wie DKs können den
Einsatz nicht-statistischer, eher explorativer Methoden des kognitiven Interviews
220 III.3 Einflüsse auf das Antwortverhalten

erfordern wie spezifische Probing (Nachfrage)-Verfahren, mit denen untersucht


wird, wie der Respondent zu seiner Antwort gekommen ist (vgl. Alwin, 2014).

III.3.1.2 Messtheoretische Qualität der Antwort

Zentral für die Qualitätsbeurteilung einer Antwort auf eine Frage bzw. der Einstu-
fung eines Items sind die Gütekriterien der auf einer adäquaten Antwort beruhenden
Messung (zum Begriff der Messung und ihrer Gütekriterien der Validität und Reli-
abilität vgl. Teil IV; vgl. auch Alwin, 2007, 2011, 2014). Die Gütekriterien betreffen
vor allem die Rolle der Frage-Antwort-Dyaden als Indikatoren für die zu messen-
den Konstrukte. Grundsätzlich können aber auch nicht-adäquate Antworten eine
Validität und eine Reliabilität aufweisen. Nur messen sie in der Regel nicht die vom
Forscher intendierten Konstrukte. So können etwa Antwortverweigerungen Indi-
katoren für unterschiedliche Konstrukte der Sensitivität, das Konstrukt der sozi-
alen Erwünschtheit, die physische Konstitution, die Konzentrationsfähigkeit, etc.
messen, oder auch das Ausmaß des Vorbehalts bzw. der Widerwilligkeit gegen die
Inhalte der Studie insgesamt. Ähnliches gilt für die übrigen Typen nicht-adäquater
Antworten. Voreilige Antworten können auf bestimmte habitualisierte Verhaltens-
weisen hindeuten, die auch in anderen kommunikativen Situationen des Alltags
beobachtbar wären und somit eher Indikatoren für Persönlichkeitsmerkmale wä-
ren.
Optimale Reliabilität hätte eine Antwort auf eine Frage dann, wenn sie als beob-
achtete Messung nicht vom wahren Wert abweicht, also in Bezug auf den wahren
Wert keine Verzerrung beinhaltet. Beispiele für Messfehler bei kategorialen Mes-
sungen und kategorialen wahren Werten sind Fehlklassifikationen (engl.: misclassi-
fications) bzw. falsche Einordnungen von Antworten in Kategorien (z.B. Fehler bei
der Einordnung des Nettoeinkommens in vorgegebene Einkommenskategorien).
Bei metrischen Skalen besteht der Messfehler in quantitativen Abweichungen vom
wahren Wert auf einer Antwortdimension wie Verschiebungen von Zufrieden-
heitsurteilen, Zustimmungsurteilen, etc. Eine mögliche negative Folge des Mess-
fehlers besteht in einer Gefährdung der Umfragequalität durch seinen Einfluss auf
die Parameterschätzungen (vgl. z.B. Sakshaug, Yan & Tourangeau, 2010).
Ist eine Antwort adäquat, so lässt sich ihre messtheoretische Qualität in der Re-
gel für den einzelnen Fall nicht beurteilen. Erst in der statistischen Analyse des
Datensatzes kann sich eventuell ergeben, dass adäquate Antworten auf eine Fra-
ge eine mangelnde Reliabilität und Validität aufweisen. Werden die Axiome der
klassischen Mess- bzw. Testtheorie unterstellt (vgl. Teil IV), so lässt sich der Mit-
telwert der beobachteten Werte in der Stichprobe als Schätzer für den Mittelwert
III.3 Einflüsse auf das Antwortverhalten 221

der wahren Werte in der Population verwenden. Im Rahmen eines entsprechenden


Auswertungsdesigns kann der Mittelwert einer beobachteten Variablen als „grand
mean“ betrachtet werden, von denen Gruppenmittelwerte wie z.B. Interviewer-spe-
zifische Mittelwerte, d.h. Mittelwerte der Messungen innerhalb eines Interviewers,
mehr oder weniger stark abweichen können. Solche Analysen können eingesetzt
werden, um Effekte von Einflussfaktoren wie Interviewern auf den Mittelwert der
wahren Messungen zu untersuchen.
Eine wichtige Voraussetzung für die messtheoretische Qualität ist neben dem
Vorliegen einer adäquaten Antwort die, dass die Antwort die beobachtete Konse-
quenz eines ernsthaften Versuchs ist, die im Fragetext formulierte Aufgabe zu lösen
und zu kommunizieren. Dies ist die Voraussetzung dafür, dass die Antwort aus
Sicht des Befragten die bestmögliche Antwort, eventuell sogar eine wahre Antwort
darstellt.
Ob dies der Fall ist, lässt sich nicht allein auf Basis des Merkmals der Adäquatheit
oder statistischer Analysen der Gütekriterien beurteilen. Zwar stellen nicht-ad-
äquate Antworten wie z.B. Antwortverweigerungen offensichtliche Beeinträchti-
gungen der Qualität dar. Jedoch kann sich hinter mancher adäquaten Antwort wie
z.B. einer Meinungsäußerung oder der Nennung eines Faktums statt einer vorhan-
denen Meinung oder vorhandenen Wissens Meinungslosigkeit, Nichtwissen, etc.
verbergen, die der Befragte nicht zugeben will. In diesem Fall mag der Befragte sich
weigern, die wahre Antwort mitzuteilen, obwohl sie möglich gewesen wäre.
Das Problem der Qualitätsbewertung einer Antwort ist eben nicht so sehr die
offen erkennbare Nicht-Adäquatheit, sondern eher scheinbar zulässige, aber den-
noch fehlerhafte Angaben. Ein Beispiel hierfür sind Rundungsfehler (engl.: rounding
errors) bei Schätzungen (vgl. Huttenlocher, Hedges & Bradburn, 1990), die zwar
zulässige Werte darstellen, aber dennoch verzerrt sind. Weitere Beispiele sind die
oben bereits erwähnten Antworten als Ausdruck von Verhaltensregelmäßigkeiten
und Verhaltensgesetzmäßigkeiten. Beispiele sind neben den oben erwähnten Bei-
spielen auch sog. Telescoping-Effekte, die bei Erinnerungsaufgaben auftreten kön-
nen (vgl. Neter & Waksberg 1964) So können Ereignisse als näher am Datum des
Interviews liegend (engl.: forward telescoping) oder ferner als am Datum des Inter-
views liegend (backward telescoping) erinnert werden. Ereignisse können irrtüm-
licherweise außerhalb einer Referenzperiode liegend (engl.: external telescoping)
oder innerhalb einer Referenzperiode liegend (engl.: internal telescoping) datiert
werden. Diese Fehler werden umso größer, je weiter ein Ereignis zurückliegt. In
jedem Fall werden die Genauigkeit und auch die Zuverlässigkeit der gelieferten
Information beeinträchtigt.
222 III.3 Einflüsse auf das Antwortverhalten

III.3.2 Leistungsanforderungen, Leistungsvermögen und Leis-


tungsbereitschaft

Das Antwortverhalten und die Qualität einer Antwort werden maßgeblich durch
die Aspekte „Leistungsanforderungen“, „Leistungsfähigkeit“ und „Leistungsbereit-
schaft“ (auch: „Leistungsmotivation“) sowie die mit ihnen zusammenhängende in-
dividuelle Arbeitsbelastung mitbestimmt. Wie bereits an früherer Stelle mehrfach
erwähnt, beschreibt jeder Fragetext eine Aufgabe, die vom Befragten bewältigt
und einer Lösung zugeführt werden muss. In einem dem Paradigma der Infor-
mationsverarbeitung folgenden Modell des Antwortprozesses werden die dafür er-
forderlichen mentalen Teilleistungen spezifiziert, die je nach Aufgabe und je nach
Befragtem unterschiedlich ausgeführt werden, indem unterschiedliche Informati-
onen, z.B. unterschiedliche Gedächtnisinhalte, abgerufen werden, unterschiedliche
Bewertungen vorgenommen werden und unterschiedliche Urteile gebildet werden.
Jede Frage stellt für die Befragten eine Aufforderung zur Erbringung einer Leis-
tung dar, die zu einer Antwort aus der Menge der Antwortalternativen führt und in
deren Ernsthaftigkeit der Forscher Vertrauen investiert. Je nach Komplexität der zu
erfüllenden Aufgabe stellt eine Frage mehr oder weniger hohe Anforderungen an
die zu erbringende Leistung. Die Art der im Fragetext beschriebenen Leistung be-
stimmt auch, ob die vom Forscher intendierte Leistung überhaupt erbracht werden
kann. So darf angenommen werden, dass die Antwortqualität auch eine Funktion
der Diskrepanz zwischen den Leistungsanforderungen der Frage und den Leis-
tungen ist, die der Befragte tatsächlich erbringt bzw. überhaupt erbringen kann.
Welcher Leistungsanteil an den Leistungsanforderungen realisiert wird, hängt ei-
nerseits vom grundsätzlichen Leistungsvermögen, andererseits von der Leistungs-
bereitschaft ab, d.h. von der Bereitwilligkeit und Motivation, die erforderlichen
Leistungen, soweit es das grundsätzliche Leistungsvermögen zulässt, zu realisieren.
Die für die Beantwortung einer Frage zu erbringenden Leistungen lassen sich in
drei Leistungsarten zerlegen:

• die Interpretationsleistung, d.h. das Verstehen der im Fragetext formulierten


Aufgabe;
• die zur Lösung der im Fragetext beschriebenen Aufgabe zu erbringenden Leistung;
• die zur Formatierung und Äußerung der Antwort zu erbringenden Leistungen
(z.B. verbale Fähigkeit, Handhabung des Antwortformats).

Diese Leistungen können entsprechend der Stufen des Antwortprozesses (vgl.


Abbildung III.22) noch einmal ausdifferenziert werden. Jede Frage stellt beson-
dere Anforderungen an die Interpretationsleistung, die zur Lösung der Aufgabe
III.3 Einflüsse auf das Antwortverhalten 223

erforderlichen Leistungen und die zur Formatierung und Äußerung der Antwort
notwendigen Leistungen. Sie trifft zu einem bestimmten Befragungszeitpunkt an
einer wohl definierten Stelle im Interview auf einen Befragten, der sich in einem
in der Regel dem Forscher nicht bekannten physischen, psychischen und sozio-
kulturellen Zustand befindet. Dieser bestimmt die Leistungsfähigkeit sowie die
Leistungsbereitschaft zu diesem Zeitpunkt. In Bezug auf jede für die Erfüllung der
Interpretationsleistung und der für die Lösung der im Fragetext beschriebenen
Aufgabe geforderten Teilleistungen kann das Leistungsvermögen auf Grund orga-
nischer, psychischer und/oder sozialer Bedingungen beeinträchtigt sein, die durch
Veranlagung, Krankheit. altersbedingten organischen Abbau und Sozialisation
einschließlich der sozialen und kulturellen Lernprozesse verursacht sein können.
Aber auch die Anstrengungen durch jenen Teil des Interviews, der vor einer Fra-
ge liegt könnten die Leistungsfähigkeit zu diesem Zeitpunkt beeinträchtigen. Geht
man von einer gewissen Verbreitung leicht oder schwer dementer Personen in der
Bevölkerung aus, die noch selbstständig zuhause leben, wird man stets auch einen
Anteil solcher Personen als Befragte in einer allgemeinen Bevölkerungsumfrage
wiederfinden.
Betroffen sein können die zum Verstehen notwendige Fähigkeit, semantisches
und syntaktisches Wissen aus dem Gedächtnis abzurufen, Fähigkeiten zur Zwi-
schenspeicherung von Informationen im Kurzzeitgedächtnis, der Abruf von Daten
aus dem autobiographischen Gedächtnis (siehe Schwarz & Sudman 1993; Park &
Schwarz 2000). Solche Fähigkeiten können durch verschiedene Faktoren wie Al-
ter und durch den Forscher und die Administratoren nicht feststellbare Demenz,
Krankheit, etc. eingeschränkt sein (zu den möglichen neurophysiologischen Ein-
schränkungen im Alter vgl. die entsprechenden Beiträge in Park & Schwarz ebda).
Nachlassende kognitive Fähigkeiten können dazu führen, dass vorgegebene Ant-
wortkategorien nicht im Gedächtnis gespeichert werden können, mit der Folge von
„Primacy“- und „Recency“-Effekten (siehe unten).
Grundsätzlich kann es zum Zeitpunkt des Stellens einer Frage zu einem Missver-
hältnis zwischen den Leistungsanforderungen der Frage und der tatsächlich erbrach-
ten Leistung kommen. Dieses Missverhältnis kann entweder dadurch entstehen,
dass die Leistungsanforderungen der Frage im Verhältnis zum Leistungsvermögen
des Befragten zum Zeitpunkt der Frage zu hoch sind oder dass die erbrachte Leis-
tung nicht ausreichend ist. Sind die Leistungsanforderungen der Frage hoch, so
können Überforderung und Belastung (engl.: work load) mit der Folge nachlassender
Konzentration des Befragten die Folge sein. Auch wenn die Leistungsanforderun-
gen erfüllbar wären, kann es auf Grund mangelnder Leistungsmotivation zu einem
nachlässigen Antwortverhalten kommen. Motivationsdefizite können u.a. durch
mangelndes Interesse am Inhalt der Frage oder am Thema der Umfrage bedingt
224 III.3 Einflüsse auf das Antwortverhalten

sein. Aber auch die Widerwilligkeit der Befragten, überhaupt am Interview teilzu-
nehmen, lässt, wie Analysen der Antwortqualität bei Befragten zeigen, die nur mit
großem Aufwand zur Teilnahme überredet werden konnten, Motivationsdefizite
erwarten, die zu nachlässigem Antwortverhalten führen und die Antwortqualität
reduzieren (vgl. z.B. Fricker & Tourangeau, 2010; Olson, 2013). Die Auswirkungen
der Widerwilligkeit (engl.: reluctance) werden im Abschnitt über Maßnahmen zur
Reduktion von Unit-Nonresponse detaillierter besprochen (siehe Teil VII).
Bei Ermüdung durch Belastungen, nachlassende Konzentration, mangelnde
Motivation, oder aber auch auf Grund von habitualisierten Verhaltensweisen, be-
steht die Gefahr, dass Befragte zu bestimmten Antwortstrategien (auch: Antwortsti-
le, Antworttendenzen; engl.: response strategies oder response styles) übergehen (vgl.
z.B. Vaerenbergh & Thomas, 2013; Kieruj & Moors, 2010). Beispiele sind:

• Inhaltsunabhängige Zustimmungstendenz (Akquieszenz; engl.: acquiescence);


• Ratetendenz, d.h. zufällige Auswahl einer Antwort;
• Bevorzugung bestimmter Kategorien (Extremkategorien, Mittelkategorie);
• Bevorzugung von Geschwindigkeit vor Genauigkeit (vgl. z.B. kürzere Antwort-
zeiten bei Jüngeren in Web Surveys, vgl. Zhang & Conrad, 2013)
• Primacy- und Recency-Effekte (Nennung der ersten oder letzten Antwortal-
ternative);
• Straightlining: Ankreuzen der immer gleichen Antwort.

Auch andere Strategien wie regelmäßiger Wechsel zwischen verschiedenen Ska-


lenwerten („Nun habe ich zwei Mal eine 1 gewählt, also wähle ich zur Abwechs-
lung mal eine 2) sind möglich. Mit nachlassender Motivation, Konzentration oder
Ermüdung auf Grund von Belastungen durch zahlreiche vorangegangene Fragen
kann die Durchführung der geforderten Leistungen bzw. der zur Erfüllung der Auf-
gabe notwendigen mentalen Aktivitäten ganz oder teilweise unterbleiben. Krosnick
(1991, 1999) hat für diesen Effekt den Ausdruck satisficing eingeführt. Darunter ist
die Neigung der Befragten zu verstehen, zur Beantwortung der Frage notwendige
kognitive Prozesse abzukürzen oder ganz einzustellen. Von schwachem satisficing
(weak satisficing) kann gesprochen werden, wenn Befragte einen Teilprozess des
Antwortprozesses abkürzen, von starkem satsificing (strong satisficing), wenn ein
Teilprozess (z.B. retrieval) vollständig übersprungen wird. Satisficing tritt vor allem
bei geringer Motivation oder Motivationsverlust, bei Ermüdung, bei schwierigen
Fragen und Aufgaben oder, damit zusammenhängend, bei mangelnder Fähigkeit
auf. Ein Grund kann z.B. ein sehr langes Interview sein, in dessen Verlauf die Per-
sonen auf Grund der Belastung zunehmend ermüden und die Motivation verlieren.
III.3 Einflüsse auf das Antwortverhalten 225

Ein Verlust der Leistungsmotivation (engl.: achievement motivation) kann zu einer


Leistungsminderung oder sogar zu einer Leistungsverweigerung führen.
Eine allgemeine Bevölkerungsumfrage, die alle Alters- und Bildungsgruppen
einbezieht, muss mit alters- und bildungsbezogenen physischen und kognitiven
Leistungsminderungen rechnen. Das Nachlassen kognitiver Fähigkeiten wie die
frühzeitig nachlassende Funktionsfähigkeit des Kurzzeitgedächtnisses und der
Rückgang der Fähigkeit, komplexe Sachverhalte zu verstehen sind Phänomene, mit
denen in einer allgemeinen Bevölkerungsumfrage gerechnet werden muss, wobei
diese Phänomene in ihren Auswirkungen durch verschiedene Faktoren wie Kom-
munikationsformen und situative Bedingungen moderiert sein können. Analysen
von Krosnick et al. (2002) zeigen, dass mangelnde kognitive Fähigkeiten bei Be-
fragten, die anonym statt dem Interviewer gegenüber mit Stimme antworten, zu
einer Steigerung der „no opinion“-Antworten führen und dass dies eher der Fall ist,
wenn die Fragen später im Interview gestellt werden und wenn die Befragten sich
weniger anstrengen, die Frage zu beantworten. Analysen von Holbrook, Green &
Krosnick (2003) ergaben ein höheres Ausmaß an Satisficing bei Telefonumfragen,
dokumentiert durch eine stärkere Jasage-Tendenz. Auch ein weniger starkes En-
gagement der Befragten bei Telefonumfragen war in der Studie zu beobachten. Als
eines ihrer zentralen Ergebnisse halten die Autoren fest, dass Satisficing bei Telefo-
ninterviews, besonders bei weniger Gebildeten, stärker auftritt als bei Face-To-Fa-
ce-Interviews. Auch wenn die Effekte eher gering ausfielen, schienen Telefon-Be-
fragte argwöhnischer, weniger kooperativ und weniger an der Umfrage interessiert.
Auch mangelndes Interesse kann sich im Verlauf des Interviews steigern und zu
einer verminderten Datenqualität bis zum Abbruch führen, wie Galesic (2006) bei
Webinterviews herausfand.
Da das Leistungsvermögen mit steigendem Alter im Durchschnitt der Bevölke-
rung abnimmt und auf Grund des demographischen Wandels mit einer Zunahme
des Anteils älterer Personen zu rechnen ist, wird der Anteil von Befragten mit ent-
sprechenden kognitiven und physischen Einbußen weiter ansteigen.
Die unterschiedlichen Ausprägungen möglicher Leistungsunterschiede in der
Bevölkerung müssen als eine der zahlreichen möglichen Ursachen unbeobachteter
Heterogenität betrachtet werden. Dazu gehören auch unterschiedlich ausgeprägte
Fähigkeiten. Es ist davon auszugehen, dass dieses Vermögen in Teilgruppen der
Gesellschaft unterschiedlich ausgeprägt und über Beobachtung nicht feststellbar
ist. Dessen Einfluss wird wiederum moderiert durch Merkmale der Kommunika-
tionsform, in der die Frage gestellt wird. So hängt die Beantwortung von Fragen in
Selbst-administrierte Befragungsarten mehr oder weniger von der Schreib- und
Lesefähigkeit ab, die in allen Bevölkerungsgruppen ähnlich stark ausgeprägt ist.
Ähnliches gilt für andere Merkmale der Sprachkompetenz wie die Fähigkeit, die
226 III.3 Einflüsse auf das Antwortverhalten

Bedeutung von Worten zu erkennen. So könnte eine Frage Begriffe enthalten, die
nur im Rahmen einer Gymnasialausbildung gelernt werden können oder nur in
Familien mit einem entsprechenden soziokulturellen Kontext.
Grundsätzlich ließe sich das Ausmaß der durch unterschiedliche Leistungsfä-
higkeit bedingten unbeobachteten Heterogenität wie bei anderen Merkmalen auch,
im Rahmen von Mischverteilungsmodellen statistisch analysieren und schätzen
(zur Anwendung von Mischverteilungsmodellen vgl. z.B. Arminger & Stein, 1997;
Faulbaum & Stein, 2000).

III.3.3 Sensitive Wirkungen von Fragetexten

III.3.3.1 Formen sensitiver Wirkungen

In Abschnitt III.1 hatten wir Fragen als Sprechhandlungen definiert, die auf unter-
schiedliche Weise ausgeführt werden können. Jede konkrete Realisation einer Fra-
ge ist untrennbar mit einer bestimmten Formulierung (question wording), einem
bestimmten Mode, d.h. einer bestimmten Administrationsform, einem bestimm-
ten Übertragungskanal und einer bestimmten Technologie sowie deren Merkma-
len verbunden. Außerdem ist eine konkrete Ausführung nicht unabhängig von der
konkreten Ausgestaltung der Äußerungen von Fragen zu sehen, die im Fall der
Interviewer-Administration stimmlich gestaltet sind und im Fall der Selbst-Admi-
nistration mit einem bestimmten Layout verbunden ist.
Es gibt in der einen oder anderen Kommunikationsform vorgetragene Frage-
oder Itemtexte, die mitunter sensitive Wirkungen im Befragten erzeugen und damit
das Antwortverhalten in bestimmter Weise beeinflussen. Fragen, die oft sensitive
Wirkungen erzeugen können, werden auch als sensitive Fragen/Items bezeichnet. Es
gibt ferner spezifische Zielpopulationen, bei denen von vornhinein angenommen
werden muss, dass sie auf bestimmte Fragen sensitiv reagieren. Ein Beispiel hierfür
sind Opfer- bzw. Viktimisierungsstudien (vgl. Lynch, 1993; Skogan, 1986). Ein Bei-
spiel für einen Viktmisierungssurvey ist der National Crime Victimization Survey
(NCVS) des amerikanischen Bureau of Justice Statistics (www.bjs.gov/).
Sensitive Fragen sind nicht nur in der Lage, die Antwortqualität in Form
nicht-adäquater Antworten, sondern auch den Messfehler und die inhaltliche
Validität beeinflussen (vgl. den Überblick von Tourangeau & Yan, 2007). Linguis-
tisch betrachtet, stellt eine sensitive Frage einen perlokutionären Akt dar, d.h. eine
Sprechhandlung mit mehr oder weniger starken nicht-konventionellen Wirkungen
wie „erschrecken“, „demütigen“, „bedrohen“ etc. Mitentscheidend für die sensitive
III.3 Einflüsse auf das Antwortverhalten 227

Wirkung ist, dass der Befragte dem Fragetext eine sensitive Deutung gibt. Schon auf
Grund der unterschiedlichen Bedeutungswahrnehmung kann eine Frage auf Be-
fragte in unterschiedlichem Ausmaß sensitiv wirken. Obgleich verbindliche Indi-
katoren für die Sensitivität einer Frage schwer zu präzisieren sind, können folgende
Arten von Fragen als sensitiv angesehen werden:

• Fragen, die zu sozial erwünschten (engl.: socially desirable) Antworten führen;


• Fragen, welche die Privatheit (engl.: privacy) der Befragten bedrohen;
• Fragen, die ein Risiko zur Enthüllung (engl.: disclosure) gegenüber Dritten bein-
halten (vgl. hierzu Tourangeau, Rips & Rasinski 2000).

Eine Antwort auf eine Frage ist dann sozial erwünscht, wenn sie vom Befragten
unter Berücksichtigung der Normen seiner Bezugsgruppe gegeben wird (zur De-
finition der sozialen Erwünschtheit vgl. DeMaio 1984; Edwards 1957; Hartmann
1991, Krebs 1987). Eine der im Zusammenhang mit der sozialen Erwünschtheit
viel diskutierte Frage ist die, ob die Tendenz, sozial erwünscht zu antworten, eine
stabile Persönlichkeitseigenschaft, also eher einen „Trait“ darstellt (vgl. Crowne &
Marlowe, 1964), oder ob sie eine item-spezifische, eher temporäre Reaktion be-
stimmter Respondenten auf bestimmte Fragen darstellt, also eher eine Strategie,
mit den Inhalten der Frage umzugehen. Paulhus (2002) unterscheidet zwischen
Antwortstilen im Sinne eines über Fragebögen und Zeiten hinweg konsistenten
Antwortverhaltens und einer temporären, aus der augenblicklichen Motivation
entstandenen Antworttendenz (engl.: response set). Detailliertere Analysen haben
Hinweise auf eine differenziertere Zusammensetzung des Konstrukts der sozialen
Erwünschtheit ergeben wie z.B. die Neigung, eigene Fehler zuzugeben, oder „mo-
ralistischen Bias“ in Sinne eines übertriebenen Gefühls für die eigenen moralischen
Qualitäten (vgl. Paulhus, 2002).
Beispiele für Fragen, welche die Privatheit bedrohen sind Fragen wie z.B. die
Frage nach dem Einkommen oder die Frage, welche Partei man wählen würde,
wenn am nächsten Sonntag Wahl wäre (Sonntagsfrage). Das Risiko zur Enthüllung
gegenüber Dritten ist gegeben, wenn Befragte die Gefahr sehen, dass ihre Antwort
an Dritte weitergeben wird. Der Dritte kann der Interviewer sein, anwesende dritte
Personen oder Organisationen (z.B. bei Mitarbeiterbefragungen).
Es gibt zahlreiche Hinweise für sensitive Wirkungen von Fragen, insbesondere
von Fragen nach dem Einkommen, Alkohol und illegalem Drogengebrauch oder
nach der Sexualität auf das Ausmaß an Item Nonresponse (vgl. Tourangeau et al.
1997). Auch bewusst falsche Angaben sind bei sensitiven Fragen zu erwarten (vgl.
Jobe et al. 1997). Dies belegen auch Studien zum „Overreporting“ und „Under-
reporting“ von Ereignissen, bei denen absichtlich falsche Tatsachenbehauptungen
228 III.3 Einflüsse auf das Antwortverhalten

vorliegen. Das Phänomen des „Overreporting“ betrifft den Sachverhalt, dass Per-
sonen Ereignisse und Verhaltensweisen berichten, die nicht stattgefunden haben.
Man findet dieses Verhalten verstärkt bei Nichtwählern in Bezug auf die Fragen
nach der Teilnahme an politischen Wahlen. So besteht bei Nichtwählern offen-
sichtlich die Tendenz, statt ihrer tatsächlichen Nichtteilnahme eine Teilnahme zu
berichten (vgl. Belli et al., 1999; Bernstein, Chadha & Montjoy, 2001). Als Ursachen
werden „soziale Erwünschtheit“ und der Versuch, das Gesicht zu wahren, genannt.
Dies Verhalten tritt scheinbar eher bei gebildeteren und religiöseren Personen auf.
„Overreporting“ stellt eine Gefährdung der Reliabilität dar, weil es zu einer Ab-
weichung der beobachteten Antwort vom wahren Wert führt. Es kann aber die
intendierte Validität betreffen, weil es dazu führt, dass andere als die vom Forscher
intendierten Konstrukte gemessen werden. So intendiert der Forscher die Messung
der Bereitschaft zur Teilnahme an Wahlen, de facto misst er aber die soziale Er-
wünschtheit.
Holbrook und Krosnick (2010) kommen in ihrer Analyse des „Overreportings“
bei Nichwählern ebenfalls zu dem Schluss, dass es sich dabei um sozial erwünschte
Antworten handelt, indem sie eine Fragetechnik anwendeten, die es den Befragten
erlaubte, ihre Antworten anonym zu geben. Die Anwendung dieser Technik, der
sog. „Item-Response“-Technik (siehe unten) führte zur Feststellung einer gerin-
geren Wahlbeteiligung im Vergleich zu einer Wahlbeteiligung, die durch direkte
Fragen erhoben wurde. Zu ähnlichen Ergebnissen kommen auch Comşa und Pos-
telnicu (2013).
Auch das Gegenteil von „Overreporting“, das „Underreporting“, stellt ein Beispiel
für mangelnde Reliabilität und Validität dar. Ein Beispiel ist das „Underreporting“
von Abtreibungen (vgl. Peytchev, Peytcheva & Groves, 2010). Erklärt werden könn-
te das Verhalten durch Angst vor sozialer Stigmatisierung. Peytchev, Peytcheva und
Groves fanden Hinweise dafür, dass „Underreporting“ mit der Teilnahmebereit-
schaft zusammenhängen könnte. Personen mit geringerer Teilnahmebereitschaft
berichteten weniger Abtreibungen. Ein Beispiel für die Interaktion von Befragten
und dem Kontext der Befragung kann in dem Befund der Autoren gesehen wer-
den, dass nach Beseitigung der Befragten-Interviewer-Interaktion die Anzahl der
berichteten Abtreibungen anstieg.
Einige Studien belegen den Einfluss von Persönlichkeitsmerkmalen auf die Nei-
gung, sozial erwünscht zu antworten. So fand z.B. Stocké in seiner Analyse (vgl.
Stocké, 2004), dass sozial erwünschte Antworten vor allem dann zu erwarten ist,
wenn ein Bedürfnis nach Anerkennung vorliegt und der Befragte auf Grund der
Wahrnehmung der Inhalte seiner Antworten Sanktionen befürchten muss. Saks-
haug, Yan und Tourangeau (2010) fanden in einer Umfrage unter Alumni mit Fra-
gen zur akademischen Leistung, dass der Nonresponse-Fehler (zum Begriff "Non-
III.3 Einflüsse auf das Antwortverhalten 229

response-Fehler" vgl. Teil VII) eher Items mit sozial erwünschten Inhalten betraf,
während Items mit unerwünschten Inhalten eher vom Messfehler betroffen waren.
Letzterer machte dort den größten Anteil am gesamten Schätzfehler aus (vgl. Saks-
haug, Yan & Tourangeau, 2010, p. 931). Eine Abschätzung des Messfehlers war in
dieser Studie möglich, weil auf die wahren Angaben zugegriffen werden konnte.
Die Schätzung des totalen Nonresponse-Bias basierte auf dem Vergleich zwischen
der Ausgangsstichprobe und den von Item zu Item variierenden Substichproben,
die auf die Fragen geantwortet hatten. Der Effekt, dass der Anteil des Nonrespon-
se-Fehlers bei neutralen und sozial erwünschten Fragen den Beitrag des Messfeh-
lers überstieg, kann eventuell darauf zurückgeführt werden, dass Personen, die zur
sozial erwünschten Gruppe gehören, eher geantwortet haben.
Die beschriebenen sensitiven Effekte stellen in Bezug auf die Forschungsfrage-
stellung in der Regel unerwünschte und manchmal nicht intendierte Nebeneffekte
dar. Sie führen zu einer Gefährdung der inhaltlichen Validität. Reagieren Befrag-
te auf bestimmte Fragen sensitiv, so besteht die Gefahr, dass mit der Frage nicht
das vom Forscher intendierte Konstrukt, sondern ausschließlich oder zusätzlich
ein anderes Konstrukt wie z.B. „Soziale Erwünschtheit“ gemessen wird bzw. dass
die ursprünglich für die Messung eines bestimmten Konstrukts vorgesehenen In-
dikatoren auch oder ausschließlich Indikatoren eines anderen Konstrukts sind. Nur
in einem entsprechend geplanten Umfragedesign lassen sich Effekte der beiden
Konstrukte auf die beobachteten Indikatoren voneinander getrennt schätzen, so
dass man das Ausmaß beurteilen kann, indem das Konstrukt der „Sozialen Er-
wünschtheit“ die Fragen/Items beeinflusst. So kann etwa eine Skala der „Sozialen
Erwünschtheit“ explizit in den Fragebogen aufgenommen werden, so dass diese als
Kontrollvariable in statistische Modelle eingeführt werden kann.
Ob es zu einer sensitiven Wirkung kommt, hängt nicht allein am sensitiven In-
halt einer Frage, sondern auch davon ab, welche Kommunikationsform gewählt
wird (vgl. Abschnitt III.3.4) und ob sich Befragte auf die Anonymität verlassen
können (vgl. Himmelfarb & Lickteig, 1982; Paulhus, 1984; Warner, 1965). Die Be-
fragten sollten auch sicher sein, dass sich die Forscher nicht auf anderem Wege
Zugang zu privaten Informationen verschaffen (vgl. Evans, Hansen & Mittlemark,
1977). Sensitive Wirkungen können auch durch die Aufmerksamkeit steigernde
Bemerkungen (eng. warnings) wie z.B. „Ihre Antworten sind anonym“ oder „Wir
akzeptieren nur Teilnehmer, die den Text aufmerksam gelesen haben“ verstärkt
werden (vgl. Clifford & Jerit, 2015).
230 III.3 Einflüsse auf das Antwortverhalten

III.3.3.2 Instrumente zur Reduktion sensitiver Wirkungen

Die vom Befragten im Standardverlauf eines Interviews geforderten Aufgaben be-


stehen in der der Beantwortung von Fragen. Es kann aber durchaus Gründe ge-
ben, von diesem Vorgehen abzuweichen und andere Formen der Aufgabenstellung
zu wählen, um eine Verbesserung der Parameterschätzungen zu erhalten, die auf
Grund von zu erwartenden Antworttendenzen durch Verzerrungen grundsätzlich
bedroht sind. Solche Verzerrungen sind z.B. bei der Erhebung sensitiver Informati-
onen zu erwarten. Um Verzerrungen dieser Art, die durch Antwortverweigerungen
oder auch durch Tendenzen entstehen können, Antworten in Richtung auf die Ein-
haltung sozialer Normen zu verschieben, zu reduzieren, gibt es einerseits die Mög-
lichkeit, die Frageformulierungen anzupassen. Andererseits aber kann man sich
überlegen, ob es nicht andere Aufgaben geben kann, die vom Befragten als weniger
sensitiv wahrgenommen werden und die auf Grund statistischer Überlegungen zu
weniger verzerrten Schätzern der Parameter führen können. Zu den alternativen
Techniken, sensitive Wirkungen durch spezielle Erhebungstechniken abzuschwä-
chen, sollen hier angesprochen werden:

• Randomized Response Technique (RRT) mit den Varianten:


Trianguläres Modell (engl.: triangular model),
Kreuzweises Modell (engl.: crosswise model),
• die Itemzähltechnik (engl.: item count technique).

Randomized Response Technique


Eine wichtige Determinante der Bereitschaft, eine sensitive Frage zu beantworten,
ist die Befürchtung, heikle Informationen über sich selbst preiszugeben. Um die
auf die Selbstdarstellung bezogenen Ängste zu reduzieren und den Eindruck der
Anonymität insbesondere bei heiklen Fragen auf Seiten des Befragten zu verstär-
ken, wurde die Randomized Response-Technik eingeführt (RRT; Blair, Imai & Zhou,
2015; Chaudhuri, 2010; Fox & Tracy, 1986; Mangat & Singh, 1990; Tracy & Mangat,
1996; Warner 1965; vgl. auch Särndal, Swensson & Wretman 1992, ferner die Er-
gebnisse der Metaanalyse von Lensvelt-Mulders et al., 2005). Bei der Urform der
RRT soll der Befragte unter zwei alternativen Items, einem sensitiven und einem
nicht-sensitiven Item, mit Hilfe eines Zufallsmechanismus, z.B. eines Würfels oder
einer Münze, ein Item auswählen und angeben, ob es zutrifft oder nicht. Die Wahr-
scheinlichkeit p, ein Item auszuwählen, sei bekannt. Das Experiment muss so reali-
siert sein, dass nur der Befragte weiß, welches Item er beantwortet, der Interviewer
III.3 Einflüsse auf das Antwortverhalten 231

dagegen nicht. Auf diese Weise erfährt der Interviewer nicht, ob das sensitive oder
das nicht-sensitive Item beantwortet wurde, so dass die Antwort anonym bleibt.
Sei yk = 1, wenn Individuum k in einer endlichen Population des Umfangs N
die sensitive Eigenschaft besitzt und 0, wenn dies nicht der Fall ist. Sei T = ∑Uyk /N
der unbekannte Anteil der Befragten in der Population U, für welche yk = 1 gilt.
Gelte ferner xk = 1, wenn Individuum k dem sensitiven Item x zustimmt und 0 an-
dernfalls. Würde der Zufallsmechanismus zur Vorlage der Antwortalternativen auf
jedes Individuum angewendet, so wäre der Anteil der Individuen mit xk = 1, in der
Population, der durch den Zufallsmechanismus erzeugt würde:

P ( x k = 1) = θ p + (1 − θ ) (1 − p ) = 1 − p + ( 2 p − 1)θ .

Lösen wir die Gleichung nach T auf, so ergibt sich:

P ( x k = 1) + p − 1
θ=
2p −1

Der Anteil T der Personen mit der sensitiven Eigenschaft kann aus den Stichpro-
bendaten geschätzt werden, da gilt:

¦x s
k
 p 1
Tˆ n ,
2p 1

wobei ¦sxk die Summe der Befragten in der Stichprobe s mit xk = 1 und n den Stich-
probenumfang bezeichnet. Dieser Schätzer wird gelegentlich auch Warner-Schätzer
bezeichnet. Das zugrunde gelegte Modell heißt Warner-Modell.
Die RRT ist vielfach mit dem Ziel modifiziert worden, die Praktikabilität und
die Schätzeigenschaften des Modells in Umfragen zu verbessern (vgl. Diekmann,
2012; Greenberg, et al., 1971; Sihm, Chhabra & Gupta, 2016; Singh & Tarray, 2014).
Dabei wurde auch versucht, die Technik mit direkten Fragen zu verbinden (vgl.
Kim & Warde, 2005). Eine vielfach verwendete Variante ist die FRR (Forced Rando-
mized Response)-Technik (vgl. Boruch, 1971). Auch bei dieser Variante werden die
Befragten aufgefordert, einen Zufallsmechanismus (z.B. einen Würfel, zwei Mün-
zen oder Spielkarten) zu bedienen, dessen Ergebnis nur dem Befragten bekannt
ist. In Abhängigkeit vom Ergebnis wird der Befragte gebeten, entweder eine vorge-
gebene Antwort zu geben oder wahrheitsgemäß zu antworten. Auf der Grundlage
der bekannten Wahrscheinlichkeiten der Ereignisse des Zufallsmechanismus ist es
232 III.3 Einflüsse auf das Antwortverhalten

auch hier möglich, den Anteil der Befragten mit der sensitiven Eigenschaft erwar-
tungstreu zu schätzen. Diekmann (2012) schlägt vor, die Wahrscheinlichkeit für
das Stellen der sensitiven Frage auf der Grundlage von Benford's Law (vgl. Benford,
1938) zu bestimmen. Gemäß dieses Gesetzes folgt die Wahrscheinlichkeit für die
erste Ziffer einer Hausnummer einer logarithmischen Verteilung. Die kann prak-
tisch genutzt werden, indem Befragte gebeten werden, sich die Hausnummer eines
Freundes vorzustellen. Wenn die erste Ziffer im Bereich 1-4 liegt bekommt er die
sensitive Frage gestellt, liegt sie zwischen 5 und 9 die zufällige Alternativfrage. Das
Verhältnis ist 0,7 zu 0,3.
Die Anwendung der RRT stellt besondere Anforderungen an das Verständnis
der Aufgabe. Auch sind die Ergebnisse bezüglich der Erhöhung des Anteils auf-
richtiger Antworten nicht eindeutig (zur Bewertung der Ergebnisse vgl. Wolter &
Preisendorfer, 2013). Zudem gehen die verschiedenen Varianten des RRT davon
aus, dass die Befragten überhaupt antworten und die Antworten korrekt sind.

Trianguläres und kreuzweises Modell


Sowohl das trianguläre Modell als auch das kreuzweise Modell versuchen ausge-
hend vom klassischen RRT-Modelle ohne einen von den Befragten zu bedienenden
Zufallsmechanismus auszukommen und so eine praktikablere Nutzung in Umfra-
gen zu erreichen. (vgl. Jann, Jerke & Krumpal, 2012; Yu, Tian & Tang, 2008). Die
Idee ist, statt eines Zufallsmechanismus eine nicht-sensitive Frage Y zu stellen, bei
der die Wahrscheinlichkeitsverteilung der Antworten bekannt ist z.B. die Frage
nach einer Altersgruppe, der man angehört (Y = 1) oder nicht angehört (Y = 0).
Neben der nicht-sensitiven Frage wird eine sensitive Frage X, danach gestellt, ob
ein sensitives Ereignis wie etwa das Nichtbestehens eines Examens, zutrifft oder
nicht. Die Wahrscheinlichkeitsverteilung der Antworten auf Frage X ist unbekannt.
Die Aufgabe der Befragten besteht darin, beide Fragen gemeinsam zu beantworten.
Im Fall des triangulären Modells werden die Befragten gebeten, zwischen zwei
Optionen A und B zu wählen, wobei die Option A gewählt werden soll, wenn bei-
de Antworten verneint werden, d.h., wenn gilt: X = 0 und Y = 0. Die Option B
soll dagegen gewählt werden, wenn mindestens eine Antwort zutrifft. Da bei der
Wahl von Option B nicht klar ist, ob das sensitive Ereignis zutrifft oder nicht, wird
erwartet, dass die Befragten eher wahrheitsgemäß antworten. Als Maximum-Like-
lihood-Schätzer π̂ der Wahrscheinlichkeitπ = Pr (X = 1), zur sensitiven Gruppe zu
gehören, erhält man bei einer Zufallsstichprobe mit Zurücklegen von n Personen
(vgl. Yu, Tian & Tang, 2008, p. 255):
π̂ = 1 – T̂ /(1 – p),
III.3 Einflüsse auf das Antwortverhalten 233

wobei p = Pr (Y = 1) und T̂ = nA/n. nA ist die Anzahl der Personen, die Alternative
A gewählt haben.
Das Problem bei der triangulären Methode ist, dass sich die Befragten prinzipi-
ell defensiv verhalten könnten, indem sie Option A wählen, wo eindeutig klar ist,
dass sie nicht mit dem sensitiven Sachverhalt identifiziert werden können.
Das kreuzweise Modell versucht die Nachteile der triangulären Methode da-
durch zu mildern, dass nur noch nicht-sensitive Optionen zugelassen werden. Die
Option A soll in diesem Fall dann gewählt werden, wenn die Antworten auf X und
Y gleich sind. Die Option B soll dann gewählt werden, wenn sich die Antworten
voneinander unterscheiden. Als Maximum-Likelihood-Schätzer für π̂ der Wahr-
scheinlichkeit π = Pr (X = 1) erhält man in diesem Fall:
π̂ = (Ô + p – 1)/(2p – 1),
wobei Ô = nA/n. nA ist wieder die Anzahl der Personen, die Alternative A gewählt
haben. Zu den Varianzen der Schätzer vgl. Yu, Tian & Tang, 2008).

Item Count Technik


Die Item Count Technik dient der Erhebung unerwünschten Verhaltens und wird
seit vielen Jahren angewendet (vgl. Dalton, Wimbush & Daily, 1994; Dalton, Daily
& Wimbush, 1997; Droitcour, 2001; Holbrook & Krosnick, 2010). Die Technik er-
fordert die Zerlegung der Stichprobe in zwei gleichgroße zufällige Teilstichproben.
Die Befragten der ersten Gruppe bekommen eine Liste von Verhaltensweisen vor-
gelegt, die einem Kriterium genügen und werden gefragt, wie viele der in der Liste
aufgeführten Verhaltensweisen sie schon einmal durchgeführt haben. Die zweite
Stichprobe bekommt die gleiche Liste mit einer Zusatzfrage. Auch ihr wird die Fra-
ge nach der Anzahl der Verhaltensweisen gestellt, die sie schon einmal realisiert
hat. Zieht man die durchschnittliche Zahl der zugegebenen Verhaltensweisen in
der Stichprobe mit der längeren Liste von der durchschnittlichen Zahl der zuge-
gebenen Verhaltensweisen in der Stichprobe mit der Liste ohne Zusatzfrage ab, so
erhält man eine Schätzung des Anteils der Befragten in der Stichprobe mit der län-
geren Liste, die das Verhalten in der Zusatzfrage bejaht haben.
234 III.3 Einflüsse auf das Antwortverhalten

III.3.4 Einflüsse der Kommunikationsform

Die Wirkungen der Kommunikationsform können nicht ohne ihre Wechselwir-


kungen mit den Merkmalen der Befragten, den Interviewer und den Fragen/Items
beurteilt werden. Ihr Nachweis erfolgt durch Modevergleiche. Sie sind auch nicht
unabhängig vom Selektionseffekt zu sehen. So ergaben einige Studien z.B., dass sich
Telefonbefragte durch höhere Bildung und ein höheres Einkommen auszeichnen.
Außerdem waren sie eher männlich und älter (vgl. Gfroerer & Hughes, 1991; Gro-
ves & Kahn, 1979; Weeks et al, 1983). Ergebnisse dieser Art bedürfen aber wegen
des gesellschaftlichen Wandels stets weiterer Überprüfung.

Effekte der Interviewer-Administration


Zahlreiche Befunde sprechen dafür, dass sich die Anwesenheit/Abwesenheit von
Interviewern auf die Anzahl der Antwortverweigerungen bei sensitiven Fragen
auswirken kann. So führt der selbst-administrierte Modus zu weniger Antwort-
verweigerungen unabhängig davon, ob es sich um Mail-Befragungen, IVR oder
Web-Befragungen handelt (vgl. den Überblick von Tourangeau & Yan, 2007; Kreu-
ter, Presser & Tourangeau, 2008). Die Interviewer-administrierte Form kann bei
Fragen mit sozial erwünschten Inhalten zu einer Erhöhung von Antworten in der
sozial erwünschten Richtung führen (vgl. hierzu auch De Maio, 1984, p. 284). Al-
lerdings ist zweifelhaft, ob auch die Ja-Sage-Tendenz durch die Anwesenheit des
Interviewers beeinflusst wird (Ayidiya & McClendon, 1990; Schuman & Presser,
1981).
Interviewer können offensichtlich das Antwortverhalten systematisch beein-
flussen. Dies zeigt sich bei einem Vergleich der Varianz von Messungen innerhalb
der Interviewer mit der Varianz zwischen den Interviewern. Ist die Varianz inner-
halb der Interviewer kleiner als die Varianz zwischen den Interviewern, so spricht
dies dafür, dass Interviewer für eine größere Homogenität der Messwerte sorgen
und dass es einen Interviewer-Einfluss auf die Antworten gibt. Empirische Hin-
weise hierfür fanden z.B. West & Olson (2010). Ihre Ergebnisse zeigen, dass die
Messfehlervarianz der Interviewer bei einigen Fragen die Hauptquelle der Intervie-
wer-Varianz (vgl. West & Olson, 2010 ist und dass die Varianz innerhalb der Inter-
viewer geringer war als die Varianz zwischen den Interviewern (vgl. dazu auch z.B.
Groves & Magilavy, 1986; O’Muirtchairtaigh & Campanelli, 1998). Dies schlägt sich
entsprechend in einem signifikanten Designeffekt nieder (vgl. Schnell & Kreuter,
2005; zum Begriff des Designeffekts siehe Abschnitt VI). Auch der Messfehler ist
durch Interviewer beeinflussbar. Der Anteil der Varianz der Antworten am Mess-
fehler, der auf die Interviewer zurückgeht, ist bei Interviewern, die viele Fehler ma-
III.3 Einflüsse auf das Antwortverhalten 235

chen, höher als bei solchen, die weniger Fehler machen. Das Ausmaß variiert von
Item zu Item. Es gibt außerdem größere Varianzen bei männlichen Interviewern
(vgl. Freeman & Butler, 1976)
Der Grund für Interviewer-Effekte dieser Art muss vor allem in Eigenschaften
und Verhaltensweisen der Interviewer im Interview gesucht werden. Das Verhalten
betrifft die Art des Vorlesens einer Frage (Lautstärke, Tonhöhe, Sprechgeschwin-
digkeit) sowie die Souveränität in der Handhabung des Fragebogens, und damit
auch die effektive Interviewlänge mit entsprechenden Konsequenzen in Form eines
Satisficing. Befunde deuten darauf hin, dass Face-to-Face-Interviews im Durch-
schnitt länger dauern als Telefoninterviews (vgl. Holbrook, Green & Krosnick,
2003). Interviewer sprechen in Telefoninterviews in der Regel zu schnell, Pausen
können sich unbehaglich auswirken, so dass Interviewer das Interview aus Angst
vor Abbruch hinter sich bringen möchten.
Verantwortlich für Interviewer-Effekte können neben den erwähnten Unter-
schieden in der Präsentation der Fragen auch Unterschiede im Ausmaß sein, in
dem klärende Nachfragen gestellt werden, um eine adäquate Antwort zu erhalten
(vgl. Mangione, Fowler & Louis, 1992).
Auch nonverbale Verhaltensaspekte könnten eine Rolle spielen. Erfahrene In-
terviewer führen ihr Interview schneller durch als neu rekrutierte Interviewer (vgl.
z.B. Olson & Petchev, 2007). Eine kürzere Interviewdauer kann entweder darauf
zurückgeführt werden, dass die Fragen schneller gelesen werden oder dass sich
die Interviewer stärker an den gedruckten Fragebogen halten, Veränderungen, die
sich positiv oder negativ auswirken können. Telefoninterviews führen scheinbar
zu einer stärkeren Orientierung am Fragetext, vermutlich verursacht durch eine
stärkere Supervision. Kürzere Fragen unterstützen nicht nur das Frageverständnis,
sondern auch die Performanz der Interviewer (vgl. Presser & Zhao, 1992).
Die Interaktion zwischen Befragten und Interviewer ändert sich mit einer
wachsenden Anzahl von Interviews: In späteren Interviews lassen sich Interviewer
nicht mehr so leicht in Gespräche verwickeln lassen, die nicht mit dem Inhalt des
Interviews zu tun haben. Oder sie stellen die Fragen schneller, so dass den Befrag-
ten weniger Zeit bleibt, die notwendigen kognitiven Leistungen zu erbringen, was
wiederum negative Auswirkungen auf die Datenqualität hat.

Einflüsse der Bearbeitungsform


Unterschiedliche Modes gestatten den Befragten, den Fragebogen auf unterschied-
liche Weise zu bearbeiten. Da Selbst-administrierte Formen der Beantwortung
mehr Zeit einräumen, kommt es hier verstärkt zu genaueren Angaben. So fanden
z.B. Visser et al. (1996), dass Mailumfragen das Wahlergebnis besser vorhersagen.
236 III.3 Einflüsse auf das Antwortverhalten

Selbst-administrierte Befragungen ermöglichen Befragten auch eine Kontrolle


über Ausfülltermin und Zeitaufwand. Im Unterschied zu Telefonumfragen können
Befragte bei Selbst-administrierten Interviews die Zeit selbst bestimmen, die sie
zur Beantwortung einer Frage brauchen. Entsprechende Hinweise finden sich auch
bei Vergleichen Interviewer-administrierter Interviews mit Webinterviews.
Oft gestatten Selbst-administrierte Kommunikationsformen das Vor- und
Zurückblättern im Fragebogen, so dass alle Fragen prinzipiell wiederholt gelesen
werden können und auch die Antwortkategorien in beliebiger Reihenfolge gele-
sen werden können, wodurch die Effekte der Reihenfolge von Fragen und Ant-
worten reduziert oder sogar eliminiert werden (vgl. Bishop et al., 1988; Hippler &
Schwarz, 1987). Bestimmte Effekte scheinen allerdings bestehen zu bleiben wie der
Primacy-Effekt. Hinsichtlich des Effekts von No-Opinion-Filtern, also Fragen nach
der Existenz einer Meinung und der Beschränkung der Anschlussfrage auf jene,
die behaupten, eine Meinung haben, Existenz der Mittelkategorie oder „Stimme
zu/Stimme nicht“- Skalen wurden keine Unterschiede zwischen Telefoninterviews
und Mail-Interviews gefunden (vgl. Ayidiya & McClendon, 1990; Bishop et al.,
1988).
Selbst-administrierte Interviews erlauben den Befragten, sich die Zeit zur Be-
antwortung zu nehmen, die sie für die Beantwortung brauchen. In diesem Sinne
könnte das Ergebnis von Fricker et al. (2005) interpretiert werden. Die Autoren
fanden in einem Vergleich zwischen Telefonbefragten und Web-Teilnehmern,
dass letztere mehr Zeit für die Beantwortung von Wissensfragen brauchten, ins-
besondere dann, wenn sie offen waren. Auch das weitere Ergebnis der Autoren,
dass Telefonbefragte eher die Antwortalternative „keine Meinung“-nutzen, deutet
ebenso in diese Richtung wie der Befund, dass der Anteil von Item Nonresponse
bei Webteilnehmern geringer war. Während immer wieder Einflüsse der Adminis-
trationsform auf Datenqualität und Messungen festgestellt wurden, konnten solche
Unterschiede zwischen verschiedenen Formen Selbst-administrierter Interviews,
also zwischen Mail-Interviews und Web-Interviews, nicht beobachtet werden. So
fand Börkan (2010) weder Unterschiede in der psychometrischen Qualität noch in
Bezug auf die Antwortqualität in Form von Item-Nonresponse. Allerdings konnte
dieses Ergebnis in der Analyse eines U.S.-Panelsurveys durch Shin, Johnson und
Rao (2012) nicht bestätigt werden. Die Autoren fanden bei Webinterviews einen
geringeren Anteil von Item-Nonresponse und von Don’t know-Antworten, also
insgesamt eine höhere Datenqualität. Dagegen war bei Mailsurveys die Unit-Non-
response geringer.
III.3 Einflüsse auf das Antwortverhalten 237

Besondere Einflüsse des Telefon-Modes


Der Telefonmode zeichnet sich durch einige Merkmale aus, die sich negativ auf die
Datenqualität auswirken können. Dazu gehören etwa der subjektiv empfundene Zeit-
druck, sowohl auf der Seite der Befragten als auch auf Seite der Interviewer, aber auch
die Nichtanwendbarkeit von Befragungshilfen. Wenn letzteres nicht beim Entwurf
eines telefonischen Interviews berücksichtigt wird, müssen Befragte möglicherweise
zu viele Antwortalternativen im Kurzzeitgedächtnis speichern, so dass nur die letzte
behalten und adäquat kognitiv bearbeitet werden kann (vgl. Galesic et al., 2008). Je-
denfalls können Recency-Effekte in diesem Fall nicht ausgeschlossen werden.
Ye, Fulton und Tourangeau (2011) haben in ihrer Metaanalyse Telefonum-
fragen mit Umfragen in anderen Kommunikationsformen, Web, Mail, IVR und
Face-to-Face, verglichen. Als Ergebnis stellen sie fest, dass Telefonbefragte unter
den Antwortalternativen häufiger die extrem positive Antwortalternative wählen
als Teilnehmer an Web-, Mail,- oder IVR-Umfragen, aber nicht häufiger als Fa-
ce-to-Face-Befragte. Dagegen gibt es keine häufigeren Wahlen extrem negativer
Antwortalternativen. Die Autoren bieten für diesen Befund drei mögliche Er-
klärungen an. Nach Ausschluss der Informationslast und der Jasage-Tendenz als
Erklärungen des Befunds bieten sie als Erklärung den sog, MUM-Effekt (Mum
about Undesirable Messages; dt. Übersetzung von „Mum“: „halt den Mund“) an,
der darin besteht, dass Befragte zögern, dem Interviewer negative Nachrichten zu
kommunizieren (vgl. auch Tourangeau, Steiger & Wilson, 2002). Konsequenz des
MUM-Effekts ist der Positivitätsbias, d.h. die Tendenz, eher positive Antworten zu
geben. Der MUM-Effekt ist umso größer, je stärker der Empfänger der Nachricht,
in diesem Fall der Interviewer, als Fremder wahrgenommen wird. Dies kann aber
im Fall von Telefoninterviews und Face-to-Face-Interviews angenommen werden.

Wirkungen des Layouts bei Selbst-administrierten Interviews


Selbst-administrierte Interviews unterscheiden sich auch dadurch, dass die zur
Steuerung des Interviews notwendigen Informationen in den Rahmen eines be-
stimmten Layouts eingepasst werden müssen. Da Informationen bei Selbst-admi-
nistrierten Interviews über den visuellen Übertragungskanal kommuniziert wer-
den, liegt die Vermutung nahe, dass Einflüsse der Kommunikationsform, durch
den Übertragungskanal damit durch die Form der Darstellung von Informationen
verursacht sein könnten.
238 III.3 Einflüsse auf das Antwortverhalten

III.3.5 Die Position der Frage im Interview: Wirkungen der Fra-


gereihenfolge

Jede Frage steht an einer bestimmten Position der Fragesequenz im Interview.


Vorangegangen waren in jedem Fall die Bitte um Teilnahme am Interview, in der
bereits das Thema kurz vorgestellt wurde, und, sofern es sich nicht um die erste
Frage handelt, weitere Fragen. Schon bei der Konzeption des Fragebogens muss
berücksichtigt werden, dass Fragen eine kognitive und emotionale Wirkung entfal-
ten können, die noch während der Beantwortung der Folgefragen anhalten kann.
Schon die Erwähnung des Auftraggebers sowie des Themas in der Einleitung kann
bei bestimmten Fragen einen Effekt darauf haben, in welcher Richtung die Frage
beantwortet wird.
Die Reihenfolge der Frage kann einen maßgeblichen Einfluss auf das Antwort-
verhalten der Befragten ausüben (vgl. Schuman & Presser 1981). Wichtige Effekte
sind Teil/Ganzes-Effekte (engl.: part-whole effects) und Effekte des Bezugsrahmens.
Zu den Teil/Ganzes-Effekten gehören die Konsistenzeffekte bzw. Assimilationseffekte
einerseits und die Kontrasteffekte andererseits. Assimilationseffekte beinhalten Ver-
schiebungen des Urteils in Richtung auf den durch den Kontext definierten Stan-
dard, Kontrasteffekte betreffen dagegen eine Verschiebung des Urteils weg von den
Werten der den Kontext bildenden Reize (vgl. Wedell, 1994, p. 1007). Aufeinander
folgende Fragen, die einen Konsistenzeffekt erzeugen können, wären z.B.:

Die Gewerkschaften sollten stärker auf die wirtschaftliche Lage der Unternehmen
Rücksicht nehmen.
☐ 6WLPPH]X
☐ 6WLPPHQLFKW]X
Anschließend die Frage:
Es war gut, dass VERDI im letzten Arbeitskampf keine Kompromisse eingegangen
ist.
☐ 6WLPPH]X
☐ 6WLPPHQLFKW]X
In diesem Fall könnte der Effekt eintreten, dass die Befragten ihre Antworten auf
die zweite spezifische Frage konsistent mit der allgemeineren ersten Frage zu be-
antworten versuchen.
III.3 Einflüsse auf das Antwortverhalten 239

Ein Beispiel für einen Kontrasteffekt wäre:


Meinen Sie, dass einer schwangeren Frau eine legale Abtreibung ermöglicht werden
sollte, wenn sie verheiratet ist und keine weiteren Kinder wünscht?
☐ Ja
☐ Nein
Meinen Sie, dass einer schwangeren Frau eine legale Abtreibung ermöglicht werden
sollte, wenn ihr Kind mit großer Wahrscheinlichkeit mit einem ernsthaften körper-
lichen Schaden geboren wird?
☐ Ja
☐ Nein

Wird die erste Frage zuerst gestellt, erhält sie einen höheren Anteil von Ja-Antwor-
ten (vgl. Schuman & Presser 1981). Es gibt Hinweise dafür, dass Assimilations- oder
Kontrasteffekte auch durch die Art der Präsentation der zu bewertenden Objekte
entstehen können. So fanden Wedell, Parducci und Geiselman (1987) Anhalts-
punkte für die Entstehung von Assimilationseffekten bei gleichzeitiger Darbietung
von Stimuli im Vergleich zu Kontrasteffekten bei der sequentiellen Darbietung.
Allerdings bezogen sich die Effekte auf sequentiell oder gleichzeitig dargebotene
Photographien.
Assimilationseffekte werden auch durch die Verfügbarkeit (engl.: accessibility)
von Wissen vermittelt und treten verstärkt bei mehrdeutigen Fragen auf (vgl. To-
dorov 2000 in Bezug auf Fragen zu den Bedingungen verschiedener Formen von
Behinderungen). Neben der Verfügbarkeit im Sinne einer Aktivierung des Wissens
durch eine vorherige Frage muss zusätzlich die Anwendbarkeit (engl.: applicabili-
ty) berücksichtigt werden. Dieser Aspekt beschreibt, wie stark die vorangegangene
Frage und die nachfolgende Frage inhaltlich zusammenhängen.
Effekte des Bezugsrahmens sind insbesondere für die Entscheidung bedeutsam,
welche Frage an den Anfang eines Fragebogens gestellt wird. Beispiele wären eine
Anfangsfrage zur Arbeitslosigkeit in einer Umfrage zur Lebensqualität oder eine
Frage zum wirtschaftlichen Erfolg eines Unternehmens am Anfang einer Mitarbei-
terbefragung zur Unternehmensführung
Grundsätzlich gibt es Unterschiede zwischen komparativen und nicht-kompara-
tiven Bewertungen. Als z.B. die Vertrauenswürdigkeit von Bill Clinton gegenüber
Al Gore in einem nicht-komparativen Kontext getrennt werden sollte, stuften 50%
Clinton und 68% Gore als vertrauenswürdig ein. Dieses Ergebnis änderte sich,
wenn erst Clinton und dann Gore eingestuft wurden. In diesem Fall lag Clinton in
der Vertrauenswürdigkeit 7 Prozentpunkte höher als im nicht-komparativen Kon-
240 III.3 Einflüsse auf das Antwortverhalten

text und Gore 8 Prozentpunkte niedriger, wodurch sich der Unterschied von 18 auf
3 Prozentpunkte zugunsten von Gore verringerte (vgl. Moore, 2002).
Effekte können auch von der Reihenfolge von Filterfragen ausgehen. Werden
mehrere Filterfragen hintereinander geschaltet, stellt sich die Frage, ob nach ei-
ner Filterfrage gleich die für die ausgewählten Befragten relevanten Fragen gestellt
werden (engl.: interleafed version), oder ob erst die Filter durchlaufen werden und
anschließend die Fragen (engl.: grouped version) gestellt werden. Empirische Ergeb-
nisse scheinen zu bestätigen, dass Filterfragen ein eher positives Antwortverhalten
in der gruppierten Version (Kreuter et al., 2011; Eckman et al., 2014) zur Folge
haben. Der Grund für dieses Verhalten könnte darin liegen, dass die Respondenten
im gruppierten Fall lernen, durch positive Antworten die nachfolgende Filterfragen
zu vermeiden, die bei einer negativen Antwort gestellt worden wären. Dieser Effekt
scheint unabhängig von der Sensitivität zu sein. Diese Wirkung wird mit zuneh-
mender Zahl von Filterfragen stärker, wenn die Anzahl der Filterfragen zunimmt.
Dies gilt aber nur innerhalb inhaltlicher Frageblöcke. Eventuell lernen Befragte,
dass Fragen nachfolgen.

III.3.6 Die Wirkung von Frageformulierungen, Antwortvorga-


ben und Antwortskalen

III.3.6.1 Die Wirkung von Frageformulierungen und ihren Be-


deutungen

Obgleich empirische Ergebnisse dafürsprechen, dass die zu messenden Konstruk-


te den Hauptanteil der Kovarianzen zwischen beobachteten Variablen aufklären,
wird der zweitgrößte Anteil der Kovarianz durch die Eigenschaften von Fragetex-
ten und Antwortskalen aufgeklärt (vgl. Rodgers, Andrews & Herzog, 1992, p. 269
auf Grund einer MMTM-Analyse; zum Begriff „MTMM“ vgl. Abschnitt IV). Dies
bedeutet, dass Ähnlichkeiten in Eigenschaften der Fragen das Antwortverhalten
bestimmen. Einen informativen Überblick über den Einfluss von Frageformulie-
rungen auf das Antwortverhalten geben Krosnick und Presser (2010).
Fragetexte stellen stets bestimmte Anforderungen an die Interpretationsleistung
des Befragten. Nicht selten kann der gleiche Inhalt der Frage auch durch unter-
schiedliche, Frageformulierungen ausgedrückt werden und damit für den Forscher
die Möglichkeit eröffnet werden, unter verschiedenen bedeutungsäquivalenten
Formulierungen diejenige zu nehmen, die für den Befragten den geringsten Ar-
III.3 Einflüsse auf das Antwortverhalten 241

beitsaufwand beinhaltet, so dass Effekte durch Satisficing und mangelnde Motiva-


tion reduziert werden. Suggestive Frageformulierungen, welche der Interpretation
durch die Befragten bereits eine bestimmte Richtung geben (z.B. „Sie haben doch
wie viele andere auch schon einmal eine Obdachlosenzeitung gekauft?“) sollten
beim Entwurf eines Fragetextes vermieden werden.
Um ein Verständnis des Fragetextes zu ermöglichen und nicht-adäquate Re-
aktionen, z.B. durch Nachfragen, zu vermeiden, sollten zunächst die sprachlichen
Konventionen der Zielsprache (deutsch, Dialekt, Fremdsprache) eingehalten werden.
Voraussetzung dafür, dass Befragte einen Fragetext problemlos bearbeiten können,
sind die grammatikalische Korrektheit sowie die Vermeidung logisch falscher bzw.
widersprüchlicher Ausdrücke. Grammatikalische Korrektheit bedeutet, dass der
Text die Regeln der Grammatik der verwendeten Sprache respektiert. Abweichun-
gen von diesen Regeln könnten den Befragten zu Überlegungen darüber veran-
lassen, wie die Frage wohl korrekt gelautet hätte, womit Spielräume des Fragever-
ständnisses eröffnet würden.
Schließlich kann auch die Komplexität eines Fragetextes ein Problem für die
Antwortqualität darstellen, wenn man bedenkt, dass mit der Komplexität des Tex-
tes oft eine entsprechende Komplexität der kognitiven Leistung einhergeht, die er-
bracht werden muss, um den Text zu verstehen. Dies ist etwa dann der Fall, wenn
ein Ereignis beurteilt werden soll, das den Aufbau einer komplexen semantischen
Repräsentation erfordert. Die Komplexität des Textes für den Befragten ergibt sich
aus der Komplexität des notwendigen Verarbeitungsprozesses (Gedächtnisoperati-
onen, Schlussfolgerungsprozesse, Auflösung von impliziten Voraussetzungen und
semantischen Präsuppositionen, etc.). Die Kürze eines Fragetextes bedeutet nicht
notwendig eine geringe semantische Komplexität, da ein kurzer Text Begriffe ent-
halten kann, die eine komplexe semantische Struktur haben.
Die linguistische Struktur der Frage kann Auswirkungen auf die Antwortqualität
haben. So fanden z.B. Holbrook et al. (2007) Hinweise, dass die sprachliche Struk-
tur von Fragen vorzeitige Antworten erzeugen kann (zur linguistischen Struktur
von Fragen vgl. Graesser et al. 1996; Saris & Gallhofer, 2014). Werden in einem
Fragetext Ereignisse oder Handlungen von Menschen beschrieben, so sollte geprüft
werden, ob wichtige Merkmale der Handlungslogik verletzt sind, so dass das be-
schriebene Ereignis oder der beschriebene Handlungszusammenhang unverständ-
lich erscheint. Auch sollten Frageformulierungen in Bezug auf die zu erwartenden
unerwünschten Nebeneffekte wie z.B. Sensitivität der Wortwahl beim Entwurf von
Fragen in Betracht gezogen werden. Die Wirkungen von Frageformulierungen und
Wortwahl auf das Antwortverhalten gehören zu den klassischen Untersuchungs-
themen der Umfrageforschung. Bekannt sind die Studien von Schuman & Presser
242 III.3 Einflüsse auf das Antwortverhalten

(1981) über die unterschiedlichen Wirkungen der Formulierungen „erlauben“ und


„nicht verbieten“ in Einstellungsfragen.
Eine besondere Bedrohung der inhaltlichen Validität erwächst daraus, dass Be-
fragte mit Begriffen unterschiedliche Bedeutungen verbinden können. Dabei spie-
len vor allem zwei Varianten eine Rolle:
Unklare/unpräzise Formulierungen
Unterschiedliche Interpretationen eindeutiger Formulierungen
Tauchen unklare Begriffe auf, so kann eine präzise Definition die Antwortvertei-
lungen signifikant ändern (vgl. Fowler, 1992). Sprachliche Ausdrücke, bei denen
das, was sie bezeichnen, unklar ist, bewirken, dass die Initiative zur Präzisierung
dem Befragten überlassen wird, mit der Konsequenz, dass sich verstärkt Eigen-
schaften des Befragten auf das Verständnis auswirken können und die Bedeutung
möglicherweise nicht mehr mit der intendierten Bedeutung des Forschers über-
einstimmt. Tourangeau, Rips und Rasinski (2000) führen als Beispiel den Begriff
„Kinder“ an, bei dem unklar ist, durch welche Altersgruppe dieser Begriff definiert
ist (vgl. ebda, p. 44). Viele weitere Beispiele ließen sich anführen. In einer Frage wie
„Haben Sie ein Auto?“ ist z.B. nicht klar, was unter „haben“ zu verstehen ist: Soll
„haben“ den Zustand des Besitzens bezeichnen oder den Zustand der Verfügbar-
keit.
Auch vage adverbiale Modifikatoren oder Häufigkeitsangaben wie „sehr oft“,
„manchmal“, etc. können für Befragte unterschiedliche Häufigkeiten bezeichnen
(vgl. Schaeffer, 1991; Bradburn & Miles, 1979). Sie bezeichnen statt einzelner Ska-
lenwerte eher Bereiche von Skalenwerten, was wiederum dazu führen kann, dass
sich bei mehreren Antwortvorgaben die bezeichneten Wertebereiche überschnei-
den können (vgl. Moxey & Sanford, 1993) Dies hat wiederum zur Folge, dass eine
eindeutige Interpretation der Antworten nicht mehr möglich ist. Schließlich kann
auch der Fall auftreten, dass ein Begriff für Befragte überhaupt nicht interpretierbar
ist, weil er unbekannt ist, was z.B. bei Fachausdrücken der Fall ist, deren Bedeutung
der Befragte nicht kennt. Die von vagen Formulierungen ausgehenden Gefährdun-
gen der Antwortqualität können dazu führen, dass Fragen/Items nicht für alle Be-
fragen das Gleiche messen (Bedrohung der inhaltlichen Validität der erhobenen
Daten) und dass die Güte der Messung nicht bestimmt werden kann, da der tat-
sächliche Messwert nicht bekannt ist.
Ein weiterer Typ von Unklarheit tritt insbesondere bei Fragen auf, die mehre-
re implizite Fragen beinhalten (engl.: double-barreled questions). Willis & Lessler
(1999) geben folgendes Beispiel:
III.3 Einflüsse auf das Antwortverhalten 243

„Glauben Sie, dass Minister, Politiker und andere kommunale Führungspersonen sich
gegen das Rauchen aussprechen sollten?"
Diese Frage besteht im Grunde aus drei impliziten Fragen, eine für jede der in der
Frage angesprochenen Personengruppe. Die gemeinsame Vereinigung in einer Fra-
ge führt zu einem Interpretationsproblem.
Unklarheiten in der Frageformulierung lassen sich auch als schwer erfüllbare
oder sogar unerfüllbare Anforderungen an die Interpretationsleistung auffassen.
Auch Formulierungen, die aus Sicht des Forschers eindeutig erscheinen, kön-
nen unterschiedliche Interpretationen erzeugen. Unterschiedliche Interpretationen
scheinbar eindeutiger Formulierungen durch Befragte liegen dann vor, wenn ver-
schiedene Befragte auf Grund unterschiedlicher Begriffsverwendung mit einem
sprachlichen Ausdruck zwar eine eindeutige Interpretation verbinden, diese Inter-
pretationen sich aber zwischen den Befragten unterscheiden. Ein Begriff wie „Fa-
milie“ mag für verschiedene soziale und kulturelle Gruppierungen der Gesellschaft
eine unterschiedliche, aber dennoch eindeutige Interpretation besitzen, die von der
des Forschers abweicht. Insofern kann hier nicht von einem genuin vagen oder un-
präzisen Begriff gesprochen werden. Tritt dieses Phänomen auf, besteht die Gefahr,
dass fälschlicherweise eine Bedeutungsäquivalenz der Frage und der Antwortvor-
gaben über alle Befragten hinweg unterstellt wird. In diesem Fall wird eine Homo-
genität der Zielpopulation in Hinblick auf die Interpretationsleistung unterstellt.
Beispiele sind die Unterstellung, dass adverbiale Modifikatoren gleiche Intensitäten
darstellen oder dass Begriffe wie „politische Betätigung“ unabhängig vom sozialen
und kulturellen Hintergrund in gleicher Weise verstanden werden. Hier ergeben
sich ähnliche Probleme der Sicherung der Bedeutungsäquivalenz wie in der in-
terkulturell und international vergleichenden Umfrageforschung (vgl. Przeworski
& Teune, 1968; Faulbaum, 1990; Johnson, 2003; Beiträge in: Harkness et al., 2003;
Smith, 2003; Harkness, Penell & Schoua-Glucksberg, 2004; Hambleton, Merenda &
Spielberger, 2005). Zur Feststellung der mit den Fragen verbundenen Interpretati-
onen erweisen sich allgemein Verfahren zur Kalibrierung der Fragebedeutung und
die Anwendung kognitiver Pretest-Verfahren mit einer entsprechenden Repräsen-
tanz der relevanten Teilgruppen sowie systematische Begleituntersuchungen zur
Fragebedeutung als hilfreich.

III.3.6.2 Wirkungen von Skaleneigenschaften

Die Gestaltung von Antwortskalen kann über unterschiedliche Merkmale die Güte
einer Messung beeinflussen. Einen guten Überblick geben über diese Effekte geben
auch Krosnick und Fabrigar (1997) sowie Krosnick und Presser, (2010).
244 III.3 Einflüsse auf das Antwortverhalten

Anzahl der Abstufungen und Messqualität


Ein wichtiges Merkmal, das die Antwortqualität beeinflussen kann, ist die Anzahl
der Abstufungen In Studien findet man Anzahlen von 2-101 Skalenpunkten (vgl.
die Zusammenfassung von Krosnick & Presser, 2010, pp. 268).
Krosnick und Fabrigar (1997) führen verschiedene Gründe dafür an, dass Ska-
len eher eine höhere Anzahl von Skalenpunkten enthalten sollten. Dafür spricht,
dass die Wahrnehmungen der Befragten in Bezug auf ihre Einstellungen auf einem
Kontinuum von extrem positiv zu extrem negativ variieren. Um dieses Kontinuum
auf einer Kategorial-Skala abzubilden und sog. Ceiling-Effekte oder Floor-Effekte
zu vermeiden, muss die Anzahl der Punkte das gesamte Kontinuum abbilden. Cei-
ling-Effekte oder Floor-Effekte treten auf, wenn das obere und/oder das untere Ende
der Skala das Antwortkontinuum so begrenzt ist, dass sich alle Befragten, die gerne
extremer geantwortet hätten, am unteren oder oberen Ende der Skala häufen mit
der Folge, dass gestutzte (engl.: truncated) bzw. links oder rechts zensierte Antwort-
verteilungen entstehen.
Je feiner die Skala desto feiner können die Befragten ihre Einstellungen gegen-
über verschiedenen Objekten differenzieren. Auf der anderen Seite kann durch zu
viele Skalenpunkte die Klarheit der Bedeutungen der Antwortalternativen redu-
ziert werden (vgl. Krosnick 1991). Beim Entwurf einer Skala sollte jedenfalls be-
rücksichtigt werden, dass die Befragten in der Lage sein müssen, ein internes Urteil
in eine Entscheidung für einen Skalenpunkt zu übertragen. Diese Entscheidung
kann schwieriger werden, wenn der Befragte z.B. bei einem Angebot von zu vielen
Abstufungen eine solche Entscheidung treffen soll (vgl. Ostrom & Gannon, 1996).
Zahlreiche Untersuchungen zum Zusammenhang zwischen Anzahl der Abstu-
fungen und der Reliabilität bei Rating-Skalen führten zu teilweise unterschiedli-
chen Ergebnissen. Zahlreiche Befunde stützen die Annahme, dass die Reliabilität
mit einer wachsenden Zahl von Abstufungen steigt, dass sich dieser Anstieg aber
nicht beliebig fortsetzt. So fand Masters (1974), dass die Reliabilität bis zu vier
Punkten anstieg und dann auf dem gleichen Niveau blieb. Birkett (1986) verglich
2-, 6-, und 14-Punkt-Skalen und fand, dass unter diesen Skalen 6-Punkt-Skalen die
höchste Reliabilität aufwiesen. Ebenso fanden Komorita und Graham (1965), dass
6-Punkt-Skalen zuverlässiger als 2-Punkt-Skalen waren. Die Studien von Alwin
und Krosnick (1991) kamen zu dem Ergebnis, dass 7-9-Punkt-Skalen zuverlässiger
sind als Skalen mit weniger Abstufungen.
Bei Querschnittsuntersuchungen der Reliabilität unipolarer Skalen zeigte sich
in Experimenten, dass die optimale Anzahl der Skalenpunkte bei 5 (vgl. Conklin,
1923; McKelvie, 1978) und 7 (vgl. Symonds, 1924) liegt. Bei bipolaren Skalen emp-
fiehlt Conklin (op. cit.) 9 Skalenpunkte. Die Anzahl der Skalenpunkte muss sicher-
III.3 Einflüsse auf das Antwortverhalten 245

lich an die Antwortdimension und die Leistungsfähigkeit der Zielgruppe angepasst


werden. Auch die Frage, eine wie feine Information eigentlich benötigt wird, muss
bedacht werden. So gibt es durchaus Ergebnisse psychologischer Experimente, die
bis zu 21 Skalenpunkte empfehlen, wenn die Beurteiler vorher trainiert wurden
(vgl. Champney & Marshall, 1939). Letzteres ist in Umfragen aber nicht der Fall.
Hier muss von einem naiven Beurteiler ohne besondere Schulung ausgegangen
werden.
Was die Validität angeht, so zeigen Simulationsstudien, dass Verzerrungen in
den Daten mit zunehmender Anzahl von Skalenpunkten abnehmen (vgl. Krosnick
1997). Die Verbesserung erscheint relativ bescheiden bei mehr als 5-7 Skalenpunk-
ten.
Zusammenfassend dürfte für Rating-Skalen die optimale Anzahl der Abstufun-
gen bei 5-7 liegen (vgl. auch Groves et al., 2009). Bei der Entscheidung für eine be-
stimmte Anzahl von Skalenpunkten spielen aber auch Auswertungsgesichtspunkte
und damit auch das beabsichtigte Messniveau eine Rolle (vgl. Teil IV). Skalen mit
5 Abstufungen und mehr können in der statistischen Datenanalyse als sog. pseu-
dometrische Skalen wie metrische Skalen behandelt werden. Allerdings zeigen Stu-
dien auch, dass Faktorladungen mit weniger Abstufungen genau geschätzt werden
können (vgl. Rhemtulla, Brosseau-Liard & Savalei, 2012). Mit zunehmender An-
zahl von Abstufungen nähern sich die Produktmomentkorrelationen zunehmend
der in der Simulation vorgegebenen wahren Korrelation.
Bei Skalen mit weniger Skalenpunkten müssen statistische Modelle für katego-
riale Variablen verwendet werden (vgl. z.B. Tutz, 2000).

Wirkung von Kontextinformationen


Prinzipiell ist davon auszugehen, dass Befragte alle aus einer Skala ableitbaren In-
formationen als Kontext für ihre Urteilbildung und die Überführung ihres Urteils
in einen Skalenwert nutzen. Dazu gehören Informationen über den Bereich, die
Richtung und die Polarität einer Skala.
Die Wirkung des Wertebereichs (engl.: range) einer Skala steht im Mittelpunkt
des Urteilbildungsmodells von Parducci. Dieses bezieht nicht nur den beobacht-
baren Bereich des vorgegebenen Skalenformats, sondern auch auf den subjektiven
Bewertungsbereich (z.B. zwischen der wirtschaftlichen Lage, mit der man am we-
nigsten zufrieden ist und der wirtschaftlichen Lage, mit der man am meisten zu-
frieden ist) als relevanten Kontext der Bewertung in die Erklärung der Wahl eines
Skalenwertes mit ein.
Nach Parducci’s „range-frequency“-Modell (vgl. Parducci, 1965, 1983) reflek-
tieren Urteile zwei Prinzipien: das Bereichsprinzip (engl.: range principle) und das
246 III.3 Einflüsse auf das Antwortverhalten

Häufigkeitsprinzip (engl.: frequency principle). Nach dem Bereichsprinzip reflektie-


ren Beurteilungen bzw. Bewertungen von Reizen die Stellung (Lokation) relativ zu
den Extremwerten, die den relevanten Kontext definieren. Der Bereichswert (engl.:
range value) Ric eines Stimulus i im Kontext c ist der Anteil des Kontextbereichs, der
unter ihm liegt:
Ric = (Si – Smin)/(Smax – Smin),
wobei Si der subjektive Wert des Stimulus, Smin und Smax sind der minimale und
maximale Stimulus-Wert im Kontext c. Ein Beispiel wäre eine Person, die in der
Beliebtheit in der Mitte zwischen der beliebtesten und der am wenigsten beliebten
Person liegt. Der Bereichswert wäre in diesem Fall 0.5.
Der Häufigkeitswert (engl.: frequency value) eines Stimulus wird bestimmt
durch die Gesamtzahl aller Kontextreize, die auf der Antwortdimension unterhalb
von ihm liegen:
Fic = (ric – 1)/(Nc – 1).
In dieser Formel sind Fic der Häufigkeitswert des Reizes i im Kontext c, ric ist der
Rang des Reizes i im Kontext c, Nc der Rang (Prozentrang) des am höchsten bewer-
ten Reizes und 1 des am niedrigsten bewerteten Reizes. So würde eine Person, die
beliebter als 90% der Personen im Kontext einen Häufigkeitswert von 0.9 haben
(vgl. Wedell, 1990).
Die Beurteilung Jic eines Stimulus i im Kontext c ergibt sich als gewichteter Mit-
telwert
Jic = wRic + (1 – w)Fic.
Das interne Urteil Jic wird nach der folgenden Beziehung in die Wahl einer ka-
tegorialen Abstufung übersetzt:
Cic = bJic + a,
wobei Cic ein numerisches Urteil (Rating), b der Bereich der Kategorien (z.B. 5 bei
einer 6er Skala) und a die unterste Kategorie.
Parducci’s Modell bezieht sich auf Fälle, bei denen es um die Bewertung von
Objekten wie der wirtschaftlichen Situation, eines Staates, von Personen und Per-
sonengruppen, etc. auf einer Antwortdimension geht. In die Bewertung gehen der
subjektive Bewertungsbereich des Objekts (maximale subjektiver Wert vs. mini-
male subjektiver Wert) sowie der Rangplatz der Bewertung relativ zum gesamten
Bewertungsbereich. Die Umsetzung dieses subjektiven Urteils in die beobachtbare
Wahl Kategorie erfolgt unter Einbeziehung der oben genannten Eigenschaften der
Rating-Skala. Sie ist auch abhängig von dem Antwortbereich (Maximum und Mi-
III.3 Einflüsse auf das Antwortverhalten 247

nimum), der den Befragten zur Formatierung ihrer Antwort zur Verfügung gestellt
wird.
Wie sich der Skalenbereich auf die Bewertung alltäglicher (engl.: mundane)
Aktivitäten auswirkt, haben Schwarz et al. (1985) in Bezug auf die Häufigkeit des
täglichen Fernsehkonsums untersucht. Befragte wurden gebeten, die Häufigkeit
ihres Fernsehkonsums auf einer Skala anzugeben, die entweder in halbstündigen
Abständen von „bis zu ½ Stunde“ bis zu „mehr als 2 ½ Stunden“ reichte oder auf ei-
ner Skala von „bis zu 2 ½ Stunden“ bis zu „mehr als 4 ½ Stunden“ reichte. Es stellte
sich heraus, dass die Befragten in der ersten Variante eher die mittlere Kategorie, in
der zweiten Variante aber die unterste Kategorie wählten. Die Befunde bestätigten
den Einfluss des Wertebereichs der Antwortvorgaben auf die Wahl der Antwort-
kategorie. Dieser Einfluss konnte auch in Bezug auf eine Skala der Zufriedenheit
mit Freizeitdauern festgestellt werden. Die Autoren interpretieren ihre Ergebnisse
dahingehend, dass die Bereichsinformationen Hinweise über das Wissen und die
Erwartungen des Forschers in Bezug auf die Alltagswelt geben. Befragte nutzen den
Skalenbereich als Bezugsrahmen und vermeiden Angaben, die in der Bevölkerung
unüblich sind.
Bei der Gestaltung von Antwortskalen für Items, die zusammen eine Item-Liste
bilden, ist auch das eventuelle Auftreten von Kontexteffekten zwischen den Bewer-
tungen der Items zu berücksichtigen. So fanden Wedell & Parducci (1988) sowie
Wedell et al. (1990), dass kontextuelle Kontrasteffekte zwischen den Items desto
geringer ausfallen, je höher die Anzahl der kategorialen Abstufungen ist. Mehr Ska-
lenpunkte übertragen mehr nützliche Information bei bis zu 7-9 Skalenpunkten.
Dagegen sinkt der Informationsgehalt jenseits von 12 Skalenpunkten.

Polarität und Richtung einer Skala


Neben Informationen über den Bereich einer Skala nutzen Befragte auch Informa-
tionen über Richtung und Polarität von Skalen. In mehreren Studien ergab sich der
Befund, dass Befragte negative Urteile vermeiden, so dass sich die Einstufungen
auf Antwortskalen eher auf der positiven Hälfte der Skala häufen (engl.: positivity
bias; vgl. Landy & Farr, 1980; Sears, 1983). Schwarz et al. (1985) bestätigten nicht
nur, dass der den Befragten angebotene Bereich der numerischen Werte einer Skala
einen Effekt auf das Antwortverhalten hat. Sie fanden auch, dass sich die Befragten
auf Skalen, bei denen negative numerische Skalenwerte vorgesehen sind (-5 -4 -3
-2 -1 0 +1 +2 +3 +4 +5) im Vergleich zu einer Skala von 0 bis 10 noch stärker auf
der positiven Hälfte einstufen. Dies gilt sowohl, wenn die beiden Enden der Skala
nicht klar gegensätzlich benannt sind als auch, wenn die beiden Pole gegensätzlich
248 III.3 Einflüsse auf das Antwortverhalten

benannt sind (vgl. Schaeffer & Barker 1995). Es gibt auch Hinweise darauf, dass
Befragte Extremkategorien vermeiden.
Zahlreiche Studien befassen sich seit den frühen Analysen von Belson (1966)
mit dem Effekt der Skalenrichtung, d.h. mit dem möglichen Effekt auf das Ant-
wortverhalten, der darin besteht, dass die Reihenfolge der Skalenpunkte umgedreht
wird, wenn also z.B. statt einer Reihenfolge von 1 bis 7 die Reihenfolge von 7 bis 1
gewählt wird. Mögliche Effekte dieser Art sind sicherlich nicht unabhängig vom
Skalentyp (z.B. bipolar vs. unipolar), von der Antwortdimension und vom Inhalt
der Items. Beispiele für einen solchen Effekt ergaben die Analysen von Yan und
Keusch (2015). Die Autoren haben die einschlägige Literatur gesichtet und eige-
ne Analysen auf der Basis eines Telefonsurveys vorgenommen. Die Autoren ver-
glichen eine 0-10-Skala mit einer 10-0-Skala. Beurteilt werden sollten Länder auf
einer Skala von 0: „am wenigsten entwickelt“ bis 10: „am meisten entwickelt“. Die
Autoren fanden, dass Länder, die nach dem Human Development Index (HDI) der
UN als höher entwickelt eingestuft wurden, niedrigere Werte bei der 0-10-Version
als in der 10-0-Version erhielten. Die Analysen ergaben keine Anhaltspunkte dafür,
dass es sich um einen Satisficing-Effekt in dem Sinne handelte, dass die Befragten
gar nicht die gesamte Skala berücksichtigten.

Anordnung der Antwortalternativen


Auch die Anordnung der Antwortkategorien kann eine Wirkung auf deren Wahl
haben (vgl. die Experimente von Schwarz et al., 1985; vgl. auch Stern, Dillman &
Smyth, 2007). Krosnick & Alwin (1987) betonen, dass es für Befragte schwierig
sein kann, sich mit allen vorgesehenen Antwortalternativen ernsthaft zu beschäfti-
gen und dass in diesem Fall mit dem Effekt des Satisficing gerechnet werden muss.
Auch muss bei vielen Antwortalternativen, die im Gedächtnis zwischengespeichert
werden müssten, mit Recency- und Primacy-Effekten gerechnet werden, also mit
der Bevorzugung der letzten oder ersten Antwortkategorie. Recency-Effekte treten
verstärkt bei oral vorgetragenen Antwortlisten sowie bei schwierigen Fragen und
Antwortkategorien auf (vgl. z.B. Bishop & Smith, 2001; Holbrook et al., 2007).

Mittelkategorie und Extremkategorien


Ein immer noch kontroverses Thema ist die Einbeziehung neutraler Antwortka-
tegorien wie z.B. „weder/noch“ oder „teils/teils“ in eine Antwortskala. Die Mittel-
kategorie stellt eine Antwortalternative dar, deren Wahl im Vergleich zu anderen
Alternativen den geringsten Aufwand erfordert (vgl. Krosnick, 1991). So mag die
Einbeziehung einer neutralen Antwortkategorie bzw. eines Skalenmittelpunkts für
III.3 Einflüsse auf das Antwortverhalten 249

gering motivierte Befragte und solche mit einer eher schwach ausgeprägten ko-
gnitiven Fähigkeit eine Einladung darstellen, diese Kategorie zu wählen, weil die
Neigung besteht, die Dinge eher so zu lassen wie sie sind (vgl. Krosnick & Presser,
2010, p. 271). Trotz des Einflusses der Bildung auf zahlreiche Aspekte des Satis-
ficing konnte ein Zusammenhang zwischen Bildung und Wahl der Mittelkatego-
rie allerdings empirisch nicht nachgewiesen werden (vgl. z.B. Schuman & Presser,
1981; Narayan & Krosnick, 1996). Die Attraktivität der Mittelkategorie scheint mit
abnehmender subjektiver Wichtigkeit des Frageinhalts, mit abnehmender Einstel-
lungsstärke (vgl. Krosnick & Schuman, 1988; Bishop, 1990) und abnehmendem
Interesse am Inhalt der Frage (vgl. O’Muircheartaigh, Krosnick & Helic, 1999)
zuzunehmen. Für Krosnick (1991) ist die Verwendung neutraler Kategorien eine
Einladung für Befragte, die keine Meinung haben, diese Kategorie zu wählen. Auch
Payne (1951) sieht in der Einführung einer Mittelkategorie vor allem eine Möglich-
keit, jene Befragten auszusortieren, die keine Meinung haben.
Die neutrale Kategorie kann unterschiedliche Konnotationen für die Befragten
haben. So spricht Einiges dafür, dass sie für einige Befragte eine Kategorie der Un-
entschiedenheit darstellt (vgl. Zaller 1992, zit. nach Krosnick & Fabrigar, 1997, p.
164).
Trotz der nachgewiesenen Einflüsse durch verschiedene Merkmale des Satisfi-
cing muss bedacht werden, dass bei Weglassen der Mittelkategorie die Gefahr be-
steht, dass Befragte ihre reale Bewertung nicht ausdrücken können und die nächst
niedrigere oder höhere Kategorie wählen, was zu einer ungenauen Messung und zu
einem Reliabilitätsverlust führt (vgl. O’Muircheartaigh, Krosnick & Helic, 1999).
In ähnliche Richtung weisen die Befunde von Stern, Dillman & Smyth (2007). Die
Autoren stellten in ihrer Analyse fest, dass der Zwang, in der einen oder anderen
Richtung zu antworten, zur Erhöhung des Messfehlers beitragen kann. Es sollte
ferner bedacht werden, dass die Wahl neutraler Kategorien von den Erwartungen
der Befragten und der Anordnung der Alternativen abhängen können. So fanden
die Autoren ebenfalls, dass die neutrale Kategorie häufiger gewählt wird, wenn die
für das Beurteilungsobjekt günstigen Alternativen in der Reihenfolge der Antwort-
vorgaben zuerst aufgeführt werden. Unter Berücksichtigung der Befunde über die
optimale Anzahl der Skalenpunkte sprechen die Befunde für 5stufige oder 7stufi-
ge Antwortskalen. Um die Reliabilität zu erhöhen sollte vermieden werden, dass
sich Ursachen des Satisficing wie mangelndes Interesse, etc. auswirken können. Für
diese Empfehlung sprechen auch Analysen, die sich mit den Auswirkungen der
Skalenpunkte auf die Wahl der Mittelkategorie beschäftigen.
Es gibt empirische Hinweise dafür, dass die Anzahl der Skalenpunkte die Nei-
gung verstärkt, Extremkategorien und Mittelkategorien zu wählen. Je höher die
Anzahl der Skalenpunkte, desto stärker dieser Effekt, wobei dieser Effekt im Ver-
250 III.3 Einflüsse auf das Antwortverhalten

gleich zur Wahl von Extremkategorien bei der Wahl der Mittelkategorie geringer
ausfällt (vgl. Kieruj & Moors, 2010). Dieser Effekt spricht möglicherweise dafür,
dass die Befragten mit der Bewältigung von Skalen mit vielen Skalenpunkten
(z.B. 9, 10 und 11 Kategorien) überfordert sind und ein Satisficing-Effekt einsetzt.
Grundsätzlich besteht die Gefahr eines Bias, wenn die Tendenz zur Mittelkategorie
oder zu Extremkategorien ignoriert wird. Tutz und Berger (2016) zeigen, wie dieser
Bias im Rahmen von simultanen Modellen korrigiert werden kann, die den inhalts-
bezogenen Effekt vom Effekt des Antwortstils trennen, so dass der inhaltsbezogene
Effekt ohne Einfluss des Antwortstils geschätzt werden kann.
Bei der Verwendung von Skalen und Antwortvorgaben in unterschiedlichen
kulturellen Zielgruppen muss die Kulturabhängigkeit der Tendenz, Extremkatego-
rien zu wählen, in Betracht gezogen werden.

Verbalisierung der Skalenpunkte bei Rating-Skalen


Die Beschränkung der Verbalisierung auf die Skalenendpunkte hat nach Krosnick
(1997) verschiedene Vorteile. Der erste Vorteil besteht darin, dass numerische Wer-
te präziser sind als verbale Benennungen, da letztere eine mehr oder weniger vage
Bedeutung mit sich tragen. Zweitens aber sind numerische Skalenwerte leichter im
Gedächtnis zu behalten, eine Eigenschaft, die insbesondere bei Telefoninterviews
von Wichtigkeit ist.
Es gibt aber auch gute Gründe für die Annahme, dass die verbalen Benennun-
gen aller Skalenpunkte die Datenqualität verbessert. Da im Alltag Bedeutungen
selten durch Zahlen ausgedrückt werden, erscheinen verbale Benennungen natür-
licher. Die Vergabe von Namen für alle Skalenpunkte kann daher dazu beitragen,
die Bedeutung der Skalenpunkte zu klären und damit die Leichtigkeit zu erhöhen,
mit der Personen antworten können.
Einige Studien zeigen, dass die in Querschnittserhebungen ermittelte Reliabi-
lität durch verbale Benennungen gar nicht oder kaum beeinflusst wird (vgl. Finn,
1972; Madden & Bourdon, 1964, Faulbaum, 1984b). Die längsschnittbezogene Re-
liabilität (Test-Retest-Reliabilität) scheint sich durch verbale Benennungen sogar
zu erhöhen. (Alwin & Krosnick, 1991; Krosnick & Berent, 1993; Zaller, 1988). Die
Steigerungen sind am deutlichsten bei Befragten mit niedrigerem bis mäßigem Bil-
dungsniveau, also gerade bei dem Personenkreis, der durch die Benennungen am
meisten profitiert.
Verbale Benennungen erhöhen nach einigen Studien auch die Validität (Kros-
nick & Berent 1993; Dickinson & Zellinger, 1980). Sie führen außerdem zu einer
größeren Varianz der wahren Werte (vgl. Alwin & Krosnick, 1991). Rating-Skalen
sind weniger anfällig gegenüber Kontexteffekten, wenn die Skalenpunkte benannt
III.3 Einflüsse auf das Antwortverhalten 251

sind. Faulbaum (1984b) fand eine hohe Konstruktinvarianz in Bezug auf 7-stufige
numerische und verbalisierte Skalen, d.h. die numerischen und verbalisierten Ska-
len maßen offensichtlich das gleiche Konstrukt.
Die Auswahl der Benennungen ist eine schwierige Aufgabe, wenn die Anzahl
der Skalenpunkte hoch ist und eine metrische Skalenqualität verlangt wird. Sollen
die verbalisierten Skalenwerte metrisch interpretiert werden, muss die Gleichab-
ständigkeit der adverbialen Modifikatoren gesichert sein (vgl. Rohrmann 1978; zu
einer gleichabständigen 7-stufigen Verbalskala siehe Abbildung III.6). Einen Effekt
können insbesondere die Verbalisierungen der oberen und unteren Grenzen auf
den Skalenmittelpunkt haben (vgl. Schwarz & Hippler 1987).
Wie bereits in Abschnitt III.1.6 ausgeführt, kann die Interpretation für unter-
schiedliche soziale Gruppen unterschiedlich sein (vgl. Wegener, Faulbaum & Maag
1982; Schaeffer 1991). Unterschiedliche Bedeutungszuordnungen sind insbeson-
dere bei interkulturellen Umfragen zu erwarten (vgl. Kristof, 1966; Smith, 2003,
2004). Ein Beispiel stellen vage Häufigkeitsabstufungen bzw. vage Quantifikatoren
wie „oft“, „ziemlich häufig dar“, die an Stelle präziser Zahlenvorgaben verwendet
werden und bei denen gezeigt werden kann, dass sie von der Häufigkeit abhängen,
mit der das zu beurteilende Objekt in der Zielpopulation vorkommt (vgl. Pepper
& Prytulak, 1974) oder auch durch das Thema und die wahrgenommene Referenz-
population, über welche die Umfrage Aussagen machen soll (vgl. Wänke, 2002).
Bei der Interpretation solcher vagen Abstufungen scheint eine Anpassung an die
soziale Referenzgruppe stattzufinden, was die nachweisbare Abhängigkeit von Bil-
dung und Alter erklärt (vgl. Schaeffer, 1991). Wright, Gaskell und O’Muirchearta-
igh (1994) fanden, dass vage Quantifikatoren, welche die Fernsehhäufigkeit in der
letzten Woche abstufen sollten, bei Personen mit höherem Sozialstatus auf kleinere
Zahlenangaben abgebildet werden als bei den übrige Statusgruppen.
Die Entscheidung für oder gegen die Anwendung voll verbalisierter Ra-
tings-Skalen sollte neben möglicher Abhängigkeiten der Urteile von der Interpreta-
tion der Verbalisierungen auch die Praktikabilität berücksichtigen (vgl. Krosnick &
Fabrigar, 1997). Bei Telefonbefragungen ist diese Praktikabilität z.B. nicht gegeben.
Die Abfrage verbalisierter Antwortalternativen sollte in diesem Fall nicht über drei
bis vier liegen. Andernfalls können Recency-Effekten nicht ausgeschlossen werden,
da die Befragten nicht alle verbalen Benennungen im Kurzzeitgedächtnis speichern
können, gerade, wenn ein hoher Zeitdruck wie bei Telefoninterviews empfunden
wird.
252 III.3 Einflüsse auf das Antwortverhalten

Verzerrungen bei Zustimmungsskalen


Bei Zustimmungsskalen wie sie etwa Skalen vom Likert-Typ darstellen, muss ver-
stärkt mit einer inhaltsunabhängigen Zustimmungstendenz (engl.: acquiescence)
gerechnet werden, die durch Faktoren wie „Höflichkeit“, „Fügsamkeit gegenüber
Personen mit einem höheren Sozialstatus“ oder Satisficing bewirkt sein könnte.
Die Zustimmungstendenz kann von zahlreichen Faktoren abhängen. Nachgewie-
sen sind positive Auswirkungen durch „niedrigen Sozialstatus“, „geringere Schul-
bildung“, „geringe Intelligenz“, „geringere kognitive Energie“, „“geringere Freude
am Denken“, „geringeres Bestreben, einen guten Eindruck zu vermitteln“, „Müdig-
keit“ (vgl. die Zusammenfassung von Krosnick & Presser, 2010, pp. 276 und die
dort zitierte Literatur). Bei Telefoninterviews ist scheinbar mit einer höheren Zu-
stimmungstendenz als bei Face-to-Face-Umfragen zu rechnen (vgl. z.B. Holbrook,
Green & Krosnick, 2003). Auch mit kulturellen Einflüssen muss gerechnet werden.
In einigen Kulturen ist man eher zögerlich mit Ablehnungen (vgl. z.B. Faulbaum,
1988).
Die Zustimmungstendenz erstreckt sich auch auf entsprechende dichotome Ver-
balisierungen wie „stimme zu“ vs. „stimme nicht zu“ oder auch auf Ja/Nein-Fakt-
fragen. In Bezug auf letztere wurde wiederholt gefunden, dass die Antwort „Ja“ eher
gewählt wird, wenn die Antwort korrekt ist, als wenn sie es nicht ist. (vgl. Krosnick
& Presser, 2010, p. 276).
Zur Vermeidung von Effekten der Zustimmungstendenz bei Zustimmungsska-
len ist zu empfehlen, die relevante Beurteilungsdimension direkt abzufragen, also
statt
Ich bin mit meinen monatlichen Nettoeinkommen zufrieden
„Stimme voll und ganz zu“, „stimme zu“, „weder/noch“, „stimme nicht zu“, „stimme
überhaupt nicht zu“
besser:
Wie zufrieden sind Sie mit Ihrem monatlichen Nettoeinkommen?
Sehr zufrieden, zufrieden, weder/noch nicht zufrieden, überhaupt nicht zufrieden
Um eine Abhängigkeit von der Interpretation verbaler Nennungen zu umgehen,
empfiehlt sich eher eine numerische Skala, bei der nur die Endpunkte genannt sind.
Dies ist auch bei Telefonumfragen bei mehr als drei Abstufungen eine geeignete
Alternative.
III.3 Einflüsse auf das Antwortverhalten 253

Zusammenfassung der Verzerrungsarten bei Ratingskalen


Tourangeau, Rips & Rasinski (2000, p. 248) unterscheiden zusammenfassend fol-
gende Arten von Verzerrungen bei Rating-Skalen:
• Positivity bias (Tendenz, die negative Seite von Skalen zu meiden);
• Scale label effects (negative Zahlen werden so interpretiert, dass sie extremere
Urteile implizieren als positive);
• Response contraction bias (Befragte vermeiden extreme Antwortkategorien);
• Reference point effects (bestimmte Zahlen übertragen spezifische Bedeutungen,
die Befragte ermutigen oder entmutigen, eine Antwortalternative zu wählen
bzw. Bevorzugung oder Vermeidung prototypischer Begriffe und Zahlen (vgl.
Rosch, 1975; Kubovy & Psotka, 1976);
• Scale range effects (der Skalenbereich ändert die Überzeugungen über das zu
beurteilende Objekt).

Visuelle Analogskalen
Antwortdimensionen lassen sich auch mit Hilfe von visuellen Analogskalen präsen-
tieren. Tourangeau, Couper & Conrad (2007) untersuchten Unterschiede zwischen
visuellen Analogskalen und anderen Skalen, darunter graphische Ratingskalen, bei
denen eine Antwortlinie verbal abgestuft wurde, Skalen mit numerischen Abstu-
fungen und Skalen mit Radioknöpfen. Sie fanden, dass visuelle Analogskalen die
höchste Anzahl fehlender Werte und die längsten Bearbeitungszeiten aufwiesen.

III.3.6.3 Wirkung von Interviewer-Merkmalen

Studien zu den Wirkungen von Eigenschaften der Interviewer auf das Antwort-
verhalten der Befragten wurden sehr frühzeitig stimuliert durch amerikanische
Untersuchungen zu den Wirkungen afroamerikanischer und weißer Interviewer
auf afroamerikanische oder weiße Befragte. In der Frühzeit wurden dunkelhäu-
tige Interviewer vor allem eingesetzt, um dunkelhäutige Befragte zu interviewen,
da frühe Studien zeigten, dass Reaktionen von schwarzen Befragten auf weiße In-
terviewer durch Angst vor physischer Verletzung geprägt sein konnten und dass
schwarze Befragte vor unbekannten weißen Interviewern Angst hatten (vgl. Hy-
man, 1954). Auf der anderen Seit verlangte es damals weißen Kontaktpersonen
Mut ab, schwarzhäutigen Interviewern mit Vertrauen zu begegnen (vgl. Schuman
& Converse, 1968).
254 III.3 Einflüsse auf das Antwortverhalten

Analysen zu den Effekten der Rasse (engl.: race) auf das Antwortverhalten zeig-
ten u.a. auch, dass bei Abweichungen der Rasse zwischen Interviewern und Befrag-
ten, Antworten vermieden wurden, die die andere Rasse hätten beleidigen können
(vgl. Hatchett & Schuman, 1975). Die Ergebnisse dieser frühen Studien beleuchten
jedenfalls die Rolle der sozialen, insbesondere der ethnischen Interaktion zwischen
Interviewern und Befragten auf das Antwortverhalten. Die Studien basierten al-
lerdings auf Face-to-Face-Umfragen, bei denen Interviewer physisch präsent wa-
ren. Die Frage ist, ob ein solcher Einfluss auch existiert, wenn der Interviewer nur
virtuell präsent ist. Ergebnisse eines Experiments von Krysan und Couper (2003)
ergaben, dass weiße Befragte in Bezug auf die Rasse konservativere Antworten ga-
ben, wenn die Fragen von schwarzen Interviewern in einem Video gestellt wurden
als wenn sie von weißen Interviewern gestellt wurden. Die Interpretation dieses
Befunds, dass negative Vorurteile gegenüber schwarzen Interviewern in der vir-
tuellen Situation der bloßen Präsenz verstärkt werden, in der sozialen Präsenz der
physischen Anwesenheit aber eher einer Zensur unterliegen, konnte in einem spä-
teren Webumfrage-Experiment teilweise bestätigt werden (vgl. Krysan & Couper,
2006). Die Studien über die Interaktion zwischen weißen/schwarzen Interviewern
und weißen/schwarzen Befragten geben über die spezifischen Eigenschaften der
Interviewpartner hinaus einen Einblick in die möglichen Effekte der ethnischen
Zusammensetzung der Interviewpartner.
Nicht nur in Bezug auf die ethnische Herkunft, sondern auch in Bezug auf das
Geschlecht kann es bei spezifischen Themen zu sozialen Interaktionen zwischen
Interviewern und Befragten kommen. So wird etwa der Messfehler bei bestimm-
ten Fragen offensichtlich auch durch das Geschlecht der Interviewer beeinflusst. So
fanden z.B. Liu und Stainback (2013) empirische Hinweise dafür, dass weibliche
Interviewer bei Items, die für eine Heirat sprechen, positivere Antworten gaben als
männliche Interviewer.
Einer der bereits erwähnten möglichen Einflüsse der Interviewer auf die Mes-
sung besteht in der Erzeugung Interviewer-spezifischer Homogenität. Auch diese
kann bei bestimmten Themen durchaus von spezifischen Konstellationen der In-
terviewpartner abhängen. So äußern sich etwa männliche Respondenten je nach
Geschlecht der Interviewer unterschiedlich. In einer Studie gaben männliche Res-
pondenten gegenüber weiblichen Interviewern bei Fragen, die sich auf Geschlech-
ter-Ungleichheit bezogen, eher gleichheits-orientierte Antworten. Eine Erklärung
wäre die, dass männliche Interviewer möglicherweise versuchen, gegenüber weib-
lichen Interviewern höflicher zu sein. Weibliche Respondenten unterschieden sich
in ihren Antworten gegenüber Interviewern unterschiedlichen Geschlechts bei
Fragen, die sich auf Gruppeninteressen und Handlungsorientierungen beziehen
(vgl. Kane & Macaulay, 1993). Auch Zukunftsvorstellungen der Befragten könn-
III.3 Einflüsse auf das Antwortverhalten 255

ten vom Geschlecht der Interviewer beeinflusst sein. So fanden Groves und Fultz
(1985) empirische Anhaltspunkte dafür, dass männliche Interviewer von ihren Be-
fragten optimistischere Einschätzungen ihrer ökonomischen Aussichten erhielten.
Ein wichtiger Mediator des Geschlechtereinflusses auf das Antwortverhalten kann
die Stimme sein. So fanden Dykema et a. (2012) in einer Analyse von ACASI-Ant-
worten auf sensitive Fragen, dass die weibliche Stimme bei männlichen Befrag-
ten ein genaueres Antwortverhalten zur Folge hat. Männliche Befragte zeigten ein
stärkeres Engagement bei der Beantwortung von Fragen und gaben konsistentere
Antworten, wenn die Fragen durch eine weibliche Stimme vorgetragen wurden.
Negativ auf die Datenqualität können sich persönliche Beziehungen zwischen In-
terviewern und Befragen auswirken, die sich im Verlauf des Interviewprozesses ent-
wickeln (vgl. Beatty, 1995; Dijkstra, 1987), eine Qualitätsgefährdung, die vor allem
bei freier geführten Interviews entstehen kann. Es spricht ferner einiges für einen
Zusammenhang zwischen dem Erfolg von Interviewern, einen Kontakt oder eine
Kooperation herzustellen und der Höhe des Messfehlers.
Die Befunde zeigen, dass bei der Beurteilung der Validität der Antworten im-
mer auch eine mögliche Interviewer-Befragten-Interaktion in Betracht gezogen
werden muss.

III.3.6.4 Einflüsse des Layouts bei Selbstadministrierten Inter-


views

Bei Selbst-administrierten Interviews spielt zusätzlich zu Formulierungen und In-


halten der Frage die Form eine Rolle, in der die Fragen/Items visuell dargestellt
wird; d.h. das Layout von Fragen kann bewirken, dass Befragte nunmehr nicht mehr
nur auf den Inhalt einer Frage reagieren, sondern auf Merkmale der Darstellungs-
form wie stilistische Elemente, graphische Darstellungen, etc., die grundsätzlich ein
Einfallstor für Antwortverzerrungen eröffnen können. Bei selbst-administrierten
Befragungen werden die Materialien visuell vorgelegt und müssen vom Bildschirm
oder vom Papierfragebogen abgelesen werden. Dies bedeutet, dass nunmehr für die
optimale Gestaltung von Fragebögen auch Erkenntnisse der Wahrnehmungspsy-
chologie und der Leseforschung relevant werden. Hat ein Befragter die Informa-
tion visuell wahrgenommen, muss er auch das Layout der Information verstehen.
Darüber hinaus wird von den Befragten verlangt, das einführende Material und
die Instruktionen, deren Beachtung erst eine erfolgreiche Navigation durch den
Fragebogen ermöglicht, zu verstehen.
Im Vergleich zum Papierfragebogen kommen bei Onlinefragebögen Soft- und
Hardwarevoraussetzungen in der Ausstattung der Befragten hinzu. Eine ungüns-
256 III.3 Einflüsse auf das Antwortverhalten

tige Schriftart und Schriftgröße, eine ungünstige Aufteilung des Bildschirms, etc.
können unerwünschte und unvorhergesehene Effekte auf die Bereitschaft zum
Ausfüllen oder zum Abbruch des Interviews führen. Nicht nur die Darstellung der
Fragetexte, sondern auch die optische Darstellung von Antwortskalen erfordern
hier besondere Überlegungen, da Layout und Design Einflüsse auf das Antwortver-
halten ausüben können (vgl. Jenkins & Dillman 1997; Sless 1994).
Das Layout entsteht durch die Bindung eines Fragetextes an einen Zeichenträger
bzw. Übertragungskanal und ist mitbestimmend nicht nur für die Lesbarkeit bzw.
Wahrnehmbarkeit des Textes, sondern auch für die Interpretierbarkeit des Frage-
textes. Die Größe der Buchstaben, die Hervorhebung von Textpassagen und Wor-
ten, die Platzierung der Fragen und Items auf dem Bildschirm, die Gestaltung des
Hintergrunds, die Darstellung der Skalenpunkte auf dem Bildschirm, die Verwen-
dung von besonderen Symbolen und Bildern etc. stellen mögliche Determinanten
des Frageverständnisses und damit der Fragenqualität dar. Selbst-administrierte
computerunterstützte Interviews bieten zahlreiche Möglichkeiten der Einbindung
graphischer Elemente sowie von Bildern und der Platzierung von Textinformati-
onen. Insbesondere Webfragebögen bieten dafür besondere Möglichkeiten (vgl.
Couper, Tourangeau & Kenyon 2004).
Schon die Wahl der Antwortalternativen durch Radio-Knöpfe oder Drop-
Down-Boxen (siehe oben) sollte sorgfältig getroffen werden, um zu verhindern,
dass Befragte vorzeitig aus der Bearbeitung des Fragebogens aussteigen. So fanden
z.B. Heerwegh & Loosveldt (2002) gewisse Hinweise dafür, dass Drop-Down-Bo-
xen mehr Zeit brauchen und zu einer höheren Drop-out-Rate führen als Radi-
oknöpfe. Allerdings war der Effekt relativ gering.
Auch das Format der Antwortboxen, in die numerische Angaben eingetragen
werden sollen, kann einen Einfluss auf die Antwortverteilungen haben. So fanden
Couper, Traugott & Lamias (2001) in Bezug auf Webfragebögen, dass eine Verlän-
gerung der Antwortboxen (Kästchen, in die man die Antworten eintragen muss)
bei sonst gleichen Fragen, die Antwortverteilungen verändert. Christian & Dillman
(2004) fanden in Bezug auf schriftliche Fragebögen folgende Einflüsse:
• Lineare und nichtlineare Darstellungen (Platzierung der Kategorien nebenein-
ander in mehreren Spalten) von Antwortskalen hatten ebenfalls einen Einfluss.
Befragte wählten in der nichtlinearen Darstellung eher Kategorien der obersten
Zeile.
• Gleichheit oder Ungleichheit von Abständen zwischen den Antwortkategorien
kann ebenfalls einen Effekt auf die Wahl der Antwortkategorien haben.
• Die Größe des für Antworten auf offene Fragen zur Verfügung gestellten Raums
beeinflusst sowohl die Anzahl der Themen, die in den Antworten angesprochen
werden als auch die Anzahl der Worte.
III.3 Einflüsse auf das Antwortverhalten 257

• Die Verwendung von Linien für die Einträge von Antworten verringert nicht
die Anzahl der angesprochenen Themen und die Anzahl der verwendeten Wor-
te.
• Richtungspfeile auf untergeordnete Fragen erhöhen signifikant den Anteil der
Befragten, welche die untergeordneten Fragen beantworten sollen.
• Ein Vergleich von polaren Antwortskalen, bei denen nur die Endpunkte ver-
balisiert wurden, mit Abstufungen in Form von Antwortboxen, in welche die
Befragten den numerischen Skalenwert eintragen konnten, ergab, dass die
Skalenmittelwerte bei den Boxen erheblich höher lagen. Auf der Suche nach
Erklärungen führten die Autoren weitere Experimente durch, bei denen sich
herausstellte, dass das Weglassen graphischer Informationen einen Effekt auf
das Skalenverständnis hat.
Auch Christian, Dillman & Smyth (2007; vgl. auch Stern, Dillman & Smyth 2007)
fanden Einflüsse des Layouts der Antwortboxen auf das Befragten-Verhalten bei
Webfragebögen. Sie studierten die Einflüsse unterschiedlicher Größen von Boxen
für Zeitangaben in Jahren und Monaten, Einflüsse der Verwendung von symboli-
schen Informationen statt verbaler Benennungen, Einflüsse der Gruppierung der
Zeitangaben um die Boxen, der Verbalisierung (z.B. Wann vs. In welchem Jahr und
Monat) sowie Einflüsse des Zwischenraums zwischen der Präsentation von Jahr
und Monat. Dabei konnten sie z.B. zeigen, dass eine kleinere Monatsbox zusam-
men mit einer größeren Jahresbox dazu führt, dass Befragte eher eine vierstelli-
ge Jahresangabe machen. Die Verwendung von Symbolen (MM,YYYY) statt von
Worten (Monat, Jahr) erhöht den Prozentsatz der korrekten Angaben. Ähnliche
Ergebnisse fand Fuchs (2009) bei Mailumfragen.

Einflüsse der Anordnung der Antwortkategorien und Items


Nach Analysen von Tourangeau, Couper & Conrad (2004) hat die Anordnung der
Antwortkategorien und der Items einen Effekt auf die Geschwindigkeit, mit der
Befragte antworten. Waren die Antwortkategorien in einer logischen Reihenfolge
von unten nach oben dargestellt, wurden die Antworten schneller gegeben. Weite-
re Ergebnisse betreffen mögliche Positionseffekte von ungewohnten Items in einer
Menge von ähnlichen Items und die Verteilung von Items über verschiedene Seiten.
Ungewohnte Items wie z.B. ungewohnte Autotypen werden, wenn sie hinsichtlich
des Preises eingeschätzt werden sollen, so eingeschätzt wie es ihrer Position in ei-
ner Reihe ähnlicher Automodelle entspricht, sofern die Automodelle hinsichtlich
einer Dimension wie z.B. des Preisgefälles logisch angeordnet sind. Sind die Items
aber nicht logisch angeordnet, so tritt ein Kontrasteffekt auf, indem das Item mit
den Nachbaritems kontrastiert wird. In Bezug auf die Verteilung von Items über
258 III.3 Einflüsse auf das Antwortverhalten

verschiedene Seiten untersuchten die Autoren auch die Unterschiede zwischen der
Präsentation auf einer Seite, auf zwei Seiten und in der Form der Präsentation jedes
Items auf einer getrennten Seite. Die Interkorrelation der Items war am höchsten,
wenn alle Items auf einer Seite dargestellt wurden. Die Befragten leiten aus der
räumlichen Nähe offensichtlich eine Ähnlichkeit der Items ab.

Anzahl der Items auf dem Bildschirm


Einige Befunde sprechen dafür, dass die Präsentation mehrerer Fragen auf dem
Bildschirm die Interitem-Korrelationen erhöht (vgl. Fuchs, 2001, Tourangeau et al.,
2004). Peytchev (2007) führt dies auf Fehlerkorrelationen zwischen den Items zu-
rück (zit. nach Peytchev & Hill, 2010, p. 326). Toepoel, Das und Van Soest (2009)
untersuchten die Wirkung der Anzahl der Items, die auf dem Bildschirm gleichzei-
tig präsentiert werden. Die Autoren fanden Hinweise dafür, dass die Erhöhung der
Anzahl der Items die Anzahl der Nichtantworten erhöht, die Bearbeitungszeit des
Fragebogens vermindert und die Zufriedenheit mit der Umfrage reduziert. Der Ef-
fekt tritt vor allem auf, wenn ein Scrolling erforderlich ist. Die Autoren empfehlen,
4 bis 10 Items auf dem Bildschirm zu platzieren, um ein Scrolling zu vermeiden.

Einflüsse auf die Beachtung von Instruktionen


Die Lage der Instruktionen relativ zum Fragetext hat einen Einfluss darauf, ob die
Instruktionen beachtet werden (vgl. Christian & Dillman 2004).

Einflüsse des Layouts auf den Anteil nicht-adäquater Antworten


Nach Couper, Traugott & Lamias (2001) führen Antwortboxen im Vergleich zu
Radio Buttons bei Webfragebögen zu einem höheren Prozentsatz von Item Non-
response. Ferner werden die Antwortzeiten und die Anzahl fehlender Antworten
reduziert, wenn mehrere Items auf einer Bildschirmseite dargestellt werden. Die
Präsentation mehrerer Items auf einer Bildschirmseite erzeugt dabei keine höhere
Korrelation zwischen den Items als in dem Fall, wo jedes Item auf einer einzigen
Bildschirmseite platziert wird. Allerdings dürfte es dabei darauf ankommen, wie
stark die Items thematisch zusammenhängen. Die Darstellung mehrerer Items auf
einer Bildschirm-Seite führte auch zu einer geringeren Anzahl von „Weiß nicht“
und „will ich lieber nicht sagen“-Antworten.
III.3 Einflüsse auf das Antwortverhalten 259

Einflüsse des Layouts von Fragen


Smyth et al., (2006) untersuchten in einer Studie die Gewohnheit von Umfrage-
forschern, in Webumfragen „check-all“ – Fragen, in telefonischen Umfragen aber
„forced choice“-Fragen zu stellen. Bei „check all“-Fragen werden die Befragten ge-
beten, alle Items auszuwählen, denen sie zustimmen („check all that apply“ bzw.
„Bitte alles Zutreffende ankreuzen“). Unter „forced-choice“-Fragen werden Fra-
gen verstanden, bei denen jedem Item nacheinander getrennt zugestimmt wer-
den muss. Die Ergebnisse ihrer Experimente zeigen, dass „forced-choice“-Fragen
„check-all“-Fragen vorzuziehen sind, weil die Befragten bei letzteren mehr Items
zustimmen bzw. mit „Ja“ beantworten. Die Befragten verwendeten außerdem mehr
Zeit für die Beantwortung der „forced choice“-Frage im Vergleich mit den „check-
all“-Fragen, was darauf hindeuten könnte, dass „forced-choice“-Fragen sorgfältiger
beantwortet werden.

Die Wirkung von Fortschrittsanzeigen (engl. progress indicators)


Yan et al. (2010) studierten den Einfluss der Interaktion zwischen Fortschrittsan-
zeige, der eingangs gegebenen Informationen über die Dauer des Interviews, der
tatsächlichen Fragebogenlänge und dem Sachverhalt, ob der Fortschritt angezeigt
wird oder nicht. Im Mittelpunkt der Analyse stand die Frage, wann und unter wel-
chen Bedingungen die Befragten das Interview abbrechen. Die Ergebnisse zeigen,
dass das Abbruchverhalten ein komplexes Phänomen ist. Die Befunde zeigten:
• Grundsätzlich beeinflusst die Präsentation einer Fortschrittsanzeige nicht die
Entscheidung der Befragten, das Webinterview bis zum Ende fortzuführen.
• Die Präsentation einer Fortschrittsanzeige führt bei kurzen Interviews zu weni-
ger Abbrüchen als bei längeren Interview.
• Die Präsentation einer Fortschrittsanzeige führt zu weniger Abbrüchen, wenn
die eingangs abgegebene Schätzung der Interviewdauer kürzer ist als wenn sie
länger ist.
• Die Präsentation einer Fortschrittsanzeige führt zu weniger Abbrüchen, wenn
die Fragebogenlänge bei Ankündigung eines kurzen Fragebogens tatsächlich
kurz ist. Bei längeren Fragbögen kamen die Abbrüche außerdem früher. Es ist
also von Bedeutung, ob die Fortschrittsanzeige zum Fortführen des Interviews
ermutigt statt entmutigt.
Als Ergebnis konnte festgehalten werden, dass Fortschrittsanzeigen bei langen In-
terviews eher nicht verwendet werden sollten. In der Studie nicht geklärt werden
konnte allerdings die Rolle des Engagements (commitment) von Befragten.
260 III.3 Einflüsse auf das Antwortverhalten

Mobiles Web
Zunächst muss mit den gleichen Effekten gerechnet werden wie beim festinstal-
lierten Rechner. Allerdings kann es je nach Ausstattung des mobilen Geräts Effekte
der Bildschirmgröße, etc. geben (vgl. Peytchev & Hill, 2010). Es empfiehlt sich in
jedem Fall einem mobilen Survey einen extensiven Pretest inkl. Usability-Test vo-
ranzustellen.

Wirkung von Bildinformationen


Selbst-administrierte Interviews, insbesondere Webinterviews, bieten die Mög-
lichkeit der Einbindung visueller Informationen. Zahlreiche Studien beschäftigen
sich mit der Wirkung von Bildinformationen u (vgl. Couper, Conrad & Touran-
geau, 2007; Couper, Tourangeau & Kenyon, 2004; Knobloch et al., 2003; Toepoel
& Couper, 2011; Witte et al., 2004). Bilder können in Webfragebögen ganz unter-
schiedliche Funktionen erfüllen. Zunächst bieten Bildinformationen den direkten
Zugang zu Phänomenen und Ereignissen der visuell wahrnehmbaren Außenwelt.
So könnte man die visuelle Erscheinung eines PKW auch verbal beschreiben, ein
Bild stellt aber eine Form der Präsentation dar, die der Wahrnehmung im Alltag
entspricht. Weitere Funktionen von Bildern können sein die Funktion zusätzlicher
Erläuterungen oder motivierende Funktionen (vgl. z.B. Knobloch in Bezug auf die
Motivation zum Lesen von Zeitschriftenartikeln durch die Präsentation von Über-
schriften). Manchmal haben Bildinformationen auch nur stilistischen Charakter. Je
nach Einbettung in die Frage können sie Antworten der Befragten in der Intensität
der Urteile beeinflussen. Bilder können Assimilations- und Kontrasteffekte auslö-
sen. Kontrasteffekte entstehen, wenn die Bildinformation den eigenen Zustand ne-
gativer oder positiver erscheinen lässt. So fanden Couper, Conrad und Tourangeau
(2007), dass das Zeigen einer Frau, die eine große Fitness ausstrahlt, dazu führte,
dass die eigene Gesundheit schlechter eingestuft wurde als wenn eine kranke Frau
dargestellt wurde. Bei einem Assimilationseffekt bewirkt das Bild ein gleichartiges
Verhalten. So zeigen die Untersuchungen von Couper, Tourangeau und Kenyon
(2004), dass Bilder, die ein häufiges Ereignis darstellten, auch zu einer erhöhten
Anzahl berichteter Ereignisse führten. Toepoel und Couper (2011) untersuchten
zusätzlich die Wechselwirkungen von Bildinformation und verbaler Information.
Sie kombinierten Bilder von unterschiedlich häufigen Ereignissen mit verbalen In-
struktionen, unterschiedlich häufige Ereignisse aufzuzählen z.B. "Bitte zählen Sie
alle Einkäufe, vom Lebensmittelgeschäft bis zum Kaufhaus" vs. "Bitte zählen Sie nur
die Einkäufe im Kaufhaus"). Ihre Ergebnisse bestätigten einerseits die Ergebnisse
von Couper, Tourangeau und Kenyon. Andererseits konnten sie zeigen, dass die
III.3 Einflüsse auf das Antwortverhalten 261

Effekte der verbalen Instruktionen aber stärker waren. Die Autoren fanden auch,
dass restriktive Instruktionen wie „Zählen Sie nur die Ereignisse mit einer geringen
Häufigkeit“ den Effekt der Bilder reduzierten.

Layout und interpretative Heuristiken


Gegenüber Interviewer-administrierten Interviews können bei selbst-adminis-
trierten Interviews auch Effekte durch Wechselwirkungen zwischen Layout und
Frageverständnis auftreten. Couper, Tourangeau und Conrad (2004, 2007) unter-
schieden zwischen aufgabenbezogenen und stilistischen Elementen des Fragebo-
gens. Aufgabenbezogene Elemente sind jene, die zur Bearbeitung des Fragebogens
notwendig sind wie z.B. Frageformulierungen, Antwortoptionen, Instruktionen für
die Navigation, etc. Zu den stilistischen Elementen wurden solche gezählt, die das
Aussehen und die Präsentation des Fragebogens wie z.B. Logos, Hintergrundfarben
und Fonts betreffen. Dabei besteht durchaus die Gefahr, dass von den Befragten
stilistische Elemente als aufgabenbezogene Elemente betrachtet werden. In diesem
Zusammenhang unterscheiden die Autoren folgende fünf Heuristiken:
• „mittel“ bedeutete „typisch“: Die Befragten sahen die mittlere Antwortoption in
einer Anordnung von Antwortalternativen als typisch an.
• „links“ und „oben“ bedeutet „zuerst“: Das am weitesten links obenstehende
Item wird auch als das erste Item im konzeptuellen Sinn angesehen. Befragte
erwarten, dass das so platzierte Item die stärkste Ausprägung hat (z.B. stimme
voll und ganz zu) und erwarten in logischer Abfolge die nächst schwächeren
Ausprägungen. Ist dies nicht der Fall, sind sie verwirrt.
• „nahe“ bedeutet „verwandt“: Befragte erwarten, dass physikalisch nebeneinan-
derliegende Items, auch konzeptuell ähnlich sind.
• „oben“ bedeutet „gut“: Das oberste Item in einer Liste wird auch als das am
meisten wünschenswerte Item angesehen.
• „ähnlich“ (in der Erscheinung) bedeutet „ähnlich“ (in der Bedeutung):
• Items, die im Erscheinungsbild ähnlich sind, werden auch als konzeptuell ähn-
lich angesehen.
Die Autoren fanden empirische Evidenz für alle genannten Heuristiken.
Aus den Befunden über die Wirkungen des Layouts lassen sich Gestaltungs-
prinzipien ableiten, die später im Zusammenhang mit der Evaluation von Erhe-
bungsinstrumenten dargestellt werden.
262 III.4 Zusammenfassung

III.4 Zusammenfassung

Für die Auswahl und Gestaltung von Survey-Items steht eine große Menge al-
ternativer Gestaltungsmöglichkeiten zur Verfügung, die durch eigene Vorschlä-
ge erweitert werden kann. Die konkreten Entscheidungen hängen nicht nur von
inhaltlich/thematischen Überlegungen, sondern auch von den Eigenschaften der
Grundgesamtheit, den Kommunikationsformen sowie von den Wirkungen kon-
kreter Realisierungen der Bestandteile der Survey-Items ab. Zu berücksichtigen
sind die zahlreichen Befunde zu den Wirkungen auf das Antwortverhalten. Aller-
dings sind diese inzwischen für den normalen Anwender nahezu unübersehbar
und daher nur schwer in die konkrete Arbeit zu integrieren. Auch sind die Be-
funde gelegentlich widersprüchlich und von den spezifischen Bedingungen und
Designs der einzelnen Studien abhängig. Dennoch gibt es einige Befunde, denen
Erkenntnischarakter zugebilligt werden kann. Dazu gehören z.B. Gefährdungen
der Datenqualität durch Satisficing auf Grund einer zu großen Arbeitsbelastung
und mangelnder Leistungsmotivation der Befragten und der positive Effekt der
Selbstadministration bei sensitiven Fragen, die Folgen der Selbstadministration für
die Bearbeitung von Fragen, Wirkungen des Interviewer-Verhaltens, etc. Wichtig
erscheint in diesem Zusammenhang die Dokumentation der eigenen Erfahrungen
mit unterschiedlichen methodischen Randbedingungen.
Besondere Aufmerksamkeit muss der Semantik und Pragmatik sprachlicher
Äußerungen gewidmet werden. Angestrebt werden sollte eine über Forscher und
Befragte invariante Bedeutungswahrnehmung. Erkenntnisse darüber lassen sich
eigentlich nur über die in Teil V dargestellten Pretest-Verfahren gewinnen. Die
Konsequenzen des Frageentwurfs für die Zuverlässigkeit und Gültigkeit der inten-
dierten Messung lassen sich nur über entsprechende Verfahren der statistischen
Analyse gewinnen (vgl. Teil IV).
Grundsätzlich erscheint es notwendig, dass im Bereich der Einflüsse auf das
Antwortverhalten wiederholte Studien zu gleichen Themen unter weiteren Rand-
bedingungen durchgeführt werden sollten.
Teil IV: Fragen und Antworten als
Messungen

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 263
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_4
IV.1 Was ist Messen?

Das Messen gehört zur normalen Alltagspraxis des menschlichen Lebens. Wir
messen das Fieber, den Blutdruck, die Raumtemperatur, die Geschwindigkeit, die
Anzahl der Quadratmeter einer Wohnung. In jedem Fall wird durch ein Gerät, das
mit einem Messfühler ausgestattet ist, die Ausprägung einer Eigenschaft bestimmt
und als Zahl verschlüsselt an uns weitergeben. Die gemeinsame Eigenschaft der
genannten Beispiele für das Messen im Alltag besteht darin, dass durch den Mess-
fühler aufgespürte Ausprägungen der Eigenschaft eines Objekts Zahlen zugeordnet
werden, z.B. Zahlen für die Höhe der Temperatur, des Blutdrucks, etc.
Allerdings wird von einem solchen Gerät erwartet, dass die Zuordnung der
Zahlen nicht beliebig erfolgt, sondern so, dass sich unterschiedliche Ausprägun-
gen der gemessenen Eigenschaft in den zugeordneten Zahlen widerspiegeln, d.h.,
dass die Zahlen die Sensitivität des Messfühlers respektieren. So sollten also un-
terschiedliche Wärmezustände eines Raums zumindest durch unterschiedliche,
als Quantitäten interpretierte Zahlen repräsentiert werden. Darüber hinaus wäre
vielleicht auch zu fordern, dass sich wärmere Zustände durch höhere Zahlen als
niedrigere auszeichnen, oder dass sich sogar quantitative Abstände zwischen den
Zuständen in entsprechenden Zahlenverhältnissen widerspiegeln. D.h. wir fordern
eventuell sogar, dass die zugeordneten Zahlen die Beziehungen zwischen den an
den Objekten festgestellten Merkmalsausprägungen respektieren.
Ehe wir die Beziehungen zwischen Merkmalsausprägungen und Zahlen formal
charakterisieren, sollen die Besonderheiten der Messung durch Antworten auf Fra-
gen näher betrachtet werden. Was in Umfragen gemessen wird, sind in der Regel
subjektive Eigenschaften von intern repräsentierten Objekten im weitesten Sinn.
Selbst bei sog, Fakt-Fragen gibt es die „Fakten“ in der Regel nur in der zeitlichen
Modalität der Vergangenheit als subjektive Repräsentationen im Befragten. Weder
der Forscher noch die Administratoren haben in der Regel das Faktum unabhän-
gig vom Befragten beobachtet. Selbst die Existenz dieses Faktums ist fraglich und
wird oft vorausgesetzt. Die Gegenstände, die nach der Bitte um Selbstauskunft vom
Befragten auf Antwortdimensionen bewertet und durch Angabe von Skalenwerten
oder Antwortalternativen geäußert werden, sind ohne Ausnahme subjektiv. Dies
bedeutet, dass im Vergleich zu den „objektiven“ Messungen der äußeren Umge-
bung im Fall sozialwissenschaftlicher Messungen die Messapparatur vollständig im
Befragten, d.h. der inneren Umgebung des Befragten, situiert ist. Registriert wird
vom Forscher nur die beobachtbare, vom Befragten geäußerte Antwort. Sowohl die
zu messende, schon vorhandene oder erst im Antwortprozess erzeugte subjektive
Repräsentation als auch der Messfühler, der diese Repräsentation auf einer subjek-
266 IV.1 Was ist Messen?

tiven Skala beurteilt, ist der Befragte selbst. Insofern lässt der Forscher durch das
Stellen einer Frage den Befragten die Messung intern ausführen und beobachtet das,
was ihm mitgeteilt wird. Aus der geäußerten Mitteilung des Befragten interpretiert
er in einer zum Befragten inversen Abfolge die Äußerung. Der gesamte Messpro-
zess ist dem Forscher verborgen, so dass er die Korrektheit der Messung bei einem
konkreten Befragten nur vermuten kann (vgl. Abbildung IV.1).
Erst im Aggregat, d.h. bei der Ausführung der Messung in einer größeren Stich-
probe von Fällen können unter bestimmten Modellannahmen Rückschlüsse auf
Reliabilität und Validität gezogen werden. Eine Übertragung auf den einzelnen Fall
kann nur über die Annahme einer stochastischen Identität aller Individuen vorge-
nommen werden, so dass also die statistische Verteilung in der Population auch die
Wahrscheinlichkeitsverteilung des einzelnen Individuums wiederspiegelt.

Abbildung IV.1: Übertragung der Messinformation vom Respondenten zum Forscher


IV.1 Was ist Messen? 267

IV.1.2 Formale Präzisierung des Begriffs „Messen“

Der formale Begriff des Messens als Zuordnung von Zahlen zu Eigenschaften von
Objekten, die dann bezüglich quantitativer Ausprägungen untereinander in eine
Ordnung gebracht werden können, wurde ursprünglich für die Messung beobacht-
barer, empirischer Eigenschaften wie z.B. Länge, Wärme, etc. entwickelt. Im Fall
der Messung subjektiver Eigenschaften wie „Zufriedenheit“, „Wichtigkeit“ von Si-
tuationen, Ereignissen, Zuständen, etc. sind nur die beobachteten Äußerungen des
Befragten empirisch. Nur durch den in Abbildung IV.1 dargestellten Rückschluss
des Forschers von der Äußerung auf die subjektive Antwortdimension lassen sich
Ausprägungen in Äußerungen auf subjektive Urteile rückbeziehen.
Man kann die klassische Beschränkung des Messbegriffs auf die Zuordnung von
Zahlen zu empirischen Eigenschaften und Objekten übernehmen und zunächst auf
die Zuordnung von Zahlen zu Werten der Antwortskala beziehen. Individuen sind
dann durch Werte auf einer empirischen und nicht auf einer latenten Antwortdi-
mension unterschieden. Erst im Rahmen eines Modells, das die beobachteten Ant-
worten (Äußerungen) mit den Werten auf der subjektiven latenten Antwortskala
im Sinne von Abschnitt 1.5 verbindet, lassen sich formal die beobachteten Werte
und damit auch die diesen zugeordneten Zahlen auf latente Werte beziehen. In der
Praxis geschieht der Rückschluss in der Regel ohne bewusste Entscheidung für ein
Modell. Stattdessen werden die von den Befragten geäußerten Werte auf der be-
trachteten Antwortdimension mit den subjektiven Urteilen identifiziert. Will man
diese Identifikation nicht, so führt dies zwangsläufig zu Messmodellen mit latenten
Variablen (siehe unten).
Der Begriff „Messen“ empirischer Eigenschaften wird in der Theorie des Mes-
sens im Begriff der Skala gebündelt (vgl. hierzu z.B. Krantz et al., 1971, 1974; Orth,
1974; Stevens, 1957; Suppes & Zinnes, 1963). Eine Skala wird formal als struktur-
treue Abbildung (Funktion, Zuordnung) präzisiert; d.h. eine Skala ordnet Objekten
Zahlen in der Weise zu, dass die zwischen den Objekten bestehenden empirischen
Beziehungen sich in der Beziehung zwischen Zahlen widerspiegeln. Strukturtreue
Abbildungen werden in der Mathematik als Homomorphismen bezeichnet. Box
III.1 enthält ein Beispiel für die strukturtreue Abbildung einer Ordnungsbeziehung.
Eine Menge von Objekten, in der empirische Beziehungen zwischen Objekten
wie z.B. „größer als“ oder „Wert auf einer Antwortskala größer als“ bestehen, wird
in der Messtheorie als empirisches Relativ bezeichnet. Mathematisch handelt es sich
um eine algebraische Struktur. Die Menge der Zahlen, in welche die Objekte des
empirischen Relativs abgebildet werden, heißt numerisches Relativ.
268 IV.1 Was ist Messen?

Eine Skala ist nunmehr definierbar als eine strukturtreue (d.h. homomorphe)
Abbildung eines empirischen Relativs ! in ein numerisches Relativ " . Eine Skala
S ist also durch die folgenden drei Bestandteile definiert:
1) ein empirisches Relativ ! = < A, R >, das in einer Menge A und einer in ihr
GH¿QLHUWHQ5HODWLRQR besteht;
2) ein numerisches Relativ " = < B, S >, das in einer Menge B von Zahlen und
HLQHULQLKUGH¿QLHUWHQ5HODWLRQS besteht;
3) einen Homomorphismus ϕ : A → B des empirischen Relativs in das numeri-
sche Relativ mit φ[R(a, b] = S[φ(a), φ(b)].
R(a, b) wird gelesen als a steht zu b in der Relation R. S(a, b) wird gelesen als die
Zahl a steht zur Zahl b in der Relation S. Prinzipiell kann in den Mengen A und B
natürlich mehr als eine Relation definiert sein.
Eine Skala lässt sich formal kennzeichnen durch Tripel
S = < A, B, φ >.

Box IV.1: Beispiel Strukturtreue Abbildung einer Ordnungsbeziehung


Angenommen, φ wäre die Messung der Körpergröße und a, b, c, d seien Perso-
nen und a ‫ غ‬b bedeute „die Körpergröße von a übertrifft die Körpergröße von
b oder die Körpergrößen sind gleich“. Dann bildet die Menge A={a,b,c,d} von
Personen zusammen mit der Relation ့ ein empirisches Relativ. In der Menge
B der Zahlen des numerischen Relativs der Zahlen betrachten wir die Relation
≥ (größer oder gleich als). Die folgende Zuordnung ist dann ein Homomorphis-
mus, d.h. eine strukturtreue Abbildung:

Empirisches Relativ Numerisches Relativ


a့b φ(a) = 3 ≥ φ(b) = 3
a့c φ(a) = 3 ≥ φ(c) = 2
a့d φ(a) = 3 ≥ φ(d) = 1
b့c φ(b) = 3 ≥ φ(c) = 2
b့d φ(b) = 3 ≥ φ(d) = 1
c့d φ(c) = 2 ≥ φ(d) = 1

Eine wichtige Frage ist, ob es für ein vorgegebenes empirisches Relativ einen Ho-
momorphismus gibt bzw. ob eine Skala existiert (Repräsentationsproblem).
Durch Einführung von Axiomen, die im empirischen Relativ als gültig ange-
nommen werden, lassen sich mehr oder weniger komplexe sog. Messstrukturen
definieren. Im einfachsten Fall wäre nur eine Äquivalenzrelation im empirischen
IV.1 Was ist Messen? 269

Relativ als gültig angenommen, in komplexeren Fällen eine Ordnungs-Messstruk-


tur oder oder sogar eine Intervall-Messtruktur (vgl. Orth, 1974: 42 ff). Der ein-
fachste Fall einer Messtruktur ist gegeben, wenn im empirischen Relativ nur eine
Äquivalenzrelation definiert ist. Eine Äquivalenzrelation ≈ ist mathematisch durch
die folgenden Axiome gekennzeichnet:
1) a ≈ a (Reflexivität)
2) a ≈ b o b ≈ a 6\PPHWULH
3) a ≈ b und b ≈ c o a ≈ c (Transitivität)
Ein Beispiel für eine solche Relation wäre z.B. „a und b gehören zur gleichen po-
litischen Partei“. Eine Äquivalenzrelation führt im empirischen Relativ zu einer
Klasseneinteilung. Ein Homomorphismus in ein numerisches Relativ, der eine
Äquivalenzrelation respktiert, heißt auch Nominalskala. Eine Nominalskala ist also
definiert durch folgenden Homomorphismus definiert:
a ‫ ؠ‬b oφ(a) = φ(b)
a ‫ ء‬b oφ(a) ≠ φ(b).
In diesem Fall werden Elementen des empirischen Relativs, die zur gleichen Klas-
se gehören die gleichen Zahlen zugeordnet. In dem oben genannten Beispielfall
der Relation „gehören zur gleichen Partei“ wird Personen, die zur gleichen Par-
tei gehören, die gleichen Zahlen zugeordnet. Die bereits erwähnten komplexeren
Messtrukturen wie Ordnungs- und Intervallstrukturen führen zu weiteren Skalen-
typen, von denen die wichtigsten die Ordinalskala (respektiert die Ordnung der
Elemente des empirischen Relativs) und die Intervallskala (respektiert die Diffe-
renzenstruktur des empirischen Relativs).
Aus der obigen Darstellung geht hervor, dass Skalen durch Messstrukturen de-
finiert sind. In Abschnitt 4.3 wird dargestellt, dass sie sich auch durch die Art der
zulässigen numerischen Transformationen charakterisieren lassen. Methoden zur
Herstellung einer Skala heißen auch Skalierungsverfahren (vgl. Borg & Staufenbiel,
2007; Guilford, 1954; Orth, 1976). Letztere können auf verschiedenen Arten von
Verhaltensdaten beruhen wie z.B. Paarvergleiche, psychophysische Skalierung wie
Einschätzungen physikalischer Größen wie Lautstärke, Tonhöhe, Objektgrößen,
Häufigeiten des Auftretens von Objekten etc. Eine Skalierung kann auch in mehre-
ren Dimensionen simultan erfolgen. In diesem Fall spricht man mehr- oder multidi-
mensionaler Skalierung (vgl. Borg, 1981; Borg & Groenen, 2010).
Einstufungen auf Antwortskalen erlauben nicht notwendig die Zuordnung zu
einer Skala mit bestimmten Eigenschaften im messtheoretischen Sinn. Die Mess-
struktur einer Variablen kann wegen des erhebungstechnischen und auswertungs-
technischen Aufwand weder in der Umfrage selbst, noch in einem vorangehenden
270 IV.1 Was ist Messen?

Pretest validiert werden. Annahmen über Messtrukturen basieren in der Regel


auf Intuition und Festlegungen. Um z.B. zu überprüfen, ob die vorgegebenen An-
worten auf die Frage nach dem höchsten allgemein bildenden Schulabschluss eine
Ordinalskala oder sogar eine Intervallskala des Merkmals „Bildung“ darstellen,
müssten streng genommen zunächst geeignete Skalierungsverfahren angewendet
werden. Durch Paarvergleiche der Antwortalternativen in Hinblick auf das Merk-
mal „Bildung“ könnte etwa die Ordinalität der Skala überprüft werden. Durch
Paarvergleiche zwischen Differenzen der Alternativen hinsichtlich Bildung könnte
auch die Intervalleigenschaft validiert werden. Ein seltenes Beispiel für den auf-
wändigen Nachweis der Intervalleigenschaft einer Skalen liefert Wegener (1982) im
Rahmen der Zusatzstudie „Skalenvergleich“ zur Allgemeinen Bevölkerungsumfra-
ge der Sozialwissenschaften 1982 (vgl. auch die Zusammenfassung der Studie von
Faulbaum, 1984). Die von Wegener u.a. analysierte Frage war, ob die im ALLBUS
wiederholt erhobenen Items der beruflichen Merkmale „Sichere Berufsstellung“,
„Hohes Einkommen“, „Ein Beruf, der anerkannt und geachtet wird“, „Ein Beruf,
der einem viel Freizeit lässt“, „Interessante Tätigkeit“, „Eine Tätigkeit, bei der man
selbstständig arbeiten kann“, „Ein Beruf, der viel Verantwortungsbewusstsein er-
fordert“, „Viel Kontakt zu anderen Menschen“, „Ein Beruf, bei denen man anderen
helfen kann“, „Ein Beruf, der für die Gesellschaft nützlich ist“, „Gibt mir das Gefühl,
etwas Sinnvolles zu tun“, „Sichere und gesunde Arbeitsbedingungen“ eine Interva-
llskala der Berufswerte hinsichtlich der Antwortdimension „Wichtigkeit“ darstel-
len. Dazu wurden an einer Stichprobe von Probanden Paarvergleiche zwischen den
Wichtigkeitsdifferenzen zwischen je zwei Berufsmerkmalen vorgenommen, um die
einer Intervallskala zugrundeliegenden Axiome zu überprüfen. Solche aufwändi-
gen Überprüfungen der axiomatischen Eigenschaften und damit der Bestimmung
des Skalentyps lassen sich nur in getrennten Studien durchführen. Sie wären aber
wenigstens für immer wieder verwendete Antwortalternativen wünschenswert.

IV.1.3 Skalenniveaus: Charakterisierung von Skalen durch


zulässige numerische Transformationen

Wie oben dargestellt, müsste zur Typisierung von Skalen eigentlich überprüft wer-
den, welche Messtrukturen der Messung zugrundeliegen, was gleichbedeutend mit
einer Validierung der die Messstruktur definierenden Axiome wäre. Dies lässt sich
aber in der Regel aber nur in experimentellen Kontexten durchführen. Berühmt
sind in den Verhaltenswissenschaften die verschiedenen Überprüfungen von Ei-
genschaften der Nutzenskala und der Skala der subjektiven Wahrscheinlichkeiten
IV.1 Was ist Messen? 271

auf der Basis der Axiome, die Savage (1954) in seinem berühmten Werk „Founda-
tions of Statistics“ aufgestellt hat. Auch für die Überprüfung der Intervallskalen-
qualität von Skalen wurde gibt es Beispiele (vgl. z.B. Wegener, 1982). In der Praxis
werden Annahmen über die Skalenqualität aber, vor allem von Rating-Skalen, oft
einfach vorausgesetzt.
Skalen, die durch bestimmte Messstrukturen und diese respektierende Homo-
morphismen definiert sind, lassen sich auch durch numerische Transformationen
typisieren, die für eine Skala zugelassen sind (vgl. Stevens, 1946). Dabei lassen sich
folgende Typen unterscheiden, die auch als Mess- oder Skalenniveaus bezeichnet
werden:

Nominalskalen
Nominalskalen sind eindeutig bis auf ein ein-eindeutige Transformation, d.h. alle
ein-eindeutige (auch: injektive) Abbildungen einer der Nominalskala ergeben wie-
der Nominalskalen. Nehmen wir das oben genannte Beispiel der Parteizugehörig-
keit. Dann sind alle in Tabelle IV.1 dargestellten drei Zuordnungen von Zahlen glei-
chermaßen zulässige Nominalskalen. Jede Zuordnung entsteht aus einer anderen
durch eine ein-eindeutige von Zahlen in Zahlen.

Tabelle IV.1: Zulässige Nominalskalen des Merkmals “Parteizugehörigkeit”

Merkmal „Parteizugehörigkeit“ Skala 1 Skala 2 Skala 3

CDU/CSU 1 7 3
SPD 2 20 12
FDP 3 1 25
Bündnis90/Die Grünen 4 300
Piraten 5 2 26
NPD 6 8 19
sonstige 7 6 5

Wie bereits in Abschnitt IV.1.2 erwähnt, respektiert eine Nominalskala nur die
Einteilung in Klassen. Die Klasse aller Personen, die einer der genannten Parteien
angehören, sind durch den gleichen Zahlenwert gekennzeichnet. Die Zahlen haben
hier nur die Funktion von Namen.
272 IV.1 Was ist Messen?

Ordinalskalen
Ordinalskalen respektieren die Ordnungsrelation im empirischen Relativ. Sie sind
eindeutig bis auf eine monoton steigende Transformation; d.h. durch eine mono-
ton steigende Transformation erhält man wieder eine zulässige Ordinalskala. Eine
monoton steigende Transformation φ ist definiert durch
x > y oφ(x) > φ(y),
wobei x, y, φ(x) und φ(y) Zahlen darstellen. In Box IV.2 ist ein Beispiel für eine
Ordinalskala dargestellt.

Box IV.2: Beispiel für eine Ordinalskala (Interesse an Fernsehsendungen):

Ich habe hier verschiedene Kärtchen, auf denen verschiedene Fernsehsendun-


gen stehen.
Bitte sagen Sie mir jeweils, wie stark Sie sich für solche Sendungen interessieren:
sehr stark, stark, mittel, wenig oder überhaupt nicht?
Fernsehshows, Quizsendungen
Sehr stark
stark
mittel
wenig
Überhaupt nicht
Die Antworten auf diese Frage ergeben eine Rangordnung der Befragten nach
der Intensität ihres Interesses an Fernsehshows und Quizsendungen.

In Tabelle IV.2 werden mögliche zulässige monotone Transformationen dargestellt.


Wie man sieht, sind auch sehr unterschiedliche und inhaltlich nicht mehr nachvoll-
ziehbare numerische Zuordnungen noch mit der formalen Definition einer Ordi-
nalskala vereinbar.
IV.1 Was ist Messen? 273

Merkmal „Interesse an Fernsehsendungen“ Skala 1 Skala 2 Skala 3

sehr stark 1 4 5
stark 2 7 7
mittel 3 9 9
wenig 4 20 12
überhaupt nicht 5 30 15

Intervallskalen
Die Klasse der zulässigen Transformationen bei Intervallskalen sind die positiv li-
nearen (affinen) Abbildungen. Affine Transformationen lassen die Verhältnisse zwi-
schen Intervallen konstant. Sei φ eine Intervallskala. Dann ist auch
ψ(x) = υφ(x) + ν
eine Intervallskala. υ ist eine freiwählbare Skaleneinheit (z.B. Euro oder Cent) und
ν eine willkürliche Verschiebung des Nullpunkts. In Box IV.3 wird die Intervall-
skala anhand der Termperaturskala erläutert.

Box IV.3: Beispiel einer Transformation zwischen zwei Temperaturskalen

Nehmen wir an, in London sei am 04.11.93 eine Temperatur von 50° F (Fahren-
heit) gemessen worden. Dann können wir diesen Wert durch Multiplizieren mit
5
9
und Addieren von 160 9
in den Messwert 10 der Celsius-Skala umrechnen,
so dass wir ebenfalls behaupten können, die Temperatur hätte am 04.11.93 10°
Celsius betragen. Die Gleichung für die lineare Transformation von x° F in y° C
lautet:
5 90
y= x− ,
9 9

so dass sich für einen Wert von 50° Fahrenheit ein Wert von

5
9
50 −
160
9
=
1
9
( 250 − 160 ) = 909 = 10
ergibt.
274 IV.1 Was ist Messen?

Für die Umrechnung von Celsius in Fahrenheit ergibt sich die Gleichung
x = 1, 8 y + 32.

Für y = 0 ergibt sich


x = 32
d.h. der dem Nullpunkt der Celsius-Skala entsprechende Wert der Fahren-
heit-Skala ist 32.

Durch einfache arithmetische Umformungen lässt sich zeigen, dass das Verhältnis
zwischen den Messwert-Differenzen auf zwei Intervallskalen immer einen über alle
Messwerte konstanten Wert ergibt (vgl. Box IV.4).

Box IV.4: Verhältnis der Skalendifferenzen bei Intervallskalen

Seien φ und ψ zwei Intervallskalen und x1 und x2 Messwerte. Dann ergibt sich
für die Differenz der Skalenwerte ψ(x1) und ψ(x2):

ψ ( x1 ) −ψ ( x 2 ) = (υ ⋅ ϕ ( x1 ) +ν ) − (υ ⋅ ϕ ( x 2 ) +ν ) = υ ⋅ ϕ ( x1 ) − υ ⋅ ϕ ( x 2 )
= υ (ϕ ( x 1 ) − ϕ ( x 2 ) ) .

Es ergibt sich also:


ψ ( x1 ) − ψ ( x 2 )
υ= .
ϕ ( x1 ) − ϕ ( x 2 )

Dies bedeutet, dass für beliebige zwei Messwerte das Verhältnis zwischen den
Differenzen auf den beiden Skalen immer den gleichen Wert υ hat.

In den Sozialwissenschaften wird oft vorausgesetzt, dass numerische oder verbale


Ratingskalen mit mehr als 5 Abstufungen Skalen Intervallqualität haben (Quasime-
trik). Tabelle IV.4 zeigt ein Beispiel zulässiger Transformationen einer als 7stufigen
numerischen Ratingskala, der eine Intervallqualität unterstellt wird. Das konstante
Verhältnis der Differenzen ist in diesem Beispiel 0.5.
IV.1 Was ist Messen? 275

Tabelle IV.4: Zulässige Transformationen einer Intervallskala

Messwerte Skala 1 Skala 2 (υ = 2; ν = 3)


φ (x)= 1,5x + 0,5 (ψ (x) = 2(φ(x) + 3
= 2(1,5x + 0,5) + 3 =
3x+ 1 + 3 = 3x + 4
1 2.0 7
2 3.5 10
3 5.0 13
4 6.5 16
5 8.0 19
6 9.5 22
7 11.0 25

Verhältnis-bzw. Ratioskalen und absolute Skalen


Als Spezialfälle von Intervallskalen ergeben sich die Verhältnisskala oder Ratioska-
la und die absolute Skala. Eine Verhältnisskala zeichnet sich durch einen absoluten
Nullpunkt aus. Die Gleichung für die zulässigen Transformationen lautet:
ψ(x) = υφ(x).
Die additive Konstante der Gleichung hat in diesem Fall den Wert 0.
Ein Beispiel im sozialwissenschaftlichen Kontext wäre z.B. das Netto-Haus-
haltseinkommen mit Nulleinkommen als Nullpunkt.
Die Gleichung für die zulässigen Transformationen bei absoluten Skalen lautet:
ψ(x) = φ(x).
In diesem Fall ist die einzig zulässige Transformation die Identitätstransformation.
Beispiele sind Zählskalen, Häufigkeitsskalen und Wahrscheinlichkeitsskalen.
Intervallskalen, Verhältnisskalen und absolute Skalen werden auch als metri-
sche Skalen bezeichnet (vgl. Abbildung IV.2).
276 IV.1 Was ist Messen?

Abbildung IV.2: Metrische Skalen

IV.1.4 Skalenniveaus und zulässige statistische Verfahren für


univariate Analysen

Nicht alle aritmetischen Operationen sind gleichermaßen auf alle Skalenniveaus


durchführbar. Tabelle IV.5 gibt einen Überblick über die zulässigen Maße der zen-
tralen Tendenz (Lageparamter) und die Streuungsmaße.

Tabelle IV.5: Skalenniveaus und Maße der zentralen Tendenz und Streuungsmaße

Skalentyp Maße der zentralen Tendenz Streuungsmaße


Nominalskala Modus Informationsgehalt
Ordinalskal Median Quantile
Intervallskala Arithmetisches Mittel Varianz, Standardabweichung
Verhältnisskala Geometrisches Mittel, Variationskoeffizient
harmonisches Mittel

Tabelle IV.6 gibt einen Überblick über wichtige Korrelationsmaße und Signifikanz-
tests.
IV.2 Die Messung latenter Variablen 277

Tabelle IV.6: Skalenniveaus: Korrelationsmaße und Signifikanztests

Skalentyp Korrelationsmaße Signifikanztests (Beispiele)


Nominalskala χ2-basierte Maße: χ2-Test, Cochran Q-Test,
Kontingenzkoeffizient McNemar-Test
Tetrachorischer Koeffizient
Phi-Koeffizient
Ordinalskala Rangkorrelation nach Spearman Vorzeichentest,
(Spearmans ρ) Mann-Whitney-U-Test,
Kendalls τ-Koeffizienten Kolmogoroff-Smirnow-Test,
Konkordanzkoeffizient W Rangvarianzanalyse von
Polychorische und Polyseriale Friedman,
Korrelationskoeffizienten Test von Kruskal & Wallis
(vgl. Jöreskog, 1994; Olsson,
Drasgow & Dorans, 1982 sowie
die Darstellung in Reinecke, 2015)
Intervallskala Produkt-Moment-Korrelationsko- t-Test,
effizient r, F-Test
Regressionskoeffizient

IV.2 Die Messung latenter Variablen

IV.2.1 Einführende Bemerkungen

Viele Variablen, die wir messen wollen, sind nicht direkt beobachtbar. In Abschnitt
III.1.7 hatten wir die latenten Konstruktvariablen bereits als ein Beispiel für latente
Variablen kennengelernt. Latente Variablen sind grundsätzlich nur „auf dem Um-
weg“ über beobachtbare Variablen messbar. Zu den latenten Variablen sind aber
keineswegs nur die Konstruktvariablen zu rechnen. Beispiele für latente Variab-
len, die keine Konstruktvariablen sind, sind die in Abschnitt III.1.5 eingeführten
latenten Antwortvariablen. Grundsätzlich können auch alle Variablen, die nur bis
auf einen Fehler genau gemessen werden können, als latente Variablen betrachtet
werden, da ein Messfehler stets Anlass für eine Zelegung der gemessenen Variablen
in eine latente „wahre“ Variable und eine Fehlervariable ist. Diese Messfehlerzer-
legung ist Grundlage für den Begriff der Reliabilität (siehe Abschnitt III.1.7). Wir
278 IV.2 Die Messung latenter Variablen

werden uns zunächst den latenten Konstruktvariablen zuwenden, um uns dann


später mit der Fehlertheorie der Messungen und der Reliabilität zu beschäftigen.
Auch Variablen mit empirischer Bedeutung, etwa Faktvariablen (z.B. Monat des
Arztbesuchs) müssen in Befragungen als latente Variablen betrachtet werden, da ihre
Werte (Fakten) zum Zeitpunkt des Interviews im Befragten gespeicherte mutmaßliche
Fakten darstellen, die vom Administrator/Forscher nicht direkt beobachtet werden
können und die, bezogen auf das Faktum, systematisch oder zufällig verzerrt sein
können. Stattdessen muss sich der Forscher auf die Antwort verlassen, deren Korrekt-
heit eventuell mit mehr oder weniger großem Aufwand überprüft werden könnte.

IV.2.2 Messmodelle

IV.2.2.1 Beziehungsformen zwischen Konstruktvariablen und


Indikatoren

Modelle für Beziehungen zwischen Konstruktvariablen und ihren Indikatoren


können je nach den unterstellten Messniveaus der zugrundeliegenden latenten
Konstruktvariablen und der beobachteten bzw. manifesten Indikatoren unter-
schiedliche Formen annehmen:

Latente Variablen Manifeste Variablen Statistische Modelle


stetig stetig Quantitative Mess- bzw. Test-
modelle (Klassische Testtheorie)
stetig ordinal Latent-Trait-Modelle (Item-Res-
ponse-Modelle)
kategorial kategorial Latent-Class-Modelle

In quantitativen Messmodellen wird angenommen, dass die Indikatoren von den


latenten Konstruktuvariablen, z.B. von Fähigkeitsvariablen, Einstellungsvariablen,
etc. bis auf einen Messfehler genau beeinflusst werden. Dieser Ansatz wird auch
den im nächsten Abschnitt behandelten Modellen zugrundegelegt.
Bei Latent-Trait-Modellen werden je nach Verteilungsannahmen unterschied-
liche funktionale Beziehungen zwischen einer stetigen latenten Variablen T und
den Wahrscheinlichkeiten einer der beiden Antwortalternativen einer dichotomen
Antwortvariablen angenommen. Seien θ etwa die latente Konstruktvariable „Fä-
higkeit“ und y eine Aufgabe, die gelöst werden muss und die als Indikator für die
IV.2 Die Messung latenter Variablen 279

Fähigkeit ausgewählt wurde. Seien mit y = 1 und y = 0 die beiden Alternativen


„gelöst“ und „nicht gelöst“ bezeichnet. Dann ist die Wahrscheinlichkeit für das
Auftreten der Alternative „y = 1“, π(y = 1), von den Ausprägungen der latenten
Fähigkeitsvariablen abhängig. Wichtige Beispiele für Modelle des funktionalen
Zusammenhangs sind das Probitmodell und das logistische Modell. Die latente
Variable kann wiederum von einer Menge von unabhängigen Variablen (z.B. Alter,
Bildung, etc.) abhängen (vgl. Abbildung IV.3).

Abbildung IV.3: Einflüsse unabhängiger Variablen auf die latente Variable

Beim Probit-Modell werden die Antwortwahrscheinlichkeiten der Alternative y = 1


einer dichotomen Antwortvariablen y, π(y = 1), durch eine latente Variablen θ auf
Grundlage der Verteilungsfunktion der Standardnormalverteilung Φ vohergesagt:
π(y = 1) = Φ(θβ),
wobei β den Vektor der Regressionskoeffizienten der unabhängigen Variablen be-
zeichnet von denen θ abhängt.
Im Fall des logistischen Modells wird die dichotome Antwortwahrscheinlichkeit
durch die latente Variable auf der Basis der logistischen Verteilungsfunktion vor-
hergesagt:

exp T β
S y 1 .
1  exp T β
280 IV.2 Die Messung latenter Variablen

Abbildung IV.4: enthält Beispiele für verschiedene logistische Funktionen

Abbildung IV.4: Verschiedene logistische Funktionen

Für den Fall, dass der Regressionsparameter β gleich 1.0 ist, ergibt sich das sog.
Raschmodell:

exp (θ )
π ( y = 1) = .
1 + exp (θ )

Die exakte Form der Beziehung hängt von den Personenparametern (Ausprägun-
gen von θ) sowie Itemparametern ab. Ein wichtiger Itemparameter ist die Schwierig-
keit eines dichotomen Items. Unter der Schwierigkeit eines Items versteht man jene
Ausprägung einer latenten Variablen, für welche die Antwortwahrscheinlichkeit
0.5 beträgt.
In Latent-Class-Modellen (vgl. Hagenaars & McCutcheon, 2002; Lazarsfeld &
Henry, 1968; McCutcheon, 1987; Van de Pol & de Leeuw, 1986), werden alle Vari-
ablen, latente wie beobachtete, als diskret vorausgesetzt, Der Zusammenhang zwi-
schen latenten Variablen und beobachteten Variablen wird durch bedingte Wahr-
scheinlichkeiten modelliert (vgl. z.B. Van de Pol & de Leeuw, 1986) Sei ξ eine latente
IV.2 Die Messung latenter Variablen 281

Variable mit c latenten Kategorien bzw. Klassen. Sei x der Indikator für ξ mit der
gleichen Anzahl c manifester Klassen. Dann ergibt sich die Wahrscheinlichkeits-
verteilung p(x) der diskreten manifesten Variablen x als Produkt der Wahrschein-
lichkeitsverteilung ν(ξ) der latenten Variablen ξ und der Matrix Q der Übergangs-
wahrscheinlichkeiten der latenten Klassen in die manifesten Klassen:
p(x) = ν(ξ)Q.
Die Elemente qjk von Q sind die bedingten Wahrscheinlichkeiten für das Auftreten
der manifesten Klasse ak gegeben die latente Klasse aj . Dieser Ansatz lässt sich auf
mehr als eine latente Variable und mehr als einen Indikator verallgemeinern.

IV.2.2.2 Messmodelle mit mehreren Indikatoren

Operationalisierungen lassen sich durch geeignete statistische Verfahren über-


prüfen, indem man sie in sog. Messmodellen abbildet. Ein Messmodell ist defi-
niert duch eine Menge von latenten Konstruktvariablen und eine Menge manifes-
ter Variablen, die mutmaßlich durch die Konstruktvariablen beeinflusst werden.
Die Konstruktvariablen werden auch als Faktorvariablen, Faktoren oder einfach
als theoretische Variablen bezeichnet. Es handelt sich bei Messmodellen also um
Hypothesen, in denen einerseits die Existenz bestimmter Konstruktvariablen
und andererseits bestimmte Beziehungen zwischen den Konstruktvariablen und
den manifesten Indikatoren behauptet werden. Da die vermuteten Einflüsse der
Konstruktvariablen auf die manifesten Variablen in der Regel nicht perfekt sind,
sondern nur bis auf einen Fehler genau, enthält ein Messmodell zusätzlich Feh-
ler- bzw. Residualvariablen. In Messmodellen sind die Konstruktvariablen und
die Fehlervariablen die unabhängigen Variablen und die manifesten Variablen
die abhängigen Variablen. Box IV.5 beschreibt die allgemeine Modellstruktur
eines Messmodells mit nur einem Konstrukt. Die Beziehungen zwischen der la-
tenten Konstruktvariablen und den manifesten Variablen werden mathematisch
durch lineare Gleichungen dargestellt. Die Koeffizienten, welche die Höhe des
Einflusses der unabhängigen Variablen auf die manifesten Variablen beschreiben,
heißen in diesem Fall Ladungen.
282 IV.2 Die Messung latenter Variablen

Box IV.5: Allgemeine Struktur eines Messmodells mit nur einem Konstrukt
(Ein-Konstruktmodell)

Abbildung IV.5 zeigt ein Beispiel für ein Messmodell für die bereits in
Abschnitt III.1.7 erwähnte Konstruktvariable „Extrinsische Berufsorientierung“,
mnemotechnisch symbolisiert durch „EXT“. Das Beispiel enthält bereits durch die
im Rahmen einer statistischen Analyse geschätzten Ladungen.
IV.2 Die Messung latenter Variablen 283

Abbildung IV.5 Beispiel Messmodell mit multiplen Indikatoren

Die Spezifikation von Messmodellen ist nicht auf Modelle mit nur einem Konstrukt
beschränkt. Vielmehr können Messmodelle auch aus mehreren Konstruktvariablen
bestehen, die mit einander korreliert sein können. Box IV.6 enthält die Spezifikati-
on eines Messmodells mit zwei Konstrukten.

Box IV.6: Allgemeine Struktur eines Messmodells mit zwei Konstrukten

geschätzt
auf 0 gesetzt
284 IV.2 Die Messung latenter Variablen

Modellgleichungen Matrixnotation
§ x1 · § λ11 λ12 · § δ1 ·
x1 = λ11ξ1 + λ12ξ2 + δ1 ¨ ¸ ¨ ¸ ¨ ¸
x2 = λ21ξ1 + λ22ξ2 + δ2 ¨ x 2 ¸ ¨ λ21 λ22 ¸
§
δ2
ξ1 · ¨ ¸
x3 = λ31ξ1 + λ32ξ2 + δ3 ¨ x 3 ¸ = ¨ λ31 λ32 ¸ ¨ ¸ + ¨ δ 3 ¸ = Λx ξ + δ
¨ ¸ ¨ ¸ ζ2 ¨ ¸
x4 = λ41ξ1 + λ42ξ2 + δ4 ¨ x 4 ¸ ¨ λ41 λ42 ¸ © ¹ ¨ δ 4 ¸
x5 = λ51ξ1 + λ52ξ2 + δ5 ¨ x 5 ¸ ¨ λ51 λ52 ¸¹ ¨δ5 ¸
© ¹ © © ¹

In Abbildung IV.6 ist ein Beispiel für ein Modell mit zwei Konstrukten dargestellt.
Mit diesem Modell wurde u.a. überprüft, ob das Konstrukt der extrinsischen Be-
rufsorientierung (EXT) vom Konstrukt der intrinsischen Orientierung (INT)
unabhängig ist. Die Items, welche als Indikatoren ausgewählt wurden, sind in der
Abbildung aufgeführt. Die Bewertungsskala ist wiederum eine 7stufige numerische
Wichtigkeitsskala. Wie man aus der Abbildung erkennen kann sind die Konstrukt-
variablen noch miteinander korreliert. Die Korrelation beträgt immerhin noch
0.37 und ist signifikant.
In Messmodellen kann es durchaus vorkommen, dass ein Indikator nicht nur
Indikator für ein einziges Konstrukt ist, sondern Indikator für mehrere Konstrukte.
Im dem Fall, bei dem alle Indikatoren nur Indkatoren eines einzigen Konstrukts
sind, spricht man auch von reinen Messmodellen (engl.: pure measurement models).
Wird ein Indikator durch mehr als ein Konstrukt beeinflusst, so ist dies ein Hinweis
auf dessen Mehrdimensionalität.
Ein weiteres Merkmal von Messmodellen kann das Auftreten von Messfeh-
ler-Korrelationen sein. Korrelationen zwischen Messfehlern treten insbesondere
auf, wenn die Fehlerkomponenten durch gleiche, vom Modell nicht explizit erfass-
te latente Ursachen beeinflusst werden. Beispiele für Ursachen sind gemeinsame
Merkmale von Items, die unmittelbare Nachbarschaft von Indikatoren im Frage-
bogen, etc.
Messmodelle sind der Regel Bestandteile umfassenderer statistischer Modelle
für gerichtete und ungerichtete Zusammenhänge zwischen beobachteten und/oder
unbeobachteten Variablen. Solche Modelle werden auch als Strukturgleichungsmo-
delle bezeichnet. In Abbildung IV.7 ist ein Beispiel für eine komplexe Abhängig-
keitsstruktur zu sehen, in der insgesamt vier Messmodelle eingebettet sind (siehe
Faulbaum & Kaase, 1993).
IV.2 Die Messung latenter Variablen 285

Abbildung IV.6: Beispiel Modell mit zwei Konstrukten

Die in das vollständige Modell integrierten Messmodelle sind:


• Ein Messmodell der Wertorientierungen mit den drei Konstruktvariablen
„Leistungsorientierung (W-LEIST)“, „Liberale Orientierung (W-LIB)“ und
„Egozentrierte Orientierung (W-EGO)“;
• ein Messmodell der Ansprüche an den Staat mit den Konstruktvariablen „Ma-
terielle Ansprüche (A-Mat)“, „Absprüche an die Infrastruktur (A-INFRA)“ und
„Nichtmaterielle Ansprüche (A-NONMAT)“;
• ein Messmodell für die Akzeptanz (Legitimität) mit den Konstruktvariablen
„Akzeptanz der regierung (L-REG)“ und „Akzeptanz der demokratischen Ord-
nung (L-DEMO);
• ein nur aus einem Indkator bestehendes Konstrukt der Verantwortungszu-
schreibungen an den Staat (Z-STAAT).
286 IV.2 Die Messung latenter Variablen

Abbildung IV.7: Beispiel eines Strukturgleichungsmodells mit vier Messmodellen (Faulbaum


& Kaase, 1993)

Die Messmodelle sind durch Umrahmungen gekennzeichnet. Die gerichteten


Pfeile zwischen den Messmodellen stehen für die Menge aller möglichen Bezie-
hungen zwischen allen latenten Variablen des eines Messmodells und allen laten-
ten Variablen des anderen Messmodells. Die Wirkungen latenter Variablen auf
latente Variablen werden in einem sog. Strukturmodell spezifiziert. Fällt eine la-
tente Variable bei Annahme eines Messfehlers von 0 mit ihrem Indikator zusam-
men, so können natürlich auch gemessene Variablen Teil des Strukturmodells
sein. In Bezug auf die Ableitung von Aussagen aus einem optimal an die Daten
angepassten Modell ist aber Vorsicht geboten, da es zu einem Modell unendlich
viele gleich gut angepasste Modelle geben kann. So sind alle drei, in ihrer Struk-
tur vollkommen unterschiedlichen Modelle in Abbildung IV.8 gleich gut an die
Daten angepasst (vgl. Stelzl, 1986; Lee & Hershberger, 1990).
IV.2 Die Messung latenter Variablen 287

Abbildung IV.8: Empirisch äquivalente Modelle

IV.2.2.3 Die Integration von latenten Antwortvariablen in Mess-


modelle

Muthén (1984) hat darauf hingewiesen, dass die Annahme latenter Antwortvaria-
blen eine Erweiterung von Messmodellen erfordert. In diesem Fall muss nämlich
angenommen werden, dass die latenten Konstruktvariablen nicht direkt auf die be-
obachteten Indikatoren y wirken, sondern zunächst auf die latenten Antwortvaria-
blen y*, aus denen dann auf der Basis eines Zufallsmechanismus die beobachteten
Antworten erzeugt werden (vgl. Abbildung IV.9).
288 IV.2 Die Messung latenter Variablen

Abbildung IV.9: Integration von latenten Antwortvariablen in Messmodelle

IV.2.3 Werkzeuge zur Identifikation und Überprüfung von


Messmodellen

IV.2.3.1 Vorbemerkung

Oft ergeben sich die Konstrukte aus der Fragestellung des Forschungsvorhabens. Es
ist aber auch denkbar, dass die hinter empirischen Variablen stehenden Konstruktva-
riablen erst im Rahmen einer statististischen Analyse gesucht und identifiziert wer-
den müssen. In jedem Fall bleibt die Identifikation geeigneter Indikatoren für die
gewählten Konstrukte einer Suche vorbehalten, die auf theoretischer Ebene unter
Abstimmung mit der empirischen Ebene erfolgen kann. Grundsätzlich können sich
in Bezug auf die Spezifikation von Messmodellen folgende Situationen ergeben:
• Die Konstrukte ergeben sich aus der Forschungsfragestellung, gesucht werden
geeignete Indikatoren;
• es liegt bereits eine Menge von gemessenen Variablen vor, gesucht werden Kon-
strukte, die zusammen mit Teilmengen dieser Variablen Messmodelle bilden,
die an die Daten optimal angepasst sind.
Ergeben sich die Konstrukte aus der Forschungsfragestellung, so sollte zunächst in
der Forschungsliteratur nach Indikatoren gesucht werden, die sich bereits bewährt
haben und über deren Reliabilität und Validität (zu den Begriffen vgl. Abschnitt IV.3)
bereits Untersuchungen existieren. Diese Angaben sollten eigentlich Bestandteil der
Metadaten von Datenbanken sein, in denen Umfragen zugänglich gemacht werden.
IV.2 Die Messung latenter Variablen 289

Für die Identifikation von Konstrukten auf der Basis einer existierenden Aus-
wahl empirischer Variablen bietet sich die explorative Faktorenanalyse an. Zur
Überprüfung von Messmodellen und ihrer Eigenschaften sowie zur Beurteilung
der Güte der Anpassung von Messmodellen an empirische Daten (engl.: goodness
of fit) bietet sich die konfirmatorische Faktorenanalyse an. Beide Verfahren werden
wegen ihrer Bedeutung kurz beschrieben.

IV.2.3.2 Einsatz der explorativen Faktorenanalyse zur Identifi-


kation von Messmodellen

A. Analyseziel
Ziel der explorativen Faktorenanalyse (engl.: Exploratory Factor Analysis; kurz:
EFA) im Zusammenhang mit der Identifikation von Messmodellen ist die Suche
nach den Faktorvariablen, welche eine Menge von gemessenen Variablen beein-
flussen. Die Identifikation der latenten Faktorvariablen wird auch als Extraktion
bezeichnet. Abbildung IV.10 stellt den Fall dar, wo aus acht beobachteten Variablen
y1,…,y8 vier Faktoren F1,…,F4 extrahiert wurden.

Abbildung IV.10: Grundsituation der explorativen Faktorenanalyse


290 IV.2 Die Messung latenter Variablen

B. Ausgangsdaten der Analyse


Ausgangspunkt der explorativen Faktorenanalyse ist in der Regel die Korrelations-
matrix (Matrix der Korrelationen zwischen allen Paaren von beobachteten Variab-
len). Zur Erinnerung: Die Korrelationsmatrix ist die Kovarianzmatrix der standar-
disierten (z-transformierten) Variablen. Die empirischen Korrelationen bilden die
empirischen Daten, an die das faktorenanalytische Modell angepasst wird.

C. Variablen
Alle Variablen, die beobachteten Variablen genau so wie die Faktorvariablen, sind
in den üblichen Verfahren der explorativen Faktorenanalyse standardisiert, d.h. sie
besitzen einen Mittelwert von 0 und eine Standardabweichung von 1.0.

D. Modell
Jede beobachtete Variable wird als lineare Funktion aller noch unbekannten Fak-
torvariablen aufgefasst. Die Koeffizienten in dieser Funktion heißen Ladungen. Die
Ladungen sind also wie im Rahmen der Definition von Messmodellen bereits be-
merkt, die Einflussgrößen, mit denen die Faktoren auf die beobachteten Variablen
wirken. Da alle Variablen standardisiert sind, stellen die Ladungen die Korrelatio-
nen zwischen den Faktoren und den beobachteten Variablen dar.

E. Anpassungsalgorithmus
Der als Extraktion bezeichnete, in der Regel rein algebraische Algorithmus be-
stimmt iterativ nacheinander die Faktoren und vergleicht die aus den Faktoren
rückgerechnete Korrelationsmatrix mit der vorliegenden empirischen Korrelati-
onsmatrix. Er stoppt, wenn die empirische Korrelationsmatrix reproduziert wurde.
Entscheidend hierfür ist, dass die Korrelationen der empirischen Variablen mit sich
selbst, d.h. die Varianzen der Variablen reproduziert werden.

F. Faktormodelle
Man kann zwischen verschiedenen (Faktor)modellen unterscheiden. Die beiden
wichtigsten Arten von Modellen sind:
Modelle mit gemeinsamen Faktoren (engl.: common factor models):
In diesem Fall gibt es eine Unterscheidung zwischen spezifischen Faktoren, die je-
weils nur eine Variable beeinflussen und gemeinsamen Faktoren, die sich auf meh-
IV.2 Die Messung latenter Variablen 291

rere beobachtete Variablen auswirken. Die Extraktion der Faktoren wird in diesem
Fall so lange fortgesetzt bis die sog. Kommunalitäten reproduziert sind. Kommuna-
litäten sind die Varianzanteile einer Variablen, die auf die gemeinsamen Faktoren
zurückgehen. Eine Faktorenanalyse auf der Basis dieser Annahmen wird in der
Regel als Hauptachsenmethode (engl.: principal axis method) bezeichnet. Diese Me-
thode bedingt eine Kommunalitätenschätzung.
Volles Komponentenmodell:
In diesem Fall wird keine Unterscheidung zwischen spezifischen Faktoren und
gemeinsamen Faktoren getroffen. Es werden so viele Faktoren extrahiert bis die
Varianzen der Variablen und nicht nur die Kommunalitäten aus den geschätzten
Modellgleichungen reproduziert sind. Dies bedeutet zugleich, dass die Anzahl der
extrahierten Faktoren mit der Anzahl der beobachteten Variablen übereinstimmt.
Das auf dem vollen Komponentenmodell beruhende Verfahren wird als Haupt-
komponentenanalyse (engl.: principal components) bezeichnet.

G. Abgeleitete Lösung (Rotation)


Die Extraktion von Faktoren liefert zunächst eine Menge von unabhängigen, d.h.
unkorrelierten Faktoren. Durch eine Rotation genannte lineare Transformation der
Faktoren kann eine abgeleitete Lösung erstellt werden, die besser interpretierbar ist.
Dabei lassen sich orthogonale (rechtwinklinge) und oblique (schiefwinklige) Ro-
tationen unterscheiden. Bei einer orthogonalen Rotation bleiben die Faktoren der
abgeleiteten Lösung unkorreliert. Im Fall einer obliquen Rotation sind bei der abge-
leiteten Lösung korrelierte Faktoren zugelassen. Die wichtigste orthogonale Rotati-
on ist die VARIMAX-Rotation (entspricht dem Prinzip der Einfachstruktur). Die
wichtigsten obliquen Rotationen sind OBLIMIN und PROMAX).

H. Faktorwerte
Die Werte der Individuen auf den Faktorvariablen heißen Faktorwerte. Sie stellen
lineare Funktionen der durch Ladungen gewichteten beobachteten Variablen dar.
Faktorvariablen können in den üblichen Statistik-Paketen nach Wunsch dem Da-
tensatz zugespielt werden und wie alle anderen Variablen weiterverarbeitet werden.

G. Eigenwert eines Faktors


Der Begriff Eigenwert ist ein Begriff der linearen Algebra. In der Faktorenanalyse ist
er gleichbedeutend mit der Varianz, die ein Faktor in Bezug auf alle beobachteten
Variablen erklärt.
292 IV.2 Die Messung latenter Variablen

H. Extraktionskriterien
Extraktionskriterien entscheiden darüber, welche Faktoren als bedeutsam anzuse-
hen sind. Wichtige Kriterien sind:
Eigenwertkriterium (auch: Kaiser-Kriterium):
Es werden diejenigen Faktoren als bedeutsam angesehen, die einen Eigenwert grö-
ßer oder gleich 1.0 haben.
Scree-Plot:
Der Scree-Plot ist eine graphische Darstellung, bei der auf der x-Achse die Faktoren
geordnet nach den Eigenwerte aufgetragen sind und auf der y-Achse die Größe der
Eigenwerte. Nach diesem Kriterium sind alle Faktoren als bedeutsam einzustufen,
die vor einen „Knick“ liegen.

I. Ladungsmatrix (auch: Komponentenmatrix) als Basis für die inhaltliche


Interpretation
Die Ladungsmatrix ist eine Matrix, in der die Faktorvariablen die Spalten darstellen
und die beobachteten Variablen die Zeilen. Eine Zelle in dieser Matrix stellt die
Ladung der betreffenden beobachteten Variablen auf dem entsprechenden Faktor
dar. Die Ladungsmatrix ist die Grundlage für die inhaltliche Interpretation der Fak-
toren. Sie kann sowohl für die unrotierte Lösung (Anfangslösung) und die rotierte
Lösung erstellt werden.

J. Beispiel
Als Beispiel nehmen wir wieder die Berufswerte aus der Allgemeinen Bvölkerungs-
umfrage der Sozialwissenschaften 1982 (ALLBUS 1982). Hier noch einmal Frage
und Items.
Für wie wichtig halten Sie persönlich diese Merkmale für den Beruf und die beruf-
liche Arbeit?
Sichere Berufsstellung
Hohes Einkommen
Gute Aufstiegsmöglichkeiten
Ein Beruf, der anerkannt und geachtet ist
Ein Beruf, der einem viel Freizeit lässt
Interessante Tätigkeit
Eine Tätigkeit, bei der man selbständig arbeiten kann
Aufgaben, die viel Verantwortungsbewusstsein erfordern
IV.2 Die Messung latenter Variablen 293

Viel Kontakt zu anderen Menschen


Ein Beruf, bei dem man anderen helfen kann
Ein Beruf, der für die Gesellschaft nützlich ist
Gibt einem das Gefühl, etwas Sinnvolles zu tun
Sichere und gesunde Arbeitsbedingungen
Die Wichtigkeitseinstufungen erfolgten auf einer numerischen Skala von „1: un-
wichtig“ bis „7: sehr wichtig“.
Unterzieht man die Wichtigkeitseinstufungen dieser Items einer Faktoren-
analyse mit Hilfe des Statistik-Programmpakets SPSS, so erhält man zunächst die
Ergebnisse der Modellanpassung, die in Tabelle IV.7 zusammengestellt sind. Wir
sehen, dass nur die ersten beiden Faktoren einen Eigenwert größer oder gleich 1.0
besitzen, so dass nach dem Eigenwertkriterium nur zwei Faktoren bedeutsam sind.

Tabelle IV.7: Anpassung eines Modells der explorativen Faktorenanalyse

Graphischen Einblick in die Bedeutsamkeit liefert auch der Scree-Plot (vgl. Abbil-
dung IV.11).
294 IV.2 Die Messung latenter Variablen

Abbildung IV.11: Scree-Plot

Tabelle IV.8 enthält die nach VARIMAX rotierte Komponentenmatrix einer


Analyse der Berufsorientierungen in der Version des ALLBUS 2010. Da die La-
dungen Korrelationen zwischen den Faktoren und den gemessenen Variablen
darstellen, sind die Items mit den höchsten Ladungen die Items mit den vier
höchsten Korrelationen mit den Faktoren. Auf Basis dieser Informationen kann
versucht werden, den Faktoren eine inhaltliche Bedeutung zu geben. So könnte
der erste Faktor schwerpunktmäßig als „Extrinsische Berufsorientierung“ iden-
tifiziert werden. Der zweite Faktor könnte vielleicht als „Soziale Orientierung“
identifiziert werden. Mit der Identifikation der Faktoren und der Items mit den
höchsten Ladungen hat man bereits zwei Messmodelle identifiziert, die nun-
mehr noch einmal einer konfirmatorischen Faktorenanalyse unterzogen wer-
den können.
IV.2 Die Messung latenter Variablen 295

Tabelle IV.8: Komponentenmatrix der Berufsorientierungen

Komponente
1 2 3
SICHERE BERUFSTELLUNG ,019 ,216 ,630
BERUF MIT HOHEM EINKOMMEN ,181 -,060 ,780
GUTE AUFSTIEGSCHANCEN IM BERUF ,406 ,034 ,636
ANERKANNTER BERUF ,220 ,410 ,490
BERUF MIT VIEL FREIZEIT -,016 ,192 ,515
INTERESSANTE TAETIGKEIT ,689 ,211 ,119
SELBSTAENDIGE TAETIGKEIT ,798 ,134 ,094
VERANTWORTUNGSVOLLE TAETIGK. ,733 ,276 ,143
BERUF M.VIEL MENSCHL. KONTAKT ,348 ,583 ,148
CARITATIV HELFENDER BERUF ,156 ,829 ,149
SOZIAL NUETZLICHER BERUF ,188 ,782 ,121

IV.2.3.3 Kurzbeschreibung der konfirmatorischen Faktorenana-


lyse zur Überprüfung von Messmodellen

A. Analyseziel
Die konfirmatorische Faktorenanalyse (engl.: Confirmatory Factor Analysis, kurz:
CFA) erlaubt die gezielte Überprüfung von Hypothesen über:

• Anzahl der Faktoren;


• Lineare und/oder nicht-lineare Beziehungen zwischen Faktorenladungen und
zwischen den Kovarianzen der Konstruktvariablen;
• Höhe von Ladungen, Kovarianzen zwischen den Konstruktvariablen, Varian-
zen der Konstruktvariablen, Varianzen und Kovarianzen der Fehler;
• Gleichheit von Fehlervarianzen und -kovarianzen sowie von Konstruktvarian-
zen
• Signifikanz einzelner Fehlervarianzen und -kovarianzen;
• Signifikanz der Modellanpassung (Anpassung an die empirischen Daten).

Im Rahmen der konfirmatorischen Faktorenanalyse lassen sich also insbesondere


Annahmen über die Struktur von Messmodellen (z.B. Ladungsgleichheit) überprü-
fen.
296 IV.2 Die Messung latenter Variablen

Im Unterschied zu den algebraischen Verfahren der explorativen Faktorenana-


lyse stellen die Variablen im Fall der konfirmatorischen Faktorenanalyse Zufallsva-
riablen dar, die eine multivariate Wahrscheinlichkeitsverteilung der einen oder an-
deren Form (z.b. Normalverteiung) besitzen. Grundsätzlich beinhaltet die Analyse
eines Messmodells die folgenden Schritte
Modellspezifikation:
Mathematisch/statistische Spezifikation der postulierten Zusammenhänge;
Parameterschätzung:
Schätzung der unbekannten Einflussgrößen, Varianzen und Kovarianzen.
Anpassungsbeurteilung :
Zentrale Frage der Anpassungsbeurteilung sind: Wie gut passt das Modell auf die
Daten? Muss die Hypothese, dass das Modell in der Population gilt, auf Basis der
Anpassungsgüte (goodness-of-fit) für die Stichprobe zurückgewiesen werden?

B. Modell
Die empirischen Kovarianzen (die Kovarianzen zwischen den gemessenen Variab-
len bzw. Indikatoren) werden in der konfirmatorischen Faktorenanalyse als Funk-
tionen der zugrundeliegenden Modellparameter (e.g. Ladungen, Fehlervarianzen,
Varianzen der latenten Variablen, etc.) dargestellt :
σij = fij(θ)
wobei σij die Populationskovarianz zwischen zwei empirischen Variablen xi und xj
darstellt und θ den Vektor aller Modellparameter. Man spricht wegen der Darstel-
lung der empirischen Kovarianzen als Funktionen der Modellparameter auch von
Kovarianzstrukturanalyse (engl.: covariance structure analysis). Box IV.7 zeigt ein
Beispiel für die Darstellung der empirischen Kovarianz als Funktion der zugrun-
deliegenden Modellparameter. Für die Ableitung braucht man eigentlich nur die
Regeln für das Rechnen mit Kovarianzen zu kennen.
IV.2 Die Messung latenter Variablen 297

Box IV.7: Beispiel für die Parameterdarstellung einer empirischen Kovarianz

Dargestellt werden soll die Kovarianz σij zwischen zwei Indikatoren xi und xj
für eine latente Variable ξ in einem Messmodell mit vier Indikatoren. Für die
Kovarianz zwischen zwei Zufallsvariablen X1 und X2 schreibt man oft auch
Cov(X1, X2). Sei c eine Konstante. Dann gelten für Kovarianzen die folgenden
Rechenregeln:
(1)Cov (c, X1 ) = 0;
(2)Cov (cX1 , X 2 ) = cCov ( X1 , X 2 );
(3)Cov ( X1 + X 2 , X 3 ) = Cov ( X1 , X 3 ) + Cov ( X 2 , X 3 );
Wie wir bereits in Abschnitt IV.2.2.2 über die Struktur von Messmodellen gese-
hen haben, gilt für xj:
x i = λiξ + δ i ,

wobei λi die Ladung von xi und δi die Residual- bzw. Fehlervariable. Entspre-
chend gilt für xj :
x j = λ jξ + δ j .

Als Funktion der Parameter gilt:

V ij Cov x1 , x 2 Cov Oi[  G i , O j[  G j .

Durch Anwendung der Regeln für das Rechnen mit Kovarianzen ergibt sich
unter Berücksichtigung, dass die latente Variable mit der Fehlervariablen nicht
korreliert sein darf:

σ ij = λi λ jCov (ξ , ξ ) + λiCov (ξ , δ j ) + λ jCov (ξ , δ i ) + Cov (δ i , δ j )

= λi λ jσ ξ2 + Cov (δ i , δ j ) .

Damit kann nunmehr die empirische Kovarianz σij durch die Parameterdarstel-
lung
λi λ jσ ξ2 + Cov (δ i , δ j )
298 IV.2 Die Messung latenter Variablen

ersetzt werden. Sind die Fehlervariablen unkorreliert, so ergibt sich

σ ij = λi λ jσ ξ2 .

Ist i = j, so ergibt sich:

σ i2 ≡ Var ( x i ) ≡ Cov ( x i , x i ) = λi2σ ξ2 + Var (δ i ) .

Ähnliche Ableitungen lassen sich für alle empirischen Kovarianzen durchfüh-


ren.

Parameterdarstellungen lassen sich für alle Kovarianzen der allgemein mit ∑bezeich-
neten Populationskovarianzmatrix ableiten. Die Populationskovarianzmatrix, in der
alle Kovarianzen durch ihre Parameterdarstellungen ersetzt sind, heißt auch theore-
tische bzw. modellimplizierte Kovarianzmatrix, da in ihr die theoretischen Annah-
men über die Parameterstruktur enthalten sind. Die theoretische Kovarianzmatrix
stellt also die Populationskovarianzmatrix als Funktion der Parameter dar:
∑ = ∑(θ)
Die theoretische Kovarianzmatrix wird als wahre Populationsmatrix unterstellt.
Abbildung III.37 stellt noch eimal die theoretische Kovarianzmatrix dar.

Abbildung IV.12: Theoretische Kovarianzmatrix


IV.2 Die Messung latenter Variablen 299

In Modellen der konfirmatorischen Faktorenanalyse hat die theoretische Kovari-


anzmatrix die Form (in Matrixdarstellung).
∑(θ) = ΛxΦΛʹx + Θδ,
wobei Λx ist die Matrix der Faktorladungen ist, Φ die Matrix der Kovarianzen zwi-
schen den Faktoren und Θδ die Matrix der Kovarianzen zwischen allen Fehlerva-
riablen.

C. Form der Anpassungsfunktion


Alle Anpassungsfunktionen lassen sich auf die folgende allgemeine quadratische
Form bringen:
FQD ( S, Σ (θ ) ) = (s − σ (θ ))’W −1 (s − σ (θ ) .

Die Gewichtsmatrix steuert im Wesentlichen die Verteilungsbedingungen, unter


denen geschätzt wird. Dabei können folgende Funktionen unterschieden werden:

FLS : Least-Squares-Schätzung (Gewichtsmatrix ist die Einheitsmatrix I unter


Normalverteilungsbedingungen;
FGLS : Generalized Least Squares (Gewichtsmatrix ist S) unter der Bedingung,
dass die empirischen Kovarianzen normalverteilt sind;
FML : Maximum Likelihood unter Normalverteilungsbedingungen
FE : Schätzung unter elliptischen Verteilungen (allgemeine Klasse symmetri-
scher Verteilungen, die sich durch die mulitvariate Kurtosis unterscheiden);
FADF : Asymptotisch verteilungsfreie Schätzung (Schätzung unter beliebigen
Verteilungsbedingungen; Elemente der Gewichtsmatrix sind vierten
Momente einer multivariaten Verteilung).

D. Parameterschätzung
Die Schätzung der Modellparameter erfolgt durch Minimierung einer Anpassungs-
funktion, die eine Funktion der Diskrepanz zwischen der theoretischen Kovarianz-
matix ∑(θ) und der empirischen Kovarianzmatrix S ist. Die empirische Kovarianz-
matrix besteht aus den empirischen Kovarianzen des Datensatzes.
Die Parameter werden also so geschätzt, dass eine Anpassungsfunktion

F = F ( S,Σ
Σ (θ ) )
300 IV.2 Die Messung latenter Variablen

ein Minimum ergibt. Auf der Basis der geschätzten Parameter θ̂ und der Parame-
terdarstellung der Kovarianzen lässt sich die geschätzte Kovarianzmatrix


6ˆ Tˆ

berechnen. Wenn die Differenzen zwischen allen empirischen und geschätzten em-
pirischen Kovarianzen 0 sind, so nimmt auch die Anpassungsfunktion F den Wert
0 an. In diesem Fall stimmt die Stichprobenkovarianzmatrix mit der geschätzten
Kovarianzmatrix überein.

E. Statistische Beurteilung der Modellanpassung


Es lässt sich zeigen, dass unter der Nullhypothese, dass das analysierte Modell und
damit die Parameterdarstellung der empirischen Populationskovarianzen korrekt
ist, die Größe
( N − 1) min F
mit df = 1/2p(p – 1) – t Freiheitsgraden χ2-verteilt ist, wobei:

N : Stichprobenumfang;
p : Anzahl der gemessenen Variablen;
t : Anzahl der unabhängig, d.h. ohne Einschränkungen geschätzten
Parameter.

Bei der Signifikanzbeurteilung wird die Überschreitungswahrscheinlichkeit be-


trachtet, den beobachteten oder einen höheren χ2-Wert zu erhalten. In der Regel
werden zur Signifikanzbeurteilung die üblichen Signifikanzniveaus von 0.05 bzw.
0.01 herangezogen. Wichtig ist, dass man versteht, dass es bei der Modelbeurteilung
darum geht, eine möglichst hohe Überschreitungswahrscheinlichkeit zu erhalten
und ein möglichst geringes χ2, da χ2 die Diskrepanz zwischen den Stichprobenvari-
anzen und den theoretischen Kovarianzen des analysiserten Modells widerspiegelt.
Wegen verschiedener Nachteile von χ2 wie z.B. die Abhängigkeit vom Stichpro-
benumfang und von der Modellkomplexität sowie anderer Überlegungen wie z.B.
die Orientierung der Anpassung an einem vorher festgelegten Basismodell (sog.
Nullmodell) wurden verschiedene alternative Anpassungsindizes (Indizes der An-
passungsgüte; eng.: goodness-of-fit indices) entwickelt. Dabei unterscheidet man
grundsätzich zwischen absoluten Indizes und inkrementellen Indizes.
IV.2 Die Messung latenter Variablen 301

Inkrementelle Indizes basieren auf Modellvergleichen. Dabei wird das analy-


sierte Modell in der Regel mit dem sog. Unabhängigkeitsmodell (auch: Nullmodell)
verglichen. Das Unabhängigkeitsmodell ist das Modell, bei dem alle Variablen un-
tereinander nicht korreliert sind. Es ist das am stärksten eingeschränkte Modell,
da alle Kovarianzen auf Null gesetzt sind. Es ist damit auch das am schlechtesten
an die Daten angepasste Modell und weist den höchsten χ2-Wert auf. Je schlechter
die Anpassung des analysierten Modells, desto mehr nähert es sich der Anpassung
des Unabhängigkeitsmodells. Inkrementelle Indizes sollten immer sehr hoch sein
(über .9). Ein leicht verständlicher inkrementeller Index ist der genormte Index von
Bentler und Bonett (1980):
Fk
NFI = 1 − .
Fi

In dieser Formel ist FK das Minimum der Anpassungsfunktion des zu schätzenden


Modells und Fi das Minimum der Anpassungsfunktion des Unabhängigkeitmodell,
also des am stärksten eingeschränkten Modells mit der geringsten Anpassung an
die Daten. Ein weiterer bekannter Index mit guten statistischen Eigenschaften ist
der CFI (Comparative Fit Index) von Bentler (1988). Er hat die Form:

τk
CFI = 1 − .
τi

Die χ2-Statistik setzt voraus, dass das analysierte Modell das wahre Populations-
modell darstellt. Der sog. Zentralitätsparameter τk betrifft den Betrag, um den die
χ2-Verteilung verschoben ist, wenn diese Annahme nicht zutrifft. τi ist der Zentra-
litätsparameter des Unabhängigkeitsmodells.
Im Unterschied zu den inkrementellen Indizes basieren die absoluten Indizes
nicht auf Modellvergleichen. Wichtig für die Beurteilung der Modellanpassung ist
immer die Inspektion der Differenzen zwischen angepasster Kovarianzmatrix (Ma-
trix der geschätzten Kovarianzen) und der Stichprobenkovarianzmatrix, d.h. zwi-
schen den geschätzten Kovarianzen und den Stichprobenkovarianzen. Auf solchen
Vergleichen beruhende Indizes sollten immer berückischtigt werden. Eine detail-
lierte Erörterung der Anpassungsindizes und ihrer Vor- und Nachteile finden sich
in der einschlägigen Literatur (vgl. z.B. Reinecke, 2014).
Bei Abweichungen von der Bedingung der Normalverteilung lässt sich auch die
sog. Satorra-Bentler-Statistik anwenden. Diese Statistik ist robust gegenüber Ab-
weichungen von der Normalverteilung, erfordert aber sehr große Stichprobenum-
302 IV.2 Die Messung latenter Variablen

fänge. Sie gewichtet die ML-Schätzung unter Normalverteilungsbedingungen und


korrigiert die Standardfehler.

F. Logik der Analyse


In Bezug auf die Analyse der Modelle lassen sich folgende Vorgehensweisen unter-
scheiden:
Streng konfirmatorisches Vorgehen:
Der Forscher spezifiziert ein Modell für einen Datensatz und überprüft das Modell,
indem er versucht, es an die Daten anzupassen.
Exploratives Vorgehen:
Der Forscher spezifiziert verschiedene Anfangsmodelle und wählt ein Modell an
Hand eines Datensatzes aus.
Modellsuche (model search, specification search):
Der Forscher startet mit einem Anfangsmodell und sucht das theoretisch und sta-
tistisch am besten angepasste Modell, in dem er das Anfangsmodell sukzessive auf
der Basis der Anpassungsergebnisse modifiziert (Prozess der Modellmodifikation).
Abbildung IV.13 illiustriert das Vorgehen bei der Modellsuche.

Abbildung IV.13: Ablauf einer Modellsuche


IV.2 Die Messung latenter Variablen 303

Bei der Modellsuche sollte immer darauf geachtet werden, dass die Enscheidung
über Freisetzung oder Einschränkung von Parametern nicht allein aus statistischen
Gründen, sondern auch theoretisch begründet werden können.
Die Logik der Modellmodifikation eines Anfangsmodells basiert auf dem Sach-
verhalt, dass das analysierte Modell Mk an einer bestimmten Position einer Folge
von Modellen steht, die durch sukzessive Setzungen oder Aufhebungen von Para-
meterrestriktionen auseinander hervorgehen. Das eingeschränkteste Modell ist das
oben erwähnte Unabhängigkeitsmodell, bei dem keine Zusammenhänge zwischen
Variablen angenommen werden, d.h. in dem alle Zusammenhänge zwischen Va-
riablen auf 0 fixiert sind. Es wird zumeist mit Mi oder auch M0 bezeichnet. Am
anderen Ende steht das perfekt angepasste Modell, das sog. saturierte Modell Ms:

Mi Ž " Ž M k " Ž M s .

Ein Modell Mk, das durch Einschränkungen aus einem Modell Mj hervorgegangen
ist, heißt in Mi geschachtelt (eng.: nested). Eine Modellmodifikation mit dem Ziel
einer verbesserten Anpassung besteht immer darin, mit Hilfe des Vergleichs der
Anpassungs-χ2-Werte und durch Tests wie dem univariaten (Modifikationsindizes)
oder dem multivariaten Langrange-Muliplier-Test zu prüfen, ob die Freisetzung
von Einschränkungen zu einer signifikant besseren Modellanpassung führt oder ob
sich durch die Setzung von Einschränkungen die Modellanpassung signifikant ver-
schlechtert. Letzteres kann ebenfalls durch die Signifikanzbeurteilung der χ2-Dif-
ferenz der Anpassungswerte oder durch den multivariaten Wald-Test überprüfen.

G. Messmodelle als Teil von Strukturgleichungsmodellen


Betrachtet man ein volles Strukturgleichungsmodell, in das Messmodelle einge-
bettet sind, so lassen sich neben den unter A. aufgeführten Hypothesen zusätzlich
Hypothesen über die Einflussgrößen (Strukturkoeffizienten) der gerichteter Wir-
kungsbeziehungen der latenten Variablen verschiedener Messmodelle unterein-
ander sowie über die latenten Residualvariablen prüfen. Die oben beschriebenen
Verfahren der Modellspezifikation und Schätzung gelten insbesondere für das volle
Strukturgleichungsmodell.
Die theoretische Kovarianzmatrix hat nunmehr eine etwas komplexere Gestalt,
die vom gewählten Modellansatz abhängt. Hier gibt es zwei unterschiedliche An-
sätze: den LISREL-Ansatz von Jöreskog (vgl. z.B. Jöreskog, 1973) und den Ansatz
von Bentler & Weeks (vgl. Bentler & Weeks, 1980). In der einfacheren Formulie-
rung von Bentler & Weeks, die nur zwischen unabhängigen Variablen ξ und abhän-
304 IV.2 Die Messung latenter Variablen

gigen Variablen η unterscheidet, unabhänig davon, ob sie latent sind oder nicht,
lautet die Gleichung für die theoretische Kovarianzmatrix:

Σ (θ ) = G ( I - B ) ΓΦΓ ′ ( I - B ) G’ ,
-1 -1’

wobei:

G : Selektionsmatrizen, welche aus den im Modell spezifizierten ξ-Variablen


und η-Variablen die gemessenen Variablen herausfiltern;
B : Matrix der Struktur- bzw. Regressionskoeffizienten für die Einflüsse der
abhängigen Variablen auf die abhängigen Variablen;
Γ : Matrix der Struktur- bzw. Regressionskoeffizienten der unabhängigen Va-
riablen auf die abhängigen Variablen;
Ф : Matrix der Kovarianzen zwischen den unabhängigen Variablen.

Da der LISREL-Ansatz zwischen Messmodellen für die unabhängigen latenten


Variablen und Messmodellen für die abhängigen latenten Variablen unterscheidet
(vgl. z.B. Jöreskog, 1978), sind in der Kovarianzmatrix mehr Matrizen wie getrenn-
te Ladungsmatrizen für die unabhängigen und abhängigen latenten Variaben, Ma-
trizen der Fehler im Messmodell für die unabhängigen latenten Variablen und die
abhängigen latenten Variablen involviert (vgl. hierzu z.B. Bollen, 1989; Reinecke,
2014).

H. Identifizierbarkeit
Um ein Modell statistisch analysieren zu können, muss es die Bedingung der Iden-
tifizierbarkeit erfüllen. Ein Modell ist nicht identifizierbar, wenn die Anzahl der
Datenpunkte, im Falle der Kovarianzstrukturanalyse die Anzahl der empirischen
Varianzen und Kovarianzen, geringer ist als die Anzahl der unabhängig zu schät-
zenden (freien) Parameter. Box III.8 enthält dafür ein Beispiel. Unabdingbar ist die
Definition der Skalen der latenten Konstruktvariablen. Dies kann grundsätzlich auf
zwei unterschiedlichen Arten geschehen:

• Identifikation der Skala der latenten Variablen mit der einer gemessenen Varia-
blen durch Fixierung einer Ladung auf den Wert 1.0.
• Standardisierung der latenten Variablen durch Fixierung der Varianz der laten-
ten Variablen auf den Wert 1.0.
IV.2 Die Messung latenter Variablen 305

Box IV.8: Beispiel für Nichtidentifizierbarkeit: Messmodell mit einem Kon-


strukt und zwei Indikatoren

ξ
λ1 λ2

x1 x2

δ1 δ1

Als Datenpunkte stehen nur eine empirische Kovarianz und zwei empirische
Varianzen, d.h. insgesamt drei empirische Kovarianzen zur Verfügung:

Cov ( x1 , x 2 ) ,Var ( x1 ) ,Var ( x 2 ) .

Geschätzt werden müssen aber die Parameter:

λ1 , λ2 ,Var (δ 1 ) ,Var (δ 2 ) ,Var (ξ ) , Cov (δ 1 , δ 2 ) .

Drei Datenpunkten stehen also sechs frei zu schätzende Parameter gegenüber.


Ausweg:
Einführung von Restriktionen, die zu einer Verminderung der unabhängig zu
schätzenden Parameter führt.

I. Software
Für die Analyse von Modellen der konfirmatorischen Faktorenanalyse und von
vollen Strukturgleichungsmodellen kann die folgende Software eingesetzt werden
(in alphabetischer Reihenfolge):
AMOS (Arbuckle, 2011, Modul in SPSS)
EQS (Bentler,2006; Multivariate Software Inc.) und REQS (EQS Integration in R,
vgl. Mair, Wu & Bentler 2010)
lavaan (Strukturgleichungspaket in R; vgl. Rosseel, 2012)
306 IV.3 Fehlertheorie der Messungen

LISREL (Jöreskog & Sörbom, 2015; Scientific Software Inc.)


Mplus (Muthén & Muthén, 2015)
OpenMx (in R; vgl. Neale et al., 2016)
PROC CALIS (Hatcher, 1998; SAS)
SEPATH (entwickelt von Steiger, 1993, 1995; Modul in STATISTICA 9)
Praktische Einführungen in die Anwendungen von Strukturgleichsmodellen geben
die Bücher von Byrne (1998, 2006, 2010, 2012).

IV.3 Fehlertheorie der Messungen

IV.3.1 Beobachtete Variablen, wahre Variablen und Messfeh-


ler

Geht man davon aus, dass die Ausprägungen der beobachteten bzw. manifesten
Indikatoren nicht mit den wahren Ausprägungen der Indkatoren zusammenfallen,
so führt man damit zwangsläufig eine Unterscheidung zwischen dem beobachteten
bzw. gemessenen Wert der Ausprägung einer Variablen und ihrer wahren Ausprä-
gung ein. Die Betrachtung der Differenz zwischen beiden Ausprägungen führt zur
Konzeption des Messfehlers, der sich wiederum aus verschiedenen Komponenten
zusammensetzen kann, die auf unterschiedliche Quellen zurückgeführt werden
kann (je nach Art Befragungsart). Als Komponenten kommen alle Einflüsse in Fra-
ge, welche den Messwert beeinflussen könnten wie:
• Sichtbare und unsichtbare Merkmale der Interviewer
• Befragungssituation (z.B. Anwesenheit Dritter)
• Frageformulierung
• Fragebogengestaltung
• Befragungsart
• Mentaler Zustand des Befragten
Da jedem Messwert ein wahrer Wert und ein Messfehler entspricht, kann man auf
der Ebene von Variablen zwischen einer gemessenen Variablen x, einer latenten
wahren Variablen (eng.: true variable bzw. true-score-variable) τ und einer Fehler-
variablen ε unterscheiden.
Elaboriert wird diese Konzeption in der klassischen Testtheorie (vgl. Gulliksen,
1950; Lord & Novick, 1968; vgl. auch die Zusammenfassung von Bohrnstedt, 1983,
1993 sowie die Darstellung in Zeller & Carmines, 1980). Die klassische Testtheorie
IV.3 Fehlertheorie der Messungen 307

geht von einer additiven Zerlegung des beobachteten Werts einer Variablen xi in
einen wahren Wert (engl.: true score) τi und einen Messfehler (engl.: measurement
error) εi aus:

xi = τ i + ε i .

Eine beobachtete Variable x wird also als Summe einer wahren Variablen und einer
Fehlervariablen betrachtet:

x =τ + ε.

Der Fehler ist gemäß dieser Zerlegung definiert als Differenz zwischen dem gemes-
senen Wert und dem wahren Wert:
ε i = x i − τ i bzw. ε = x − τ .
Diese Zerlegung einer beobachteten Messung in eine wahre Messung und einen
Fehler bildet die Basis für die statistische Analyse fehlerbehafteter stetiger Variab-
len und den Reliabilitätsbegriff der klassischen Testheorie, der in Abschnitt IV.3.5
dargestellt wird.
In ihrer Definition des wahren Werts vertritt die klassische Testtheorie eine ope-
rationalistische Auffasung. Der wahre Wert ist gemäß dieser Auffassung definiert
als Erwartungswert (Mittelwert) E(xi) der individuellen Wahrscheinlichkeitsver-
teilung (Propensity) der gemessenen Zufallsvariablen xi. Da nach den Axiomen der
klassischen Testtheorie (siehe unten) der Erwartungswert der Fehlervariablen 0 ist,
ergibt sich:

τ i = E ( x i ) = μi .

Somit ergibt sich für die additive Zerlegung des Messwerts:

x i = μi + ε i .

Da aus den Axiomen der klassischen Testtheorie folgt:

E ( x ) = E (τ ) + E ( ε ) ,
308 IV.3 Fehlertheorie der Messungen

so gilt:

E ( x ) = E (τ ) + 0 = E (τ ) .

Der Mittelwert aller Messwerte ist also gleich dem Mittelwert aller wahren Werte.
Die Axiome der klassischen Testtheorie sind:
Axiome der klassischen Testtheorie (vgl: Lord & Novick, 1968, p. 36):

1) E(ε) = 0
(der Mittelwert der Fehlervariablen ist bei einer unendlichen Zahl von Wie-
derholungen der Messung 0);
2) ρ(x, τ) = 0
(die Korrelation zwischen der wahren Variablen und der Fehlervariablen ist
0);
3) ρ(εg, τh) = 0
(Die Korrelation zwischen der Fehlervariablen einer Messung g und der
wahren Variablen einer Messung h ist 0);
4) ρ(εg, εh) = 0
(Die Korrelation der Fehlervariablen zweier unterschiedlicher Messungen g
und h ist 0).

Ein gelegentlich verwendete alternative Formulierung ist:

1) E(x) = E(τ) = μx
(Der Mittelwert der gemessenen Variablen ist gleich dem Mittelwert der
wahren Variablen);
2) E(x1τ2) = E(τ1τ2)
(Die Kovarianz zwischen einer gemessenen Variablen x1 und der wahren
Variablen einer gemessenen Variablen x2 ist gleich der Kovarianz der beiden
wahren Variablen);
3) E(x1x2) = (x1τ2)
(Die Kovarianz zwischen zwei gemessenen Variablen ist gleich der Kovari-
anz zwischen einer der gemessenen Variablen und der wahren Variablen der
zweiten gemessenen Variablen).

Die operationalistische Auffassung des wahren Werts ist für sozialwissenschaftliche


Messungen nicht immer sinnvoll. Dies ist z.B. dann der Fall, wenn die wahren Wer-
te als Werte auf separaten Konstruktvariablen wie z.B. einer Einstellungsvariablen
lokalisiert werden.
IV.3 Fehlertheorie der Messungen 309

Lord und Novick (1968, p. 28) unterscheiden neben der operationalistischen


Definition des wahren Werts als Erwartungswert einer gemessenen Variablen zwei
weitere Konzepte des wahren Werts:
1) Wahrer Wert im Sinne eines individuellen konstanten wahren Werts, den jedes In-
GLYLGXXPLQ%H]XJDXIHLQHLQGLYLGXHOOH0HVVXQJGHUJOHLFKHQ(LJHQVFKDIWKDW
Dieses Konzept des wahren Werts lässt sich am Beispiel der Lichtgeschwindig-
keit erläutern. Im Fall der Lichtgeschwindigkeit wird angenommen, dass es eine
konstante wahre Lichtgeschwindigkeit gibt (theoretisch ableitbar), deren Mes-
sungen aber unterschiedlich ausfallen. Nehmen wir in der Umfrageforschung
eine Faktfrage, z.B. nach der Anzahl der Arztbesuche im letzten Monat. Dann
gibt es sicherlich eine konstante wahre Anzahl von Arztbesuchen, die aber je
nach Frageformulierung, Gedächtnis, etc. unterschiedliche ausfallen kann. Diese
Auffassung wird als platonische Auffassung des wahren Werts bezeichnet (vgl.
6XWFOLIIH 1DWUOLFKNDQQGLHVH.RQ]HSWLRQDXFKIUDQGHUH9DULDEOHQZLH
(LQVWHOOXQJVYDULDEOHQYHUWUHWHQZHUGHQLQVRIHUQPDQDXVWKHRUHWLVFKHQ*UQGHQ
EHUHLWLVWDQ]XQHKPHQGDVVHVVRHWZDVZLHHLQHZDKUH(LQVWHOOXQJJLEW
2) Wahrer Wert als Grenzwert des Durchschnitts der Messungen in einer wach-
senden Anzahl von Messwiederholungen unter den gleichen Bedingungen. In
diesem Fall wird also angenommen, dass sich der Durchschnitt der Messungen
immer weiter dem wahren Wert annähert.
Immerhin gilt, dass sich, solange die Definitionen der klassischen Testtheorie er-
füllt sind, sich alle Theoreme der klassischen Testtheorie auch auf alternative Auf-
fassungen des wahren Werts übertragen lassen.

IV.3.2 Ähnlichkeiten zwischen Messungen

Auf der Grundlage der klassischen Testtheorie lassen sich die Ähnlichkeiten zwi-
schen Messungen bezüglich des Ausmaßes, in dem sie die wahren Werte widerspie-
geln, präzise beschreiben. So können Messungen sich etwa insofern ähnlich sein,
als die ihnen korrepondierenden wahren Variablen perfekt, d.h. mit dem Wert 1.0
miteinander korrelieren. Ist dies der Fall, so heißen die Messungen kongenerisch,
d.h.:

q Messungen x1, x2,… xq heißen kongenerisch genau dann, wenn für jedes Paar von
Messungen xk xl gilt, dass die wahren Variablen τk,τl zu 1.0 korrelieren.
310 IV.3 Fehlertheorie der Messungen

Die Eigenschaft der kongenerischen Ähnlichkeit besagt bereits, dass sich die wah-
ren Variablen aus den wahren Variablen anderer Variablen durch Anwendung ei-
ner linearen Transformation fehlerfrei vorhersagen lassen.
Die nächste Steigerung der Ähnlichkeit zwischen Messungen ergibt sich, wenn
die beobachteten Variablen die gleichen wahren Werte besitzen. Präzisiert wird
dieser Sachverhalt durch den Begriff der τ-Äquivalenz:

q Messungen x1, x2,… xq heißen τ-äquivalent genau dann, wenn gilt:


Wx1 = Wx2 = … = Wxq.

Die Ähnlichkeit kann noch weiter durch die Annahme verschärft werden, dass die
Messungen gleiche Fehlervarianzen besitzen. Diese Bedingung definiert die Eigen-
schaft der Parallelität zwischen Messungen:

q τ-äquivalente Messungen x1, x2,… xq heißen parallel, wenn gilt:


V ε21 = V ε22 = … = V ε2q .

Gilt diese Gleichheit nur bis auf die Addition einer Konstanten, so spricht man
auch hier von essentieller Parallelität.

IV.3.3 „True-Score“-Modelle und Messmodelle

Jöreskog (1971) hat sich im Zusammenhang mit Modellen der konfirmatorischen


Faktorenanalyse mit der Bedeutung der kongenerischen Messeigenschaft für Mess-
modelle befasst. Liegt eine Menge von q kongenerische Messungen x1, x2,…, xi,…,xq
vor, so folgt für diese Menge, dass es eine Zufallsvariable τ und eine Konstante μi
geben muss, so dass
τi = μi + λiτ (vgl. Jöreskog, 1971, p.111).
τ heißt auch generische wahre Variable (engl.: generic true-score variable).
Da xi = τi + εi gilt, folgt, dass

x i = μi + λτ
i + εi.

Wenn wir die latente wahre Variable τ standardisieren mit


E(τ) = 0 und Var(τ) = 1
IV.3 Fehlertheorie der Messungen 311

so sieht man, dass die Konstante μi der Mittelwert von xi ist. Diese folgt aus den
Rechenregeln für Erwartungswerte. Danach wäre
E ( x i ) = μi + λi E (τ ) + E ( ε ) = μi + λi 0 + 0 = μi .

Außerdem gilt
λi ist gleich der Kovarianz zwischen τ und xi, da

Cov (τ , x i ) = Cov (τ , μi + λτ
i + ε i ) = Cov (τ , μ i ) + Cov (τ , λτ
i )

+ Cov (τ , ε ) = Cov (τ , λτ
i ) = λiCov (τ ,τ ) = λiVar (τ ) = λi 1 = λi .

und
λ2i ist gleich der Varianz der wahren Variablen τi von xi, da

Var (τ i ) = Cov (τ i ,τ i ) = Cov ( μi + λτ i ) = Cov ( μ i , μ i )


i , μ i + λτ

+ Cov ( μi , λτ
i ) + Cov ( λτ
i , μ i ) + Cov ( λτ i ) = Cov ( λτ
i , λτ i )
i , λτ

= λi2Var (τ ) = λi21 = λi2 .

Ein Ein-Faktor-Modell der konfirmatorischen Faktorenanalyse, in dem die latente


Variable eine generische True-Score-Variable ist und im übrigen die Axiome der
klassischen Testtheorie gelten (siehe oben) heißt auch „True-Score“-Modell (siehe
Abbildung IV.14).
Wie verhalten sich nun Messmodelle zur Messung einer Konstruktvariablen ξ
wie z.B. einer Einstellungsvariablen zu kongenerischen „True-Score“-Modellen mit
einer generischen True-Score-Variablen τ?
312 IV.3 Fehlertheorie der Messungen

Abbildung IV.14: True-score-Modell mit vier Indikatoren

In einem Modell mit einer latenten Konstruktvariablen ξ würde ξ zunächst auf die
mit den beobachteten Indikatoren x1, x2,…, xi,…,xq assoziieren wahren Variablen τ1,
τ2,…, τi,…,τq wirken. Für ein Messmodell mit vier Indikatoren würden die Modellglei-
chungen lauten:

τ1 = λ1ξ
τ2 = λ2ξ
τ3 = λ3ξ
τ4 = λ4ξ

Für die gemessenen Variablen gilt nach der klassischen Testtheorie:

x1 = τ1 + ε1
x2 = τ2 + ε2
x3 = τ3 + ε3
x4 = τ4 + ε4
IV.3 Fehlertheorie der Messungen 313

Durch Einsetzen erhält man schließlich:

x1 = λ1ξ + ε1
x2 = λ2ξ + ε2
x3 = λ3ξ + ε3
x4 = λ4ξ + ε4

Wie man sieht, übertragen sich die Einflussgrößen der latenten Variablen ξ von den
wahren Variablen auf die gemessenen Variablen. Außerdem gilt, dass unter der Be-
dingung, dass die Axiome der klassischen Testtheorie erfüllt sind, die gemessenen
Variablen kongenerisch sind, weil es eine generische Variable ξ mit

τi = λiξ ( i = 1,…, q )

gibt. Aus den vorangegangenen Überlegungen ergibt sich, dass sich Ein-Konst-
rukt-Modelle und kongenerische Messmodelle in der Modellanpassung an die Da-
ten nicht unterscheiden (vgl. auch Alwin & Jackson, 1980).
Man bezeichnet daher ein Messmodell, dass die Axiome der klassischen Test-
theorie erfüllt, als kongenerisches Messmodell. Es hat die Form eines Ein-Konstrukt-
Modells (siehe Box IV.5). Als Spezialfall des kongenerischen Messmodells ergibt
sich das Modell mit τ-äquivalenten Messungen. Man sieht leicht, dass in einem
kongenerischen Messmodell die q Indikatoren x1, x2,…,xq genau dann τ-äquivalent
sind, wenn ihre Ladungen auf der latenten Variablen ξ gleich sind, d.h., wenn gilt:

λ1 = λ2 = " = λq .

Sind die q Messungen parallel, so gilt:

σ ε21 = σ ε22 = " = σ ε2q .

Durch Anwendung der konfirmatorischen Faktorenanalyse lassen sich die Messei-


genschaften überprüfen. Ein kongenerisches Messmodell lässt sich durch Anpas-
sung eines Ein-Konstruktmodells mit unkorrelierten Fehlern und standardisierten
latenten Varianzen an die Daten überprüfen. Die Eigenschaft der τ-Äquivalenz
überprüft man, in dem man die Modellanpassung des durch Gleichsetzung der
Ladungen eingeschränkteren τ-äquivalenten Messmodells mit der Anpassung des
kongenerischen Messmodells ohne Einschränkungen vergleicht. Unterscheidet
314 IV.3 Fehlertheorie der Messungen

sich die Anpassungsstatistik nicht signifikant, so kann die Eigenschaft nicht wi-
derlegt werden. Die Eigenschaft der Parallelität lässt sich überprüfen, indem man
zusätzlich eine Gleichheit der Fehlervarianzen in des Modell einführt. Dieses noch
stärker eingeschränkte Messmodell vergleicht man hinsichtlich der Anpassung mit
der des τ-äquivalenten Modells. Die Eigenschaft der τ-Äquivalenz muss sich aber
vorher bewährt haben.

IV.3.4 Mehrstichprobenvergleiche von Messmodellen

Bestimmte Fragestellungen erfordern den Vergleich von Gruppen hinsichtlich der


Messeigenschaften von Variablen. Dabei geht es nicht nur um den Vergleich von
Verteilungsgesichtspunkten der gemessenen Variablen, sondern auch um Verglei-
che von Eigenschaften der verwendeten Messmodelle. Als Methoden bieten sich
die Verfahren der exporativen und konfirmatorischen Faktorenanalyse in beson-
derer Weise an. Mit der explorativen Faktorenanalyse und assozierten Verfahren
lassen sich Faktorenstrukturen vergleichen und die faktorelle Invarianz überprüfen
(vgl. z.B. Ahmavaara, 1954a, 1954b; vgl. die Anwendung in Faulbaum, 1984a). Die
konfirmatorische Faktorenanalyse erlaubt im Rahmen der Mehrstichprobenanaly-
se (engl. multisample analysis) bzw. des multiplen Gruppenvergleichs (engl. mul-
tigroup comparisons) die Überprüfung von Hypothesen über die Gleichheit von
Parametern über unterschiedliche Stichproben (Gruppen) hinweg, indem Gleich-
heitsrestriktionen (engl.: equality constraints) der Parameter zwischen den Grup-
pen vorgenommen werden, die im Rahmen von Modellvergleichen mit und ohne
eingeschränkte Beziehungen zwischen Parametern überprüft werden können (vgl.
Abbildung IV.15. Dazu gehören:
• die Gleichheit von Faktorenladungen;
• die Gleichheit von Fehlervarianzen und -kovarianzen;
• die Gleichheit von Faktorvarianzen und -kovarianzen;
• die Gleichheit von latenten Residualvarianzen und -kovarianzen;
• die Gleichheit aller Parameter eines Modells;
• die Gleichheit von Kovarianz- und Korrelationsmatrizen.
IV.3 Fehlertheorie der Messungen 315

Abbildung IV.15: Vergleich zwischen zwei Gruppen

Mit Hilfe des Tests von Gleichheitsrestriktionen lassen sich wichtige Eigeschaften
von Messmodellen überprüfen. Geht man davon aus, dass die Bedeutung von Kon-
strukten vornehmlich durch die Ladungen der Indikatoren bestimmt wird, so lässt
sich mit dem Verfahren des multiplen Gruppenvergleichs die Hypothese der em-
pirischen Bedeutungsgleichheit wie auch die Gleichheit bezüglich der Messfehler
prüfen.
Das Verfahren des multiplen Gruppenvergleichs wurde ursprünglich von Jö-
reskog (1971) entwickelt und hat sich seitdem zu einem Standardverfahren für
den Vergleich von Modellen der konfirmatorischen Faktorenanalyse und Struktur-
gleichungsmodellen zwischen unterschiedlichen Gruppen entwickelt (vgl. z.B. die
Darstellungen in Bollen, 1989, pp. 355; Reinecke, 2014, S. 69 ff.) Anwendungsbe-
reiche beziehen sich auf Vergleiche soziodemographischer Gruppen (vgl. z.B. Faul-
baum, 1987; Porst, Schmidt & Zeifang, 1987), auf den Vergleich zwischen Natio-
nen/Kulturen (vgl. Billiet, 2003; Faulbaum, 1990; Davidov et al., 2012; Davidov et
al., 2014; Gordoni & Smith, 2010) oder auf den Vergleich zwischen Modegruppen
(vgl. z.B. Gordoni, Schmidt & Gordoni, 2012; Hox, De Leeuw & Zijlmans, 2016).
Durch die gezielte Setzung oder Freisetzung von Parametern zwischen Gruppen
lassen sich die Unterschiede und Gleichheiten präzise lokalisieren. So kann man
z.B. feststellen, welche Gruppen sich in welchen Ladungen unterscheiden und in
welchen nicht.
316 IV.3 Fehlertheorie der Messungen

Die Methode des multiplen Gruppenvergleichs setzt allerdings bekannte Grup-


pen voraus. Will man Gruppen erst suchen, die sich durch Messmodelle unter-
scheiden, so bedarf es des Einsatzes von Mischverteilungsmodellen. Sucht man mit
Hilfe von Mischverteilungsmodellen nach Gruppen, die sich durch kausale Struk-
turen mit latenten Variablen unterscheiden, so ergeben sich eventuell erhebliche
Unterschiede in den Strukturen der Messmodelle (vgl. z.B. Faulbaum & Stein, 2000;
Faulbaum, Kelleter & Stein, 2001).
Neben den erwähnten Methoden der konfirmatorischen Faktorenanalyse gibt
es zahlreiche andere Verfahren des Strukturvergleichs zwischen Messungen. Ein
Beispiel wäre die Anwendung von Verfahren der multidimensionalen Skalierung
(vgl. Borg & Groenen, 2010; vgl. auch die Analysen mit PINDIS in Faulbaum,
1984a).

IV.3.5 Der Begriff der Reliabilität

Die Zerlegung einer gemessenen Variablen in eine wahre Variable und eine Feh-
lervariable führt auf ganz natürliche Weise zum Begriff der Zuverlässigkeit bzw. Re-
liabilität von Messungen. Es scheint plausibel, eine perfekte Zuverlässigkeit dann
anzunehmen, wenn es keinen Messfehler gibt, d.h., wenn der Messfehler den Wert
0 annimmt und die beobachteten Messungen mit den wahren Werten übereinstim-
men. Die Definition der Reliabilität in der klassischen Testtheorie basiert auf der
Varianzzerlegung der beobachteten Variablen. Ist die Fehlervariable wie von der
klassischen Testtheorie postuliert von der wahren Variablen statistisch unabhängig,
so kann man die Varianz σx2 der beobachteten Variablen x in der folgenden Weise
zerlegen:

σ x2 = σ τ2 + σ ε2 .

In dieser Formel ist στ2 die Varianz der wahren Variablen (auch : wahre Varianz) und
σε2 die Varianz der Fehlervariablen (auch: Fehlervarianz). Die Reliabilität wird dann
definiert als Verhältnis der wahren Varianz zur Varianz der beobachteten Variablen
(auch: beobachtete Varianz) σx2:

σ τ2 σ x2 − σ ε2 σ ε2
ρx = = =1− 2 .
σx 2
σx2
σx
IV.3 Fehlertheorie der Messungen 317

Wir sehen, dass die Reliabilität den maximalen Wert von 1.0 und den minimalen
Wert von 0 annehmen kann. Die Reliabilität ist 1.0, wenn die beobachtete Varianz
gleich der wahren Varianz ist bzw. wenn die Fehlervarianz 0 ist.
Hat man ein kongenerisches Messmodell spezifiziert, das gut an die Daten an-
gepasst ist, so lässt gilt für die Varianz eines Indikators xi (vgl. Box IV.7):

Var ( x i ) = λi2σ ξ2 + Var (δ i ) .

Daraus ergibt sich:

Var ( x i ) − Var (δ i ) = λi2σ ξ2 .

Der nicht auf den Messfehler zurückgehende wahre Varianzanteil des Indikators ist
λi2 σξ2.
Die Reliabilität eines einzelnen Indikators kann man in diesem Fall definieren
als:
λi2σ ξ2 λi2σ ξ2
ρi = = 2 2 .
Var ( x i ) λi σ ξ + Var (δ i )

Unter der Bedingung, dass wir die Variable τ standardisieren, indem wir ihre Vari-
anz auf 1.0 fixieren und damit τ in Einheiten von Standardabweichungen messen,
ergibt sich als Varianz von xi:

Var ( x i ) = λi2 + Var (δ i ) .

In diesem Fall ergibt sich als Maß für die Reliabilität also

λi2σ ξ2 λi2
ρi = = 2 .
Var ( x i ) λi + Var (δ i )

Standardisieren wir außer der latenten Faktorvariablen auch noch den beobachte-
ten Indikator selbst, so ergibt sich

λi2
ρi = = λi2 .
1
318 IV.3 Fehlertheorie der Messungen

In einem kongenerischen Messmodell, in dem alle Variablen standardisiert sind,


ergibt sich die Reliabilität als Quadrat der Faktorenladung.
Die Wurzel aus der Reliabilität wird auch als theoretische Validität bezeichnet.
Die theoretische Validität ist gleich der Faktorenladung λ und damit gleich der Kor-
relation zwischen der latenten Faktorvariablen ξ und dem Indikator xi.
Man kann weiterhin zeigen, dass die Reliabilität gleich der Korrelation zwischen
zwei parallelen Messungen x und x´ ist, denn es gilt:

Cov ( x , x′ ) Cov (τ + ‹ ,τ + ‹ ′ )
ρ xx ′ = =
σ xσ x ′ σ xσ x ′
Cov (τ ,τ ) + Cov (τ , ε ) + Cov (τ , ε ′ ) + Cov ( ε , ε ′ )
=
σ xσ x ′
Cov (τ ,τ ) σ τ2 σ τ2
= = = 2 = ρx .
σ xσ x ′ σ xσ x ′ σ x

In der Ableitung wurde ausgenutzt, dass die Korrelationen zwischen den wahren
und den beobachteten Variablen 0 sowie zwischen den Fehlervariablen 0 sind und
dass die Varianzen paralleler Messungen gleich sind.

IV.3.6 Praktische Verfahren der Reliabilitätsbestimmung

Alle praktischen Methoden der Reliabilitätsbestimmung beruhen auf der Annah-


me paralleler Messungen oder Annahmen über die Gleichheit wahrer Werte. Wir
haben im letzten Abschnitt gesehen, dass die Reliabilität einer Messung gleich der
Korrelation mit einer parallelen Messung ist. Also bedarf es nur der Entwicklung
einer parallelen Messung, um über die Korrelation die Reliabilität zu bestimmen.
Um dies zu erreichen, haben sich vor allem drei Ansätze etabliert:

A. Test-Retest-Methode
Bei der Test-Retest-Methode werden die gleichen Untersuchungseinheiten zu 2 ver-
schiedenen Zeitpunkten t1 und t2 gemessen. Die Reliabilität wird dann durch die
Korrelation zwischen Messung und Wiederholungsmessung bestimmt. Vorausset-
zung ist, dass Messung und Wiederholungsmessung parallele Messungen darstel-
len. Dies ist aber nur dann der Fall, wenn die wahren Variablen perfekt korreliert
sind (siehe unten).
IV.3 Fehlertheorie der Messungen 319

B. Testhalbierungsmethode
Bei der Testhalbierungsmethode (engl. split-halves-Methode) wird versucht, aus ei-
nem vorgegebenen Test zwei parallele Testhälften bzw. Hälften einer Skala zu ge-
winnen. Dies kann dadurch geschehen, dass die Items nach Zufall auf zwei Hälften
verteilt werden, oder besser dadurch, dass Paare von Items mit gleichen Mittelwer-
ten und Standardabweichungen gebildet werden und anschließend ein Item jedes
Paares einer der beiden Testhälften zugeordnet wird. Sind beide Hälften parallel, so
ergibt die Korrelation zwischen den Testhälften die Reliabilität des halbierten Tests.
Durch die Anwendung einer speziellen Formel, der Formel von Spearman-Brown
(siehe unten), kann die Reliabilität der Testhälfte auf den Gesamttest hochgerech-
net werden.

C. Methode der Parallelformen (Paralleltestmethode)


Bei dieser Methode wird versucht, zwei Formen des Tests bzw. einer Skala zu ent-
wickeln, die zu zwei parallelen Messungen führen sollen. Die Korrelation zwischen
beiden Messungen ist dann die Reliabilität.

IV.3.7 Reliabilität und Stabilität

Mangelnde Reliabilität von Messungen führt dazu, dass die beobachtete Korrela-
tion, d.h. die Korrelation zwischen zwei beobachteten Variablen, von der wahren
Korrelation, d.h. der Korrelation zwischen den assoziierten wahren Variablen ab-
weicht. Dies ergibt sich aus der sog. Verdünnungsformel (engl.: formula of attenuati-
on). Die aus den Definitionen der Reliabilität und der Definition einer Korrelation
leicht abeitbaren Verdünnungsformel hat die Gestalt:

ρ ( x, y )
ρ (τ x ,τ y ) =
ρx ρ y

In dieser Formel sind:

ρ(τx, τy) : Korrelation zwischen den wahren Variablen der Messungen x und y
ρ(x, y) : Beobachtete Korrelation zwischen x und y
ρx, ρy : Reliabilitäten von x und y
320 IV.3 Fehlertheorie der Messungen

Aus der Formel erkennt man, dass die beobachtete Korrelation nur dann gleich
der wahren Korrelation ist, wenn beide Messungen eine perfekte Reliabilität von
1.0 aufweisen. Ist dies nicht der Fall, so unterschätzt die beobachtete Korrelation die
wahre Korrelation, und zwar um so mehr, je geringer die Reliabilitäten sind.
Aus der Verdünnungsformel ergeben sich wichtige Konsequenzen für das Ver-
hältnis von Reliabilität und Stabilität einer Messung. Seien x1 und x2 Messungen zu
zwei Messzeitpunkten t1 und t2. Dann ist ρ(τx1, τx2) die Korrelation zwischen den
wahren Messungen der beiden Messzeitpunkte. Diese Korrelation wird auch als
Stabilität bezeichnet. Die Anwendung der Verdünnungsformel auf die Messungen
zu den beiden Messzeitpunkten ergibt für die Stabilität:

ρ ( x1 , x 2 )
ρ (τ x1 ,τ x2 ) = .
ρ x1 ρ x2

Durch Umformung ergibt sich:

ρ (τ x1 ,τ x2 ) ρ x1 ρ x2 = ρ ( x1 , x 2 ) .

Wenn wir annehmen, dass die Reliabilität eine Eigenschaft der Messung ist, die
über die Messzeitpunkte konstant ist, erhalten wir:

ρ (τ x1 ,τ x2 ) ρ x = ρ ( x1 , x 2 ) .

Man erkennt sofort, dass es sich um eine Gleichung handelt, in der nur die beob-
achtete Korrelation bekannt ist. Stabiltät und Reliabilität sind Größen, die man aus
der empirischen Korrelation schätzen müsste. Da es sich um eine Gleichung mit
zwei Unbekannten handelt, lässt sich eine der beiden Größen nur berechnen, wenn
die jeweils andere bekannt ist. Würde man z.B. annehmen, dass die Stabilität 1.0 ist,
wäre die Reliabilität gleich der der beobachteten Korrelation. Dies wäre der klassi-
sche Fall der Berechnung der Test-Restest-Korrelation als Maß für die Reliabilität.
Man kann sich nun die Frage stellen, wie viele Messzeitpunkte notwendig sind,
um Reliabilität und die Stabilität unabhängig schätzen zu können. Heise hat in ei-
nem 1969 erschienenen Aufsatz die Antwort darauf gegeben: Benötigt werden drei
Messzeitpunkte. Bei drei Messzeitpunkten stehen insgesamt drei empirische Kor-
relationen zur Verfügung: die Korrelation ρ(x1, x2) zwischen dem ersten und dem
zweiten Messzeitpunkt, die Korrelation ρ(x2, x3) zwischen dem zweiten und dem
IV.3 Fehlertheorie der Messungen 321

dritten Messzeitpunkt und die Korrelation ρ(x1, x3) ziwschen dem ersten und dem
dritten Messzeitpunkt. Es gelten also die folgenden Beziehungen:

ρ (τ x1 ,τ x2 ) ρ x = ρ ( x1 , x 2 ) ;
ρ (τ x2 ,τ x3 ) ρ x = ρ ( x 2 , x 3 ) ;
ρ (τ x1 ,τ x3 ) ρ x = ρ ( x1 , x 3 ) .

Unter der Bedingung, dass

ρ (τ x1 ,τ x3 ) = ρ (τ x1 ,τ x2 ) ρ (τ x2 ,τ x3 ) ,

ergibt sich

ρ ( x1 , x 3 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
ρx = = = .
ρ (τ x1 ,τ x2 ) ρ (τ x2 ,τ x3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 )
ρx ρx ρ x2

Hieraus ergibt sich wiederum:

ρ x2 ρ ( x1 , x 3 )
ρx = .
ρ ( x1 , x 2 ) ρ ( x 2 , x 3 )

Daraus folgt:

1 ρ ( x1 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 )
= bzw. ρ x = .
ρ x ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 3 )

Bei drei Messzeitpunkten lassen sich also die Reliabilitäten aus den beobachteten
Korrelationen ableiten. Wie die folgende Ableitung zeigt, lassen sich auch die Stabi-
litäten aus den beobachteten Korrelationen berechnen.

ρ ( x1 , x 2 ) ρ ( x1 , x 2 ) ρ ( x1 , x 2 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
ρ (τ x1 ,τ x3 ) = = = = .
ρx ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x 2 , x 3 )
ρ ( x1 , x 3 )
322 IV.3 Fehlertheorie der Messungen

ρ ( x2 , x3 ) ρ ( x2 , x3 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
ρ (τ x2 ,τ x3 ) = = = = .
ρx ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 )
ρ ( x1 , x 3 )

ρ ( x1 , x 3 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
2

ρ (τ x1 ,τ x3 ) = ρ (τ x1 ,τ x2 ) ρ (τ x2 ,τ x3 ) = = .
ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 )

Wir sehen also, dass sich die Stabilitäten unabhängig von der Reliabilität aus den
beobachteten Korrelationen schätzen lassen. Als Messmodell formuliert, ergibt sich
das in Abbildung IV.16 dargestellte Heise-Modell, einem Modell mit nur einem Indi-
kator (engl.: single indicator model) (vgl. auch Jagodzinski & Kühnel, 1987).

Abbildung IV.16: Heise-Modell

In einem Heise-Modell sind alle Variablen standardisiert. In Abbildung sind η1,


η2 und η3 die wahren Variablen zu den drei Messzeitpunkten. λ ist die Reliabilität
und ε1, ε2 und ε3 sind die Messfehler zu den drei Zeitpunkten. Die Stabilitäten
sind in Übereinstimmung mit den Konventionen bei der Spezifikation von Struk-
turgleichungsmodellen mit β bezeichnet. Die Stabilitäten sind mit gerichteten
Pfeilen gekennzeichnet und entsprechen den Korrelationen (zur Erinnerung: Bei
standardisierten Variablen entsprechen die Regressionskoeffizienten den Korre-
lationen).
Ein Beispiel für die Analyse eines Heise-Modells geben Jagodzinski und Kühnel
(1987). Die Autoren untersuchten an Hand von Daten der Zusatzstudie zur All-
IV.3 Fehlertheorie der Messungen 323

gemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) 1984 an drei


Messzeitpunkten wiederholte Messungen der in Abschnitt I.8 bereits dargestellten
Einstellung zu Ausländern (damals: Gastarbeiter) jeweils getrennt für die folgen-
den Items, die auf einer 7-stufigen Zustimmungsskala einzustufen waren (verwen-
det werden von der Darstellung in I.8 abweichenden Abkürzungen des englischen
Originalbeitrags):
• In Deutschland lebende Ausländer sollten ihren Lebensstil ein bisschen besser
an den der Deutschen anpassen (GST LIFESTYLE).
• Wenn Arbeitsplätze knapp werden, sollte man die in Deutschland lebende Aus-
länder in ihre Heimat zurückschicken (GST REPATRIATION).
• Man sollte in Deutschland lebenden Ausländern jede politische Bestätigung in
Deutschland untersagen (GST POLIPART).
• In Deutschland lebende Ausländer sollten ihre Ehepartner unter ihren Lands-
leuten auswählen (GST INTRAMARRY).
Der Stichprobenumfang der Zusatzstudie umfasste 152 Befragte. Die Stabilitäten
und Reliabilitäten sind in Tabelle IV.9 aufgeführt. Werden die Variablen nicht stan-
dardisiert, so ergibt sich das sog. Wiley & Wiley-Modell (vgl. Wiley & Wiley, 1970).
Wir sehen in Tabelle IV.9 den für Panelerhebungen typischen Fall, dass die Sta-
bilitäten zwischen den ersten beiden Messzeitpunkten niedriger sind als die zwi-
schen späteren Messzeitpunkten und dass die Reliabilität des Items „GST INTRA-
MARRY“ am höchsten ist.

Tabelle IV.9: Reliabilitäten und Stabilitäten in Heise-Modellen (Jagodzinski & Kühnel, 1987)

Items Reliabilitäten Stabilität zwischen Stabilität zwischen


t1 und t2 t2 und t3
GST LIFESTYLE .771 .837 .934
GST REPATRIATION .895 .782 .906
GST POLIPART .754 .774 .988
GST INTRAMARRY .955 .695 .848
324 IV.3 Fehlertheorie der Messungen

IV.3.8 Reliabilitätmaße für zusammengesetzte Messungen

Zusammengesetzte Messungen (engl.: composed measurements bzw. composite sco-


res) ergeben sich, wenn Einzelmessungen mittels arithmetischer Operationen zu
einer Gesamtmessung verbunden werden. Ein Beispiel ist die Addition von Einzel-
messungen zu einem Summenwert. Bei der Berechnung von Gesamtscores muss
immer bedacht werden, welche Gewichtungsfaktoren impliziert sind. So ist bei der
Berechnung eines Summenscores klar, dass alle Items das gleiche Gewicht von 1.0
haben; d.h. unabhängig davon, wie stark sich das zu messende latente Merkmal in
den Items ausdrückt, wird jedes Item in Bezug auf die Repräsentation der latenten
Eigenschaft als gleich behandelt. Andere Möglichkeiten, die auf einer Gewichtung
der Items nach der Höhe ihrer Korrelation mit der latenten Variablen beruhen,
bieten die Verfahren der Faktorenanalyse, die eine Gewichtung der Items nach der
Höhe der Ladungen erlaubt.

Reliabilität einer Summe ungewichteter paralleler Items


Zunächst ist festzuhalten, dass bei Vorliegen von n parallelen Messungen die Reli-
abilitäten aller Messungen identisch sind. Nach der Formel von Spearman-Brown
lässt sich die Reliabilität eines ungewichteten Summenscores von n Messungen
y1,…,yn nach der folgenden Formel berechnen:

nρ xx ’
ρx = .
1 + (n − 1)ρ xx ’

In dieser Formel ist ρxx΄ die Reliabilität der Einzelmessungen. Berechnen wir die
Reliablität für eine aus zwei parallelen Messungen, z.B. zwei Testhälften, zusam-
mengesetzte Messung, so muss von der Reliabilität einer Testhälfte auf die Reliabi-
lität des gesamten Tests hochgerechnet werden, so ist n = 2 anzusetzen, so dass sich
obige Formel auf die folgende Form reduziert:
2 ρ xx ’
ρx = .
1 + ρ xx ’

In dieser Formel bezeichnet ρxx΄ die Reliabilität der Testhälften.


IV.3 Fehlertheorie der Messungen 325

Reliabilität einer Summe gewichteter Items


Zur Berechnung der Reliablität einer Summe gewichteter Items hat Mosier (1943)
folgende Formel für die Summe gewichteter Messungen vorgeschlagen:

∑ w 2j σ i2 − ∑ j =1w 2j σ i2rjj
n n
j =1
ρx = .
∑ w 2j σ i2 + 2∑ j =1w jw kσ jσ krjk
n n
j =1

In dieser Formel sind:

ρx : Reliabilität des gewichteten Summenscores x


wj, wk : Gewicht der Komponenten xj und xk
σj, σk : Standardabweichungen der Komponenten xj und xk
rjj : Reliabilität der Komponente xj
rjk : Interkorrelation zwischen den Komponenten xj und xk

Jöreskog (1971) schlägt für die Indikatoren eines kongenerischen Messmodells ei-
nen gewichteten Score

y = w′x = w′ ( μ + λτ + ε ) = w′μ + w′ ( λτ ) + w′λ

vor. In dieser Formel ist w' eine Zeilenvektor von Gewichten, μ, λ und ε sind Spal-
tenvektoren der Mittelwerte, der Ladungen und der Fehler. Die Bestimmung der
Varianz von und die Anwendung der Definition der Reliabilität führt zu folgen-
dem Ausdruck für die Reliablität:

(¦ w λ )
2
m
( w'λ )
2
i i
i =1
ρ= = .
( w'λ ) + w'Θ w ( ¦ w λ ) + ¦ w λ Var (ε )
2 2 2
m m
i i i i 1
i =1 i =1

In diesem Ausdruck ist Θ2 ist die quadrierte Kovarianzmatrix der Fehler. Man kann
zeigen, dass die Reliabilität ein Maximum annimmt, wenn für die Gewichte der
Komponenten gilt:

λi
wi =
Var (‹ )
326 IV.3 Fehlertheorie der Messungen

Nehmen wir als Beispiel das kongerische Messmodell der extrinsischen Berufsori-
entierung mit den folgenden Ladungen und Fehlervarianzen:
Items λi
λi Var(ε) wi =
Var (‹ )
Sichere Berufsstellung 1.053 1.600 0.658
Hohes Einkommen 1.259 1.332 0.945
Gute Aufstiegsmöglichkeiten 1.276 0.468 2.726
Ein Beruf, der anerkannt und
geachtet wird 1.093 1.750 0.625

Zur Berechnung der Reliabilität der aus den Items gebildeten zusammengesetzten
Messung berechnen wir zunächst die Bestandtteile

2
⎛ m ⎞
⎜ ∑wi λi ⎟ = ⎡⎣(1.053 × .658 ) + (1.253 × .945 ) + (1.276 × 2.726 ) + (1.093 × .625 ) ⎤⎦
2

⎝ i =1 ⎠
= ( .693 + 1.184 + 3.478 + .658 ) = 6.0132 = 36.156
2

∑w λ Var (ε ) = (.693 × 1.600 ) + (1.184 × 1.332 ) + ( 3.478 × .468 ) + . ( 658 × 1.750 )


i =1
i i 1

= 1.108 + 1.577 + 1.628 + 1.151 = 5.941

Damit ergibt sich für die Reliabilität ρ des zusammengesetzten Scores:

36.156 36.156
ρ= = = .858.
36.156 + 5.941 42.097

Bentler (1972), Bentler & Woodward (1980) und Shapiro (1982), leiten untere und
obere Grenzen für die Reliabilität multivariat verteilter Indikatoren in Modellen
der Faktorenanalyse ab.

Cronbachs α:
Man kann zeigen, dass für zusammengesetzte Messung x = y1 + y2 + ∙∙∙ + yn gilt,
dass
n ⎡⎢ ∑ i =1Var ( y i ) ⎥⎤
n

ρ x ≡ ρ ( x ,τ ) ≥ α =
2
1− .
n −1 ⎢ Var ( x ) ⎥
⎣ ⎦
IV.3 Fehlertheorie der Messungen 327

Der in der Formel auftauchende Koeffizient Į wird auch als Cronbachs Į bezeichnet
(vgl. Cronbach, 1951). Cronbachs Į ist gleich der Reliabilität, wenn die Messungen
wenigstens τ-äquivalent sind, d.h. die gleichen wahren Werte besitzen. Man kann Į
auch über die Kovarianzen zwischen unterschiedlichen Items definieren:

n ∑ i ≠ jCov ( y i , y j )
α= .
n −1 Var ( x )

In dieser Formel steigt Į mit steigenden Kovarianzen zwischen den Items relativ
zur Varianz des Gesamtscores. Dies zeigt, dass die Reliabilität maßgeblich über die
interne Konsistenz der Items bestimmt ist: Je stärker die Items zusammenhängen,
desto höher die Reliabilität.
Die Spearman-Brown-Formel (siehe oben) ergibt sich als Folgerung aus Cron-
bachs Į (vgl. Lord & Novick, 1968, p. 90). Sind die Items dichotom, so erhält man
als Spezialfälle die sog. Kuder-Richardson-Formeln.:
Seien pi und qi = 1 − pi die Antwortwahrscheinlichkeiten der Einzelmessungen
yi. Dann nimmt die Form der sog. Kuder-Richardson-Formel 20 an:

n ⎛⎜ ∑ i =1piqi ⎞⎟
n

α 20 = 1− .
n −1⎜ Var ( x ) ⎟
⎝ ⎠

Haben alle Messungen die gleichen Antwortwahrscheinlichkeiten, so ergibt sich


die Kuder-Richardson-Formel 21:

n ⎛ npq ⎞
α 21 = ⎜1 − ⎟,
n − 1 ⎜⎝ Var ( x ) ⎟⎠

wobei:

n
pi
p= i =1

n
und

n
qi
q= i =1
.
n
328 IV.4 Die Validität von Messungen

Shapiro (1985; vgl. auch Bentler & Woodward, 1983) leiten die asymptotische Ver-
teilung der größten unteren Schranke der Reliabilität ab und ermöglichen damit
einen statistischen Test der Reliabilität.

IV.4 Die Validität von Messungen

Das Wort Validität bezeichnet den Grad bzw. das Ausmaß, mit dem ein Instrument
(z.B. Test, Fragebogen, Item) das zu untersuchende Konstrukt misst. Anders ausge-
drückt, bezeichnet das Wort Validität das Ausmaß, in dem ein Messinstrument das
misst, was es messen soll. Voraussetzung für die Anwendung statistischer Verfah-
ren der Validitätsberechnung ist, dass das Frageverständnis gesichert wurde, was
nur mit den in Teil V erläuterten Verfahren erreichbar ist.
Wir haben in Abschnitt IV.3.5 den Begriff der theoretischen Validität als Qua-
dratwurzel aus der Reliabilität bzw. als Korrelation zwischen Indikator und Kons-
truktvariablen definiert. Die theoretische Validität eines Indikators ist also um so
höher, je höher die Korrelation zwischen Indikator und Konstrukt ist. Von größerer
Bedeutung in der differentiellen und diagnostischen Psychologie, aber weniger in
der Umfrageforschung ist der Begriff der empirischen Valdidität. Im Unterschied
zur theoretischen Validität bezieht sich die empirische Validität auf die Korrelation
zwischen einer Messung und einem unabhängigen beobachtbaren Kriterium. Man
spricht daher auch von Kriteriumsvalidität oder kriteriumsbezogener Validität, wo-
bei man unterscheidet zwischen:

A. Vorhersagevalidität (engl.: predictive validity)


Kriteriumsvalidität, bezogen auf ein zukünftiges Kriterium.
Beispiele:
Ein Test zur polizeilichen Eignung korreliert mit dem zukünftigen Verhalten als
Polizist; ein Test zur Studieneignung korreliert mit dem späteren Studienerfolg.

B. Gleichzeitige Validität (eng.: concurrent validity)


Korrelation zwischen gleichzeitig erhobenen Test- und Kriteriumsmessungen. Dies
kann z.B. den Zusammenhang zwischen Messungen und Gruppenzugehörigkeit
betreffen (sog. Methode der bekannten Gruppen).
IV.4 Die Validität von Messungen 329

Beispiel:
Es wird überprüft, ob der mittlere Testwert eines Tests zur polizeilichen Eignung
für die Gruppe der erfolgreichen Polizisten signifikant höher ist als für die Gruppe
der nicht erfolgreichen Polizisten.
Für die Sammlung von Fragen/Items ist zentral, dass inhaltlich valide Fragen/Items
gefunden werden, d.h. Items, die als gute Indikatoren für ein Konstrukt gelten
könnten. Die Inhaltsvalidität (engl.: content validity) betrifft das Ausmaß, in dem
eine Menge von Items einen bestimmten inhaltlichen Bereich abdeckt; repräsen-
tieren die ausgewählten Items den vollen inhaltlichen Bereich, heißen sie inhaltlich
valide. Der Begriff der inhaltlichen Validität bezieht sich also auf die Qualität der
Operationalisierung sowie der Konzeptspezifikation. So wäre vielleicht ein Item zur
Messung zur Messung der politischen Partizipation nicht unbedingt inhaltlich vali-
de für die Messung ethnischer Vorurteile. Die Messung arithmetischer Fähigkeiten
muss alle Fähigkeiten abdecken und z.B. nicht nur Addition und Subtraktion.
Wenn man in der Lage ist, die geeigneten Daten zu erheben, lassen sich wichtige
Erkenntnisse über den Einfluss von Methoden und theoretischen Konstrukten auf
Valdität und Reliabilität von Messungen durch Inspektion sog. Multitrait-Multi-
method-Matrizen (kurz MTMM-Matrizen) erlangen (vg. Campbell & Fiske, 1959).
Die Inspektion von Multitrait-Multimethod-Matrizen dient der Überprüfung der
konvergenten (engl. convergent) und diskriminanten (engl.: discriminant) Validität.
Konvergente Validität liegt für ein Konstrukt dann vor, wenn unterschiedli-
che Operationalisierungen des Konstrukts, d.h. verschiedene Methoden seiner
Messung, zu ähnlichen Ergebnissen führen. Diskriminante Validität liegt für eine
Messung vor, wenn sich empirisch zeigen lässt, dass die Messung zwischen ver-
schiedenen Konstrukten differenzieren kann. Dies wäre dann der Fall, wenn eine
neu eingeführte Messung nicht zu hoch mit den Messungen anderer Konstrukte
korreliert.
In der klassischen Form erfordert die Aufstellung von MTMM-Matrizen, dass
alle Befragten unter allen methodischen Bedingungen und unter allen Konstrukten
gemessen wurden. Ist dies der Fall, so lassen sich die Korrelationen zwischen Mes-
sungen in Form einer MTMM-Matrix zusammenstellen, welche die in Abbildung
IV.17 dargestellt Form hat. In der Abbildung ist ein fiktives Beispiel dargestellt, in
dem extrinsische Berufsorientierung, die intrinsische Berufsorientierung und die
soziale Orientierung unter den Bedingungen der computeruntersützten Telefon-
befragung (CATI), der Face-to-Face-Befragung (FtF) und der Online-Befragung
über spezifische Indikatoren gemessen wurden. In die Beispielmatrix sind in der
Hauptdiagonalen die Reliabilitäten eingefügt, die mit Hilfe der in Abschnitt *5.5
oder über die Faktorenaladungen geschätzt werden können.
330 IV.4 Die Validität von Messungen

Abbildung IV.17: Fiktives Beispiel einer MTMM-Matrix

Wie aus Abbildung IV.13 zu entnehmen ist, kann man verschiedene Teile einer
MTMM-Matrix unterscheiden:
Korrelationen zwischen Konstrukten, die mit einer Methode gemessen wurden,
bilden sog. Heterotrait-Monomethod-Dreiecke. Die Heterotrat-Heteromethod-Drei-
ecke werden durch die Korrelationen zwischen Messungen unterschiedlicher Me-
thoden und Konstrukte gebildet. Die Validitätsdiagonalen enthalten die Korre-
lationen zwischen Messungen des gleichen Konstrukts unter den verschiedenen
Methoden. Validitätsdiagnonale und Heterotrait-Heteromethod-Dreicke bilden
einen Heteromethodenblock. Die Korrelationen innerhalb einer Methode bilden ei-
nen Monomethodenblock.
Konvergente Validität wird durch Inspektion der Korrelationen in der Validi-
tätsdiagonalen festgestellt. Diese sollten hoch sein. Diskriminante Validität liegt
vor, wenn die Werte der Heterotrait-Heteromethod-Dreiecke nicht so hoch sind
wie die in der Validitätsdiagonalen und wenn die Werte in den Heterotrait-Mono-
method-Dreiecken nicht so hoch wie die Reliabilitäten der Messungen sind.
Wenn wir die Methoden und Konstrukte als latente Variablen in ein Modell der
konfirmatorischen Faktorenanalyse zusammen mit den Messungen als Indikato-
ren aufnehmen, lassen sich die Effekte der Methoden und der Konstrukte auf die
Messungen bestimmen. In Abbildung IV.18 ist die Struktur eines Modells mit den
IV.4 Die Validität von Messungen 331

Variablen der MTMM-Matrix von Abbildung IV.14 dargestellt, wobei die Fehler-
variablen der Einfachheit der Darstellung halber nicht mit eingezeichnet und hin-
zugedacht werden müssen. Mit Hilfe der konfirmatorischen Faktorenanalyse lassen
sich die Einflüsse von Methoden und Konstrukten auf die Messungen schätzen.
Außerdem lassen sich mögliche Zusammenhänge zwischen den Methodenvari-
ablen und zwischen den Konstruktvariablen prüfen. Dank der Möglichkeit, Ein-
schränkungen der Parameter, etwa durch die Postulierung von Ladungsgleicheiten,
einzuführen, lassen sich detailliertere Modellstrukturen prüfen.

Abbildung IV.18: Faktorenanalytische Formulierung eines Modells für eine MTMM-Matrix

Unter der Annahme, dass die Methodenfaktoren mit den Konstruktfaktoren nicht
korreliert sind, lässt sich die Korrelation zwischen zwei beobachteten Variablen für
eine konstante Methode Mj in der folgenden Weise zerlegen (vgl. Saris & Gallhofer,
2014; Oberski, Saris & Hagenaars, 2010):

ρ ( y ij , y kj ) = ρ (ξ i , ξ k ) λij λkj + mijmkj ,


332 IV.4 Die Validität von Messungen

wobei:

yij, ykj : Messungen unter einer Methode Mj und


Konstrukten ξi bzw. ξk
σ(yij, ykj) : Beobachtete Korrelation zwischen den Variablen yij
und ykj.
σ(ξi, ξk) : Korrelation zwischen den Konstruktvariablen ξi und ξk
λij, λkj : Faktorladungen der Messungen yij und ykj auf
den Konstrukten ξi und ξk unter einer
Methode Mj
mij, mkj : Ladungen von yij und ykj auf dem
Methodenfaktor Mj

Die obige Zerlegung lässt sich unter Anwendung der Regeln für das Rechnen mit
Kovarianzen (siehe Box III.7) leicht ableiten, denn es gilt:

ρ ( y ij , y ik ) = ρ ( λijξ i + mij M j , λkjξ k + mkj M j )


= ρ ( λijξ i , λkjξ k ) + ρ ( mij M j , λkjξ k ) + ρ ( λijξ i , mkj M j ) + ρ ( mij M j , mkj M j ) .

Da die Methodenfaktoren von den Konstruktvariablen als unabhängig vorausge-


setzt worden sind, ergibt sich:

ρ ( y ij , y ik ) = ρ (ξ i , ξ k ) λij λkj + mijmkj ρ ( M j , M j ) = ρ (ξ i , ξ k ) λij λkj + mijmkj ρ ( M j , M j )


= ρ (ξ i , ξ k ) λij λkj + mijmkj .

λij und λkj sind die Quadratwurzeln aus den Reliabilitäten bzw. die theoretischen
Validitäten. Die Anwendung auf die Verdünnungsformel (siehe Abschnitt IV.3.7)
ergibt:
ρ ( y ij , y ik ) − mijmkj
ρ (ξ i , ξ k ) = .
λij λkj

Der Methodeneffekt auf die Variablen yij und ykj erhöht bzw. bereinigt also die Kor-
relation zwischen den latenten Konstrukten.
Als Methodenfaktoren können neben unterschiedlichen Kommunikationsfor-
men wie „telefonisch“, „Face-to-Face“ und „online“ unterschiedliche Aspekte von
Erhebungsinstrumenten eingeführt werden. So lassen sich etwa die Effekte unter-
schiedlicher Skalentypen studieren, wie z.B. Ratingskalen mit einer unterschied-
lichen Anzahl von Abstufungen oder unterschiedlichen Verbalisierungen. Auch
IV.5 Zusammenfassung 333

lassen sich die Effekte von Kategorialskalen genauer untersuchen, wenn man zu-
sätzlich latente Antwortvariablen in die Modellierung der MTMM-Matrix einbe-
zieht. So untersuchten Oberski, Saris und Hagenaars (2010) Kategorisierungsfeh-
ler, indem sie die latenten Schwellenwerte schätzten.
Modifikationen des MTMM-Ansatzes ergeben sich, wenn man zulässt, dass
nicht alle Befragten alle Items vorgelegt bekommen, sondern stattdessen eine zufäl-
lige Teilstichprobe eine Form der Items beantwortet und die andere Teilstichprobe
die andere Form der Items. Man spricht in diesem Fall von einem split-ballot-MT-
MM (vgl. Oberski, Saris und Hagenaars, 2010).

IV.5 Zusammenfassung

Das Ziel ernsthaft gemeinter Umfragen besteht immer in der Messung von Eigen-
schaften der Grundgesamtheit (siehe Teil I). Diese Messungen stellen Schätzun-
gen der statistischen Parameter bzw. der „wahren“ statistischen Eigenschaften der
Grundgesamtheit dar. Mitentscheidend für die Genauigkeit dieser Schätzungen
sind die zu den Nichtstichprobenfehlern gehörenden Messfehler sowie die Gül-
tigkeit der Messungen. Werden mit einer Messung Inhalte/Konstrukte gemessen,
die sich von den Inhalten, über die für eine Population Aussagen getroffen werden
sollen, unterscheiden, so führt dies zu einer Fehlinterpretation der statistischen
Ergebnisse. Eine mangelnde Reliabilität führt zu einer Einschränkung der Ausage-
kraft in dem Sinne, dass das Ergebnis in einer Erhebung unter den gleichen Bedin-
gungen anders aussehen würde.
Welche Verfahren zur Analyse von Reliabilität und Validität anwendbar sind,
richtet sich nicht zuletzt nach der gewählten Operationalisierung, der Anzahl der
Indikatoren, etc. Der gesamte Apparat der in diesem Teil vorgestellten Verfahren
wird von einem einzelnen Institut für eine einzelne Erhebung aus Kosten- und
Gründen der personellen Ausstattung nicht immer zu nutzen sein. Allerdings emp-
fiehlt sich die Nutzung bei Umfragen von besonderer nationaler, wissenschaftlicher
oder gesellschaftlicher Bedeutung, allgemein jedenfalls dort, wo auf der Basis von
Umfragedaten wichtige generalisierbare Erkenntnisse gewonnen werden sollen,
aus denen wissenschaftliche Konsequenzen gezogen werden sollen oder die der
politischen Entscheidungsvorbereitung dienen. Gelegentlich wird man an Stelle
eigener Analysen bereits bewährte Survey-Items nutzen können. Dabei kann auf
Datenbanken wie Mikrodaten-Informationssysten (kurz: Missy) oder den Daten-
bestandskatalog von GESIS zurückgegriffen werden.
Teil V: Entwurf und Evaluation von Fragen

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 335
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_5
V.1 Überblick

Der Entwurf eines Fragebogens sollte mit einer Überlegung darüber beginnen,
welche Informationen durch Selbstauskünfte des Befragten erhoben werden sollen.
Diese Überlegungen müssen die Forschungsfragestellung und die zu erhebenden
Konstrukte in den Blick nehmen, für welche die Fragen angemessene Operatio-
nalisierungen darstellen sollen. Der Entwurf eines Fragebogens ist ein mehr oder
weniger langer Prozess, der mit der Ausarbeitung der Inhalte, ggf. unter Einbe-
ziehung von Expertisen oder Ergebnissen vorgeschalteter Gruppendiskussionen
und ersten Entwürfen von Survey-Items und ihren Bestandteilen beginnt. Dabei
geht es sowohl um die Texte von Fragen und Items als auch um die Konzeption
geeigneter Antwortvorgaben und Skalen. Es steht außer Zweifel, dass die Phase des
Erstentwurfs eine der schwierigsten Phasen der Fragebogenentwicklung darstellt,
insbesondere dann, wenn an der Entwicklung ein nationales oder internationales
Team beteiligt ist, was in er Regel wiederholte Abstimmungen und Diskussionen
der Entwürfe erfordert.
Der Entwurf einer Frage erfordert Entwürfe aller Bestandteile einer Frage. Wird
im Fragetext die Bewertung von Items verlangt, stellen die Items in der Regel Ope-
rationalisierungen der zugrundeliegenden Konstrukte dar. Für jedes Item ist ein
Textentwurf, die Festlegung der Antwortdimension (z.B. Wichtigkeit, Zufrieden-
heit, etc.) sowie die Auswahl des Antwortformats einschließlich möglicher Verba-
lisierungen erforderlich.
Es liegt nahe, noch vor einem eigenen Entwurf zu prüfen, ob es bereits Fragen/
Items aus anderen Erhebungen gibt, die als Operationalisierung in Frage kommen.
Dazu ist es erforderlich, in einschlägigen Dokumentationssystemen nachzusehen,
die Auskunft nicht nur über die Datensätze, sondern auch über die mit den Er-
hebungen verbundenen Metadaten geben, zu denen auch Fragen und Fragebögen
gezählt werden können. Ehe schlechte Fragen mit der Begründung der Aufrecht-
erhaltung der Vergleichbarkeit mit den Ergebnissen anderer Erhebungen nicht im-
mer perpetuiert werden, sollte geprüft werden, ob für die Fragen/Items Angaben
über Gütekriterien vorliegen. Auch aus anderen Erhebungen übernommene Fra-
gen sollten wie die eigenen Erstentwürfe auf mögliche Probleme abgeklopft wer-
den, wobei auch Fragebewertungssysteme eingesetzt werden können (siehe unten).
Nicht alle Fragen, auf die ein Designer in der Vergangenheit stolz war, sollten auch
eine Zukunft haben, wenn sie Probleme beinhalten.
Besonders bei seit langem etablierten Item-Skalen, die bestimmte Dimensionen
messen, wie etwa Beschwerdeskalen in der Gesundheitsforschung oder psychologi-
sche Skalen wie z.B. Extraversion kommt man um deren Verwendung oft nicht he-
338 V.1 Überblick

rum. Oft liegen für diese Skalen aber auch Angaben über Gütekriterien vor, wenn
nicht in Datenbanken, dann in der einschlägigen Literatur.
Wie bereits mehrfach in Teil III immer wieder ausgeführt, stellt eine Frage eine
Aufforderung dar, eine im Fragetext beschriebene Aufgabe zu lösen. Diese Aufgabe
besteht möglicherweise nicht nur im einfachen Abruf einer Antwort, sondern kann
z.B. Entscheidungen wie in Wahlexperimenten oder in der Randomized-Respon-
se-Technik (siehe Teil III) beinhalten. Auch nonverbales Verhalten kann Teil der
Aufgabe sein. So kann eine Frage nach dem Energieverbrauch eine Bitte um das
Heraussuchen der letzten Stromrechnung erfordern; eine Frage nach dem Gewicht
kann eine Gewichtsmessung beinhalten, etc. Die erfolgreiche Lösung der Aufgabe
wird dann durch die Antwort dokumentiert.
Liegt ein erster Frageentwurf vor, lässt sich dieser Entwurf noch einmal mit
Hilfe eines Fragebewertungssystems (siehe unten) hinsichtlich seiner Qualität
überprüfen, um Quellen von Gefährdungen des Frage- und damit des Aufgaben-
verständnisses sowie mögliche Probleme des Befragten mit der Erfüllung Aufgabe
bzw. der Leistungserbringung schon vor Einsatz eines empirischen Prüfungsver-
fahrens identifizieren zu können. Der nach erfolgten Prüfungen resultierende Fra-
geentwurf stellt dann einen optimierten Anwärter auf die finale Frageformulierung
dar. Dieser sollte aber in jedem Fall noch einmal einem empirischen Prüfungs-
verfahren unterworfen werden, um noch existierende Probleme, die Befragten
mit den Frageentwürfen und dem Fragebogenentwurf haben, zu erkennen und
die Entwürfe entsprechend modifizieren zu können. Besondere Aufmerksamkeit
sollte dem Frageverständnis gewidmet sein. Der Forscher bzw. der oder die Fra-
gebogendesigner entwerfen die Fragen in der Regel unter Zugrundelegung des
eigenen Verständnisses, d.h. sie verleihen einem Text die eigene Bedeutung. Wie
bereits in Teil III ausgeführt wurde, kann sich diese von den Bedeutungen, die be-
stimmte Subgruppen der Population dem Fragetext geben, unterscheiden. Für die
Interpretation der späteren Daten und als Voraussetzung für die Beurteilung der
Validität ist ein Überblick darüber, wie Befragte den Fragetext verstehen, außeror-
dentlich wünschenswert. Der Forscher bekommt dann Hinweise, in welcher Form
er den Text ändern muss, um das von ihm intendierte Verständnis zu erzeugen.
Es versteht sich, dass der z.T. hohe Zeit- und Kostenaufwand für die Ermittlung
des Frageverständnisses nur bei solchen Fragen erfolgen sollte, bei denen ein vom
Verständnis des Forschers unterschiedenes Verständnis auf Seiten der Befragten
vermutet werden kann.
Zur Überprüfung der Frageentwürfe stehen aber nicht nur auf die Prüfung des
Frageverständnisses abzielende Verfahren zur Verfügung, sondern vielmehr eine
ganze Palette weiterer Verfahren mit unterschiedlichen Schwerpunkten. Das Fra-
geverständnis und die Qualität von Fragetexten ist zwar ein zentrales Anliegen der
V.2 Der Erstentwurf einer Frage 339

Evaluation von Fragen. Es geht aber auch um kostenrelevante Merkmale wie die
Zeit, die es braucht, um eine Frage oder einen Fragebogen zu bearbeiten, Gesamt-
beurteilungen des Erhebungsinstruments aus Sicht der Befragten und der Inter-
viewer.

V.2 Der Erstentwurf einer Frage

V.2.1 Allgemeine Empfehlungen und Richtlinien

Schon der erste Entwurf einer Frage, ob er nun in Teamarbeit erstellt wurde oder
nicht, sollte von vornhinein darauf gerichtet sein, die Qualität der Antwort zu op-
timieren, soweit sie durch die Wahl des Frageinhalts und des Fragetextes kontrol-
liert werden kann. Dabei sollten nach Möglichkeit die Untersuchungsergebnisse
über die Wechselwirkungen von Fragetexten, Personen und Kommunikationsform
beachtet werden. Den Überblick darüber können eigentlich nur auf die Umfrage-
forschung spezialisierte Teams haben. Notwendig sind solche Teams der Qualitäts-
sicherung besonders an Einrichtungen, die Umfragen mit hohem wissenschaftli-
chem Anspruch und großer Bedeutung für die akademische Forschung oder für
die Sammlung von Erkenntnissen von nationaler oder internationaler Bedeutung
über Wirtschaft und Gesellschaft selber durchführen oder durch Institute betreuen
lassen.
In der Vergangenheit gewonne Ergebnisse der Umfrageforschung zur Optimie-
rung von Fragen und Fragebögen, ergänzt durch „Common Sense“ schlagen sich
in zahlreichen Empfehlungen und Richtlinien nieder, die beim Entwurf von Fragen
beachtet werden können. Manche dieser Empfehlungen sind gut gemeint, lassen
sich aber oft in der Praxis nur teilweise oder überhaupt nicht realisieren, weil For-
schungsthema und andere Vorgaben, etwa der Kommunikationsform dies nicht
erlauben.
Einige Empfehlungen ergeben sich schon aus dem Ansatz des maßgeschneider-
ten Designs von Dillman (zum Begriff des maßgeschneiderten Designs siehe I.4.4).
Auf die Konstruktion von Erhebungsinstrumenten beziehen sich die folgenden
Vorschläge (vgl. Dillman, 1997):
• Konstruktion eines interessanten Fragebogens;
• Vermeidung einer herablassenden Sprache bzw. Befehlsformen;
• Vermeidung von Verlegenheit oder Verwirrung der Befragten;
• Vermeidung von Unannehmlichkeit bzw. Unbequemlichkeit;
340 V.2 Der Erstentwurf einer Frage

• Entwurf eines kurzen und leichten Fragebogens (gilt besonders für Selbst-ad-
ministrierte Interviews);
• Reduzierung von Forderungen nach persönlichen Informationen, die die Be-
fragten nicht gerne weitergeben;
• Verwendung untereinander konsistenter Fragen.
In Bezug auf den Entwurf von Fragebögen und Fragen ergibt sich aus dem Ansatz
vor allem die Konsequenz, die Belastungen des Befragten, seien es kognitive, emo-
tionale Belastungen oder Belastungen durch schlechte Benutzerfreundlichkeit des
Fragebogens, gering zu halten.
Sofern Erkenntnisse zu Auswirkungen physischer, psychologischer und sozi-
aler Merkmale der Befragten auf die Beantwortung von Fragen vorliegen, sollten
diese soweit wie möglich schon beim Entwurf von Fragebögen und Fragen Berück-
sichtigung finden. Zur Kontrolle der emotionalen und kognitiven Ressourcen gibt
es Bestrebungen, kurze Skalen zu Messung dieser Ressourcen in den Fragebogen
einzuführen Ein Beispiel ist der Versuch, die sog. „big five“ (die Persönlichkeitsfak-
toren Extraversion, soziale Verträglichkeit, Gewissenhaftigkeit, Neurotizismus, Of-
fenheit/Intellekt) durch Kurzskalen in Fragebögen zu integrieren (vgl. Rammstedt
2004; Rammstedt & John 2007).
Bei allen Bemühungen ergibt sich schon aus der zu erwartenden Heterogeni-
tät der Population, dass es bei allgemeinen Bevölkerungsumfragen Fragen geben
kann, die nicht für alle Teilgruppen der Stichprobe optimal sind.
Allgemeine Empfehlungen für den Entwurf von Fragen sind wegen der Abhän-
gigkeit von den Besonderheiten der Studie sowie der Abhängigkeit von den De-
tails der Ausführungsbedingungen einer Frage immer mit einer gewissen Vorsicht
zu behandeln. Hinzu kommt, dass die Ergebnisse empirischer Studien und deren
Empfehlungen nicht immer verallgemeinert werden können, da diese oft nur ein-
mal und unter besonderen methodischen Randbedingungen erhoben wurden und
Replikationen fehlen. Groves et al. (2009) greifen in ihren Empfehlungen Anregun-
gen von Sudman & Bradburn (1982) auf und entwickeln auf dieser Basis eine Reihe
von Empfehlungen, von denen jede empirisch begründet wird. Die Empfehlungen
sind auf die Optimierung der Antwortqualität ausgerichtet und aufgeschlüsselt
nach nichtsensitiven Verhaltensfragen, sensitiven Verhaltensfragen, Einstellungs-
fragen und selbst-administrierten Fragen, wobei nicht nur die Frageformen, son-
dern auch Aspekte der Leistungsfähigkeit des Befragten, der Antwortprozess und
Kommunikationsformen berücksichtigt werden. Sie ersetzen in Teilen bereits be-
stimmte Aspekte von Fragebewertungssystemen:
V.2 Der Erstentwurf einer Frage 341

Nichtsensitive Fragen:

• Geben Sie bei geschlossenen Fragen alle sinnvollen Antwortmöglichkeiten als


Antwortalternativen explizit vor.
• Formulieren Sie den Fragetext so spezifisch wie möglich, um die Möglichkeiten
unterschiedlicher Interpretationen durch verschiedene Befragte zu reduzieren.
• Verwenden Sie Worte, die alle Befragte in nahezu gleicher Weise verstehen.
• Reichern Sie den Fragetext mit Gedächtnishilfen an, um die Erinnerungsleis-
tung zu verbessern. Eine Möglichkeit besteht in der Anwendung von Kalenda-
rien zur Erfassung von Ereignissen und Ereignisdauern, mit denen eine Ver-
besserung der Qualität retrospektiver Berichte erreicht werden kann (vgl. Belli,
Shay & Stafford 2001), wobei der Erfolg aber vom Interviewer- und Befragten-
verhalten abhängt (vgl. Belli, Bilgen & Baghal, 2013).
• Sollte die Vermutung naheliegen, dass die gewünschte Information vergessen
wurde, verwenden Sie einen gestützten Abruf (engl.: aided recall) der Informati-
on. „Gestützter Abruf der Information“ bedeutet, dass separate Fragen zu jeder
Unterkategorie einer Kategorie gestellt werden. Eine Frage wie: „Wann waren
Sie zuletzt Einkaufen?“ könnte aufgeschlüsselt werden in „Wann haben Sie zu-
letzt Lebensmittel eingekauft?“, „Wann haben Sie zuletzt Kleidung eingekauft“,
etc.
• Wenn interessierende Ereignisse häufig auftreten, aber nicht sehr kompliziert
sind, lassen Sie die Befragten ein Tagebuch führen.
• Wenn lange Erinnerungsperioden verwendet werden müssen, verwenden Sie
einen Kalender für die Datierung von Lebensereignissen.
• Um „telescoping“-Effekte zu vermeiden, bitten Sie die Befragten, Haushalts-
unterlagen wie z.B. Rechnungen, Kalender, Versicherungspolicen, etc. heran-
zuziehen.
• Sollten Kostenüberlegungen eine Rolle spielen, überlegen Sie, welche Proxies
die gewünschte Information liefern könnten.

Sensitive Verhaltensfragen:

• Verwenden Sie eher offene als geschlossene Fragen, um die Häufigkeit sensibler
Ereignisse zu erfragen.
• Verwenden Sie eher lange als kurze Fragen.
• Verwenden Sie vertraute Worte, um sensitive Verhaltensweisen zu beschreiben.
• Versuchen Sie die Frage als „Einladung“ zu einer sozial nicht akzeptablen Ant-
wort zu formulieren, indem Sie Formulierungen wählen wie den „Jeder-tut-
es-Ansatz (everybody-does-it-approach)“ (z.B. „Selbst die ruhigsten Eltern
342 V.2 Der Erstentwurf einer Frage

werden ärgerlich, wenn…“), den „assume-the-behavior-approach“ (z.B. „Wie


oft taten Ihre Kinder in der letzten Woche etwas, das Sie geärgert hat?“), den
„Autoritäten-empfehlen-es-Ansatz (authorites-recommend-it-approach)“ (z.B.
„Viele Psychologen glauben, dass es für Eltern wichtig ist, ihre aufgestauten
Frustrationen auszudrücken. Taten Ihre Kinder in der letzten Woche irgend-
etwas, das Sie geärgert hat?“) oder den „reasons-for-doing-it“-Ansatz (z.B.
„Eltern werden ärgerlich, weil sie müde sind oder zerstreut sind, oder wenn
ihre Kinder ungewöhnlich frech sind. Taten Ihre Kinder in der letzten Woche
irgendetwas, das Sie geärgert hat?“)
• Stellen Sie die Fragen, die sich auf längere Zeitperioden (z.B. die gesamte Le-
benszeit) oder auf die entfernte Vergangenheit beziehen, zuerst.
• Betten Sie die sensitiven Fragen zwischen andere sensitive Fragen.
• Verwenden Sie Selbstadministrierte Administrationsformen.
• Ziehen Sie die Sammlung von Daten in Form von Tagebüchern in Betracht.
• Stellen Sie am Schluss des Interviews Fragen, die erkennen lassen, wie sensitiv
der Befragte die Schlüsselfragen empfunden hat.
• Sammeln Sie Daten zur Validierung.

Einstellungsfragen:

• Spezifizieren Sie klar und eindeutig das Einstellungsobjekt.


• Vermeiden Sie Fragen, die sich auf zwei Einstellungen zugleich beziehen („dou-
ble-barreled“ questions).
• Verwenden Sie bei der Messung der Einstellungsstärke mehrere unabhängige
Items, sofern dies möglich ist.
• Verwenden Sie bipolare Items außer in dem Fall, wo sie keine Schlüsselinforma-
tion enthalten. Unter bipolaren Items werden solche Items verstanden, wo so-
wohl die positive als auch die negative Alternative im Text genannt wird. Diese
Empfehlung bezieht sich also auf den Itemtext und nicht auf die Antwortskala.
• Überlegen Sie genau, welche Alternativen Sie im Text erwähnen, da diese einen
großen Einfluss auf die Antworten haben.
• Verwenden Sie bei Wiederholungsmessungen die gleiche Frage.
• Sollten allgemeine und spezifische Fragen zu einem Thema gestellt werden,
stellen Sie die allgemeine Frage zuerst.
• Wenn Sie mehrere parallele Fragen zu einem Thema stellen, die unterschiedlich
populär sind, beginnen Sie mit der am wenigsten populären Frage.
• Verwenden Sie zur Messung von Einstellungen geschlossene Fragen.
• Verwenden Sie 5- bis 7-stufige Skalen, bei denen jeder Skalenpunkt benannt
ist. Diese Empfehlung ist allerdings angesichts der möglichen Interpretations-
V.2 Der Erstentwurf einer Frage 343

unterschiede der Adverbien unter den Befragten mit einer gewissen Vorsicht
zu behandeln.
• Beginnen Sie mit der Antwortalternative, die am wenigsten üblich ist.
• Verwenden Sie Analoginstrumente wie z.B. Thermometer, um detailliertere
Skaleninformationen zu erhalten.
• Lassen Sie Items nur dann in eine Rangordnung bringen, wenn die Befragten
alle Alternativen sehen. Ist dies nicht der Fall, lassen Sie lieber Paarvergleiche
durchführen.
• Lassen Sie jedes Item bewerten und verwenden Sie keine „check-all-that-ap-
ply“-Items

Selbst-administrierte Fragen:

• Verwenden Sie visuelle Elemente in einer konsistenten Weise, um den Weg


durch den Fragebogen zu definieren.
• Wenn die Konventionen für die Navigation durch den Fragebogen geändert
werden, sollten auffällige visuelle Zeichen den Befragten auf die Änderung hin-
weisen.
• Setzen Sie Hinweise dort, wo sie benötigt werden und wo sie gesehen werden.
• Präsentieren Sie Informationen, die zusammen genutzt werden müssen, an der-
selben Stelle.
• Verbinden Sie nicht mehrere Fragen zu einer Frage.

Einige dieser Empfehlungen wie das Sammeln von Daten zur Validierung von In-
formationen erfordern einen besonderen Aufwand und werden nur in finanziell
entsprechend ausgestatteten Umfrageprojekten realisiert werden können. Insbe-
sondere die Verfügbarkeit von Informationen spielt hier eine zentrale Rolle. Auch
die obigen Empfehlungen bedürfen immer wieder der Überprüfung.
Voraussehbare Mängel im Zusammenhang mit traditionellen Frageformen
können auch dadurch gelöst werden, dass zusätzliche Befragungshilfen oder Inter-
aktionsmöglichkeiten mit dem Interviewer geschaffen werden (vgl. Schober 1999).
344 V.2 Der Erstentwurf einer Frage

V.2.2 Empfehlungen zum Layout in CASI-Interviews

Dillman (2000), Dillman, Smyth & Christian (2014) und Couper (2008) leiten auf
der Basis empirischer Befunde eine Reihe von Empfehlungen ab, die bei der Gestal-
tung des Layouts bei Webumfragen beachtet werden sollten und die an dieser Stelle
zusammengefasst werden:
Gesamtaufteilung des Bildschirms:
• Der Bildschirm sollte klar strukturiert sein Er sollte trennscharf aufgeteilt sein
in den Kopfteil (engl.: header), den inhaltlichen Teil (Befragungsteil) und den
Navigationsteil.
Typographie:
• Wähle eine Schriftart und benutze sie konsistent;
• Widerstehe der Versuchung, in der Verwendung von Schriftarten kreativ zu
sein;
• Wähle keinen festen Schriftgrad, sondern überlasse die Kontrolle über den
Schriftgrad den Befragten;
• Ein festgelegter Schriftgrad sollte nicht unter dem Default-Wert des vom Be-
fragten verwendeten Browsers liegen;
• Verwende eine Kombination von Zeilenlänge und Zeilenabstand, um die Les-
barkeit zu erhöhen;
• Verwende unterschiedliche Schriftarten und Schriftmerkmale um zwischen
unterschiedlichen Textarten (Fragen, Antwortalternativen, Instruktionen, etc.)
zu unterscheiden;
• Vermische nicht unterschiedliche typographische Eigenschaften in der Darstel-
lung eines sprachlichen Ausdrucks (z.B. gleichzeitige Verwendung der Eigen-
schaften „fett“, „Großbuchstaben“ und „Unterstreichung“.
Außerdem sollte man vorsichtig bei der Verwendung von Heraushebungen bzw.
Betonungen sein.
Farbgestaltung:
Farben können auf drei Dimensionen unterschieden werden:
• Farbton (engl.: hue);
• Farbsättigung (Grad der Reinheit der Farbe) (engl.: colour saturation)
• Farbhelligkeit (Anteil von „schwarz“ und „weiß“ in der Farbe) (engl.: bright-
ness)
V.2 Der Erstentwurf einer Frage 345

Bedacht werden sollte, dass


• einige Befragte farbblind sind und nicht zwischen unterschiedlichen Farben
unterscheiden können, 8% der Männer und 0.04% der Frauen leiden unter ei-
ner Einbuße der Farbwahrnehmung (vgl. Ridgon, 1999; zit. nach Couper, 2008,
S. 163);
• die Farbwahl Kontrast und Lesbarkeit beeinflussen kann;
• Farben eine Bedeutung haben, welche das Antwortverhalten der Befragten be-
einflussen können.
Die Farbgestaltung muss mit großer Vorsicht gehandhabt werden. So sollten Farben
nicht der Hauptträger der Information sein. Farben sollten eher nicht verwendet
werden und nur als Mittel der Betonung eingesetzt werden. Dunkle Farben sollten
als Hintergrund nicht verwendet werden. Ähnliches gilt für stark gesättigte Farben.
Zu diesen Farben zählen „grün“, „rot“ und „blau“. Gesättigte Farben ermüden und
sollten verwendet werden für Teile der Site, die unmittelbare Aufmerksamkeit er-
fordern. Als Hintergrundfarben empfehlen sich eher Pastelltöne (vgl. Lynch & Hor-
ton, 1997, zit. nach Couper, 2008, p. 167). Der für die Lesbarkeit notwendige Kon-
trast zwischen Hintergrund und Schrift sollte in jedem Fall nicht gefährdet sein.
Farben können ganz unterschiedliche Konnotationen haben. So wird etwa die
Farbe „gelb“ im Westen eher negativ gesehen. Dort signalisiert sie „Feigheit“, in
Japan dagegen „Vornehmheit“. „Rot“ bedeutet in der westlichen Welt „Gefahr“ und
signalisiert „Warnung“. In China wird „rot“ mit Leben und positivem Schicksal ge-
sehen, „grün“ wird dort dagegen mit „Tod“ verbunden. Diese Befunde deuten dar-
auf hin, dass die kulturell bestimmte emotionale Wirkung nicht nur bei nationalen,
sondern insbesondere auch bei interkulturellen Umfragen bedacht werden muss.
Präsentation und Anordnung der Items:
Es gibt empirische Hinweise dafür, dass die gemeinsame Darstellung mehrerer
Items auf einer Seite die Interkorrelationen zwischen den Items erhöht (vgl. z.B.
Couper, Traugott & Lamias, 2001; Tourangeau, Couper & Conrad, 2004; Yan, 2005),
insbesondere dann, wenn die Items in Form einer Matrix angeordnet sind. Eine
Anordnung in Form einer Matrix bedeutet, dass Items und Antwortalternativen
Spalten einer Matrix darstellen. Die Matrix enthält so viele Zeilen wie Items. Die
erste Spalte besteht enthält die Items. Die übrigen Spalten sind durch die Antwor-
talternativen definiert, wobei für jede Antwortalternative eine Spalte vorgesehen
ist. Die Werte der betreffenden Spalte bestehen in Feldern für die Bewertungen,
die von den Befragten für die Items vorgenommen werden sollen. Die Spalten der
Antwortalternativen enthalten nach der Bearbeitung für jedes Item nur einen Wert.
Der Effekt ist allerdings nicht besonders hoch.
346 V.2 Der Erstentwurf einer Frage

Für den Entwurf einer Matrix gibt Couper (op. cit.) die folgenden Empfehlun-
gen:
• Meide horizontales „Scrolling“; sorge dafür, dass alle Spalten (Antwortalterna-
tiven) sichtbar sind;
• Sorge dafür, dass die Spaltenüberschriften sichtbar sind, wenn vertikal gescrollt
wird.
• Erlaube, dass sich die Tabelle der Größe des Browsers anpasst;
• Sorge dafür, dass Spalten für skalare Antwortalternativen von gleicher Breite
sind;
• Verwende Schattierung und Abstand so, dass sie Augen und Maus auf die Ant-
wortalternativen lenken.
• Vermeide visuelles Durcheinander; minimiere das Ausmaß externer Informa-
tion in der Tabelle;
• Teile das Gitter, falls es zu komplex ist, in kleinere Teile auf.
Dillman (2007) hat auf der Basis seiner Konzeption eines maßgeschneiderten Designs
zur Optimierung der Datenqualität eine Reihe von Prinzipien entwickelt, die man spe-
ziell bei der Gestaltung des Layouts in computerunterstützten selbst-administrierten
Befragungen wie E-Mail-Befragungen oder Befragungen im Internet beachten sollte.
Die auf die Fragengestaltung von Webumfragen bezogenen Prinzipien sind:
• Präsentiere jede Frage in einem konventionellen Format ähnlich wie das bei
Papierfragebögen
• Gebrauche Farben so, dass die Figur/Hintergrund-Konsistenz und die Lesbar-
keit erhalten bleiben, der Fluss der Navigation nicht behindert wird und die
Messqualitäten des Fragebogens nicht gefährdet werden
• Vermeide, dass aus unterschiedlichen Bildschirmkonfigurationen, Betriebssys-
temen, Browsern, Beschränkungen des Displays und ungewollten Textumbrü-
chen Unterschiede im visuellen Erscheinungsbild entstehen.
• Verwende spezifische Anweisungen, wie man jede notwendige Aktivität am
Computer durchführt, die für die Beantwortung der Fragen notwendig ist; füh-
re weitere Anweisungen an dem Punkt ein, wo sie benötigt werden
• Verwende „Drop-down-Boxen“ nur sehr sparsam (mögliche Effekte der Befra-
gungsart z.B. bei multiplen Antwortvorgaben)
• Gestalte Sprunganweisungen so, dass diese zur Markierung der Antworten er-
mutigen und zum Anklicken der nächsten anwendbaren Frage führen.
• Konstruiere Web-Fragebögen so, dass sie von Frage zu Frage scrollen, voraus-
gesetzt es sind keine Reihenfolgeeffekte zu vermuten
V.3 Vom Erstentwurf zur finalen Frage: Instrumente des Evaluationsprozesses 347

• Wenn die Zahl der Antwortvorgaben die Zahl übersteigt, die auf einen Bild-
schirm oder einer Spalte darstellbar ist, ziehe eine doppelte Anordnung („dou-
ble banking“) in Betracht
• Verwende graphische Symbole oder Worte, um den Befragten darüber zu in-
formieren, an welcher Stelle der Bearbeitung er sich befindet (Statusanzeige).
Vermeide solche, die den Rechner zusätzlich belasten.
• Übe Zurückhaltung in der Verwendung von Fragestrukturen, die schon be-
kannte Messprobleme bei schriftlichen Fragebögen verursachen wie offene Fra-
gen oder Auswahl mehrerer Items aus einer Liste
Bei der Gestaltung des Layouts sollten stets auch laufend empirische Befunde über
mögliche Wirkungen in den Entwurf einbezogen werden.

V.3 Vom Erstentwurf zur finalen Frage: Instrumente des


Evaluationsprozesses

Entwürfe von Fragen und Fragebögen bedürfen zur Optimierung ihrer Qualität und
zur Abschätzung ihrer Wirkungen auf die Befragten stets der nachfolgenden Evalua-
tion. Die Optimierung der Qualität erfordert zunächst die Identifikation möglicher
Qualitätsbeeinträchtigungen bzw. Schwächen des Erhebungsinstruments. Auf der
Basis dieser Diagnose können dann Verbesserungen des Entwurfs erfolgen, wobei
diese Verbesserungen zwecks weiterer Optimierung wieder in den Diagnoseprozess
zurückgespielt werden können. Die Schwächenanalyse sollte sich auf alle Aspekte ei-
nes Erhebungsinstruments beziehen, um möglichst alle negativen Wirkungen auf die
Befragten im Interview zu reduzieren oder sogar auszuschließen. Zu diesen Aspekten
gehören neben den Fragetexten das Layout der Fragen (bei Selbst-administrierten
Interviews) und die Interviewer-Instruktionen (bei Interviewer-administrierten In-
terviews) auch die Navigation durch den Fragebogen. Einige dieser Aspekte wie z.B.
das Verständnis von Fragetexten können von anderen Aspekten wie etwa dem Layout
und dem Navigationsverhalten getrennt evaluiert werden.
Zur Evaluation von Erhebungsinstrumenten kann ein Repertoire unterschied-
licher Verfahren zur Diagnose von Schwächen bzw. Qualitätsbeeinträchtigungen
herangezogen werden. Dazu gehören:

• Fragebewertungssysteme (engl.: question appraisal systems);


• Expertenrunden, eventuell unter Einbeziehung von Fragebewertungssystemen;
• Gruppendiskussionen;
348 V.3 Vom Erstentwurf zur finalen Frage: Instrumente des Evaluationsprozesses

• Empirische Pretestverfahren einschließlich der statistischen Analyse der Antwort-


verteilungen und der statistischen Überprüfung der Gütekriterien der Messung;
• Verfahren zur Überprüfung der Benutzerfreundlichkeit (engl.: usability) von
Layout und Navigation bei CASI-Umfragen unter Einsatz spezifischer Vorrich-
tungen wie Eye-Tracking zur Analyse von Blickbewegungen sowie spezifischer
Hard- und Softwaretechnologien;
• Simulationsverfahren zur Funktionsprüfung programmierter Fragebögen.

Der Einsatz von Fragebewertungssystemen erlaubt bereits vor dem Einsatz empi-
rischer Evaluationsverfahren eine vorläufige Diagnose der Qualitätsbeeinträch-
tigungen von Fragen und ihren Komponenten. Grundlage solcher Systeme sind
Klassifikationen von Problemen, die bei Fragen/Items auftreten können. Der Ein-
satz dieser Diagnoseinstrumente gestattet eine Konzentration der empirischen
Verfahren auf eine reduzierte Menge noch verbleibender Probleme. Damit wird
insbesondere vermieden, dass mit dem empirischen Pretest Probleme mit Fragen
entdeckt werden, die bereits am „grünen Tisch“ hätten beseitigt werden können.
Mit dem Einsatz von Fragebewertungssystemen werden bereits im Vorfeld Reakti-
onen der Befragten ausgeschlossen, die sich auf offensichtliche Mängel der Fragen
beziehen. Allerdings können Fragebewertungssystem oft nur mögliche Gefährdun-
gen der Qualität aufzeigen. So muss etwa für einen konkreten Befragten eine über
das Bewertungssystem als sensitiv eingestufte Frage nicht unbedingt sensitiv sein.
Hieraus ergibt sich zweifellos die Empfehlung, bei der Verwendung von Fragebe-
wertungssystemen immer die Zielgruppe im Auge zu behalten.
Expertenrunden dienen in der Entwurfsphase dazu, einen Erstentwurf weiter
durch den gemeinsamen Austausch von Argumenten zu verbessern und Qualitäts-
mängel aufzudecken. Im Kern geht es um die Verbesserung der Operationalisie-
rung, indem z.B. geprüft wird, ob es angemessenere Inhalte für den Erstentwurf
gibt, die das Konstrukt besser repräsentieren.
Gruppendiskussionen über Entwürfe von Fragen können dazu beitragen, Unter-
schiede im Frageverständnis zu entdecken.
Empirische Pretest-Verfahren erlauben die Entdeckung von Problemen, welche
Befragte mit Fragen haben und die Untersuchung des Frageverständnisses;
Verfahren zur Evaluation der Benutzerfreundlichkeit bzw. Handhabbarkeit kön-
nen zur Untersuchung der Wirkung des Layouts und der Funktionalität program-
mierter Erhebungsinstrumente eingesetzt werden wobei zahlreiche technische
Hilfsmittel zur Verfügung stehen wie z.B. Eye-Tracking-Verfahren oder Videoauf-
zeichnungen. Insbesondere zur Entdeckung von Navigationsproblemen und Prob-
lemen der Filterführung, also zur Funktionsprüfung programmierten Fragebogen
können auch Simulationen durchgeführt werden, indem der Fragebogen unter al-
V.3 Vom Erstentwurf zur finalen Frage: Instrumente des Evaluationsprozesses 349

len Besetzungen der Werte von Filtervariablen geprüft wird. Insbesondere Fehler in
der Fragebogenprogrammierung lassen sich hiermit identifizieren.
Die Evaluation von Fragebögen und Fragen ist oft kein einfacher linearer Prozess.
Nicht selten muss das evaluierte Instrument nach der Beseitigung von Mängeln noch
einmal in die Evaluation, um die verbesserten Entwürfe noch einmal zu prüfen. Für
die Entwicklung von Fragetexten würde dies bedeuten, dass nach Fertigstellung des
Anfangsentwurfs des Fragetextes, der bereits unter Einbeziehung der in Abschnitt
2.2 erwähnten allgemeinen Empfehlungen erfolgt sein sollte, eine Evaluation des
Entwurfs stattfindet, wobei sich eine gewisse Reihenfolge der Evaluationsschritte
anbietet. Ein sinnvoller Ablauf der Optimierung von Fragetexten ist in Abbildung
V.1 dargestellt. Die Modifikation des Fragetextes auf der Basis der Pretest-Befunde
sollte so lange fortgesetzt werden bis weder die Evaluation mit Hilfe eines Fragebe-
wertungssystems noch empirische Pretest-Verfahren keine Beanstandungen ergeben.

Abbildung V.1: Beispiel für die Optimierung des Textentwurfs einer Frage
350 V.4 Fragebewertungssysteme

Um das tatsächliche Verständnis von Fragen und Begriffen zu prüfen, sind, zumin-
dest bei Fragen, die Begriffe enthalten, deren Verständnis in der Zielpopulation mut-
maßlich unklar oder heterogen ist, spezifische Pretest-Verfahren, sog. kognitive Inter-
views, zur Überprüfung des Frageverständnisses empfehlenswert (siehe unten).
Neben den erwähnten Verfahren lassen sich bei ausreichend großer Pre-
test-Stichprobe und geeignetem Umfragedesign (z.B. Paneldesign, Integration von
latenten Variablen mit multiplen Indikatoren) statistische Analysen der Reliabilität
und Validität entsprechend der Definitionen in Teil IV durchführen. Diese Ana-
lysen können unter entsprechenden Designvoraussetzungen (Test-Retest-Design,
multiple Indikatoren) auch mit den Daten der Haupterhebung durchgeführt wer-
den. Allerdings entfällt in diesem Fall der Einsatz des auf Basis dieser Analysen
modifizierbaren Instruments in der laufenden Studie. Die Ergebnisse können zur
Optimierung zukünftiger Erhebungsinstrumente berücksichtigt werden.

V.4 Fragebewertungssysteme

V.4.1 Einführende Bemerkungen

Fragebewertungssysteme (engl.: question appraisal systems) erlauben eine Identifikation


möglicher Qualitätsbeeinträchtigungen von Fragetexten bereits „on desk“, d.h. vor dem
Einsatz empirischer Evaluationsverfahren. Sie bestehen in einem Katalog von Proble-
men, die in Survey-Items auftreten können. Ihre Anwendung besteht darin, dass alle
Fragen des Fragebogens nacheinander in Bezug auf alle Probleme des Problemkatalogs
überprüft werden. Ein Bewertungssystem prüft nacheinander n Fragen in Bezug auf
das Auftreten von insgesamt k Problemen. Sind alle k Probleme abgearbeitet, wieder-
holt sich der Vorgang für die Folgefrage, etc. (vgl. Abbildung V.2).
Ist jede Frage bewertet, lassen sich Summenwerte für das gesamte Erhebungs-
instrument bezüglich der einzelnen Problemkategorien berechnen, woraus wiede-
rum ein Gesamtwert über alle Probleme abgeleitet werden kann.
Die Bewertungen der Frageentwürfe hinsichtlich der mit ihnen verbundenen
Probleme sollten möglichst von mehreren Beurteilern vorgenommen werden, um
das Ausmaß an Subjektivität zu reduzieren. Unterschiede zwischen den Bewertun-
gen bieten die Möglichkeit, den Frageentwurf noch einmal kritisch zu diskutieren.
Eine wichtige Funktion von Fragebewertungssystemen besteht darin, den Frage-
designer für bestimmte Arten von Problemen mit Fragen zu sensibilisieren und da-
ran zu erinnern, ob er wirklich alle Arten von Problemen auch bedacht hat. Sie stel-
len zugleich eine gute Grundlage für Diskussionen von Entwurfsalternativen dar.
V.4 Fragebewertungssysteme 351

Abbildung V.2: Ablaufstruktur eines Fragebewertungssystems

Beispiele für Fragebewertungssysteme sind das Fragebewertungssystem (QAS) von


Willis und Lessler (vgl. Forsyth, Lessler und Hubbard, 1992; Lessler und Forsyth,
1996; Willis und Lessler, 1999; Rothgeb, Willis & Forsyth, 2007) und das darauf auf-
bauende, verfeinerte System von Faulbaum, Prüfer und Rexroth (2009). Die zuletzt
genannten Autoren erläutern die Probleme an über 100 Beispielen aus bekannten
Bevölkerungsumfragen. Wir stellen im Folgenden die Kategorisierung von Proble-
men mit Fragen im System von Lessler mit Beispielen vor. Für das System FBS von
Faulbaum, Prüfer und Rexroth wird nur ein Überblick gegeben. Linguistisch orien-
tierte Bewertungssysteme sind nur beschränkt geeignet, da sich die Bedeutung von
Texten nicht vollständig auf die grammatikalische Struktur zurückführen lässt (vgl.
hierzu z.B. Fillmore, 1968; Lakoff, 1971).

V.4.2 Das Fragebewertungssystem von Willis und Lessler


(QAS 99)

Das Fragebewertungssystem von Willis und Lessler basiert auf einer Einteilung,
die sich sehr eng an den Stufen des Antwortprozesses orientiert. Es unterscheidet
folgende Problemklassen:
352 V.4 Fragebewertungssysteme

Interviewer-bezogene Probleme (bei Interviewer-administrierten Interviews):


• Interviewer weiß nicht, welchen Teil der Frage er vorlesen soll
• Fehlende Informationen (Interviewer fehlen die Informationen, um die Fra-
ge angemessen zu stellen)
• Frage ist schwer zu lesen (z.B. nicht voll ausgeschrieben)
Befragten-bezogene Probleme:
• Probleme mit Einleitungen, Anweisungen oder Erklärungen aus Sicht der Be-
fragten (z.B. ungenaue oder widersprüchliche Anweisungen, komplizierte
Anweisungen)
• Unklare Bedeutung oder Absicht der Frage
• Probleme, die sich auf die Formulierung beziehen (z.B. Frage zu lang, zu
komplizierte Wortwahl, grammatikalisch nicht korrekt)
• Fachausdrücke
• Ungenauigkeit bzw. Mehrdeutigkeit
• Probleme, die sich auf die Definition der Zeiträume beziehen: Zeiträume
sind ungenau, widersprüchlich oder gar nicht definiert
• Probleme, die mit Annahmen über die Befragten zusammenhängen
• Unangemessene Annahmen über den Befragten
• Irrtümliche Annahmen einer Verhaltenskonstanz oder Konstanz von Er-
fahrungen, obwohl diese Konstanz nicht existiert
• Ambivalenz: Die Frage beinhaltet mehr als nur eine Aussage
• Fehlendes Wissen/Erinnerungsvermögen
• Fehlendes Wissen: Es ist unwahrscheinlich, dass der Befragte über das
zur Beantwortung der Frage notwendige Wissen verfügt
• Erinnerung: Der Befragte ist nicht in der Lage, die Information aus dem
Gedächtnis abzurufen
• Berechnung: Um die Frage zu beantworten, müssen aufwändigere Be-
rechnungen angestellt werden.
• Einstellung: Es ist unwahrscheinlich, dass der Befragte über die zu erhe-
bende Einstellung verfügt
• Sensitivität/Beeinflussung
• Sensitive Inhalte: Die Frage spricht peinliche oder private Themen an.
• Sensitive Wortwahl
• Soziale Akzeptanz: Der Befragte beantwortet die Frage entsprechend der
sozialen Erwünschtheit.
V.4 Fragebewertungssysteme 353

• Antwortkategorien
• Offene Fragen
• Fehlende Übereinstimmung von Fragetext und Antwortkategorien: Die
Antwortkategorien passen nicht zu den Fragen
• Fachausdrücke sind undefiniert, unklar oder zu komplex (z.B. bei Che-
mikalien und Medikamenten)
• Ungenauigkeit: Ungenau formulierte Antwortkategorien lassen mehrere
Interpretationsmöglichkeiten zu.
• Überschneidungen: Es existieren Antwortkategorien, die sich über-
schneiden
• Fehlende Antwortkategorien: Es fehlen zu möglichen Antworten die
Antwortkategorien
• Unlogische Anordnung

Beispiele

Beispiele für Interviewer-bezogene Probleme (bei Interviewer-administrierten Inter-


views):
354 V.4 Fragebewertungssysteme

Beispiele für Befragten-bezogene Probleme:


• Probleme mit Einleitungen, Anweisungen oder Erklärungen aus Sicht der Befrag-
ten (z.B. ungenaue oder widersprüchliche Anweisungen, komplizierte Anwei-
sungen)

Beispiel für eine komplizierte Anweisung:


V.4 Fragebewertungssysteme 355

• Unklare Bedeutung oder Absicht der Frage

• Probleme, die mit Annahmen über die Befragten zusammenhängen


356 V.4 Fragebewertungssysteme

• Fehlendes Wissen/Erinnerungsvermögen
V.4 Fragebewertungssysteme 357

• Sensitivität/Beeinflussung
358 V.4 Fragebewertungssysteme

Antwortkategorien
V.4 Fragebewertungssysteme 359

Beispiel für fehlende Antwortkategorien:


360 V.4 Fragebewertungssysteme

V.4.3 Das Fragebewertungssystem von Faulbaum, Prüfer und


Rexroth (2009)

Faulbaum, Prüfer und Rexroth (2009) haben das System von Willis und Lessler
erweitert und mit deutschen Beispielen versehen. Es hat die in Übersicht V.1 dar-
gestellte Einteilung.

Übersicht V.1: Das Kategoriensystem des FBS von Faulbaum, Prüfer und Rexroth

Bereich A : Probleme mit Worten/Texten


A1 Der Fragetext enthält Worte/Formulierungen mit vager/unklarer Bedeu-
tung:
Unpräzise Worte/Formulierungen
Ungenaue Bezeichnungen von Zeiträumen oder Zeitpunkten.
Ungenaue Häufigkeitsbezeichnungen
Ungenaue Intensitätsbezeichnungen
Ungenaue Mengenbezeichnungen
A2 In der Frage werden mehrere inhaltlich unterschiedliche Sachverhalte an-
gesprochen.
A3 Der inhaltliche Fokus des Einleitungstextes entspricht nicht dem der Frage/
Aussage.
A4 Die Frage ist hypothetisch formuliert.
A5 Der sprachliche Ausdruck kann vereinfacht werden.
A6 Es werden Fremdworte oder Fachausdrücke verwendet, die für Befragte
vielleicht unbekannt sind.
A7 Es werden Abkürzungen/seltene Symbole verwendet, von denen man an-
nehmen muss, dass sie nicht allen Befragten bekannt sind.

Bereich B: Unzutreffende Annahmen über Befragte


B1 Die Frage geht von Annahmen über Merkmale/ Verhaltensweisen von Be-
fragten aus, die unter Umständen nicht zutreffen.

Bereich C: Erinnerungsvermögen
C1 Eine Erinnerungsleistung ist schwer oder gar nicht zu erbringen.

Bereich D: Berechnung/Schätzung
D1 Es wird eine schwierige Berechnung/Schätzung verlangt.
V.4 Fragebewertungssysteme 361

Bereich E: Komplexität der mentalen Leistung


E1 Eine mentale Leistung ist schwer zu erbringen.

Bereich F: Nicht intendierte Nebeneffekte


F1 Es besteht die Gefahr, dass die Frage gar nicht oder nicht ehrlich beantwor-
tet wird.
F2 Es besteht die Gefahr suggestiver Nebeneffekte
F3 Es besteht die Gefahr von Antworteffekten, wenn in einer Alternativfrage
nicht beide Alternativen explizit formuliert sind.

Bereich G: „Weiß-nicht“-Kategorie bei Einstellungsfragen


G1 Probleme mit der expliziten Vorgabe einer „weiß-nicht“-Kategorie bei Ein-
stellungsfragen.

Bereich H: Kontext der Frage/Fragensukzession


H1 Es besteht die Gefahr, dass die Frage auf Grund vorangegangener Fragen
nicht in der intendierten Weise interpretiert wird.
H2 Es besteht die Gefahr, dass die Beantwortung der Frage von der Beantwor-
tung vorangegangener Fragen beeinflusst wird.
Bereich J: Antwortvorgaben/Antwortskalen
J1 Die Antwortvorgaben passen nicht zur Frage.
J2 Antwortvorgaben überschneiden sich.
J3 Der Befragte soll alle Antwortvorgaben nennen/ankreuzen, die auf ihn zu-
treffen („Check-all-that-apply“-Fragen).
J4 Antwortvorgaben fehlen.
J5 Antwortvorgaben sind unlogisch/unsystematisch angeordnet.
J6 Wenn mehrere Antwortvorgaben vorgelesen werden, besteht die Gefahr,
dass ihr Wortlaut von den Befragten nicht behalten wird.
J7 Die Abstände zwischen Skalenpunkten sind nicht gleich/die Skala ist nicht
ausbalanciert.
J8 Eine negativ formulierte Aussage soll mittels einer bipolaren Antwortskala
bewertet werden.
J9 Es besteht die Gefahr der Antwortverzerrung durch Antwortvorgaben/Ant-
wortskalen.
362 V.4 Fragebewertungssysteme

Bereich K: Offene Fragen


K1 Es besteht die Gefahr, dass die Bedeutung der offenen Frage nicht klar wird,
weil der Bezugsrahmen nicht eindeutig vorgegeben ist.
K2 Es besteht die Gefahr von Zuordnungsfehlern, wenn der Interviewer die
Antwort auf eine offene Frage während des Interviews verschlüsseln muss
(Feldverschlüsselung).

Bereich L: Instruktionen bei Interviewer-administrierten Fragen


L1 Der Interviewer hat Probleme zu entscheiden, ob vorhandene Zusatztexte
vorzulesen sind.
L2 Dem Interviewer fehlen Anweisungen zur technischen Vorgehensweise/
Anweisungen stehen an der falschen Stelle.
L3 Der Interviewer muss wichtige Zusatzinformationen, die für das Stellen der
Frage wichtig sind, informell ermitteln.
L4 Inhalte/Informationen, die für die Beantwortung der Frage relevant sind,
stehen nur in der Anweisung und nicht im Fragetext.

Bereich M: Probleme im Zusammenhang mit der Aufgabenbeschreibung in


Selbst-administrierten Fragen
M1 Es fehlen Anweisungen zur technischen Vorgehensweise.
M2 Mehrere Fragen müssen vom Befragten in einem komplizierten Antwort-
schema beantwortet werden.
M3 Wichtige Zusatzinformationen sind nicht im Fragetext integriert, sondern
getrennt aufgeführt.
M4 Der Fragetext ist unvollständig.
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 363

V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

V.5.1 Überblick

Zu den empirischen Evaluationsverfahren zählen alle Verfahren, die Mängel von


Fragen und Fragebögen auf der Basis empirischer Informationen über den Befrag-
ten und sein Verhalten identifizieren. Geschieht dies über eine gesonderte empiri-
sche Erhebung spricht man von Pretest-Verfahren bzw. von Pretests. Die Umfänge
von Stichproben für konventionelle Pretests bewegen sich in der Regel zwischen
20 und 50 (vgl. Presser et al., 2004b), für kognitive Interviews zwischen 10 und
20 Fällen. Es konnte aber gezeigt werden, dass bei kognitiven Interviews selbst ab
Stichprobenumfängen über 50 immer noch unentdeckte Probleme auftauchen (vgl.
Blair et al. 2006). Schon eine geringe Erhöhung der Fälle führt zur Entdeckung
weiterer Probleme (vgl. Blair & Conrad, 2011). Blair und Conrad (2011) gehen in
ihrer Analyse der folgenden Frage nach: Angenommen, man führt n kognitive In-
terviews durch und ein Problem f taucht mit der Prävalenz π auf, wie hoch ist die
Wahrscheinlichkeit Pf , dass es in den n Interviews mindestens einmal beobachtet
wird. Wenn das Problem in der Zeit, in der es auftritt zu df % entdeckt wird, ist die
Wahrscheinlichkeit Pf

Pf = 1 − (1 − d f π f )
n

Für den Stichprobenumfang n ergibt sich:

log (1 − Pf )
n= .
log (1 − d f π f )

Blair und Conrad beobachteten eine Zunahme von Problemen bis zu einem Stich-
probenumfang von n=90 (vgl. Blair & Conrad, 2011, p. 650).
Abbildung V.3 gibt einen Überblick über unterschiedliche Pretest-Verfahren,
die vor allem bei Fragen und Fragebögen für Interviewer-administrierte Interviews
Anwendung finden, von denen sich aber einige einzeln oder in Kombination auch
bei Pretests für Selbst-administrierte Erhebungsinstrumente wiederfinden. Bei
Selbst-administrierten Erhebungsinstrumenten kommen zusätzlich spezifische
Verfahren zum Test der Handhabbarkeit (engl.: usability) dazu.
364 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

Abbildung V.3: Pretest-Verfahren für Interviewer-administrierte Verfahren im Überblick

Von ganz besonderer Bedeutung ist bei empirischen Pretest-Verfahren die Zusam-
mensetzung der Pretest-Stichprobe. Probleme, die Zielpersonen mit Fragen haben
können, lassen sich nur erkennen, wenn die Pretest-Stichprobe Personenmerkma-
le abdeckt, die für das Verstehen von Fragen von Bedeutung sind. Bei allgemei-
nen Bevölkerungsumfragen sollte in jedem Fall darauf geachtet werden, dass die
Breite der soziodemographischen Merkmale „Alter“, „Geschlecht“ und „Bildung“
vertreten ist. Um dies zu garantieren, kann unabhängig davon, ob es sich um ein
kognitives Interview oder einen Feld-Pretest handelt, auf jeden Fall eine Quotie-
rung vorgenommen werden. Tabelle V.1 zeigt das Beispiel eines Quotenplans. Bei
Feldpretests, welche die Befragungssituation in der Haupterhebung widerspiegeln
sollen, kann die Pretest-Stichprobe wie in der Haupterhebung vorgesehen zufällig
gezogen werden. Allerdings besteht bei geringen Stichprobenumfängen die Gefahr,
dass wichtige soziodemographische Subgruppen in der Pretest-Stichprobe nicht
ausreichend oder gar nicht repräsentiert sind.
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 365

Tabelle V.: Beispiel für einen Quotenplan für eine Pretest-Stichprobe

Die in Abbildung V.3 abgebildeten Verfahren werden in den folgenden Abschnitten


genauer beschrieben.

V.5.2 Kognitive Interviews

V.5.2.1 Überblick

Kognitive Interviews (vgl. Miller, 2011, 2014; Prüfer & Rexroth 2005; Willis 2004,
2005, 2015) sind ein Werkzeug zur Evaluation des Frageverständnisses und sollen
einen Einblick in die kognitiven Prozesse vermitteln, die bei der Beantwortung von
Fragen ablaufen. Wie bereits mehrfach erwähnt, sollte ein Forscher grundsätzlich
nicht davon ausgehen, dass sein eigenes Begriffsverständnis mit dem der Befragten
übereinstimmt. Viele Forscher wären vermutlich überrascht, vielleicht sogar entsetzt,
wenn sie zur Kenntnis nehmen müssten, wie weit das Verständnis der Befragten von
ihrem eigenen entfernt ist. Die Gefahr erscheint durchaus nicht abwegig, dass pub-
lizierte Ergebnisse auf Grund einer Fehleinschätzung des Frageverständnisses in der
Vergangenheit fehlinterpretiert worden sind. Es ist sogar damit zu rechnen, dass die
Problematik einer Fehleinschätzung des Frageverständnisses auf Grund der zuneh-
366 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

menden Heterogenität der Bevölkerung im Zusammenhang mit der Zunahme des


Anteils von Personengruppen unterschiedlichen Migrationshintergrunds eher weiter
zunehmen wird. Nicht nur die kulturelle Heterogenität innerhalb einer Nation, son-
dern auch die zwischen Nationen bedürfen einer interkulturellen Erweiterung der
kognitiven Techniken (vgl. z.B. Willis & Miller, 2011). Hier ist die Einbeziehung von
Experten zu empfehlen, die sich in der jeweiligen Kultur gut auskennen. Meitinger
(2017) zeigt, wie die Ergebnisse kognitiver Prettests bei Modellvergleichen zwischen
Nationen die Interpretation verbessern können.
Die folgende Darstellung der Verfahren ist eng angelehnt an die sehr realitäts-
nahen Ausführungen von Prüfer und Rexroth (2005). Konkret sollen mit den Tech-
niken eines kognitiven Interviews die folgenden Fragen beantwortet werden:

• Wie kommen die Antworten zustande?


• Was denken Befragte bei der Beantwortung einer Frage?
• Wie verstehen Befragte Fragen oder Begriffe?
• Verstehen Befragte Fragen so, wie vom Forscher intendiert?

Um diese Fragen zu beantworten, können folgende Techniken eingesetzt werden:

• Nachfragetechniken (engl.: Probing)


• Paraphrasieren (engl.: Paraphrasing)
• Bewertung der Verlässlichkeit der Antwort (engl.: Confidence Rating)
• Sortiertechniken (engl.: Card Sorting)
• Technik des lauten Denkens (engl.: Thinking Aloud)

Alternative Einteilungsprinzipien rechnen das Paraphrasieren zu den Nachfrage-


techniken (vgl. Willis & Miller, 2011, p. 334).
Im Vergleich zu den Pretest-Verfahren im Feld, bei denen sich der Testintervie-
wer passiv verhält, handelt es sich bei den kognitiven Techniken um aktive Tech-
niken. Bei der Anwendung dieser Techniken kann man offen oder standardisiert
vorgehen. Im Fall eines offenen Vorgehens sind die Techniken und Nachfragen vor
dem kognitiven Interview nicht festgelegt. Bei der standardisierten Vorgehensweise
werden die Techniken bzw. Nachfragen vor dem Interview festgelegt und sind dem
Testleiter fest vorgegeben. Antworten des Befragten sollten vom Testleiter auch
dann hinterfragt werden, wenn sie formal korrekt sind und das Verhalten des Pro-
banden auf keine Probleme schließen lässt.
Kognitive Interviews werden in der Regel persönlich-mündlich durchgeführt.
Denkbar sind aber auch Selbst-administrierte kognitive Interviews, z.B. über das
Web. Behr et al. (2012) und Meitinger (2017) zeigen dies für Probing-Techniken.
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 367

Auch lassen sich in Online-Interviews problemlos Kommentarzeilen einfügen, in


welche die Befragten Kommentare zu den Fragen/Items eingeben können. Für die
praktische Durchführung von kognitiven Interviews im Modus Face-to-Face lassen
sich die folgenden Empfehlungen geben:

Anzahl der kognitiven Interviews:


zwischen 7 und 30 Interviews;
Interviewdauer:
maximal 90 Minuten;
Testpersonenrekrutierung:
Rekrutierung gezielt nach den für die Studie relevanten Merkmalen;
Information der Befragten:
Aufklärung über die Testsituation und Aufzeichnung;
Durchführungsort:
Kognitives Labor, normaler Büroraum. Wenn es die Räumlichkeiten erlauben,
können kognitive Interviews auch in der Wohnung der Probanden durchgeführt
werden.

V.5.2.2 Nachfragetechniken (Probing)

Mit Nachfragetechniken werden mittels einer oder mehrerer Nachfragen Fragetex-


te, Begriffe oder Antworten hinterfragt, immer mit dem Ziel, über das Verständnis
der Frage mehr Information zu erhalten. Dabei können folgende Arten der Nach-
frage unterschieden werden:

• Nachfragen zum Verständnis (engl.: comprehension probing)


• Nachfragen zur Wahl der Antwortkategorie (engl.: category selection pro-
bing)
• Nachfragen zur Erinnerungsfähigkeit und zu vorhandenem Wissen (engl.:
information retrieval probing bzw. recall probing)

Werden Nachfragen auf Begriffe in der Antwort des Befragten bezogen, so spricht
man auch von bedingten Nachfragen (engl.: conditional probing). Beziehen sich
Nachfragen auf keinen spezifischen Aspekt der Frage, so spricht man von einer
unspezifischen Nachfrage. Die Auswahl der Fragen, bei denen Nachfragen gestellt
werden, kann auch unsystematisch per Zufall erfolgen (engl.: random probe).
368 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

A. Beispiel für eine Nachfrage zum Verständnis

B. Beispiel für eine Nachfrage zur Wahl eines Skalenwerts


V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 369

C. Beispiel für eine Nachfrage nach vorhandenem Wissen

D. Beispiel für eine Nachfrage nach der Erinnerungsfähigkeit

E. Beispiele für unspezifische Nachfragen


Gibt es etwas, was Sie bei der Frage nicht verstanden haben?
Gibt es noch andere Probleme, die wir bis jetzt bei der Frage noch nicht angespro-
chen haben?
Unspezifische Nachfragen sind nur effektiv, wenn sie im Anschluss an spezfische
Nachfragen gestellt werden.
370 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

Grundsätzlich gilt:
Je präziser ein Proband auf den zu klärenden Inhalt angesprochen wird, desto grö-
ßer ist die Chance, Verständnisprobleme aufzudecken!

V.5.2.3 Paraphrasieren

Bei der Paraphrasierungstechnik sollen Probanden nach der Beantwortung der


Frage den Fragetext in eigenen Worten wiederholen (Beispiel: Würden Sie bitte
die Frage, die Sie eben beantwortet haben, in Ihren eigenen Worten wiederholen?)
Bei der Paraphrasierung sollten folgende Gesichtspunkte beachtet werden:

• Die Technik eignet sich nicht für kurze Faktfragen. (Beispiel: „Wie lange
wohnen Sie schon in dieser Stadt?)
• Die Testperson soll nicht versuchen, den Text wörtlich zu erinnern.
• Die Technik liefert erste Hinweise für den Forscher, ob die Frage überhaupt
verstanden wurde.
• Die Technik deckt nicht zuverlässig spezielle Aspekte hinsichtlich des Ver-
ständnisses einer Frage auf.

Beispiel für die Paraphrasierungstechnik:


V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 371

Das folgende Beispiel zeigt, wie sich Paraphrasierungtechnik und Nachfragetech-


nik ergänzen lassen:

Grundätzlich gilt, dass die Technik nicht unbedingt verlässliche Informationen


liefert (vgl. Prüfer & Rexroth, 2005). Trotz korrekter Durchführung können Ver-
ständnisprobleme oder Unsicherheiten weiterhin unentdeckt bleiben. Dringend
zu empfehlen ist, beim Paraprasieren immer mit zusätzlichen Nachfassfragen zu
arbeiten.

V.5.2.4 Bewertung der Verlässlichkeit der Antwort (engl.: Confi-


dence Rating)

Im Fall des Confidence Ratings werden die Probanden gebeten, nach der Beantwor-
tung der Frage den Grad der Verlässlichkeit ihrer Antwort zu bewerten. Eingesetzt
werden können verschiedene Varianten. Die folgenden beiden Varianten wurden
in der Praxis öfter eingesetzt:
Variante 1:
Was würden Sie sagen, wie genau ist Ihre Angabe? Wählen Sie bitte den Wert auf
dieser Skala.
Skala: 1: sehr genau bis 7: grob geschätzt
372 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

Variante 2:
Wie sicher waren Sie sich beim Beantworten der Frage?
Beurteilung auf einer Skala von 1: sehr sicher bis 5: sehr unsicher oder auf einer
Skala von 1: sehr sicher bis 5: überhaupt nicht sicher.
Beispiel:

V.5.2.5 Sortier- bzw. Vignettentechnik

Die Sortier- bzw. Vignettentechnik dient zur Exploration der Art und Weise, wie
Befragte Begriffe definieren. Dazu müssen im Vorfeld von den Experten zunächst
Situationen/Aussagen konstruiert/formuliert werden. Im Face-to-Face-Modus wird
jede eine Situation beschreibende Aussage auf eine Karte geschrieben. Die Proban-
den werden gebeten, die Karten so wie diese ihrer Meinung nach hinsichtlich des
zu untersuchenden Begriffs oder Sachverhalts zusammengehören, zu sortieren. In
Bezug auf die Anwendung dieser Techniken lassen sich aber auch Online-Reali-
sierungen vorstellen, indem die Aussagen auf dem Bildschirm dargeboten werden
und jene Aussagen angekreuzt werden, die nach Meinung der Probanden eine Ins-
tanz des Begriffs darstellen.
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 373

Beispiel (Definition des Begriffs „Verkehrsunfall“):

Auf diesen Kärtchen sind verschiedene Situationen beschrieben, die sich auf ei-
ner Straße abspielen. Bitte sortieren Sie die Karten danach, ob Sie die beschrie-
bene Situation als „Verkehrsunfall“ bezeichnen würden oder nicht.

Zwei Autos stoßen auf einer Kreuzung zusammen.


Ein Radfahrer gerät ohne Fremdverschulden mit seinem Fahrrad in eine Stra-
ßenbahnschiene und stürzt.
Ein Bus-Fahrgast stürzt beim Aussteigen und bricht sich ein Bein.
Ein Fußgänger rutscht auf dem Gehweg auf einer Bananenschale aus und ver-
letzt sich.

V.5.2.6 Technik des lauten Denkens

Absicht der Technik des lauten Denkens ist, den Antwortprozess sichtbar machen,
mit dem Ziel, Verständnisprobleme zu erkennen und auf der Grundlage dieser Er-
kenntnis die Frage zu verbessern.
Vorgehensweise:

• Der Testleiter liest die zu überprüfende Frage vor.


• Er bittet die Testperson alle Überlegungen, die zur Beantwortung der Frage
führen, zu formulieren.
• Die Äußerungen werden aufgezeichnet.
• Das laute Denken muss geübt werden.

Merkmale dieser Technik sind:

• Hoher Schwierigkeitsgrad für die Testperson. (für Testpersonen am ehesten


leistbar für Erinnerungsprozesse)
• Technik liefert brauchbare Informationen nicht verlässlich. (produziert irrele-
vantes Material), daher Auswertung zeitintensiv.
Methode kann Artefakte produzieren (künstliche Reaktionen, unrealistische
Äußerungen).
374 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

Im Folgenden sind zwei Beispiele für das Nichtfunktionieren und die Erzeugung
irrelevanter Informationen aufgeführt.
Beispiel (Nichtfunktionieren der Technik):

Beispiel für die Erzeugung irrelevanter Informationen:


V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 375

V.5.3 Feld-Pretest

V.5.3.1 Funktionsweise

Unter einem Feld-Pretest (auch: Standard-Pretest, konventioneller Pretest, klassi-


scher Pretest, Beobachtungs-Pretest) versteht man eine vom Stichprobenumfang her
stark verkleinerte Testerhebung eines Fragebogens am Ende der Fragebogenent-
wicklung unter möglichst realistischen Bedingungen der Haupterhebung. Streng
genommen stellt er eine Simulation der Hauptstudie dar, was bedeutet, dass er in
derselben Befragungsart durchgeführt werden sollte, die auch in der Haupterhe-
bung zum Einsatz kommt. Der klassische Feld-Pretest wird in erster Linie bei In-
terviewer-administrierten Interviews eingesetzt. Dabei beobachtet der Interviewer,
welche Probleme und Auffälligkeiten auf Seiten des Befragten auftreten, ohne diese
aktiv zu hinterfragen (passive Vorgehensweise). Die beobachteten Probleme wer-
den vom Interviewer während des Interviews notiert und nach dem Interview in
Erfahrungsberichten/Pretest-Reports fragenspezifisch dokumentiert. Die passive
Vorgehensweise des Verfahrens liefert erfahrungsgemäß eher oberflächliche und
begrenzte Informationen zum Frageverständnis. Das Ziel des Feld-Pretests besteht
darin, neben der Überprüfung der durch passive Beobachtung feststellbaren Prob-
leme des Frageverständnisses den gesamten Ablauf des Interviews und den gesam-
ten Fragebogen – auch in technischer Hinsicht- zu testen.
Ein Feld-Pretest ist in der Regel relativ schnell und problemlos durchführbar.
Der organisatorische Aufwand ist eher gering und die Kosten sind insbesondere
bei kleinen Stichproben moderat. Er liefert in der Regel verlässliche Informationen
über technische Mängel Fragebogens und über die Handhabbarkeit durch die In-
terviewer. Außer der Gewinnung von Informationen über spontane nicht-adäquate
Antworten und Kommentare der Befragten erlaubt der Feld-Pretest die Analyse
von Antwortverteilungen, annähernd realistische Schätzungen der durchschnitt-
lichen Interviewdauer sowie für jede Frage die durchschnittliche Dauer eines Fra-
ge-Antwort-Dialogs. Da ein Feld-Pretest einen Datensatz liefert, lassen sich bei
Analyse des Datensatzes auch Filterfehler entdecken, die auf die Programmierung
(bei programmierten Erhebungsinstrumenten) oder auf Fehler des Fragebogende-
signs zurückgehen. Wird die Stichprobe nach demselben Verfahren gezogen wie
die Stichprobe für die Haupterhebung, z.B. mit dem RDD-Verfahren, so lassen sich
neben Informationen zum Fragebogen auch weitere Informationen zum Teilnah-
me-Verhalten in der Haupterhebung gewinnen.
Erweitert man die Anwendung des Feld-Pretests auf Selbst-administrierte In-
terviews, so könnte man auch Probeläufe von postalischen Umfragen oder Web-
umfragen mit kombiniertem Selbstausfüllen eines Fragebogens in die Klasse der
376 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

Feld-Pretests einordnen. Wir haben diesen Pretest-Formen aber einen getrennten


Abschnitt über Pretests Selbst-administrierter Fragebögen gewidmet (siehe unten).
Feld-Pretests können mit verschiedenen Dokumentationsformen verbunden
sein, die in den folgenden Abschnitten erläutert werden.

V.5.3.2 Befragten- und/oder Interviewer-Debriefing

Beim Debriefing werden die Befragten und/oder die Interviewer im Anschluss an


das Interview noch einmal retrospektiv zu einzelnen Fragen und zum gesamten
Verlauf des Interviews befragt. Dies können bei Probanden auch ausführlichere
Interviews zum Frageverständnis sein (sog. Intensivinterviews). Interviewer-De-
briefings dienen der Erhebung von Informationen über:

• Dauer der Befragung (falls nicht durch die Befragungssoftware automatisch


erhoben);
• Das Auftreten von Unterbrechungen und den die Frage/Item, bei der die Un-
terbrechung auftritt;
• Interessantheit des Interviews für die Befragten;
• Interessantheit des Interviews für die Interviewer;
• Schwierigkeit des Interviews für die Befragten;
• Schwierigkeit des Interviews für Interviewer;
• Anwesenheit Dritter (bei Face-to-Face-Interviews);
• Motivation/Aufmerksamkeit des Befragten;
• Einschätzung des Themas der Befragung generell (Interessantheit; Wichtigkeit);
• Probleme einzelner Fragen.

Der Bericht des Interviewers/der Interviewerin erfolgt entweder schriftlich in Form


eines sog. Erfahrungsberichts bzw. Pretest-Reports (zumeist über jedes durchgeführ-
te Interview) oder mündlich in Einzel-Sitzungen oder auf gemeinsamen Sitzungen,
auf denen alle beteiligten Interviewer/innen über ihre Interview-Erfahrungen be-
richten.
Die Erstellung eines Interviewer-Erfahrungsberichts bedarf der Strukturierung
durch eine Interviewer-Anleitung.
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 377

Beispiel für eine Anleitung

Zu den einzelnen Fragen:


Bei allen Fragen oder Items, bei denen der/die Befragte inadäquat reagiert hat,
beschreiben Sie nach dem Interview so genau wie möglich (am besten wörtlich)
wie der Befragte reagiert hat. Benutzen Sie dafür die Abkürzung „B“.
Beispiel:
B: „Können Sie die Frage bitte noch einmal wiederholen?“
Für die Beschreibung von Problemen, die Sie selbst (als Interviewer) hatten, be-
nutzen Sie dafür die Abkürzung „IP“ (für Interviewer-Problem).
Beispiel:
IP: Im Fragebogen fehlen die Kennbuchstaben.
Für Kommentare, Meinungen, Vorschläge o.ä., die Sie uns mitteilen möchten,
benutzen Sie bitte die Abkürzung „IM“ (für Interviewer-Meinung).
Beispiel:
IM: Ich glaube, auf die Erklärung der Skala kann man verzichten.

Diese Informationen lassen sich auch formal in ein vorbereitetes Schema/Formular


eintragen (vgl. Abbildung V.4), das auch elektronisch erfolgen kann.

Abbildung V.4 Beispielformular Interviewer-Debriefing


378 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

V.5.3.3 Behavior Coding

Bei diesem Verfahren wird das Verhalten von Befragten und Interviewern bei jeder
Frage mit Hilfe eines Codesystems bewertet und analysiert. Dadurch lassen sich
Rückschlüsse auf die Qualität von Fragen ziehen. Das Codesystem kann mehr oder
weniger umfangreich sein und somit mehr oder weniger differenziert Verhalten
erfassen. Bei Anwendung dieses Verfahrens muss das Interview aufgezeichnet wer-
den. Es kann sowohl zur Bewertung des Interviewer-Verhaltens als auch zu Bewer-
tung von Fragen eingesetzt werden (vgl. Cannell, Fowler & Marquis 1968; Ongena
& Dijkstra 2006; Prüfer & Rexroth 1985).
Die aufgezeichneten Interviews werden abgehört und dabei sowohl das Inter-
viewer-Verhalten als auch das Befragten-Verhalten bei jeder Frage mittels eines
Codesystems klassifiziert.
Kurzbeispiel für ein Behavior Coding:

Ausschnitt eines Behaviour Coding Systems zur Bewertung des Interviewer-Ver-


haltens:

Bewertungskategorien:

Interviewer/in liest Frage exakt


Interviewer/in nimmt leichte Änderungen vor
Interviewer/in nimmt starke Änderungen vor

Auch für das Testen bei computerunterstützten Telefonumfragen gibt es Verfahren


im Feld, welche die Eigenschaften eines Behavior Coding mit denen kognitiver Pre-
tests verbinden. Ein Beispiel ist das sog. CAPTIQ-Verfahren (vgl. Faulbaum 2004a,
2004b). Dabei werden Probleme mit Fragen einschließlich des Frageverständnisses
über Funktionstasten gesteuert. Die Methode liefert auch Informationen über die
Anteile nicht-adäquater Antworten im Interviewverlauf in einer graphischen Dar-
stellung („Interview Process Graph“ bzw. IPG). Sie ist ferner zur Erzeugung großer
Pretest-Stichproben bei Telefonumfragen geeignet (siehe Abbildung V.5).
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 379

Abbildung V.5: Darstellung nicht-adäquater Antworten im Interviewverlauf

V.5.3.4 Analyse von Antwortverteilungen und Split Ballot

Aus der Analyse der Antwortverteilungen lassen sich je nach Umfang der Pre-
test-Stichprobe unterschiedlich zuverlässige Schlussfolgerungen für die Fragen-
und Skalenqualität ziehen. Zu den aufschlussreichen Merkmalen der Antwortver-
teilungen gehören Informationen zu den statistischen Kennwerten einschließlich
der Verteilungsschiefe. Sind die Verteilungen an den Enden abgeschnitten oder
„gestutzt“ (engl.: truncated), ergeben sich Erkenntnisse über mögliche Decken-
bzw. Ceiling-Effekte, die auf zu geringe Skalenbreiten schließen lassen. Hohe Häu-
figkeitswerte bei sog. „Ausweichkategorien“, wie z.B. „weiß nicht“ (Befragte/r kann
sich nicht entscheiden oder hat keine Informationen) oder „verweigert“ (Befragte/r
möchte die Frage nicht beantworten) lassen sich auf diese Weise erkennen.
Split Ballot:
Beim Split-Ballot werden zwei oder mehr Varianten einer Frageformulierung je-
weils einer Teilstichprobe der Gesamtstichprobe einer Umfrage vorgelegt. Unter-
schiede in den Antwortverteilungen werden dann auf die unterschiedlichen Frage-
varianten zurückgeführt.
380 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

Beispiel für den Vergleich zwischen zwei Versionen einer Frage (aus:
Fowler, 2004)
Frage-Version 1
Bei den nächsten Fragen geht es um alkoholische Getränke. Dazu gehören Schnaps/
hochprozentige Getränke wie Whisky oder Gin, Bier, Wein und alle anderen Arten
von alkoholischen Getränken.
Haben Sie früher schon einmal innerhalb eines Jahres mindestens 12mal irgend-
welche alkoholischen Getränke zu sich genommen?
Frage-Version 2
Bei den nächsten Fragen geht es um alkoholische Getränke. Dazu gehören Schnaps/
hochprozentige Getränke wie Whisky oder Gin, Bier, Wein und alle anderen Arten
von alkoholischen Getränken.
Haben Sie früher schon einmal innerhalb eines Jahres im Durchschnitt mehr als
ein alkoholisches Getränk pro Monat zu sich genommen?
Tabelle V.2 zeigt die Darstellung der Antwortverteilungen in einer Vierfelder-Tafel.
Die Assoziationen zwischen den Versionen und den Antworten lassen sich je nach
Messniveau der Antworten statistisch überprüfen, bei nominalem Messniveau z.B.
mit der χ2-Statistik überprüfen. Auch komplexere Modellvergleiche mit anspruchs-
volleren multivariaten Verfahren wie multiplen Gruppenvergleichen von Struktur-
gleichungsmodellen sind möglich.

Tabelle V.2: Vergleichende tabellarische Darstellung von Antwortverteilungen

Version 1 Version 2

Ja 71 % 53 %
Nein 29 % 47 %
100 % 100 %
Gesamt
(n=77) (n=79)

Im folgenden Beispiel wird die Wirkung einer Definition geprüft (vgl. Fowler,
2004):
Frage-Version 1
An wie vielen Tagen während der letzten 30 Tage haben Sie in Ihrem Haus oder
außerhalb Ihres Hauses anstrengende Tätigkeiten ausgeführt?
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 381

Zusatz: Mit anstrengenden Tätigkeiten meinen wir Erde im Garten umgraben, Holz
hacken oder sägen, die Garage aufräumen, Böden schrubben oder Möbel verschieben.
Frage-Version 2
An wie vielen Tagen während der letzten 30 Tage haben Sie in Ihrem Haus oder au-
ßerhalb Ihres Hauses anstrengende Tätigkeiten ausgeführt?
Tabelle V.3 enthält wieder eine deskriptive Darstellung der Ergebnisse. Wie zu er-
sehen ist, unterscheiden sich beide Versionen in Bezug auf die berichtete Anzahl
der Tage.

Tabelle V.3: Vergleich einer Version mit und ohne Zusatzdefinition

Ein bekanntes Beispiel für die Anwendung des Split-Ballot-Verfahrens wurde im


Rahmen der Änderung der sog. Gastarbeiterfrage in der Allgemeinen Bevölke-
rungsumfrage der Sozialwissenschaften (ALLBUS) realisiert. Dabei ging es um die
Ersetzung der nicht mehr zeitgemäßen Formulierung „Gastarbeiter“ durch „in
Deutschland lebende Ausländer“ (vgl. Blank & Wasmer 1996; Porst & Jers 2007).
Messung von Antwortreaktionszeiten (Latenzzeiten)
Auch aus der Messung der Latenzzeiten können Rückschlüsse auf für den Befrag-
ten problematische Fragen gezogen werden (vgl. Bassili 1996; Mayerl & Urban,
2008). Latenzzeiten sind jene Zeiten, die zwischen dem Zeitpunkt der Beendigung
der Präsentation des Fragetextes und dem Beginn der Antwort verstreichen. Diese
sind natürlich abhängig von Eigenschaften des Befragten wie Alter, Bildung, etc.
382 V.6 Evaluation von Fragebögen für Selbst-administrierte Interviews

Die Messung von Latenzzeiten ist in der Software für computerunterstützte Befra-
gungen in der Regel implementiert.

V.6 Evaluation von Fragebögen für Selbst-administrierte


Interviews

V.6.1 Papierfragebögen

Für den Test eines schriftlichen Fragebogens empfiehlt sich die Durchführung der
folgenden Schritte:

• Ausfüllen des Fragebogens durch die Testperson mit Markierung der Probleme
durch die Testperson;
• Festhalten der Ausfülldauer;
• Erklärung der Testsituation (Laborsituation);
• Testinterview nach dem Ausfüllen des Fragebogens.

Bei jeder Frage sollte überprüft werden, ob die Antworten korrekt eingetragen sind.
Außerdem sollten die Befragten das von ihnen markierte Problem beschreiben. Bei
ausgewählten Fragen kann dann noch ein spezielles Probing erfolgen. Konkret er-
gibt sich der Ablauf wie folgt:

A. Instruktion der Befragten

Füllen Sie bitte diesen Fragebogen aus.


Stellen Sie sich dabei vor, Sie sind allein zu Hause. Sie haben also keine Möglich-
keit, an mich Fragen zu stellen.
Füllen Sie den Fragebogen bis zum Ende aus und machen Sie überall dort, wo
Sie ein Problem haben oder Ihnen etwas unklar ist, ein Kreuz oder ein anderes
Zeichen in den Fragebogen, damit Sie sich wieder daran erinnern, wenn wir den
Fragebogen anschließend gemeinsam besprechen.
Uns interessieren dabei auch Kleinigkeiten, z.B. wenn Sie an einer Stelle nicht
ganz sicher sind, was Sie antworten oder machen sollen.
V.6 Evaluation von Fragebögen für Selbst-administrierte Interviews 383

Was ganz wichtig ist: Nicht Sie werden getestet, sondern der Fragebogen, d.h.
wenn Sie ein Problem haben, dann liegt das nicht an Ihnen, sondern am Fra-
gebogen.

B. Ausfüllen des Fragebogens

Anschließend füllt die Testperson den schriftlichen Fragebogen komplett aus.


Der Testleiter trägt die Uhrzeit am Beginn und am Ende des Ausfüllens in das
Testprotokoll ein. Sollte die Testperson entgegen der Instruktion während des
Ausfüllens dennoch Rückfragen stellen, nochmals darauf hinweisen, dass Prob-
leme erst nach dem Ausfüllen besprochen werden. Die Testperson wird gebeten,
die problematische Frage im Fragebogen zu markieren.

C. Test-Interview nach dem Ausfüllen des Fragebogens

Bei jeder Frage prüft der Testleiter, ob korrekt ausgefüllt wurde. Falls nicht, fragt
der Testleiter nach dem Grund für das falsche Ausfüllen und notiert, was genau
falsch gemacht wurde und warum. Außerdem notiert er dies bei der entspre-
chenden Frage im Testprotokoll.
Bei allen Fragen, die von der Testperson als Problem markiert wurden, sollte
das Problem von ihr beschrieben werden. Dabei sollte der Testleiter so lange
nachfragen, bis ihm sowohl das Problem selbst, als auch dessen Ursache klar ist.
Diese sollte ebenfalls im Testprotokoll notiert werden. Bei einigen Fragen sind
im Testprotokoll ausformulierte Nachfragen vorgesehen, die in jedem Fall zu
stellen sind und wörtlich vorgelesen werden müssen., falls das in der Nachfrage
angesprochene potentielle Problem bereits von der Testperson genannt und mit
dem Testleiter besprochen wurde.
384 V.6 Evaluation von Fragebögen für Selbst-administrierte Interviews

V.6.2 Programmierte Fragebögen

Die Überprüfung programmierter Fragebögen erfordert über die in Abbildung V.3


genannten Pretest-Verfahren hinaus weitere Schritte (vgl. Tarnai & Moore 2004),
wobei auch Verfahren der „Usability“-Forschung zum Einsatz kommen können
(vgl. Couper 2000; Hansen & Couper 2004). Mit den hier vorgeschlagenen Evalua-
tionsverfahren sollen vor allem zwei Ziele erreicht werden:
• Test und Evaluation der Funktionalität des Erhebungsinstruments;
• Test und Evaluation, wie gut das programmierte Instrument mit den Spezifika-
tionen des Fragebogens übereinstimmt.
Das Ziel der Evaluation der Funktionalität ist sicherzustellen, dass die CAI-Soft-
ware in der Lage ist, den Fragebogen von Anfang bis Ende so zu implementieren,
dass das System nicht abnorm abbricht oder ein anderer Fehler in der Performanz
auftritt. Ein Test der Übereinstimmung zwischen programmiertem Instrument
und Spezifikation des Fragebogens erfordert vorab, dass eine Liste von Merkma-
len erstellt wird, die bei der Prüfung berücksichtigt werden soll. Tarnai & Moore
(2004) schlagen die Einbeziehung folgender Merkmale vor: Bildschirmdarstellung
(schlechtes visuelles Design, inkonsistente Formatierung), vorweg gespeicherte
Stichprobendaten (unkorrekte Datenformate, unkorrekte Ordnung der Daten),
Frageformulierung, Gültigkeitsbereiche von Antworten und Antwortformate,
fehlende Werte, Muster der auszulassenden Fragen auf der Basis von Filtern, Be-
rechnungen (Division durch Null, nicht korrekte Formel), Randomisierung, Funk-
tionstasten, Verzweigungen, Screening-Fragen, Abschlussfragen, Systemaspekte
(abnorme Beendigung des Interviews, beschädigte Ausgabedateien)
Als Testmethoden programmierter Fragebögen kommen in Frage (vgl. die Zu-
sammenfassung von Tarnai & Moore op.cit.):

• Frage-für-Frage-Prüfung (engl: Question-by-Question bzw. Q-by-Q-Testing):


Bei dieser Methode wird jede Frage auf dem Bildschirm eingehend geprüft, be-
vor zur nächsten Frage übergegangen wird. Die Prüfung bezieht sich auf alle
wichtigen Aspekte (visuelle Darstellung, Formulierung, Anordnung der Ant-
wortkategorien, etc).
• Testen mit Aufgabenverteilung auf die Prüfer (engl.: testing by task):
Bei dieser Methode werden verschiedene Prüfaufgaben auf unterschiedliche
Prüfer verteilt: Ein Prüfer konzentriert sich auf die Frageformulierung und die
Antwortkategorien, ein zweiter auf die Filterung, ein dritter auf die Gültigkeits-
bereiche der Antworten, etc.
V.6 Evaluation von Fragebögen für Selbst-administrierte Interviews 385

• Szenario-Prüfung (engl.: scenario-testing):


Bei komplexen Fragebögen empfiehlt es sich, verschiedene Antwortmuster
(Antwortszenarios) einzugeben und das Ergebnis zu beobachten. Mit dieser
Methode können z.B. die Wege verfolgt werden, die potentielle Befragte mit
bestimmten Antwortmustern durch den Fragebogen nehmen. Die Prüfer über-
nehmen in diesem Fall die Rolle der Befragten. Im Fall computerunterstützter
Telefonumfragen kann dies an Hand der Field-Disk erfolgen. Mit dieser Me-
thode kann die gesamte Logik des Erhebungsinstruments überprüft werden.
• Datenprüfung:
Wichtig ist, dass an Hand einer Stichprobe überprüft wird, ob die resultierende
Datei den Erwartungen entspricht. Die Stichprobe kann eine Pretest-Stichpro-
be von Befragten sein oder der Interviewer-Stab.
• Pretests:
Hier kommen die in Abschnitt 5.2 beschriebenen Methoden zu Einsatz.
• Simulation von Umfragedaten:
In diesem Fall werden große Mengen zufällig erzeugter Antworten in das Er-
hebungsinstrument eingefügt. Anschließend wird die Ausgabedatei analysiert.
Diese Möglichkeit ist inzwischen in zahlreichen Softwaresystemen integriert.

Die geschilderten Methoden lassen allerdings noch keine Aussagen über die Be-
nutzerfreundlichkeit (engl.: usability) eines programmierten Fragebogens zu. Die
Evaluation der Benutzerfreundlichkeit stellt den Nutzer (Interviewer oder Befrag-
ter) in den Vordergrund und erfordert ein Labor mit einer angemessenen Ausstat-
tung (vgl. Hansen & Couper 2004). Im Mittelpunkt der Evaluation der Benutzer-
freundlichkeit stehen in erster Linie das Layout und das Design des Fragebogens,
wobei die Gestaltung des Bildschirms von besonderer Bedeutung ist. Diese sollte
konsistent sein, eine visuelle Diskriminierung der verschiedenen Elemente auf dem
Bildschirm erlauben und das normale Leseverhalten berücksichtigen (Start in der
oberen linken Ecke des Bildschirms). Die Instruktionen sollten so angeordnet wer-
den, dass sie sich auf die entsprechenden Aufgaben beziehen und keine unnötigen,
von der Aufgabe ablenkenden Informationen enthalten.
Nach Hansen & Couper (op.cit.) lassen sich die Methoden zur Evaluation der
Benutzerfreundlichkeit wie folgt klassifizieren:
• Inspektionsmethoden (engl.: usability inspection methods):
Bei dieser Methode inspizieren Experten anhand von Evaluationskriterien, die
aus Erkenntnissen über Mensch-Maschine-Interaktion wie etwa Minimierung
der Gedächtnislast abgeleitet sind, das programmierte Erhebungsinstrument.
386 V.6 Evaluation von Fragebögen für Selbst-administrierte Interviews

• Evaluation durch den Endnutzer (engl: end-user evaluation methods):


Hierbei handelt es sich um experimentelle oder nichtexperimentelle Laborme-
thoden, Methoden im Feld, Beobachtungsmethoden, Befragungen der Nutzer
oder auch kognitive Methoden. Im Rahmen feld-basierter Methoden geht es
um die Erhebung von Paradaten, die den Prozess beschreiben. Dazu zählen Da-
ten des Case-Managements wie Antwortraten, Anrufe pro Fall, durchschnittli-
che Interviewlänge, sog. „audit trails“ (Dokumentation von Handlungsabfol-
gen) und die Sequenz der Tasten, die der Interviewer während des Interviews
drückt („keystroke analysis“).
Die labor-basierte Usability-Forschung beschäftigt sich vor allem mit der Entwick-
lung optimaler Designs des Fragebogens, der Navigation, der Bildschirmgestal-
tung, etc. und der Entwicklung von Prototypen im Rahmen von Usability-Tests.
Speziell für selbst-administrierte programmierte Erhebungsinstrumente emp-
fiehlt sich zur Überprüfung der Benutzerfreundlichkeit das folgende sequentielle
Vorgehen (vgl. Baker, Crawford & Swinehart 2004):

A. Durchführung qualitativer Interviews


• Schritt 1: Der Befragte wird gebeten, den Fragebogen auszufüllen. Jedes Prob-
lem, das dabei auftaucht, wird registriert und gelöst.
• Schritt 2: Nach Bearbeitung des Fragebogens werden dem Befragten Standard-
fragen gestellt, um schwierige Fragen, Abschnitte oder Aufgaben zu entdecken.
• Schritt 3: Mit dem Befragten wird Bildschirminhalt für Bildschirminhalt
durchgegangen, wobei jede Schwierigkeit, die der Befragte angetroffen hat, no-
tiert wird.

B. Analyse von Paradaten


Paradaten sind im Kontext der Usability-Forschung Daten über den aktuellen Be-
arbeitungsprozess. Dazu können gehören:

• Reaktionszeitmessung;
• Logfile- und Keystroke-Analysen (vgl. Couper, Hansen & Sadosky 1997; Cou-
per 2000b). Keystroke-Analysen bestehen in der Analyse sog. Keystroke-Datei-
en (keystroke files) oder sog. Trace-Dateien, in denen die Tastenbewegungen
der Nutzer registriert sind. Anhand der fehlerhaften Tastenbewegungen kann
bei Interviewer-administrierten Fragebögen (CAPI-Interviews) geprüft wer-
den, wie die Interviewer mit der Anwendung des Fragebogens zurechtkom-
men (vgl. z.B. Sperry et al. 1998). Bei selbst-administrierten Fragebögen kann
V.6 Evaluation von Fragebögen für Selbst-administrierte Interviews 387

geprüft werden, wie gut die Befragten den Fragebogen technisch bewältigen
können.
• Zählen von Fehlern (z.B. fehlende Antworten, falsche Eingabe, etc.)
• Informationen zum Navigationsverhalten
• Registrierung der letzten Antwort (zur Inspektion der Abbruchsstelle)

Die Überprüfung der Korrektheit des Fragebogens sollte folgende Komponenten


enthalten:

• Überprüfung der Programmierung und des Fragebogendesigns durch Exper-


ten (Programmierer, ,„Webchecker“ und Fragebogendesigner), die den Frage-
bogen das erste Mal aus Sicht des Befragten prüfen (engl.: white box check);
• Überprüfung durch Personen der Zielgruppe (engl.: gray box check);
• Überprüfung durch „Unwissende“ (engl.: black box check);

V.6.3 Entwurf und Evaluation von Fragebögen in interkultu-


rellen Umfragen

Als neues Problem kommt bei interkulturellen Umfragen die Herstellung der se-
mantischen Äquivalenz von Fragen und Items hinzu. Die Herstellung der semanti-
schen Äquivalenz beginnt bereits mit der Übersetzung der Fragen. Harkness (vgl.
Harkness, Pennell & Schoua-Glucksberg, 2004; Harkness, Villar & Edwards, 2010)
hat als Verfahren das sog. TRAPD-Verfahren vorgeschlagen, das auch im European
Social Survey (ESS) Anwendung findet (vgl. European Social Survey, 2014). Die
einzelnen Buchstaben stehen für die folgenden fünf Schritte: Translation, Review,
Adjudication, Pre-Testing und Documentation. Diese Schritte werden im Folgen-
den kurz beschrieben. Sie können auf unterschiedliche Art und Weise realisiert
werden. Notwendig erscheint jedenfalls ein Team-Ansatz, der auch beim ESS be-
vorzugt wird und bei dem Übersetzer und Survey-Experten zusammenarbeiten.
Translation (Übersetzung):
In dieser Phase geht es um die sprachliche Übersetzung des Quellentextes, wobei
dieser Text entweder zwischen verschiedenen Übersetzern aufgeteilt oder parallel
von verschiedenen Übersetzern übersetzt wird.
Review:
In der Phase des Reviews wird die Übersetzung durch einen Reviewer noch einmal
geprüft. Der Reviewer muss gute Übersetzungskompetenzen besitzen und mit den
388 V.7 Einsatz multivariater Verfahren zur Evaluation der Fragenqualität

Prinzipien des Fragebogen- und Studiendesigns sowie dem Thema der Umfrage
vertraut sein. Steht keine Person zur Verfügung, die über alle geforderten Kompe-
tenzen verfügt, können diese unter zwei Personen aufgeteilt werden.
Adjudication:
Der Schritt der Adjudication beinhaltet die endgültige Entscheidung über die Op-
tionen der Übersetzung. Sie wird durch eine Person (Adjudicator) vorgenommen,
der über ein Verständnis des Forschungsgegenstands verfügt, das Umfragedesign
kennt und in allen involvierten Sprachen bewandert ist.
Pre-Testing:
Als Pretest-Verfahren kommen grundsätzlich alle oben beschriebenen Verfahren
infrage, wobei die Verfahren zunächst für jedes Land getrennt durchgeführt wer-
den sollten. Zur vergleichbaren Codierung der Ergebnisse gibt es verschiedene
Codesysteme, die auf teilweise auf Fragebewertungssystemen beruhen (vgl. z.B.
Willis & Miller, 2011). Zur Bewertung und Verbesserung der Fragequalität kann
auch der Survey Quality Predictor (SQP; vgl. Survey Quality Predictor, 2015) ein-
gesetzt werden, der auf einer umfangreichen Datenbasis von Fragen für zahlrei-
chen Länder mit dazugehörigen Qualitätsmerkmalen beruht.
Dokumentation:
Alle Probleme, die während der vorangehenden Stufen aufgetreten sind, die Ent-
scheidungen, die getroffen wurden, und die nicht berücksichtigten Optionen müs-
sen dokumentiert werden, damit das Vorgehen in zukünftigen Umfragen weiter
optimiert werden kann.

V.7 Einsatz multivariater Verfahren zur Evaluation der


Fragenqualität

Wie oben bereits erwähnt, erfordern Analysen, die zuverlässige Schätzungen von
Populationsparametern schon in der Pretest-Phase liefern sollen, den Einsatz infe-
renzstatistischer Verfahren und damit entsprechend große Pretest-Stichproben. In
Bezug auf den Einsatz von multivariaten statistischen Modellen ist bekannt, dass
sich Einflussgrößen (die Schätzungen der Modellparameter) bis zu einem Stichpro-
benumfang von ca. 120 noch verändern können (vgl. z.B. Boomsma 1987). Liegt
eine hinreichend große Stichprobe vor, so lassen sich bereits in der Pretest-Phase
vor der Haupterhebung Analysen komplexer multivariater statistischer Modelle
durchführen wie sie in Teil IV schon beschrieben wurden. Dazu gehören:
V.8 Zusammenfassung 389

• Explorative und konfirmatorische Faktorenanalysen sowie die Identifikation


und Überprüfung von Messmodellen;
• Evaluation von Reliabilität und Validität;
• Bestimmung der Schwellenwerte bei latenten Antwortvariablen;
• Vergleiche von Subgruppen in Bezug auf die Gütekriterien der Messung (inter-
kulturelle und interregionale Vergleiche);
• Subgruppenvergleiche in Bezug auf Konzeptstruktur von Itembatterien.

Sofern finanzierbar, empfiehlt sich die Durchführung von Zusatzstudien zur um-
fassenden Analyse der Skaleneigenschaften (vgl. z.B. die Zusatzstudien zum ALL-
BUS 1984; vgl. Faulbaum 1984; Bohrnstedt, Mohler & Müller 1987; Erbslöh & Koch
1988). Sollen in wichtigen zentralen Studien alternative Formulierungen von Fra-
gen und Items eingeführt werden, erfordert die Evaluation der möglichen statisti-
schen Konsequenzen ebenfalls große Stichproben, um die Ergebnisse abzusichern.
Als Beispiel wurde oben bereits die Ersetzung des Begriffs „Gastarbeiter“ durch den
Begriff „in Deutschland lebende Ausländer“ in der Allgemeinen Bevölkerungsum-
frage der Sozialwissenschaften (ALLBUS) erwähnt.

V.8 Zusammenfassung

Ziel von Teil V war ein Überblick und die Darstellung des Instrumentariums, das
beim Entwurf und bei der Evaluation von Erhebungsinstrumenten eingesetzt wer-
den kann. Welche Verfahren tatsächlich zum Einsatz kommen, hängt auch hier
nicht nur von den finanziellen und personellen Ressourcen ab, sondern auch von
der Forschungsfragestellung und deren Umsetzung im Frageentwurf sowie von der
Zielpopulation. Komplexe sozialwissenschaftliche Themen, welche die Erhebung
von Einstellungen erfordern oder Themen, die auf Begrifflichkeiten zurückgreifen
müssen, die in der Bevölkerung nicht durchweg bekannt sind, machen bei aus-
gewählten Survey-Items den Einsatz mehr oder weniger aufwändiger kognitiver
Interviewverfahren notwendig. Gelegentlich erscheint es angesagt, auch während
der Haupterhebung allgemeinverständliche Definitionen von Fachbegriffen bereit-
zuhalten, die den Befragten angeboten werden können und damit im Sinne von
Schober (1999) von der strikten Standardisierung abzuweichen.
Es sollte deutlich geworden sein, dass Entwurf und Evaluation von Erhebungs-
instrumenten den Einsatz von Experten erfordern, die, insbesondere bei interkul-
turellen Umfragen, in Operatoren-Teams zusammenarbeiten. Wo dies nicht im
eigenen institutionellem Rahmen möglich ist, müssen ggf. externe Expertisen ein-
390 V.8 Zusammenfassung

geholt werden. Natürlich bedarf es bei einfachen Fragebögen, die sich auf einfache
Fakten beziehen, oder auch beim Einsatz bereits mehrfach geprüfter Fragen in der
Regel dieses Aufwands nicht. Auch hier wie bei allen anderen in diesem Band vor-
gestellten Methoden sollte das Ziel zuverlässiger und genauer Aussagen über die
Zielpopulation im Mittelpunkt stehen.
Teil VI: Stichprobenauswahl und Schätzung
von Populationswerten

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 391
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_6
VI.1 Zielpopulation, Auswahlgrundlage und Auswahlge-
samtheit

Die Durchführung einer Umfrage setzt voraus, dass zunächst eine Zielpopulation
definiert wird. Unter einer Zielpopulation U (auch: Universum; engl.: target popula-
tion oder universe) versteht man eine endliche Menge von N Elementen (potentiel-
len Untersuchungseinheiten)

U = {1, 2,…, k ,…, N } ,

über die in einer Umfrage Aussagen getroffen werden sollen und für die eine ein-
deutige Regel existiert, nach der entschieden werden kann, ob eine Untersuchungs-
einheit zur Zielpopulation gehört oder nicht. Aus der Zielpopulation muss eine
Stichprobe s von n Elementen gezogen werden, wenn aus Kapazitätsproblemen
oder anderen Gründen eine Totalerhebung ausscheidet Eine Stichprobe ist eine
Teilmenge der Zielpopulation. Die Grundgesamtheit kann durch mess- bzw. be-
obachtbare Eigenschaften ihrer Elemente oder durch Angabe einer Liste bzw. eines
Registers definiert sein. Die Festlegung der Zielpopulation durch identifizierbare
Eigenschaften, denen ein Element genügen muss, um zur Zielpopulation gerechnet
zu werden, definiert die Wählbarkeit (engl.: eligibility) eines Elements in der Aus-
wahlgrundlage (siehe unten).

Beispiele für Definitionen einer Zielpopulation:

Menge aller in Privathaushalten mit mindestens einem Telefonanschluss leben-


den Privathaushalten deutscher Nationalität im Alter von mindestens 18 Jahren;
Menge aller Unternehmen der Bundesrepublik Deutschland mit mindestens 10
sozialversicherungspflichtigen Beschäftigten;
Menge aller in der Stadt Hamburg lebenden Erwerbspersonen im Alter von 40
Jahren und älter.

Die Zielpopulation kann Teilpopulation einer Gesamtpopulation (engl.: total popu-


lation) sein. Teilpopulationen mit bestimmten Eigenschaften (z.B. Population der
Frauen, Population der über 60jährigen, Population der Personen mit Migrations-
hintergrund der dritten Generation) werden auch als „domains“ bezeichnet (vgl.
Särndal, Swensson & Wretman, 1992, p. 386).
394 VI.1 Zielpopulation, Auswahlgrundlage und Auswahlgesamtheit

Um eine Stichprobe praktisch ziehen zu können, bedarf es einer Auswahlgrund-


lage (auch: Auswahlrahmen; engl.: sampling frame oder einfach: frame). Eine Aus-
wahlgrundlage besteht aus Informationsmaterialien (Adresslisten, Telefonbücher,
Registereinträge, etc.) sowie Verfahren, welche
• eine Eingrenzung und Identifikation der Elemente der Zielpopulation erlauben;
so enthalten z.B. Melderegister Informationen wie „Ort und Tag der Geburt“,
„Staatsangehörigkeit“, „Familienstand“, „frühere Anschriften“, „Tag es Ein- und
Auszugs“ und gestatten so eine Eingrenzung der Population auf bestimmte Al-
tersgruppen, bestimmte Nationalitäten, etc.;
• einen Zugriff (Kontakt) zu den Elementen der Zielpopulation ermöglichen
(z.B. den Besuch von Haushalten, den Anruf von Haushalten, etc.);
• die Auswahl einer Stichprobe nach den Vorgaben des Stichprobendesigns (sie-
he unten) gestatten.
Eine Auswahlgrundlage kann außerdem Hilfsinformationen (Größenangaben
wie Unternehmensgrößen, Gemeindegrößen, demographische Informationen,
etc.) enthalten, die für spezifische Techniken der Stichprobenauswahl, z.B. eine
geschichtete Auswahl, oder für spezielle Schätzverfahren hilfreich sind. Die Aus-
wahlgrundlage enthält also Informationen, die eine Ziehung von Elementen der
Zielpopulation für die Umfrage ermöglichen sollen. Mit den Elementen der Aus-
wahlgrundlage verbundene Informationen, welche zur Eingrenzung der Zielpopu-
lation in der Auswahlgrundlage dienen können, werden auch Frame-Identifikato-
ren (engl. frame identifiers) oder einfach Identifikatoren bezeichnet.
Beispiele für Auswahlgrundlagen sind:
• Räumliche Auswahlgrundlagen (engl: area frames): Listen von räumlichen Glie-
derungen in Flächen, Listen von Wohngebieten, Gebäuden und Wohnungen
(engl.: housings). So besteht das mehrstufige ADM-Stichprobendesign für Fa-
ce-to-Face-Umfragen auf der ersten Stufe auf einer vollständigen Liste synthe-
tischer Stimmbezirke und deckt damit die gesamte Fläche der Bundesrepublik
Deutschland ab (vgl. ADM, 2013). Durch Nutzung von Geokoordinaten lassen
sich auch sehr kleine Gebietseinheiten („Kacheln“) definieren und eingrenzen;
• Listen von Privatadressen (z.B. Einwohnermelderegister bei Gemeindestich-
proben, Adressbücher), Telefonregister, Auflistungen bzw. Datenbanken von
Unternehmen, etc.;
• Nummernraum zufällig erzeugter, aber validierter Telefonnummern bei Tele-
fonstichproben (z.B. RDD (Random-Digit-Dialing, das modifizierte RDD-Ver-
fahren von Gabler und Häder, das dem ADM-Design für Telefonstichproben
(vgl. ADM, 2013) zugrunde liegt.
VI.1 Zielpopulation, Auswahlgrundlage und Auswahlgesamtheit 395

Nicht immer enthält die Auswahlgrundlage die zum Ausschluss nicht wählbarer
Elemente notwendigen Identifikatoren, so dass die Identifikation der wählbaren
Elemente erst auf der Basis eines Screenings in der Phase der Kontaktaufnahme
erfolgen kann. Dies ist sehr oft bei Telefonumfragen der Fall, da die Telefonregis-
ter und auch die erzeugten Nummernräume nicht die notwendigen Informatio-
nen über die definierenden Merkmale der Zielpopulation enthalten und diese erst
im Rahmen eines telefonischen Screenings erhoben werden müssen. Wie wir im
Abschnitt über die Ziehung von Stichproben seltener Populationen sehen werden,
gibt es aber auch Ausnahmen. Ein Beispiel dafür ist etwa gegeben, wenn die im
Telefonregister eingetragenen Namen als Identifikatoren für die nationale Herkunft
herangezogen werden können. Auch die Entscheidung, ob ein Eintrag eine Firma
ist oder nicht lässt sich in Bezug auf die meisten Einträge im Telefonregister ent-
scheiden. Auch Recherchen im Internet können zur Verifikation von Identifikato-
ren durchgeführt werden.
Manchmal reicht eine einzige Auswahlgrundlage nicht aus, um die Zielpopu-
lation abzubilden. In diesen Fällen kann versucht werden, weitere Auswahlgrund-
lagen hinzuzuziehen, die sich mehr oder weniger stark überlappen können. Die-
ses Vorgehen wird als Multiple-Frame-Ansatz bezeichnet (vgl. Brick & Lepkowski
2008; Häder & Häder 2009; Hartley 1974, Hoffmann 2007 , Sand 2014; zu statis-
tischen Aspekten des Multiple-Frame-Ansatzes vgl. Lohr, 2009). Im speziellen
Fall zweier Auswahlgrundlagen spricht man von einem Dual Frame-Ansatz (vgl.
Abbildung VI.1). Von dieser Möglichkeit wird z.B. im Fall computerunterstützter
Telefonumfragen Gebrauch gemacht, um dem Umstand Rechnung zu tragen, dass
eine zunehmende Anzahl von Personen ausschließlich über Mobiltelefon und nicht
mehr über Festnetzanschluss erreichbar sind (sog. Mobile-Onlys; vgl. dazu Häder
& Häder 2009). Eine Beschränkung auf nur eine Auswahlgrundlage für Festnetz-
anschlüsse hätte zur Folge, dass nur über das Mobilfunknetz erreichbare Personen
aus der Stichprobenauswahl ausgeschlossen würden; d.h. es würde zu einer Unter-
deckung (siehe unten) der Zielpopulation kommen. Um dies zu vermeiden, greift
man auf zwei Auswahlgrundlagen zurück: eine Auswahlgrundlage für Festnetzein-
träge und eine Auswahlgrundlage für Mobilfunkeinträge. Ein duales Vorgehen
kann sich aus Kostengründen auch bei seltenen Populationen empfehlen. In die-
sem Fall kann sich unter bestimmten Randbedingungen z.B. eine Ergänzung von
Telefonstichproben durch opt-in Webstichproben (siehe unten) als kostengünstig
erweisen (vgl. Blair & Blair 2006).
396 VI.1 Zielpopulation, Auswahlgrundlage und Auswahlgesamtheit

Abbildung VI.1: Dual-Frame-Auswahl

Unterschiedliche Auswahlgrundlagen lassen sich auch miteinander kombinie-


ren. Angenommen, bestimmte Gründe wie der vorherige Versand von Anschrei-
ben und weiteren Unterlagen würden eine Zufallsziehung von Adressen aus dem
Melderegister nahelegen, wegen zu hoher Kosten hätte man sich aber gegen eine
Face-to-Face-Umfrage und für eine Telefonumfrage entschieden. In diesem Fall
müssten auf der Basis von Melderegistern für den Versand der schriftlichen Mate-
rialien zunächst Adressen gezogen werden. Anschließend wären für diese Adressen
Telefonnummern zu recherchieren. Bei diesem Vorgehen scheint die Annahme auf
der Hand zu liegen, dass nur eine einzige Auswahlgrundlage verwendet wird, näm-
lich das Melderegister. Da eine Telefonumfrage angestrebt wird, definieren u.a. die
Telefonnummern die Wählbarkeit einer Adresse. Telefonnummern stellen also in
diesem Fall Identifikatoren dar, die zwar nicht Bestandteil der Auswahlgrundlage,
aber doch recherchierbar sind. Alternativ könnte man aber durchaus auch die Auf-
fassung vertreten, dass nicht nur eine, sondern zwei Auswahlgrundlagen verwen-
det werden, das Melderegister einerseits und das Telefonregister andererseits. Für
die Stichprobenauswahl stellt dann der Überlappungsbereich beider Register die
VI.1 Zielpopulation, Auswahlgrundlage und Auswahlgesamtheit 397

Auswahlgrundlage dar, indem nur jene Elemente in die Stichprobe aufgenommen


werden, die zugleich dem Melderegister und dem Telefonregister angehören.
Oft bedarf es eines mehrstufigen Vorgehens unter Verwendung mehrerer Aus-
wahlgrundlagen, um die Elemente einer Zielpopulation für eine Umfrage auszu-
wählen. Wenn die Zielpopulation etwa aus Personen besteht, aber eine Auswahl-
grundlage auf Personenebene nicht zur Verfügung steht, kann man zunächst eine
Auswahlgrundlage heranziehen, die eine Auswahl von Haushalten, also die Zie-
hung einer Haushaltsstichprobe erlaubt und anschließend die Haushalte als Aus-
wahlgrundlage für die Wahl einer Zielperson im Haushalt nutzen, indem zunächst
eine Liste der Zielpersonen im Haushalt erstellt wird und anschließend eine Ziel-
person aus der Liste gezogen wird. Es handelt sich in diesem Fall also um ein 2stu-
figes Ziehungsverfahren (siehe unten) unter Verwendung einer unterschiedlichen
Auswahlgrundlage auf jeder Stufe. Haushalte und Personen sind ein Beispiel für
ein-mehrdeutige Beziehungen zwischen Einheiten der Auswahlgrundlage und Ele-
menten der Zielpopulation (vgl. Särndal, Swensson & Wretman, 1992, p. 540), in-
dem jedem Haushalt mehr als eine Person in der Zielpopulation entsprechen kann.
Die Stichprobenauswahl von Personen über Haushalte kann als eine Klumpenstich-
probe (siehe unten) aufgefasst werden, bei der zunächst Klumpen (engl. cluster)
aus der Menge aller Klumpen gezogen werden und dann eine Person aus jedem
Klumpen ausgewählt wird.
Die Verbindung zwischen den Informationen in der Auswahlgrundlage und
den Elementen der Zielpopulation kann mehr oder weniger direkt und mehr oder
weniger präzise sein, wobei folgende Situationen unterschieden werden können:
• Alle Elemente der Zielpopulation sind auf Grund der Informationen in der Aus-
wahlgrundlage für die Umfrage auswählbar (vollständige Deckung; engl.: coverage);
• Es gibt Elemente der Zielpopulation, über die keine Informationen in der
Auswahlgrundlage vorliegen und die daher für die Umfrage nicht ausgewählt
werden können (Unterdeckung; engl.: undercoverage). Ein Beispiel für Unter-
deckung stellt die Unvollständigkeit des Telefonbuchs als Auswahlgrundlage
für computerunterstützte Telefonumfragen dar, da Haushalte mit nicht einge-
tragenen Nummern nicht ausgewählt werden können;
• Es gibt Informationen in der Auswahlgrundlage, die mit Elementen verbunden
sind, die nicht der Zielpopulation angehören (Überdeckung, engl.: overcovera-
ge). Diese Elemente heißen nicht auswählbar (engl.: ineligible), weil sie nicht zur
Zielpopulation gehören;
• Es gibt Elemente der Zielpopulation, die in der Auswahlgrundlage mehrfach
aufgeführt sind (doppelte Auflistungen bzw. Duplizierungen; engl.: duplicate lis-
tings, duplications). Beispiele sind das Auftreten einer Person unter mehreren
Adressen oder unter mehreren Telefonnummern.
398 VI.1 Zielpopulation, Auswahlgrundlage und Auswahlgesamtheit

Die Fälle „Unterdeckung“, „Überdeckung“ und „doppelte Auflistung“ gehören zu


den möglichen Mängeln einer Auswahlgrundlage (engl.: frame imperfections). Es
kann noch weitere Unzulänglichkeiten geben wie z.B. zu ungenaue oder fehlerhafte
Informationen für eine Schichtung oder nicht mehr aktuelle oder zu wenig detail-
lierte Informationen über die Elemente der Zielpopulation.
Eine Auswahlgrundlage definiert eine Auswahlgesamtheit (engl. frame popula-
tion) UF. Letztere ist definiert als jener Teil der Zielpopulation, dessen Elemente
für die Erhebung der Zielpopulation kontaktiert werden können. Die möglichen
Beziehungen zwischen Zielpopulation und Auswahlgesamtheit sind in Abbildung
VI.2 dargestellt.

Abbildung VI.2: Beziehungen zwischen Zielpopulation und Auswahlgrundlage

Das oben erwähnte Beispiel des Dual-Frame-Ansatzes für Telefonstichproben


(Festnetz und Mobilfunk) zeigt, dass Zielpopulation und Vollständigkeit der Aus-
wahlgrundlage sich relativ zueinander verhalten. Schränken wir die Zielpopulation
auf die nur über das Festnetz erreichbaren Privatpersonen ein, so würden Aus-
wahlgrundlagen für Festnetznummern ausreichen, um eine vollständige Deckung
zu erreichen. In diesem Fall wäre auch ein Dual-Frame-Ansatz entbehrlich, da eine
einzige Auswahlgrundlage ausreicht.
VI.2 Grundbegriffe der Zufallsauswahl 399

VI.2 Grundbegriffe der Zufallsauswahl

Ziel einer Stichprobenauswahl ist die Ziehung einer Stichprobe aus einer Zielpo-
pulation U. Da die praktische Ziehung auf der Basis einer oder mehrerer geeigne-
ter Auswahlgrundlagen erfolgen muss, sollten diese so beschaffen sein, dass alle
Elemente der Zielpopulation die Chance haben, in eine Stichprobe aufgenommen
werden können, d.h. die Auswahlgesamtheit FU sollte mit der Zielpopulation de-
ckungsgleich sein. Tritt eine Unterdeckung ein, so könnten die resultierenden
Schätzer wegen signifikanter Abweichungen der Merkmalsverteilungen in der
Stichprobe von denen in der Grundgesamtheit verzerrt sein, so dass nach der Zie-
hung geeignete Korrekturen vorgenommen werden müssen. Dies ist aber nur un-
ter bestimmen Voraussetzungen möglich (siehe unten). Wir beziehen uns in den
folgenden Darstellungen der Stichprobenauswahl auf die Population U und nicht
auf die Auswahlgesamtheit UF, obwohl die Ergebnisse in der Stichprobe nur so ver-
zerrungsfrei sein können wie die Auswahlgesamtheit es zulässt und daher eigent-
lich die Auswahlgesamtheit Maßstab der Stichprobenbeurteilung sein müsste (vgl.
Bethlehem, Cobben & Schouten, 2010, p. 10).
Die Ziehung einer Stichprobe sollte den Kriterien einer Zufallsauswahl genü-
gen. Grund hierfür ist, dass bei einer Zufallsauswahl am ehesten eine Übertragung
von Verteilungseigenschaften der Zielpopulation auf die Stichprobe zu erwarten
sind und dass nur in diesem Fall die statistischen Gütekriterien für Rückschlüsse
von der Stichprobe auf die Zielpopulation präzisiert und überprüft werden können.
Das Merkmal der Zufälligkeit ist nicht nur grundlegend für die Schätzung von Po-
pulationswerten, sondern auch für die Definition und die Einschätzung des Aus-
maßes von Stichprobenverzerrungen sowie für die Korrektur dieser Verzerrungen.
Ein Verfahren, welches das Kriterium der Zufallsauswahl (auch: Wahrscheinlich-
keitsauswahl; engl.: random sampling bzw. probabilty sampling) erfüllen soll, muss
folgenden Bedingungen genügen (vgl. Särndal, Swensson & Wretman, 1992, p. 8):

1) Es kann eine Menge von Stichproben der Zielpopulation U angegeben werden,


die mit dem gewählten Verfahren ausgewählt werden können.
2) Die Wahrscheinlichkeit p(s), mit der eine Stichprobe s ausgewählt (realisiert)
wird, ist für jede mögliche Stichprobe bekannt bzw. berechenbar.
3) Jedes Element k der Zielpopulation U hat eine positive sog. Inklusionswahr-
scheinlichkeit πk ausgewählt zu werden. Die Inklusionswahrscheinlichkeit ist
gleich der Summe der Auswahlwahrscheinlichkeiten aller Stichproben, denen
k angehört (vgl. Särndal, Swensson & Wretman, p. 31).
4) Eine Stichprobe s wird durch einen Zufallsmechanismus mit der bekannten
Wahrscheinlichkeit ρ(∙) [siehe Punkt (2) oben] ausgewählt.
400 VI.2 Grundbegriffe der Zufallsauswahl

Eine Stichprobe, auf deren Auswahl diese Kriterien zutreffen, heißt Zufallsstich-
probe (engl.: random sample bzw. probability sample). Ein Stichprobendesign (engl.:
sampling design) ordnet den Stichproben ihre bekannten Auswahlwahrscheinlich-
keiten zu; d.h. es besteht in einer auf der Menge aller mit dem Auswahlverfahren
auswählbaren Stichproben definierten Wahrscheinlichkeitsverteilung (vgl. hierzu
Särndal, Swennson & Wretman, 1992, S. 8). Fasst man jede Stichprobe aus einer
Auswahlgesamtheit U als Wert (Realisation) einer Zufallsvariablen S auf, die als
Werte alle auswählbaren Stichproben annehmen kann, so ist das Stichprobende-
sign definiert als die auf S definierte Wahrscheinlichkeitsverteilung p(∙), die jeder
ausgewählten Stichprobe s deren Auswahlwahrscheinlichkeit p(s) zuordnet (vgl.
Abbildung VI.3). Da p(∙) eine Wahrscheinlichkeitsverteilung ist, folgt, dass die
Auswahlwahrscheinlichkeit für eine Stichprobe immer ≥ 0 sein muss und dass die
Summe aller Auswahlwahrscheinlichkeiten 1 ist.

Abbildung VI.3: Begriff des Stichprobendesigns

Vom Stichprobendesign als erster Phase einer Stichprobenerhebung (engl.: design


stage) wird gelegentlich die Schätzphase (engl.: estimation stage) unterschieden, in
der die Parameterschätzung erfolgt (vgl. Abschnitt 2.3 und Särndal, Swensson &
Wretman, 1992).
Man beachte, dass die Inklusionswahrscheinlichkeiten der Elemente über die
bekannten Auswahlwahrscheinlichkeiten der Stichproben definiert sind und über
diese berechnet werden. Die Inklusion eines Elements k in eine Stichprobe stellt
damit ebenfalls ein zufälliges Ereignis dar, das durch eine Indikatorvariable Ik an-
gezeigt werden kann, welche eine Funktion der Zufallsvariablen S darstellt und für
VI.2 Grundbegriffe der Zufallsauswahl 401

eine ausgewählte Stichprobe den Wert 1 annimmt, wenn das Element zu dieser
Stichprobe gehört und sonst den Wert 0. Ik ist also selber eine Zufallsvariable, die
für jede zufällig realisierte Stichprobe s den Wert 1 oder 0 annimmt (siehe Beispiel
IV.1), d.h. für die gilt:

⎪⎧ 1, falls k ∈ s
Ik (s) = ⎨ .
⎩⎪0, falls nicht

Beispiel IV.1: Stichprobenzugehörigkeit eines Elements als Wert einer Indi-


katorvariablen
Grundgesamtheit:

U = {a, b, c, d, e, f, g, h}

Stichprobe:

s = {c, e, f, h}

Werte der Funktion Ik:

Ia(s) =0
Ib(s) =0
Ic(s) =1
Id(s) =0
Ie(s) =1
If(s) =1
Ig(s) =0
Ih(s) =1

Die Wahrscheinlichkeit für die Inklusion πk eines einzelnen Elements k in eine


Stichprobe heißt auch Inklusionswahrscheinlichkeit erster Ordnung. Sie ist unter
einem bestimmten Design definiert als Summe der Auswahlwahrscheinlichkeiten
aller Stichproben, denen das Element k angehört:

π k = ∑I k ( s ) p ( s ) .
S
402 VI.2 Grundbegriffe der Zufallsauswahl

In dieser Formel bleiben die Auswahlwahrscheinlichkeiten aller Stichproben un-


berücksichtigt, für die die Indikatorfunktion für die Stichprobenzugehörigkeit den
Wert 0 annimmt.
Fragt man anstatt nach der Inklusion eines einzelnen Elements nach der ge-
meinsamen Inklusion von zwei Elementen k und l, so gelangt man zum Begriff
der Inklusionswahrscheinlichkeit πkl zweiter Ordnung. Dieser Begriff lässt sich ver-
allgemeinern zum Begriff der Inklusionswahrscheinlichkeit n-ter Ordnung für die
gemeinsame Inklusion von n Elementen. Aus den Inklusionswahrscheinlichkeiten
erster und zweiter Ordnung von zwei Elementen k und l lässt sich die Formel für
den Zusammenhang (Kovarianz) der Inklusion von zwei Elementen entwickeln.
Sie ist gleich der Kovarianz der beiden Indikatorvariablen Ik und Il und hat die
Gestalt
C(Ik,Il) = πkl – πkπl.
Sie ist wesentlicher Bestandteil der Formeln für die Berechnung der Varianzen von
Schätzern (siehe unten). Aus der Formel ergibt sich die Varianz als:

V ( I k ) = C ( I k , I l ) = π k − π kπ k = π k (1 − π k ) .

Einen wichtigen Spezialfall einer Zufallsauswahl stellt die einfache Zufallsauswahl


dar. Unter einer einfachen Zufallsauswahl versteht man ein Verfahren der Zufalls-
auswahl, das die Bedingung erfüllt, dass für jeden Stichprobenumfang n gilt: Jede
Stichprobe von n Elementen der Grundgesamtheit hat die gleiche Wahrscheinlich-
keit ausgewählt zu werden. Hiervon unterschieden werden muss die EPSEM (Equal
Probability Selection Method) - Auswahl, bei der jedes Element der Auswahlgesamt-
heit die gleiche Inklusionswahrscheinlichkeit besitzt.
Nach dem Stichprobendesign der einfachen Zufallsauswahl ohne Zurücklegen ist
die Wahrscheinlichkeit p(s), mit der eine Stichprobe s ausgewählt wird, definiert
durch:

­ 1
°° § N ·
p s ® ¨ n ¸ , wenn s n Elemente enthalt
 .
° © ¹
°¯ 0, sonst

⎛N ⎞
⎜ n ⎟ ist die Zahl der Möglichkeiten, aus N Elementen n Elemente ohne Berück-
⎝ ⎠
sichtigung der Anordnung auszuwählen. Die Inklusionswahrscheinlichkeit πk für
die Aufnahme eines Elements k in die Stichprobe ist in diesem Fall:
VI.2 Grundbegriffe der Zufallsauswahl 403

n
πk = = f.
N

Das Design garantiert gleiche Auswahlwahrscheinlichkeiten für Stichproben des


gleichen Umfangs. f wird auch als Auswahlsatz (engl.: sampling fraction) bezeich-
net. Wir wollen ein Design der einfachen Zufallsauswahl mit Särndal, Swensson
und Wretman auch kurz als SI-Design bezeichnen.
Die einfache Zufallsauswahl ist wiederum ein Spezialfall eines Stichprobende-
signs mit festem Stichprobenumfang (engl.: fixed size design) (vgl. Särndal, Swenson
& Wretman, 1992, S. 38). Ein solches Design ist dadurch gekennzeichnet, dass der
Stichprobenumfang für alle Stichproben mit einer nicht-negativen Auswahlwahr-
scheinlichkeit gleich einer festen Größe n ist. Für ein Stichprobendesign mit festem
Stichprobenumfang gilt, (1) dass die Summe der Inklusionswahrscheinlichkeiten
über alle Elemente der Population 1 ist, (2) dass die Summe der Inklusionswahr-
scheinlichkeiten 2-ter Ordnung über alle ungleichen Paare von Elementen der
Grundgesamtheit n gleich (n–1) ist und (3) dass die Summe aller Inklusionswahr-
scheinlichkeiten über alle Paare unter Konstanthaltung eines Elements k gleich
(n–1)πk ist.
Im Fall eines Stichprobendesigns mit festem Stichprobenumfang hat also jede
Stichprobe s den gleichen Stichprobenumfang ns. Ein Beispiel für ein Stichproben-
design mit ungleichen Stichprobenumfängen ist etwa das Bernoulli-Stichprobende-
sign, bei dem eine Stichprobe s auf der Basis einer Bernoulli-Verteilung realisiert
wird. Die Wahrscheinlichkeit einer Stichprobe des Umfangs ns ist in diesem Fall
gegeben durch

⎛ N ⎞ ns
⎜ ⎟ π (1 − π )
N − ns

⎝ ns ⎠

In diesem Fall ist der Stichprobenumfang also binomial-verteilt.


Alle Verfahren, für die mindestens eine der definitorischen Bestimmungen der
Zufallsauswahl nicht erfüllt ist, heißen nicht-probabilistisch. Einige Auswahlver-
fahren sind weder als rein zufällig bzw. probabilistisch einzustufen, noch als rein
nicht-probabilistisch. Ein Beispiel ist das sog. cut-off sampling (siehe Exkurs IV.1).
404 VI.2 Grundbegriffe der Zufallsauswahl

Exkurs IV.1: Cut-off Sampling (vgl. Särndal, Swensson & Wretman, 1992,
S. 531):

Wie wir oben gesehen haben, erfordert die Definition einer Zufallsstichprobe
für jedes Element k der Zielpopulation U eine Inklusionswahrscheinlichkeit
πk > 0. Es gibt aber auch Methoden der Stichprobenauswahl, bei denen für eine
Teilmenge von U eine Inklusionswahrscheinlichkeit πk > 0 gilt und für die Rest-
menge die Inklusionswahrscheinlichkeit πk = 0. Dieses Stichprobenverfahren
führt zu verzerrten Schätzungen und ist eigentlich nur zu rechtfertigen, wenn
die Kosten für die Konstruktion einer Auswahlgrundlage für die gesamte Ziel-
population unverhältnismäßig hoch sind und/oder die zu erwartende Verzer-
rung der Schätzung gering ist. Es macht vor allem einen Sinn, wenn die Wahr-
scheinlichkeitsverteilung der Untersuchungsvariablen schief ist. Das Verfahren
ist teils probabilistisch, teils nicht-probabilistisch.

Bekannte Beispiele für nicht-probabilistische Verfahren stellen die unterschied-


lichen Varianten der bewussten Auswahl dar, bei denen nicht angegeben werden
kann, mit welchen Wahrscheinlichkeiten die ausgewählten Stichproben realisiert
werden. Oft fehlt auch eine wohl definierte Auswahlgrundlage. Im Falle der be-
wussten Auswahl (auch: willkürliche Auswahl; engl.; purposive sampling) hängt die
Aufnahme eines Elements in die Stichprobe vom Ermessen der auswählenden In-
stanz ab. In diese Kategorie fällt auch die sog. Auswahl nach Belieben bzw. Gut-
dünken (auch: Convenience-Auswahl), bei der Elemente nach ihrer Verfügbarkeit
ausgewählt werden. Beispiele sind:
• Passantenbefragungen/Befragungen vor Firmeneingängen, etc.;
• Auswahl extremer oder typischer Fälle;
• Quota-Verfahren (Vorgabe von Quoten an die Interviewer);
• Schneeballverfahren.
Beim Quota-Verfahren ist die Population nach bestimmten Merkmalen, z.B. Ge-
schlecht, Altersgruppen und Region, aufgeteilt. In jeder Zelle spezifiziert der For-
scher eine feste Anzahl von Elementen, sog. Quoten, die in die Stichprobe einge-
schlossen werden sollen. Die Realisierung der Interviews innerhalb der Quoten
wird den Interviewern überlassen. Dieses Verfahren ähnelt zwar einer geschich-
teten Zufallsauswahl (siehe Abschnitt VI.4), die Auswahl innerhalb der Zellen ist
aber nicht-probabilistisch. Insofern gibt es auch keine Möglichkeit, einen erwar-
tungstreuen Schätzer sowie eine Schätzung der Varianz des Schätzers zu erhalten.
Als Variante der bewussten Auswahlverfahren kann auch die sog. Selbstselek-
tion bzw. Selbstrekrutierung angesehen werden. Im Fall der Selbstselektion (engl.:
VI.2 Grundbegriffe der Zufallsauswahl 405

self-selection) hängt die Entscheidung, ob eine Untersuchungseinheit in die Stich-


probe gelangt, von der Untersuchungseinheit selber ab. Hier wird die bewusste
Auswahl einer Untersuchungseinheit also von dieser statt durch den Forscher ge-
troffen. Beispiele hierfür ist die Rekrutierung von Teilnehmern in Websurveys über
eine Website.
Die Realisation einer Zufallsauswahl auf der Basis einer Auswahlgrundlage und
eines bestimmten Stichprobendesigns geschieht durch den Einsatz geeigneter Aus-
wahlschemata (engl.: selection schemes). Dazu gehören u.a.:
Simultane Auswahl der Stichprobe durch Ziehung von Zufallszahlen
In diesem Fall werden die Elemente der Auswahlgesamtheit zunächst durchnum-
meriert. Mit Hilfe geeigneter Computersoftware wird aus der Menge der N Num-
mern der Elemente eine Zufallsauswahl mit einem Zufallsgenerator getroffen. Die
Menge der Elemente der Auswahlgesamtheit, deren Nummern ausgewählt wurden,
bilden die Stichprobe.
Sequentielles Ziehungsschema für eine einfache Zufallsauswahl ohne und mit Zurück-
legen
Im Fall einer Auswahl ohne Zurücklegen wird zunächst mit der gleichen Wahr-
scheinlichkeit 1/N das erste Element aus den N Elementen der Population ausge-
wählt, das anschließend nicht mehr in die Grundgesamtheit zurückgelegt wird.
Anschließend wird das zweite Element mit der Wahrscheinlichkeit 1/(N – 1) aus-
gewählt und nicht mehr zurückgelegt. Dieser Vorgang wird solange wiederholt bis
das n-te Element mit der Wahrscheinlichkeit 1/(N – n + 1) aus N – n + 1 Elementen
gezogen worden ist. Im Fall einer Auswahl mit Zurücklegen wird jedes Element der
Grundgesamtheit wieder zugeführt und n-mal ein Element mit der Wahrschein-
lichkeit 1/N gezogen.
Bei einem listen-sequentiellen Schema geht man nacheinander die aufgelisteten
Elemente der Auswahlgesamtheit durch und führt für jedes Element ein Zufallsex-
periment mit zwei Ausgängen durch. Ist das Experiment erfolgreich, wird das Ele-
ment in die Stichprobe aufgenommen, ist es nicht erfolgreich, wird das Element
nicht in die Stichprobe aufgenommen.
Systematische Zufallsauswahl
Die grundlegende Form einer systematischen Auswahl sieht so aus, dass zunächst
ein Element nach Zufall aus den ersten a Elementen einer Liste gezogen wird, auf
der alle N Elemente der Zielpopulation aufgelistet sind, wobei alle a Elemente die
gleiche Wahrscheinlichkeit haben, gezogen zu werden. Die Größe a wird vorher
festgelegt und heißt Ziehungs- oder Stichprobenintervall. Der Rest der Stichprobe
wird bestimmt, indem jedes a-te Element ausgewählt wird, bis die Liste abgearbei-
406 VI.2 Grundbegriffe der Zufallsauswahl

tet ist. Es gibt also a mögliche Stichproben, wobei jede mit der Wahrscheinlichkeit
1/a ausgewählt werden kann. Der Umfang n der ausgewählten Stichprobe ergibt
sich als N/a. In der beschriebenen Form führt das Verfahren zu einer Auswahl der
Elemente mit gleichen Wahrscheinlichkeiten. Es wird oft als Annäherung an ein
Verfahren der einfachen Zufallsauswahl angesehen. Der Unterschied liegt darin,
dass nur das erste Element einer systematischen Auswahl per Zufall bestimmt wird.
Größenproportionale Ziehung von Elementen
Ein wichtiges Verfahren, insbesondere bei der Ziehung von Gemeindestichproben
stellt die größenproportionale Ziehung von Elementen dar (engl.: probability pro-
portional-to-size sampling, kurz: pps sampling; vgl. Särndal, Swensson & Wretman,
1992, p. 87). Dabei handelt es sich um eine Auswahl von Elementen k(k = 1, ..., N)
unter Zurücklegen mit Ziehungswahrscheinlichkeiten p(k), die proportional zu
Größen x1, ..., xN sind, in Symbolen: pk ‫ ן‬xN. Dabei soll gelten:
xk
pk .
ΣU x k
Sei etwa U={1, 2, …, k, …, N} eine Grundgesamtheit von Gemeinden und xk die
Gemeindegröße (Anzahl der Einwohner). Dann besagt dieser Ausdruck, dass eine
Gemeinde mit einer Wahrscheinlichkeit ausgewählt wird, die dem Anteil der Ein-
wohner in der Gemeinde an allen Einwohnern in der Grundgesamtheit entspricht.
Soll eine Stichprobe des Umfangs n = 1 gezogen werden bietet sich als Vorgehen
die Methode der kumulierten Summenwerte an (engl.: cumulative total method; vgl.
Särndal, Wretman & Swensson, op.cit., p. 91) an, die auf der Kumulation der Grö-
ßen beruht. Bezeichnen wir die Variable der kumulierten Summenwerte mit T, so
ist die Kumulation definiert durch
T0 = 0 und Tk = Tk-1 + xk (k = 1, ..., N).
Gezogen wird eine Zufallszahl H aus einer auf dem Einheitsintervall definierten
Gleichverteilung Unif(0,1). Ein Element wird ausgewählt, wenn gilt:
Tk-1 < HTN ≤ Tk.
Dann ist

Tk − Tk −1 xk
p(k) = Pr(Tk −1 < ε TN ≤ Tk . ) = = .
TN ∑U x k
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 407

Beispiel VI. 3: Größenproportionale Ziehung einer Gemeinde

Angenommen, wir ziehen eine Stichprobe aus einer Region U, die aus sechs
Gemeinden besteht. Die mit den Gemeinden assoziierten Größen seien die Ein-
wohnerzahlen. Tabelle IV.1 enthalte die Anzahl der Einwohner ab 18 Jahren. xk
und die kumulierten Einwohnerzahlen Tk sowie Selektionsintervalle, innerhalb
derer eine Zufallszahl zwischen 2.500 und 56.500 liegt.

Tabelle IV.1: Größenproportionale Ziehung

k xk Tk Selektionsintervall
1 2.500 2.500 1-2.500
2 13.000 15.500 2.600-15.500
3 10.000 25.500 15.501-25.500
4 25.000 50.500 25.501-50.500
5 1.000 51.500 50.501-51.500
6 5.000 56.500 51.500-56.500
Angenommen, wir ziehen die Zahl 27.000. Dann wird die Gemeinde mit der
Nummer k=4 gezogen.

VI.3 Die Schätzung von Populationsparametern (Schätz-


phase)

VI.3.1 Rückschluss von der Stichprobe auf die Grundgesamt-


heit

Das Problem, welches auftritt, wenn man statt einer Totalerhebung eine Stichproben-
erhebung durchführen muss, besteht darin, dass Aussagen über statistische Eigen-
schaften der Grundgesamtheit getroffen werden sollen, obgleich nur Informationen
aus der Stichprobe zur Verfügung stehen. Die Informationen, die in der Stichprobe
zur Verfügung stehen, sind sog. Statistiken. Statistiken sind auf der Menge S aller
Stichproben eines festen Umfangs n einer Population definierte Funktionen, die auch
408 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

als Stichprobenfunktionen bezeichnet werden und die jeder Stichprobe nach einer
bestimmten Rechenvorschrift eine reelle Zahl zuordnen. Ein Beispiel für eine Stich-
probenfunktion ist das arithmetische Mittel. Diese Stichprobenfunktion ordnet jeder
Stichprobe s  S mit ihren Messwerten x1, …, xi, …, xn den Wert

x1 + …+ x i + … x n
n

zu.
Unter die Statistiken fallen alle statistischen Kennwerte empirischer Merk-
malsverteilungen wie Maße der zentralen Tendenz bzw. Lagemasse (arithmetisches
Mittel oder Anteilswerte, Median), Streuungsmaße, Schiefe, Wölbung bzw. Kurtosis,
aber auch jede beliebige andere Stichprobenfunktion wie Summenwerte (engl.: to-
tals) oder der Stichprobenumfang ns. Dieser kann als Funktion der Zufallsvariablen
S aufgefasst werden, die jeder Stichprobe s  S den Stichprobenumfang zuordnet.
Der Stichprobenumfang ns ist nämlich definiert als Summe der Werte der Indika-
torfunktion Ik über alle Elemente der Population für die Stichprobe s:

N
ns = ∑I k ( s ) = I1 ( s ) + …+ I k ( s ) + …+ I N ( s ) = ∑I k ( s )
U k =1

(Zur Verwendung von Summenzeichen vgl. Exkurs IV.2). Diese Summe kann für
jede Stichprobe berechnet werden und definiert so eine Statistik

ns = ∑I k ( S ) ,
U

wobei S die Zufallsvariable mit den Stichprobenrealisationen s darstellt.

Exkurs IV.2: Summenzeichen

Im Text werden wiederholt Summenzeichen Σ verwendet. Ihre Bedeutung ist:


N

∑x
i =1
i = x1 + x 2 + …+ x i + …+ x N

Für die Summe von Werten aller Elemente einer Menge M schreiben wir auch:

¦ M
x k oder ¦ x k .
M
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 409

Statistiken werden zur Schätzung von Populationsparametern herangezogen. In


dieser Eigenschaft werden sie auch als Schätzer (engl.: estimators) oder, in ihrer
Eigenschaft als Stichprobenfunktionen, auch als Schätzfunktionen bezeichnet. Die
konkreten Werte, die als Ergebnis ihrer Anwendung entstehen, heißen Schätzun-
gen (engl.: estimates). So könnte z.B. vom mittleren Haushaltsnettoeinkommen in
einer Stichprobe, d.h. vom arithmetischen Mittel der Einkommensverteilung in der
Stichprobe, auf das mittlere Nettoeinkommen bzw. den Mittelwert (Erwartungs-
wert) der Wahrscheinlichkeitsverteilung der Nettoeinkommen in der Population
geschlossen werden (vgl. Beispiele in Abbildung VI.4). Rückschlüsse auf die Ziel-
population müssen sich nicht notwendig auf nur eine Variable beziehen, sondern
können sich durchaus auch auf gemeinsame Verteilungen mehrerer Variablen, d.h.
multivariate Verteilungen beziehen. Schätzungen von Populationsparametern wer-
den immer mit einem Dach über dem Parameter gekennzeichnet. So bezeichnet
z.B. ^μ den Schätzwert des Populationsmittelwerts μ.
Unter der Modellannahme einer unendlichen Grundgesamtheit werden die
statistischen Verfahren des Rückschlusses von der Stichprobe auf die Grundge-
samtheit in der Inferenzstatistik behandelt (vgl. z.B. Fahrmeir et al., 2004, Knoke,
Bohrnstedt & Mee, 2002; Krebs & Kühnel, 2010). Sofern die Zielpopulation als end-
lich angenommen wird wie im Fall von Umfragen, werden die notwendigen Ver-
fahren in der Theorie endlicher Grundgesamtheiten behandelt (vgl. z.B. Cochran,
1977; Kalton, 1983; Kish, 1965; Särndal, Swensson & Wretman 1992; Sudman,
1976; Valliant, Dever & Kreuter, 2013).
Obwohl der Rückschluss von einer Stichprobe auf eine Zielpopulation zunächst
ein Problem darstellt, das unabhängig von einem bestimmten Verfahren der Stich-
probenauswahl formuliert werden kann, basieren die notwendigen statistischen
Konzepte der Schätzung und ihrer Gütekriterien auf Verfahren der Zufalls- bzw.
Wahrscheinlichkeitsauswahl. Wird ein anderes Auswahlverfahren gewählt, muss
begründet werden, dass dies einer Zufallsauswahl äquivalent ist.
410 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

Abbildung VI.4: Rückschluss von der Stichprobe auf die Zielpopulation

VI.3.2 Stichprobenfehler und Gütekriterien der Schätzung

Allein durch den Sachverhalt, dass statt der Grundgesamtheit lediglich eine Stich-
probe untersucht wird, entsteht ein sog. Stichprobenfehler (engl.: sampling error),
mit der Konsequenz, dass
• die Schätzer (z.B. das arithmetische Mittel in der Stichprobe) nicht identisch
mit dem Populationsparameter (z.B. Mittelwert der Populationsverteilung)
sind;
• unterschiedliche Stichproben zu unterschiedlichen Schätzungen führen.
Der Stichprobenfehler betrifft zunächst die Ausgangs-, bzw. Bruttostichprobe, die
alle Untersuchungseinheiten der Stichprobe vollständig enthält. Zwar entsteht we-
gen der zu erwartenden Ausfälle ganzer Stichprobenelemente während der Erhe-
bung (Unit-Nonresponse, siehe Teil VII) eine als Nettostichprobe bezeichnete Teil-
stichprobe der Ausgangsstichprobe, jedoch betrifft der Mechanismus, der von der
Bruttostichprobe zur Nettostichprobe führt, nicht mehr das Verfahren der Stich-
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 411

probenauswahl. Er stellt vielmehr einen Ausfallmechanismus (engl.: missing data


mechanism bzw. nonresponse mechanism) dar, der durch verschiedene Merkmale
wie z.B. Erreichbarkeit, Kontakt- und Teilnahmeverhalten gesteuert wird und einer
besonderen statistischen Modellierung bedarf (vgl. Teil VII)).
Zur Bewertung der oben genannten beiden Konsequenzen aus dem Stichpro-
benfehler können die folgenden Kriterien herangezogen werden:

A. Bias
Der Bias eines Schätzers gibt an, wie genau der Populationsparameter θ im Durch-
schnitt aller möglichen Stichproben des gleichen Umfangs aus der Zielpopulation
U von einem Schätzer (arithmetischer Mittelwert, Anteilswerten in den Stichpro-
ben, etc.) geschätzt wird. Formal:

() ()
Bias θˆ = E θˆ − θ ,

wobei θ: Populationsparameter; θ̂: Parameterschätzer; E(θ̂): Erwartungswert bzw.


Mittelwert des Schätzers. Ist der Bias 0, so heißt der Schätzer erwartungstreu (engl.:
unbiased).
In Worten:
Bias = Erwartungswert der Schätzer (Mittelwert der Schätzer über alle Stichproben)
minus Populationsparameter. Er bezeichnet die Differenz zwischen dem Schätzer
und dem Mittelwert aller Schätzer.

B. Erwartungswert des Schätzers


Der Erwartungswert (Mittelwert) E(θ̂) eines Schätzers θ̂ ist formal definiert durch

()
E θˆ = ¦p ( s )θˆ ( s )
s

wobei p(s) die bekannte Wahrscheinlichkeit für die Auswahl der Stichprobe s und
θ̂(s) der Wert des Schätzers in der Stichprobe s ist. Die Formel summiert also über
alle Stichproben das Produkt aus dem Wert des Schätzers der Stichprobe und der
Auswahlwahrscheinlichkeit der Stichprobe.
412 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

C. Varianz des Schätzers


Unterschiedliche Stichprobendesigns können zu unterschiedlichen Schätzern füh-
ren, die sich durch unterschiedlichen Bias und unterschiedliche Varianzen aus-
zeichnen. Die Varianz eines Schätzers, θ̂, V(θ̂), ist ein Maß für die Präzision eines
Schätzers und gibt an, wie stark die Schätzungen von Stichprobe zu Stichprobe va-
riieren; d.h. die Varianz des Schätzers ist gleich dem Mittelwert der quadrierten
Abweichungen der Schätzer aller Stichproben vom Mittelwert der Schätzer. Der
mathematische Ausdruck für die Varianz ist

2
¦ p s Tˆ s  E Tˆ .
V Tˆ s

Angestrebt wird ein erwartungstreuer Schätzer mit möglichst geringer Varianz. Die
Quadratwurzel aus der Varianz heißt Standardfehler des Schätzers.

D. Mittlerer quadratischer Fehler


Der mittlere quadratische Fehler (eng.: mean square error) MSE ist die mittlere
quadratische Abweichung der Schätzer vom Populationsparameter. Er gibt an, wie
hoch der Durchschnitt aller quadrieren Abweichungen der Stichproben-Schätzer
vom Populationsparameter ist:

2 2

MSE Tˆ E ª¬Tˆ  T º¼ ¦ p s ª¬Tˆ s  T º¼
s
.

Man kann formal zeigen, dass der mittlere quadratische Fehler gleich der Summe
aus dem quadrierten Bias und der Varianz des Schätzers ist:
MSE = Varianz des Schätzers + Bias2
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 413

Beispiel IV.2: Zusammensetzung des mittleren quadratischen Fehlers


(aus Faulbaum, 2018)

Die oben vorgestellten Konzepte des Bias, der Varianz und der mittleren qua-
dratischen Abweichung eines Schätzers sollen im Folgenden an einem fiktiven
Beispiel erläutert werden:
Angenommen, eine Population U würde aus N = 5 Personen U = {1,2,3,4,5}
bestehen, die folgende Altersstufen aufweisen:
Person 1: 32 Jahre;
Person 2: 35 Jahre;
Person 3: 33 Jahre;
Person 4: 29 Jahre;
Person 5: 31 Jahre.
Der Populationsmittelwert ist μ = (32+35+33+29+31) ⁄ 5 = 160 ⁄ 5 = 32 Jahre).
Gezogen werden soll eine Stichprobe von drei Personen nach dem Verfahren
der einfachen Zufallsauswahl. Die Anzahl aller möglichen Stichproben mit Um-
fang n=3, die aus U gezogen werden können, beträgt
⎛ N ⎞ ⎛5⎞
⎜ ⎟ = ⎜ ⎟ = 5 × 4 × 3 / 3 × 2 × 1 = 10.
⎝ n ⎠ ⎝3⎠
Für die zehn Stichproben ergeben sich folgende Werte für das arithmetische
Mittel:
s1={1,2,3}: 33;
s2={1,2,4}: 32;
s3={1,2,5}: 32,7;
s4={1,3,4}:31,3;
s5={1,3,5}:32;
s6={1,4,5}: 30,7;
s7={2,3,4}: 32,3;
s8={2,3,5}: 33;
s9={2,4,5}:31,7;
s10={3,4,5}:31.
414 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

Bei einer einfachen Zufallsauswahl werden alle Stichproben mit der gleichen
⎛N ⎞ ⎛5⎞
Wahrscheinlichkeit p ( s ) = 1 / ⎜ ⎟ = 1 / ⎜ ⎟ = 1 / 10 = 0,1 gezogen. Der Erwar-
⎝n⎠ ⎝3⎠
tungswert E (μ̂) ergibt sich dann wie folgt:
E(μ̂) = 0,1 × 33 + 0,1 × 32 + 0,1 × 32,7 + 0,1 × 31,3 + 0,1 × 32 + 0,1 × 30,7 + 0,1
× 32,3 + 0,1 × 33 + 0,1 × 31,7 + 0,1 × 31 = 0,1 (33 + 32 + 32,7 + 31,3 + 32 + 30,7
+ 32,3 + 33 + 31,7 + 31) = 0,1 × 319,7 = 31,97.
Der Bias beträgt also E(θ̂) - θ = 31,97-32=-0,03 Jahre. Ob dieser sehr gering er-
scheinende Bias statistisch signifikant ist oder nicht, kann nur nach Konstrukti-
on eines Konfidenzintervalls entschieden werden.
Die Varianz des Schätzers μ̂ berechnet sich folgendermaßen:
V (θ̂) = σs p(s) (θ̂ (s) - E(θ̂))2 = 0,1 (1,032 + 0.032 + 0,732 + (-067)2 + 0.032 + (-1,27)2
+ 0.332 + 1,032 + (-0,27)2 + (-0,97)2) = 0,1 (1,061 + 0,001 + 0,533 + 0,450 + 0,001
+ 1,613 + 0,109 + 1,061 + 0,073 + 0,941) = 0,1 × 5,843 = 0,584
Als mittlere quadratische Abweichung des Schätzers erhält man den folgenden
Wert:
2
MSE Pˆ ¦ p s ª¬Tˆ s  T º¼
s

0,1 1,000  0  0, 490  0, 490  0  1,690  0,090  1,000  0,090  1,000


0,1 u 5,850 0, 585.

Das Beispiel liefert auch eine empirische Bestätigung für die additive Zusam-
mensetzung von MSE(μ̂):
MSE(μ̂) = Varianz(μ̂) + (Bias(μ̂))2 = 0,584 + 0,001 = 0,585

Konsistenz eines Schätzers:


Bei endlichen Populationen kann es im Vergleich zu den unendlichen Populatio-
nen der Inferenzstatistik keinen Übergang n → ∞ geben. Im Fall einer endlichen
Grundgesamtheit U kann die Konsistenz eines Schätzers θ̂ für einen Parameter θ
folgendermaßen definiert werden (vgl. Särndal, Swensson & Wretman, 1992, p.
168):
Ein Schätzer θ̂ von θ ist für eine endliche Grundgesamtheit konsistent, wenn unter
einer gegebenen Klasse von Designs aus s = U die Gleichheit θ̂ – θ folgt.
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 415

Designeffekt:
Der Designeffekt (deff) basiert auf einem Vergleich der Varianz des Schätzers für
eine Statistik unter irgendeinem Stichprobendesign, z.B. unter dem Design einer
Klumpenauswahl (siehe unten) mit der Varianz des Schätzers unter der Annahme
einer einfachen Zufallsauswahl:


Varianz des Schatzers unter einem Design p
deff
Varianz des Schatzers unter dem Design einer einfachen Zufallsauswahl

Er misst den Präzisionsverlust oder den Präzisionsgewinn, der entsteht, wenn man
statt einer einfachen Zufallsauswahl ein anderes Design wählt. Ein Verlust tritt ein,
wenn der Designeffekt größer als 1 ist. Ist er kleiner als 1, wird Präzision gewonnen.
So kann man z.B. zeigen, dass bei einer 1stufigen Klumpenauswahl, bei der aus
einer Menge von Klumpen eine Stichprobe nach dem Verfahren der einfachen Zu-
fallsauswahl gezogen wird, der Designeffekt des Mittelwertschätzers mit anwach-
sender Homogenität innerhalb der Klumpen (Intraklassenkorrelation) steigt. Ein
Präzisionsgewinn tritt nur ein, wenn die gepoolte Varianz innerhalb der Klumpen
größer ist als die Varianz aller Messwerte. Die Berechnung des Designeffekts kann
auf verschiedene Arten von Klumpung angewandt werden wie z.B. Klumpungen
durch Interviewer, durch Sampling Points, etc.
Die Varianz eines Stichprobenmittelwerts V(y) über alle Stichproben gleichen
Umfangs ist bei einer einfachen Zufallsauswahl

V (y) =
(1 − f ) s 2 .
n
Dabei sind n: Stichprobenumfang, f: Auswahlsatz, s2: Stichprobenvarianz. Die Grö-
ße (1-f) heißt endliche Populationskorrektur. Angestrebt wird ein erwartungstreuer
Schätzer mit möglichst geringer Varianz.
Im Falle von Klumpenstichproben (siehe Abschnitt 4.4) lassen sich die Effekte
der Klumpung über die Stärke des Designeffekts bestimmen.
Der Designeffekt kann zur Korrektur des Stichprobenumfangs eingesetzt wer-
den. Der sog. effektive Stichprobenumfang (engl.: effective sample size) ergibt sich als:

Stichprobenumfang
Effektiver Stichprobenumfang
Designeffekt

Je unpräziser also ein Schätzer unter einem Design gegenüber dem Design der ein-
fachen Zufallsauswahl wird, desto höher der einzusetzende Stichprobenumfang.
416 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

Klumpungen können auf unterschiedliche Weise entstehen. Beispiele sind Klum-


pungen durch Interviewer (vgl. Schnell & Kreuter, 2005) oder in internationalen
Umfragen durch Nationen (vgl. Lynn et al., 2007). Lynn et al. (2007) unterscheiden
in ihrem Bestreben, Kriterien für die Äquivalenz zwischen den Länderstichproben
in internationalen Umfragen zu definieren zwischen einem Designeffekt deff p auf
Grund ungleicher Auswahlwahrscheinlichkeiten in den beteiligten Ländern und
dem Designeffekt deff c durch Klumpung. Der Designeffekt auf Grund ungleicher
Auswahlwahrscheinlichkeiten ist definiert als:

m∑ i =1miwi2
I

deff p = ,
( )
2

∑i =1miwi
I

wobei mi die Anzahl der Interviews und wi das Designgewicht (siehe unten) in
der i-ten Gewichtungsklasse (zum Begriff der Gewichtungsklasse vgl. Teil VII) dar-
stellt. Der Designeffekt durch Klumpung ergibt sich als:

(
deff c = 1 + b − 1 ρ . )
In diesem Ausdruck bezeichnet b die durchschnittliche Anzahl der Interviews in
einem Klumpen (Subgruppen) und ρ die Intraklassenkorrelation (siehe Abschnitt
VI.4.4, Exkurs VI.5). Als totaler Designeffekt wird das Produkt aus deff p und deff c
definiert.
Um die Präzision eines Schätzers auf seine statistische Bedeutsamkeit hin zu
prüfen, können Konfidenzintervalle verwendet werden. Ein Konfidenzintervall ist
wie in der auf der Annahme unendlicher Populationen beruhenden Inferenzsta-
tistik auch im Fall endlicher Populationen als ein Intervall definiert, in dem der
unbekannte Populationswert mit einer definierten Wahrscheinlichkeit 1 – α zwi-
schen einer oberen und unteren Grenze zu liegen kommt. α heißt auch Irrtums-
wahrscheinlichkeit. Eine fest vereinbarte Irrtumswahrscheinlichkeit wie 0,05 oder
0,01 heißt auch Signifikanzniveau. 1 – α heißt auch Konfidenzniveau. Die obere und
untere Grenze des Konfidenzintervalls werden wie in der Inferenzstatistik über den
Standardfehler und den Stichprobenumfang aus den Stichprobeninformationen
geschätzt. Die obere und untere Grenze eines Konfidenzintervalls stellen Statisti-
ken im oben definierten Sinne dar. Angenommen, wir betrachten als Parameter
den Summenwert Y einer Zielvariablen y und sei ferner angenommen, der Para-
meterwert sei uns bekannt. Dann ist 1 – α die kumulierte Wahrscheinlichkeit aller
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 417

Stichproben, in denen der wahre Wert im Intervall zwischen unterer und oberer
Grenze zu finden ist.
Als obere und untere Grenze werden oft die Werte
1/2

¬
Yˆ r z1D /2 ªVˆ Yˆ º
¼

mit z0,975 = 1.96 (5%-Niveau) oder z0,995 = 2.576 (1%-Niveau definiert). Ist die Stich-
probenverteilung des Schätzers, z.B. Ŷ, näherungsweise eine Normalverteilung mit
Ŷ als Mittelwert und einer Varianz V(Ŷ) so enthält das obige Intervall unter der
Voraussetzung, dass V̂(Ŷ) ein konsistenter Schätzer von V(Ŷ) ist, den unbekannten
Parameter mit der Wahrscheinlichkeit 1 – α.

VI.3.3 Horvitz-Thompson-Schätzer und Designgewichtung

Ein Schätzer, der erwartungstreu oder zumindest annähernd erwartungstreu ist, ist
der von Horvitz und Thompson (1952) entwickelte so genannte Horvitz-Thomp-
son-Schätzer (kurz: HT-Schätzer), der von Särndal, Swensson & Wretman (1992, S.
42) auch als S-Schätzer bezeichnet wird. Dieser Schätzer ist anwendbar bei beliebi-
gen Inklusionswahrscheinlichkeiten, also nicht nur in dem Fall, wo alle Stichpro-
benelemente mit der gleichen Wahrscheinlichkeit gezogen werden. Er gewichtet
die Untersuchungseinheiten mit ihren inversen Inklusionswahrscheinlichkeiten
dk = 1/πk. Die inversen Inklusionswahrscheinlichkeiten werden auch als sog. De-
sign- bzw. Basisgewichte bezeichnet (vgl. Särndal & Lundström, 2005, S. 43). Sie
dienen zur Korrektur von solchen Verzerrungen der Schätzer, die sich auf Grund
des Sachverhalts ergeben können, dass Elemente der Population mit unterschied-
lichen Wahrscheinlichkeiten gezogen wurden. Die Multiplikation der Messwerte
der Untersuchungseinheiten mit den inversen Inklusionswahrscheinlichkeiten
bewirkt, dass Elemente mit einer geringeren Ziehungswahrscheinlichkeit stärker
gewichtet werden als solche mit einer höheren Ziehungswahrscheinlichkeit. Ein
Beispiel für ein Designgewicht das Haushaltsgewicht (auch: Transformationsge-
wicht) bzw. die Gewichtung nach der reduzierten Haushaltsgröße. Die reduzierte
Haushaltsgröße ist definiert als die Anzahl der Zielpersonen im Haushalt. Manche
Stichprobendesigns erfordern die Zufallsausziehung einer Zielperson im Haushalt.
Die Wahrscheinlichkeit, eine Person in einem Haushalt mit einer großen Anzahl
von Zielpersonen zu ziehen ist aber kleiner als die Wahrscheinlichkeit, in einem
Haushalt mit nur wenigen Zielpersonen eine Zielperson zu ziehen. Dieser Effekt
418 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

wird durch die Gewichtung nach der inversen Wahrscheinlichkeit für die Ziehung
einer Zielperson im Haushalt korrigiert. Diese Gewichtung ist dem Stichproben-
design geschuldet, daher die Einordnung als Designgewicht. Ob und wie stark sich
eine Designgewichtung korrigierend auf die Schätzung auswirkt, hängt davon ab,
ob und wie stark die reduzierte Haushaltsgröße mit der zu gewichtenden Zielvari-
ablen zusammenhängt.

Anwendung des Horvitz-Thompson-Schätzers auf Summenwerte


(Totals)
Unter einem Summenwert oder Total wird die Summe der Messwerte einer Variable
y über alle Elemente der Population verstanden. Der Summenwert einer Zielvaria-
blen y in einer Population U ist also formal definiert als:

Y = y1 + y 2 + …+ y k + …+ y N = ∑y k .
U

wobei yk (k = 1,…,N) der Wert ist, den das Populationselement k auf der Variablen
y annimmt. Gewichtet man alle Elemente k in der Stichprobe mit dem Designge-
wicht, also der mit ihnen verbundenen inversen Inklusionswahrscheinlichkeit dk =
1/πk , so nimmt der Horvitz-Thompson-Schätzer ŶHT für das Populationstotal Y die
folgende Form an:
yk 1
YˆHT = ¦ = ¦ y k = ¦dk y k .
s πk s πk s

ŶHT ist ein erwartungstreuer Schätzer für Y. Die Designgewichte reflektieren die
Konsequenzen des Stichprobendesigns. Ihre Berechnungen können sich je nach
Stichprobendesign voneinander unterscheiden. Alternative Bezeichnungen des
Summenwerts einer Variablen y sind Ty oder ty. Wir werden diese Bezeichnungen
gelegentlich alternativ zu Y verwenden.

Horvitz-Thompson-Schätzer für das Design der einfachen Zufallsauswahl


Werden alle Elemente wie bei der einfachen Zufallsauswahl mit der gleichen Wahr-
scheinlichkeit n/N, d.h. mit dem Auswahlsatz, gezogen, so ergibt sich als Schätzer

n
N N N ¦
YˆHT = × y1 + × y 2 +…+ × y n = N × i
yi
= N × y.
n n n n
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 419

ŶHT ist die Schätzung des Summenwerts der Variablen y in der Population U. Der
Horvitz-Thompson-Schätzer berechnet sich also im Fall der einfachen Zufallsaus-
wahl aus dem Umfang der Population N multipliziert mit dem arithmetischen Mit-
tel y der Stichprobe. Das Gewicht N/n heißt gelegentlich auch Hochrechnungsfaktor.
Der Vorgang heißt auch ungebundene Hochrechnung. Die Varianz des SchätzersŶHT
ist:

( ) §1 1 ·
V YˆHT = N 2 ¨ − ¸ S 2yU .
©n N ¹

In dieser Formel ist S2yU die Varianz der Variablen y in der Population U. Sie kann
geschätzt, werden indem statt der Populationsvarianz die Stichprobenvarianz S2ys
eingesetzt wird:

( ) §1 1 ·
Vˆ YˆHT = N 2 ¨ − ¸ S 2ys .
©n N ¹

Allgemeine Berechnung des Designeffekts für einen Summenwert


Für ein beliebiges Stichprobendesign p(.) ist die Varianz des Schätzers für einen
SummenwertŶHT definiert durch

( )
V p YˆHT = ¦¦(π kl − π kπ l )
U U
yk yl
= ¦C ( I k , I l )
πk πl U
yk yl
.
πk πl

wobei k und l Elemente der Population sind, C(Ik,Il) = πkl – πkπl die Kovarianz des
Auftretens von k und l ist. yk und yl sind wieder die Werte der Untersuchungsvaria-
blen y für die Elemente k und l.
Bezeichnet man das Stichprobendesign einer einfachen Zufallsauswahl wie
Särndal, Swensson und Wretman (1992) als SI-Design (siehe oben), so ergibt sich
als Designeffekt für einen Summenwert:

yk yl
( ) = ¦ ¦ C(I ,I )π
V p YˆHT k l
π l = ¦U ¦UC ( I k , I l ) dk y k dl y l .
( )
U U
deff p,YˆHT = k
VSI ( Ny s ) §1 1 · §1 1 ·
N 2 ¨ − ¸ S 2yU N 2 ¨ − ¸ S 2yU
©n N ¹ ©n N ¹
420 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

Der Horvitz-Thompson-Schätzer für Populationsmittelwerte:


Oben wurde der Horvitz-Thompson-Schätzer für Populationssummenwerte defi-
niert. Der Horvitz-Thompson-Schätzer für einen Populationsmittelwert

Y
yU
N
berechnet sich wie folgt:

y YˆHT 1 yk 1
= = ¦ = ¦dk y k .
U , HT
N N s πk N s

Bei einfacher Stichprobenauswahl ergibt sich folgende Vereinfachung:

1 yk 1 N
y
U , HT , SI
= ∑ = ∑y k × = y s ,
N s n/N N s n

wobei ys der Mittelwert der Stichprobe s ist. Im Fall einer einfachen Zufallsauswahl
ist also der Stichprobenmittelwert ein erwartungstreuer Schätzer des Populationsmit-
telwerts.

Die obigen Formeln für y U ,HT setzen voraus, dass der Umfang der Population
bekannt ist. Ist dies nicht der Fall, muss N geschätzt werden. Der π-Schätzer für den
Populationsumfang N ist

1
Nˆ = ¦ .
s πk

Als Schätzer des Populationsmittelwerts ergibt sich in diesem Fall:

YˆHT ¦ s y k / π k
y s = = .
Nˆ 1/π k
¦ s

Dieser Schätzer ist nur approximativ bzw. asymptotisch erwartungstreu (engl.:


approximately (design) unbiased bzw. asymptotically unbiased), d.h. mit steigendem
Populationsumfang konvergiert die Differenz zwischen Schätzer und Populations-
parameter gegen 0. Die Varianz kann in diesem Fall nicht exakt bestimmt werden.
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 421

Die Varianz des Schätzers yˆ=HT ist

( 1
)
V y U , HT = 2 ∑U
N
∑ U
C ( Ik , Il )
yk yl
πk πl

In dieser Formel ist C(Ik,Il) = πkl – πkπl wieder die Kovarianz des Auftretens der
Elemente k und l. Der Schätzer für diese Varianz ist

1 C I k , Il yk yl

Vˆ y U , HT ¦
N2 s
¦ s
S kl Sk Sl

Im Fall einer einfachen Zufallsauswahl ergibt sich für die Varianz des Mittel-
wert-Schätzers y U , HT , SI y s :

1− f 2
V ( ys ) = S
n

wobei S2 die Varianz von y in der Population U ist. V(ȳs) kann geschätzt werden
durch
1− f 2
V ( ys ) = s ,
n

wobei s2 die Varianz von y in der Stichprobe bezeichnet.

VI.3.4 Der Horvitz-Thompson-Schätzer für multiple Auswahl-


grundlagen (MF-Schätzer)

Wie in Abschnitt IV.1 ausgeführt wurde, erscheint es aus verschiedenen Gründen


(z.B. seltene Populationen, Unterdeckungen bei Verwendung nur einer einzigen
Auswahlgrundlage) sinnvoll, für die Stichprobenauswahl aus einer Population
mehr als eine Auswahlgrundlage heranzuziehen. Da die Auswahl aus jeder der
eingesetzten Auswahlgrundlage nach einem anderen Design erfolgen kann (z.B.
Haushaltsstichprobe mit Auswahl von Haushaltsmitgliedern bei Festnetz, Stich-
probe von Elementen bei Mobilfunk), muss ein geeigneter Schätzer von Popu-
lationswerten auf Grund der Vereinigung von mehreren Frames (engl.: multiple
frame estimators; kurz: MF-estimators) gefunden werden, welcher die mit den un-
terschiedlichen Auswahlgrundlagen verbundenen unterschiedlichen Designs be-
422 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

rücksichtigt. Ferner kann es vorkommen, dass sich die Auswahlgrundlagen über-


lappen, Elemente also in mehreren Auswahlgrundlagen enthalten sind. In diesem
Fall sollte im Schätzer das multiple Auftreten (Multiplizität; engl.: multiplicity) von
Elementen berücksichtigt werden.
Es hat wiederholt Vorschläge für die Konstruktion von MF-Schätzern gegeben
(vgl. z.B. Bankier, 1986; Kalton & Anderson, 1986; Skinner & Rao, 1996). Jeder
Schätzer für Stichproben aus mehreren Auswahlgrundlagen basiert notwendig auf
bestimmen Vorannahmen nicht nur über das Stichprobendesign in den beteiligten
Frames, sondern auch darüber, was man über die Zugehörigkeit der Populations-
elemente zu den Frames weiß. Singh und Mecatti (2011) klassifizieren die Informa-
tionen, die im Fall des Einsatzes mehrerer Auswahlgrundlagen im Allgemeinen für
jedes Element zur Verfügung stehen können, wie folgt:
Basisinformationen: (1) Bekannte Inklusionswahrscheinlichkeiten der Elemente in
den Auswahlgrundlagen, aus denen das Element gezogen werden soll und (2) Be-
kanntheit der Anzahl mi der Frames, denen das Element i angehört, wobei nur die
jene Frames identifizierbar sein müssen, aus denen das Element gezogen werden
soll.
Partiell: Vorliegen der Basisinformationen sowie zusätzlich: Identifizierbarkeit aller
Auswahlgrundlagen, aus denen das Element hätte gezogen werden können;
Vollständig: partiell und zusätzlich Kenntnis der Inklusionswahrscheinlichkeiten in
allen Auswahlgrundlagen, aus denen das Element hätte gezogen werden können.
Im allgemeinen Fall können sich die Elemente voneinander in einigen dieser In-
formationen unterscheiden. Schätzer für Stichproben aus mehreren Auswahl-
grundlagen sollten dem Niveau der genannten Informationen Rechnung tragen.
Singh und Mecatti schlagen einen verallgemeinerten, mögliche Vervielffachungen
von Elementen in den Auswahlgrundlagen berücksichtigenden Horvitz-Thomp-
son-Schätzer (engl.: generalized multiplicity-adjusted Horvitz-Thompson estimator;
kurz: GMHT-Schätzer) vor, aus dem sich verschiedene Spezialfälle ableiten lassen.
Seien U1,…,Uq,…,UQ Auswahlgrundlagen, von denen angenommen wird, dass
sie die gesamte Population U abdecken, d.h. für die gilt:
U U1 ∪ U 2 ∪ … ∪ U q ∪ … ∪ U Q ∪U
q
q
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 423

Die Auswahlgrundlagen können sich dabei überlappen, einige können sogar be-
reits vollständig sein. Aus jeder Auswahlgrundlage seien jeweils Stichproben s1,…,
sq,…,sQ auf Grund möglicherweise unterschiedlicher Stichprobendesigns gezogen
worden sind. Geschätzt werden soll das Populationstotal einer Variablen y:

Q
Ty = ∑y i = ∑∑ y iα q (i ) .
i∈U q =1 i∈U q

αq(i) ist ein Anpassungsfaktor als Korrektur für das mögliche mehrfache Vorkom-
men des Elements i in den Auswahlgrundlagen. Er garantiert, dass das Element i
nicht mehrfach gezählt wird. Angenommen wird, dass ∑Qq=1αq(i) = 1, d.h. dass sich die
Anpassungsfaktoren für ein Element über alle Auswahlgrundlagen zu 1 addieren.
Die einfachste Wahl für αq(i) wäre das Inverse der Vervielfachung. Stehen z.B. drei
Auswahlgrundlagen U1,U2,U3 zur Verfügung und Element i tritt in U1 und U2 auf,
aber nicht in U3, so wäre ∑Qq=1αq(i) = 1/2 + 1/2 + 0 =1. Ferner wird für die Konstruk-
tion des Schätzers eine beobachtbare Zufallsvariable δi(q) eingeführt, die anzeigt, ob
das Element i unter dem gewählten Design für Auswahlgrundlage q zur Stichprobe
sq gehört oder nicht. δi(q) entspricht der in Abschnitt IV.1 eingeführten Indikator-
funktion für die Stichprobenzugehörigkeit. δi(q) nimmt für alle i ‫ א‬sq den Wert 1 an.
Der GMTH-Schätzer eines Populationstotals hat dann die folgende allgemeine
Form:
Q
δ i (q )
t y (GMTH ) = ∑∑ y iα q (i ) .
q =1 i∈U q E (δ i ( q ) )

Er entspricht dem klassischen Horvitz-Thompson-Schätzer für den Fall Q = 1 (nur


eine Auswahlgrundlage). In diesem Fall nimmt δi(q) den Wert 1 an, wenn i in der
Auswahlgrundlage q zur Stichprobe gehört und sonst den Wert 0. Der Erwartungs-
wert E(δi(q)) ist die Inklusionswahrscheinlichkeit des Elements i in der Auswahl-
grundlage q. 1/E(δi(q)) repräsentiert die inverse Inklusionswahrscheinlichkeit.
Wie alle mathematischen Ausdrücke für die Varianz eines Schätzers, so sieht
auch in diesem Fall der Ausdruck für die Varianz scheinbar unübersichtlich aus,
gehorcht aber wie alle Varianzen einer relativ einfachen Struktur:
424 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

Q ⎧
⎪ ⎪⎫
Var (t y (GMTH ) ) = ∑ ⎨ ∑ z i2(q )Var (δ i (q ) ) ∑ ∑ z i (q ) z j (q )Cov (δ i (q ) , δ i (q ) ) ⎬
⎪i∈U q
q =1 ⎩ i∈U q j∈U q ,i ≠ j ⎭⎪

y iα q (i )
z i (q ) = .
E (δ i ( q ) )

Für Designs mit festen Stichprobenumfängen reduziert sich die Formel auf

Var (t y (GMTH ) ) = ∑ Qq =1 ∑ i∈U q ∑ j∈U q ,i< j ( z i (q ) − z j (q ) ) − Cov (δ i (q ) , δ i (q ) )


2

Singh und Mecatti zeigen, dass sich die oben beschriebenen Grade der Informati-
on, die über einen Fall hinsichtlich seiner Zugehörigkeit zu einer Auswahlgrundla-
ge unterschieden werden können, als Spezialfälle des GMHT-Schätzers darstellen
lassen.
Eine wichtige Anwendung des MF-Schätzers ist die Anwendung im Bereich der
Telefonstichproben, bezogen auf die beiden Auswahlgrundlagen „Festnetz“ und
„Mobilfunknetz“. Über die Elemente der Population weiß man, dass sie entweder
zu einen oder zur anderen Auswahlgrundlage oder zu beiden Auswahlgrundla-
gen gehören. Wir wissen zum Zeitpunkt der Stichprobenauswahl nicht, zu welcher
der beiden Auswahlgrundlagen ein konkretes Element der Zielpopulation gehört
(fehlende Identifizierbarkeit der Auswahlgrundlage). Wir können aber die Inklu-
sionswahrscheinlichkeiten für beide Auswahlgrundlagen berechnen. Nach der
Klassifikation von Singh und Mecatti hätten wir in diesem Fall also nur partielles
Wissen vorliegen. Für den oben angeführten GMTH-Schätzer bedeutet dies bei
Überschneidungsfreiheit, dass Q = 2 und Di(q) = 1 für jedes Element i. Damit hat der
GMTH-Schätzer folgende Form:

2
1
t y (GMTH ) = ∑∑ y i .
q =1 i∈U q π q (i )

1/πi(q) ist das Designgewicht in Auswahlgrundlage Uq(q = 1,2). Allerdings werden


die Elemente im Fall des Festnetzes auf der Basis eines anderen Stichprobendesigns
gezogen als die Elemente des Mobilfunknetzes. Im ersten Fall wird in der Regel ein
2stufiges Design gewählt: Ausgewählt wird zunächst eine Stichprobe von Haushal-
ten, aus denen anschließend per Zufall eine Zielperson ausgewählt wird.
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 425

Dagegen erfolgt die Auswahl der Zielpersonen über das Mobilfunknetz einstu-
fig. Unter der Voraussetzung überschneidungsfreier Auswahlgrundlagen wird bei
Dual-Frame-Stichproben der Allgemeinbevölkerung oft die folgende Formel für
die Berechnung der Inklusionswahrscheinlichkeiten verwendet (vgl. Häder & Hä-
der, 2009).

mF 1 mC 1
π k ≈ kkF F
× + kkc C ×
M Z HH M Z Mobil

In dieser Formel sind:


kFk = Anzahl der Festnetznummern, über die der Haushalt erreichbar ist
F
Zk = Anzahl der Rufnummern, über die der Haushalt erreichbar ist
ZHH = Anzahl der Zielpersonen im Haushalt
MF = Anzahl der gültigen Festnetznummern in der Auswahlgrundlage
mF = Umfang der Festnetz-Bruttostichprobe
ZMobil = Anzahl der Personen, die das angerufene Mobiltelefon nutzen
kCk = Anzahl der Mobilfunknummern, über die der (die) Befragte k persön-
lich erreichbar ist
MC = Anzahl der Mobilfunknummern in der Auswahlgrundlage (bereinigt
um ungültige Nummern)
C
m = Umfang der Mobilfunkstichprobe
Das Designgewicht ist dann
1
dk = .
πk

Geht man von einer Überlappung aus, müsste in die Formel ein Multiziplitätsfak-
tor integriert werden. Grundsätzlich kann zur Vermeidung von Überschneidungen
aber statt eines solchen Faktors die Gewichtung auch auf Basis eines Modells mit
drei Auswahlgrundlagen erfolgen: „Nur Festnetz“, „Überlappungsbereich Festnetz
und Mobil“, „Nur Mobilfunk“.
Der Nachteil besteht darin, dass einige der notwendigen Informationen über die
Nutzung von Festnetz und Mobilfunk nur im Rahmen von Befragungen erhoben
und geschätzt werden können.
426 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

VI.3.5 Verbesserung der Schätzqualität durch Verwendung


von Hilfsvariablen

VI.3.5.1 Hilfsvariablen und Hilfsinformationen

Sowohl in der Designphase als auch in der Phase der Schätzung von Populationspa-
rameter (Schätzphase). auf Basis der erhobenen Daten empfiehlt sich die Verwen-
dung von sog. Hilfsvariablen und Hilfsinformationen. Hilfsvariablen (engl.: auxi-
liary variables) unterscheiden sich von den eigentlichen Zielvariablen durch ihre
Funktion. Während Zielvariablen eine inhaltliche Funktion in der Forschungsfra-
gestellung haben, dienen Hilfsvariablen primär der Konstruktion des Stichproben-
designs oder der Verbesserung der Schätzqualität durch Optimierung der Schätz-
genauigkeit. Beispiele für Hilfsvariablen sind Melderegisterdaten wie Geschlecht,
Datum der Geburt bzw. Alter, Geburtsort, Familienstand, Zeitpunkt des Ein- und
Auszugs bzw. Wohndauer, etc. Hilfsvariablen sind aber nicht an die Auswahlgrund-
lage gebunden, sondern können auch zum Datensatz zugespielte Kontextinforma-
tionen wie Gemeindegröße, Migrantenanteil in der Gemeinde, Kriminalitätsrate,
Betriebsgrößenklasse, Geodaten etc. sein.
Hilfsvariablen lassen sich einerseits zur Verbesserung der Schätzung von Po-
pulationsparametern auf der Basis von vollständigen Stichprobendaten einsetzen
andererseits aber auch zur Verbesserung der Schätzungen auf der Basis von unvoll-
ständigen Daten, die durch Ausfälle von Elementen während der Erhebungsphase
entstanden sind. Die zuletzt erwähnte Anwendung wird uns in Teil VII beschäfti-
gen.
Die Verwendung von Hilfsvariablen in der Designphase ist etwa bei der Kon-
struktion von geschichteten Stichprobendesigns üblich, wobei die Schichtungs-
merkmale die Hilfsvariablen darstellen. Beispiele für die Nutzung von Hilfsvariab-
len in der Schätzphase ist die Anwendung bei Regressionsschätzern (siehe unten)
und der Verbesserung der Stichprobenqualität durch nachträgliche Schichtung
(Poststratifikation), wo Hilfsvariablen als unabhängige Variablen in ein Regressi-
onsmodell eingehen.
Grundsätzlich können in einer Stichprobe erhobene Variablen sowohl als Hilfs-
variablen als auch als Zielvariablen genutzt werden. Ein Beispiel wäre die Variable
„Einkommen“, die sowohl zur Gewichtung von Schätzern als auch als unabhängige
Variable in einer inhaltlichen Fragestellung verwendet werden kann.
Mit dem Ausdruck Hilfsinformationen verbindet man im Vergleich zu Hilfsva-
riablen allgemein auf Populationsebene vorliegende Informationen über in der Er-
hebung gemessene Variablen wie z.B. Zell- und Randhäufigkeiten wie Häufigkeiten
von Alterskategorien oder Ausprägungen der Variablen „Geschlecht“.
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 427

Damit Hilfsvariablen ihre Funktion erfüllen können, müssen alle Elemente der
gezogenen Stichprobe einschließlich jener Elemente, die aus der Stichprobe auf
Grund verschiedener Ursachen herausgefallen sind, Werte auf den Hilfsvariablen
aufweisen. Darüber hinaus erfordern einige Einsatzmöglichkeiten das Vorliegen
von Werten für die gesamte Population.
Eine Hilfsvariable wird in der Regel mit dem Symbol „x“ bezeichnet. Oft liegen
statt einer einzigen Hilfsvariablen allgemein J Hilfsvariablen

x1 , x 2 ,..., x j ,..., x J

vor. Jedes Element k weist auf einer Hilfsvariablen xj einen Wert xkj auf. Bei Vorlie-
gen von mehr als einer Hilfsvariablen bilden die Werte eines Element k der Zielpo-
pulation einen Zeilenvektor

x k = ( x k1 , x k 2 ,..., x kj ,..., x kJ ) ’

xk kann als Wert des Elements k eines allgemeinen Hilfsvektors (engl.: auxiliary
vector) x dargestellt werden (zur kurzen Rekapitulation der Begriffe „Matrix“ und
„Vektor“ vgl. Exkurs IV.3).
Im Unterschied zu einer Hilfsvariablen wird eine Zielvariable im Folgenden
mit y bezeichnet. Der Wert eines Elements k auf einer Zielvariablen wird mit yk
bezeichnet.

Exkurs VI.3: Vektoren und Matrizen

Unter einer Matrix A der Ordnung (auch: Typ) n × m mit n Zeilen und m Spalten
versteht man eine rechteckige Anordnung von Elementen:

⎛ a11 a12 … a1 j … a1m ⎞


⎜ ⎟
⎜ a21 a22 … a2 j … a2 m ⎟
⎜ # # # # # # ⎟
A=⎜ ⎟
⎜ ai 1 ai 2 … aij … aiJ ⎟
⎜ # # # # # # ⎟
⎜ ⎟
⎜ an1 an2 … anj … anm ⎟⎠

Die aij ( i = 1,…, I ; j = 1,…, J heißen Elemente von A. i heißt Zeilenindex, j heißt
Spaltenindex.
428 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

Eine Matrix, die nur aus einer Spalte oder Zeile besteht, heißt Vektor, wobei
unterschieden werden kann zwischen Spaltenvektoren: Matrizen der Ordnung
n × 1 und Zeilenvektoren: Matrizen der Ordnung 1 × m Vektoren werden in
der Regel mit fetten Kleinbuchstaben gekennzeichnet. Zeilenvektoren erhalten
zusätzlich ein Apostroph (z.B. x΄).

VI.3.5.2 Der Regressionsschätzer

Der in Abschnitt 3.3 dargestellte Horvitz-Thompson-Schätzer wird gelegentlich


auch als direkter Schätzer bezeichnet (vgl. z.B. Bethlehem 2009, p. 137). Er zeichnet
sich dadurch aus, dass er keine Hilfsinformationen verwendet. Die Schätzung von
Populationswerten lässt sich aber weiter verbessern, indem – sofern verfügbar –
von den in Abschnitt 3.5.1 definierten Hilfsvariablen und. von Hilfsinformationen
Gebrauch gemacht wird (vgl. Särndal, Swensson & Wretman, 1992, p. 219; Bethle-
hem. 2009, p. 16). Wir betrachten im Folgenden den Einsatz von Hilfsvariablen zur
weiteren Verbesserung der Schätzqualität auf der Ebene der Stichprobenauswahl
unter Zugrundelegung eines bestimmten Stichprobendesigns. Wir setzen dabei die
Vollständigkeit der Stichprobe in Bezug auf eine betrachtete Zielvariable y voraus;
d.h. wir nehmen an, dass die Stichprobe nicht durch Ausfälle während der Erhe-
bung belastet ist, sondern beziehen uns auf die Ausgangs- bzw. Bruttostichprobe.
Die Schätzung erfolgt beim Einsatz von Hilfsvariablen modellbasiert. Vorausgesetzt
wird dabei, dass die Werte der Hilfsvariablen für alle Elemente der Zielpopulation
bekannt sind; d.h. die Hilfsinformation muss in Bezug auf die Population vollstän-
dig sein. Beispiele sind Zensusdaten, Informationen der Einwohnermeldeämter,
etc. Für ein Element k der Grundgesamtheit kann die zur Verfügung stehende
Hilfsinformation in einem Hilfsvektor (engl.: auxiliary vector) x*k gesammelt wer-
den. Der Hilfsvektor enthält für jede Hilfsvariable xj (j = 1,…,J) den Wert, den das
Element k auf der Hilfsvariablen xj aufweist, z.B. bei Einbeziehung der Variablen
Geschlecht (1: männlich, 0: weiblich) und des Alters (in Jahren)
x *1254 = ( 01254 , 251254 ) ’, für eine Person mit der Id-Nr. 1254,
d.h. die Hilfsinformationen bestehen für diese Person aus ihrem Geschlecht, in
diesem Beispiel „weiblich“ und aus ihrem Alter, in diesem Beispiel „25 Jahre“. Die
Verwendung des hochgestellten „*“ soll anzeigen, dass wir einen Vektor betrachten,
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 429

der für alle Elemente der Population definiert ist, also auch für jene, die nicht in der
Stichprobe enthalten sind.
Grundidee des modellbasierten Ansatzes:
Ziel des modellbasierten Ansatzes ist die Konstruktion von Schätzern, die zu ei-
ner minimalen Abweichung der durch die Hilfsvariablen vorhergesagten Werte
der Zielvariablen von den tatsächlichen Werten der Zielvariablen führen sollen.
Zugrunde gelegt wird dabei ein Regressionsmodell, das für eine metrische Zielva-
riablen die Form einer gewöhnlichen linearen Regression (siehe unten) annimmt.
Dabei wird zunächst versucht, die beobachteten Werte der Zielvariablen durch die
Werte der Hilfsvariablen so vorherzusagen, dass die Vorhersagefehler ein Mini-
mum ergeben. Dies kann mit Hilfe der Methode der kleinsten Quadrate geschehen.
Als Werte für die nicht gemessenen Werte des nicht in der Stichprobe befindlichen
Teils der Population werden dann die vorhergesagten Werte eingesetzt. Dies ist ein
Verfahren, dass auch bei der Ersetzung (auch: Imputation) fehlender Werte im Fall
von Item-Nonresponse eingesetzt werden kann (vgl. Teil VII). Als optimale Schät-
zung eines Totals in der Population könnte dann die Summe aller mit den inversen
Inklusionswahrscheinlichkeiten gewichteten gemessenen Werte der Zielvariablen
für die Elemente in der Stichprobe plus der Summe der vorgesagten Werte der Ziel-
variablen für alle Elemente außerhalb der Stichprobe verwendet werden.
Der modellbasierte Ansatz legt also ein Modell zur Vorhersage einer Zielvaria-
blen y als abhängiger Variablen durch allgemein J Hilfsvariablen als unabhängigen
Prädiktorvariablen zugrunde (vgl. Abbildung VI.5). Es hat die allgemeine Form:

y = F ( x1 , x 2 ,…, x j ,…, x J ) + R

wobei F eine funktionale Beziehung und R eine Residualvariable darstellt. Zieht


man nur eine einzige Hilfsvariable heran, so vereinfacht sich der Ausdruck zu

y = F ( x ) + R.
430 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

Abbildung VI.5: Vorhersage einer Zielvariablen durch J Hilfsvariablen

Spezifiziert man die obige Funktionsgleichung durch ein lineares Regressionsmo-


dell mit einer metrischen abhängigen Variablen, so erhält man für y die folgende
Regressionsgleichung:

y = a + b1x1 + b2 x 2 + …+ b j x j + …+ bJ x J + R.

Bei abhängigen dichotomen Variablen wie bei der Propensity-Gewichtung zur


Vorhersage einer Antwort wird ein nichtlineares logistisches Regressionsmodell
verwendet.
Über verschiedene Annahmen in Bezug auf die Vorhersagefehler wie z.B. Iden-
tität der Fehler über alle Elemente oder Annahme, dass der Vorhersagefehler 0
wird, lassen sich verschiedene Varianten von Schätzern formulieren. Die Regressi-
onskoeffizienten lassen sich beim Modell der linearen Regression nach der Metho-
de der kleinsten Quadrate für die Stichprobendaten so schätzen, dass die Summe
der quadrierten Abweichungen der vorhergesagten Werte von den tatsächlichen
Werten ein Minimum ergibt. Eine einfache Variante eines Regressionsschätzers
für einen Summenwert ist der Differenzenschätzer. Bezeichnet man die Menge der
durch die Hilfsvariablen vorhergesagten Werte der Zielvariablen y in der Populati-
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 431

on mit y01,…,y0k,…,y0N, so ergibt sich der Differenzenschätzer für den Summenwert


Y in der Population als:
ܻ෠ௗ௜௙ = ෍ ‫ݕ‬௞଴ + ෍ ‫ܦ‬
෱௞
௎ ௦

mit
‫ܦ‬௞
ෙ௞ =
‫ܦ‬
ߨ௞

und
Dk = y k − y k0 .

Der Differenzenschätzer eines Summenwerts ergibt sich also als Summe der vorher-
gesagten Werte in der Population U und der Summe der Differenzen zwischen tat-
sächlichen und vorhergesagten Werten in der Stichprobe s. Die tatsächlichen Werte
in der Stichprobe werden um den Vorhersagefehler korrigiert. Ist die Vorhersage
perfekt, d.h. ist der Vorhersagefehler 0, so ergibt sich der Summenwert für die Po-
pulation als Summe der vorhergesagten Werte. Voraussetzung für die praktische
Anwendung ist, dass die Summe der vorgesagten Werte in der Population über-
haupt gebildet werden kann.
Der Differenzenschätzer stellt eine leicht zu verstehende Form des allgemeinen
Regressionsschätzers dar. Die allgemeine Form eines sog. verallgemeinerten Regres-
sionsschätzers (engl.: generalized regression estimator; Abkürzung: GREG-Schätzer)
ŶGREG des Populationstotals Y einer Zielvariablen y lautet im Fall einer einzigen
Hilfsvariablen x:

YˆGREG = YˆHT + B(¦x k − ¦dk x k )


U s

Dabei ist B der mit Hilfe der Methode der kleinsten Quadrate geschätzte Regressi-
onskoeffizient der einfachen Regression mit der Hilfsvariablen x als unabhängiger
Variablen. dk = 1 ist wieder das Designgewicht.
πk
In Worten:
Der verallgemeinerte Regressionsschätzer GREG für einen Summenwert ist bei ei-
ner einzigen Hilfsvariablen gleich der Summe aus dem Horvitz-Thompson-Schät-
zer und der Differenz zwischen dem Summenwert der Hilfsvariablen in der Popu-
lation und dem Summenwert der mit dem Designgewicht multiplizierten Werte
der Hilfsvariablen in der Stichprobe.
432 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

(∑U x k − ∑ s dk x k ) kann als Regressionsanpassung des Horvitz-Thompson-Schätzers


angesehen werden. Haben wir statt einer einzigen Hilfsvariablen allgemein J Hilfs-
variablen xj (j = 1,…,J) vorliegen, so gibt es statt eines einzigen Regressionskoeffizi-
enten B insgesamt J Regressionskoeffizienten Bj, die zusammen einen Spaltenvektor

⎛ B1 ⎞
⎜ ⎟
⎜ B2 ⎟
⎜# ⎟
B=⎜ ⎟
⎜ Bj ⎟
⎜# ⎟
⎜ ⎟
⎜ BJ ⎟
⎝ ⎠

bilden.
Für J Hilfsvariablen nimmt der allgemeine Regressionsschätzer die folgende
Form an:

YˆGREG = YˆHT + ¦ Jj =1 Bˆ j ( ¦U x j − ¦ S dk x j )
.
bzw.

§ Bˆ1 ×
¨
(¦ U
x 1 − ¦ S d k x1 ) +·
¸
¨ # # # #¸
¨ ¸
YˆGREG = YˆHT + ¨ Bˆ j × (¦ U
x j − ¦ S dk x j ) +¸
¨ # # # # ¸¸
¨
¨ Bˆ J ×
© (¦ U
x J − ¦ S dk x j ) ¸
¹

oder in Matrixschreibweise:
§ Bˆ1 ·
¨ ¸
¨ # ¸
(¦ ) (¦ ) ( )
'
YˆGREG = YˆHT + ª
¬ U
x1 − ¦ S d k x 1 … U
x1 − ¦ S d k x 1 … ¦U ¦ S ¼ ¨¨ Bˆ j ¸¸
x 1 − d k x 1 º ×
¨ # ¸
¨ ¸
¨ Bˆ J ¸
© ¹
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 433

bzw.

(¦ ) (¦ )
'
YˆGREG = YˆHT + ¦B j U
x *k − ¦ S dk x *k = YˆHT + U
x *k − ¦ S dk x *k Bs ,d
j =1

mit
x *k = ( x1k ,…, x jk ,…, x Jk ) ’,

(∑ x ) = (∑ ∑ ∑ ∑ )
’ ’
*
U
k
U
x k1 U
xk2 ! U
x kj ! U
x kJ
und

(∑ ) (∑ ∑ ∑ ∑ )
’ ’

S
dk x *k = S
d1k x1k ) S
d2 k x 2 k ) … S
d jk x jk ) … S
d Jk x Jk )
.
Zum Verständnis der Formel sind als Erinnerung in Box IV.4 noch einmal die Re-
geln für die Addition und die Multiplikation von Matrizen beschrieben. In einigen
Formeln der Literatur mit Matrizendarstellung spielt auch die Division von Matri-
zen eine Rolle. Hier sei der Leser auf die einschlägige Literatur in linearer Algebra
verweisen (vgl. z.B. Jänich, 2013; Kowalsky & Michler, 2003; Namboodiri, 1984).
Exkurs VI.4: Operationen mit Matrizen

A. Addition und Subtraktion


Sind A und B Matrizen der gleichen Ordnung, so können wir beide Matrizen
addieren und subtrahieren. Als Ergebnis erhalten wir eine Matrix C der gleichen
Ordnung wie A und B:

⎛ a11 … a1 j … a1m ⎞ ⎛ b11 … b1 j … b1m ⎞


⎜ ⎟ ⎜ ⎟
⎜ # # # # # ⎟ ⎜ # # # # # ⎟
A = ⎜ ai1 … aij … a jm ⎟ und B = ⎜ bi1 … bij … b jm ⎟
⎜ ⎟ ⎜ ⎟
⎜ # # # # # ⎟ ⎜ # # # # # ⎟
⎜ an1 … anj … anm ⎟ ⎜ bn1 … bnj … bnm ⎟
⎝ ⎠ ⎝ ⎠
Dann ergibt sich C = A + B mit
cij = aij + bij (i = 1, …, n; j = 1, …, m ).
434 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

B. Multiplikation
Sei A eine Matrix der Ordnung p × n und B eine Matrix der Ordnung n × m.
Dann ergibt sich als Ergebnis eine Matrix C = AB der Ordnung p × m mit den
Elementen c kj ( k = 1,…, p; j = 1,…, m ) , dergestalt, dass gilt

c kj = ak1b1 j + …+ akibij + …+ aknbnj .

Sei z.B. A eine 2 × 3 – Matrix


⎛2 3 6⎞
A=⎜ ⎟
⎝ 4 1 5⎠

und B eine 3 × 4–Matrix


⎛6 1 2 8 ⎞
⎜ ⎟
B = ⎜2 8 6 0 ⎟
⎜ 4 3 7 −8 ⎟
⎝ ⎠

C = AB wäre dann die aus der Multiplikation resultierende 2 × 4-Matrix


⎛ 42 44 64 −32 ⎞
C =⎜ ⎟
⎝ 46 27 49 −8 ⎠

Als Beispiel für die Berechnung eines einzelnen Elements von C nehmen wir das
Element c24. Dieses berechnet sich wie folgt:

c24 = a21b14 + a22b24 + a23b34 = 4 × 8 + 1 × 0 + 5 × ( −8 ) = 32 + 0 − 40 = −8

C. Inverse:
Die Inverse einer quadratischen Matrix A (quadratisch: gleiche Anzahl von Zei-
len und Spalten) ist definiert als eine Matrix A^(-1), welche die Eigenschaft hat,
dass
AA-1 = A-1A = I.
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 435

I ist die Identitätsmatrix. Hier als Beispiel eine Identitätsmatrix der Ordnung 3×3:

⎛1 0 0 ⎞
⎜ ⎟
⎜0 1 0⎟
⎜ 0 0 1⎟
⎝ ⎠

Der GREG-Schätzer ist selber nur annähernd erwartungstreu. Der Bias ist aber zu
vernachlässigen. Mit größer werdendem Stichprobenumfang nähert sich das Ver-
hältnis von Bias und Standardfehler dem Wert 0. Das Subskript s,d beim Vektor der
Regressionskoeffizienten soll die Abhängigkeit der Koeffizienten vom Design und
der Stichprobe signalisieren. Die Schätzung des Vektors Bs,d nach der Methode der
kleinsten Quadrate ergibt:

( ∑ (d x ) x )
−1

(∑ )

Bs , d = S
k
*
k
*
k
S
dk x *k y k

wobei dk wieder das Designgewicht bezeichnet. xk bezeichnet den Zeilenvektor der


Werte des Elements k auf den J Hilfsvariablen und x΄k den sich durch Transposition
von xk ergebenden Spaltenvektor. yk ist der Wert des Elements k auf der Zielvaria-
blen y.
( )
∑S x*k − ∑S dk x*k Bs ,d ist die Regressionsanpassung (engl.: regression adjust-

ment). Hat man den Summenwert geschätzt, so erhält man die Schätzung des Po-
pulationsmittelwerts mittel Division durch N, d.h. es gilt:
y GREG = y HT + ( x − x HT ) Bs ,d

Dabei ist
x ’ = ( x1 x 2 … x j … x J ) ’

der Zeilenvektor der Mittelwerte der J Hilfsvariablen über alle k Elemente der Po-
pulation U und

x HT = ( x1, HT x 2, HT … x j , HT … x J , HT ) ’

der Zeilenvektor der Horvitz-Thompson-Schätzungen der Populationsmittelwerte


der J Hilfsvariablen auf Basis der n Elemente der Stichprobe s. Haben wir nur eine
einzige Hilfsvariable x vorliegen, müssen wir nur einen einzigen Regressionskoeffi-
zienten B̂ schätzen und der Schätzer für das Populationstotal der Zielvariablen y ist
436 VI.3 Die Schätzung von Populationsparametern (Schätzphase)

Yˆ = N ¬ª y s ,d + ( xU − x s ,d ) ¼º Bˆ s ,d

mit Bˆ s ,d = ¦  dk ( x k − x s ,d )( y k − y s ,d ) / ¦  d k ( x k − x s ,d )
2

Der Schätzer yˆ=U für den Populationsmittelwert der Zielvariablen y ergibt sich mit-
tels Division durch N. Er hat unter der Annahme einer einfachen Zufallsauswahl
die Form
y = y s + Bˆ ( xU − x s ) .
U

Als Spezialfall des GREG-Schätzers ergibt sich der bekannte Verhältnisschätzer


(auch: Ratio-Schätzer). Angenommen, wir wollen ein Verhältnis von zwei unbe-
kannten Populationstotals
Y ∑U y k
R= =
X ∑U x k

schätzen.
Der Schätzer für dieses Verhältnis würde dann lauten:


Rˆ =

Also wäre Ŷ = R̂ X̂. Identifizieren wir R̂ mit der Schätzung des Regressionskoeffizi-

enten B, also mit Bˆ = unter der Einschränkung, dass die Residuen 0 sind, so

erhalten wir durch Einsetzungen unter der Bedingung, dass wir nur eine einzige
Hilfsvariable x vorliegen haben, die folgende Formel für die Berechnung des Schät-
zers Ŷ für den Summenwert Y der Variablen y:

y s ,d
Y˘GREG NxU
x s ,d

Als Schätzer für den Populationsmittelwert ȳ ergibt sich entsprechend:

y y s ,d xU
U , GREG
xU y s ,d .
x s ,d x s ,d

Statt ŶGREG und yˆ=U, GREG wird auch oft ŶR und yˆ=R geschrieben. Der Verhältnisschätzer
multipliziert also den Stichprobenmittelwert mit einem Korrekturfaktor.
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 437

VI.3.5.3 Verbesserung der Schätzer durch nachträgliche Schich-


tung (Poststratifikation)

Verbesserungen der Schätzqualität lassen sich auch durch eine nachträgliche


Schichtung (Poststratifikation) erreichen. Unter Poststratifikation (engl.: poststra-
tification) bzw. nachträglicher Schichtung versteht man eine Einteilung der Popula-
tion ähnlich wie bei geschichteten Stichproben (siehe Abschnitt.4.3) in insgesamt
G Gruppen auf der Basis von Informationen der Auswahlgrundlage. Im Fall der
Poststratifikation wird diese Einteilung aber nicht in der Designphase, sondern
erst in der Schätzphase vorgenommen. Da die Schichtungsmerkmale als qualitative
Hilfsvariablen angesehen werden können, können Postratifikationsschätzer auch
als Regressionsschätzer aufgefasst werden. Der Postratifikationsschätzer für einen
Summenwert in der Population besitzt folgende Form:
G
dk y k
YˆPS = ¦N g ¦ ‰ .
g =1 Nˆ g

1
dk = ist wieder das Designgewicht, Nˆ g = ¦ ‰ dk ist die geschätzte Anzahl der
πk
Elemente in Gruppe g der Stichprobe s.
Unter der Bedingung einer einfachen Zufallsauswahl gilt:

G
YˆPS = ¦N g y s g .
g =1

Für die Schätzung des Populationsmittelwerts ergibt sich:

ˆ G
y = YPS = 1 N g y s g .
PS ¦
N N g =1

Bei nachträglicher Schichtung ergibt sich der Schätzer für den Populationsmittel-
wert also als durch die Anzahl der Elemente in den Schichten gewichtete Summe
der Schichtmittelwerte.
Dieser Schätzer resultiert, wenn jeder Messwert des Elements k einer Gruppe g
mit dem Poststratifikationsgewicht Ng/ng multipliziert wird.
438 VI.4 Zusammengesetzte Stichprobendesigns

( )
Als Varianz V y PS des Mittelwertschätzers ergibt sich im Fall einer einfa-
chen Zufallsauswahl

G G
1 f 1 f

V y PS
n
¦Wg S 2g 
g 1 n2
¦ 1  W S .
g 1
g
2
g

In dieser Formel ist Wg N g des Häufigkeitsanteils der Schicht g an der Gesamt-


N
häufigkeit N und S2g die Varianz der Zielvariablen y in der Population. V ( y PS ) kann
geschätzt werden durch

( ) 1− f 1− f
G G
Vˆ y PS =
n ¦W sg =1
2
g g +
n2 ¦ (1 − W ) s
g =1
g
2
g .

s2g ist die Stichprobenvarianz in Gruppe g. Wir werden uns später mit der nachträg-
lichen Schichtung auch im Zusammenhang mit Gewichtungsverfahren bei Ausfäl-
len befassen (vgl. Teil VII).

VI.4 Zusammengesetzte Stichprobendesigns

VI.4.1 Vorbemerkung

Im letzten Abschnitt ging es um Schätzer für einstufige Auswahlverfahren, bei


denen eine Stichprobe aus einer Grundgesamtheit im Rahmen einer einzigen
Auswahlstufe gezogen wird und bei denen die Stichprobenauswahl nicht von ei-
ner Vorstrukturierung der Grundgesamtheit bestimmt wird. Die nachfolgenden
Ausführungen behandeln die Zweiphasenauswahl, die geschichtete Auswahl, die
Klumpenauswahl und die mehrstufige Auswahl. Diese Verfahren lassen sich durch-
aus miteinander und mit den einstufigen Verfahren zu neuen Stichprobendesigns
kombinieren. Beispiele wäre etwa eine geschichtete Klumpenauswahl mit einfacher
Zufallsauswahl der Klumpen innerhalb der Schichten oder die geschichtete Aus-
wahl geschichteter Klumpen. Eine Anpassung der Formeln für die Schätzer an die
neuen Designs ist dabei oft ohne große Schwierigkeiten möglich.
VI.4 Zusammengesetzte Stichprobendesigns 439

VI.4.2 Zweiphasenauswahl

Eine Zweiphasenauswahl (engl.: two-phase sampling) besteht darin, dass in einer


ersten Phase aus der Grundgesamtheit U eine Stichprobe s und in einer zweiten
Phase aus dieser Stichprobe wiederum eine Teilstichprobe r gezogen wird (vgl. Ab-
bildung VI.6). Dabei können sich die Stichprobendesigns beider Phasen durchaus
unterscheiden. Der einfachste Fall liegt dann vor, wenn für beide Phasen nach ei-
nem Design der einfachen Zufallsauswahl gezogen wird. Zieht man in mehr als
zwei Phasen, so ergibt sich eine Multiphasenauswahl.

Abbildung VI.6: Zweiphasenauswahl

Die Zweiphasenauswahl kann mehrere Vorteile haben wie:

• Gezielte Auswahl von Substichproben auf Basis von in der Stichprobe der ersten
Phase extensiv gesammelten Hilfsinformationen. Dies ist etwa der Fall, wenn
Personen mit bestimmten Merkmalsausprägungen in der zweiten Phase noch
einmal intensiver befragt werden sollen (z.B. Verbindung von „quantitativen“
und „qualitativen“ Befragungsmethoden). Brick, Williams und Montaquila
(2011) geben ein Beispiel für eine postalische zweiphasige Auswahl. In der ers-
ten Phase wurden die Haushalte der Bruttostichprobe per Mail nach Kindern
gescreent. in der zweiten Phase wurden die Kinder befragt.
440 VI.4 Zusammengesetzte Stichprobendesigns

• Ein weiteres wichtiges Beispiel betrifft das Verhältnis von Ausgangsstichprobe


und Responder-Stichprobe. Die Menge der Respondenten kann als Substich-
probe der Ausgangsstichprobe aufgefasst werden. Hier kann in der Ausgangs-
stichprobe versucht werden, für alle Befragten einschließlich der Nichtrespon-
denten genügend Informationen für eine spätere Nonresponse-Gewichtung zu
sammeln (z.B. unter Einsatz eines Nonresponder-Fragebogens oder über Para-
daten vgl. Saksaugh & Kreuter, 2011).
• Zweiphasen-Stratifikation (engl.: two-phase stratification; vgl. Särndal, Swens-
son & Wretman, 1992, p. 350ff): Um gute Schichtungsvariablen zu bekommen,
kann zunächst eine Ausgangsstichprobe mit großem Stichprobenumfang ge-
zogen werden und dort eine Schichtung von Merkmalen für die zweite Phase
vorzunehmen, was den Vorteil einer erheblichen Reduktion der Varianz der
Schätzer hat.

Auch die Stichprobenauswahl auf der Basis eines Access-Panels kann als Zweipha-
senauswahl betrachtet werden. Zunächst wird eine Stichprobe von Panelteilneh-
mern rekrutiert, anschließend werden aus dieser Stichprobe weitere Stichproben
generiert.
Obwohl die Zweiphasenauswahl von der Konzeption her einfach erscheint, sind
die Schätzer im Fall einer Zweiphasenauswahl nicht so ohne weiteres zu berechnen.
Dies liegt einerseits daran, dass in der zweiten Auswahlphase ein anderes Stichpro-
bendesign gewählt werden kann als in der ersten Phase, andererseits, damit zu-
sammenhängend, daran, dass für die Berechnung des Schätzers die Kenntnis der
Inklusionswahrscheinlichkeiten notwendig ist. Dafür müssen aber alle Auswahl-
wahrscheinlichkeiten der Stichproben bekannt sein, auch die bedingten Wahr-
scheinlichkeiten einer Stichprobe der zweiten Stufe, gegeben die Stichproben der
ersten Stufe. Ein sich anbietender Schätzer für einen Summenwert wäre der bereits
bekannte Horvitz-Thompson-Schätzer

YˆHT = ¦  dk y k

mit dk = 1 / π k .
In diesem Ausdruck wird die Inklusionswahrscheinlichkeit Sk über die Summe
der Auswahlwahrscheinlichkeiten p(r) der Stichproben r, denen das Element k an-
gehört, bestimmt:
π k = ∑p ( r ) .
r †k
VI.4 Zusammengesetzte Stichprobendesigns 441

Diese Auswahlwahrscheinlichkeiten sind die gemeinsamen Wahrscheinlichkeiten


für die Auswahl der Stichprobe r über beide Phasen:

p ( r ) = ∑p ( s ) ( p ( r|s ) .
s ⊃r

In Worten:
Die Wahrscheinlichkeit der Auswahl einer Stichprobe r ist gleich der Summe der
Wahrscheinlichkeiten für das gemeinsame Auftreten von r und allen Stichproben
s, denen r angehört.

VI.4.3 Geschichtete Stichprobenauswahl

VI.4.3.1 Grundbegriffe und Stichprobenallokation

Bei der geschichteten Stichprobenauswahl (engl.: stratified sampling) wird die


Grundgesamtheit vor der Auswahl in sog. Schichten (Strata) eingeteilt. Die Vari-
ablen, die für die Stratifizierung herangezogen werden, heißen Schichtungs- bzw.
Stratifizierungsvariablen (engl.: stratification variables) Die Auswahl geschieht dann
innerhalb der Schichten (vgl. Abbildung VI.7).
Gründe für eine Schichtung können darin liegen sicherzustellen, dass auf je-
den Fall die relevanten Variablen mit genügenden Fallzahlen zur Verfügung stehen
oder darin, die Varianz des Schätzers zu minimieren.
Im Fall einer geschichteten Stichprobenauswahl wird die Grundgesamtheit U
also in H Schichten U 1 ,U 2 ,...,U h ,...,U H mit den Umfängen N 1 , N 2 ,..., N h ,..., N H
zerlegt, wobei gilt: N = N 1 + N 2 + …+ N h + …+ N H = ∑ h=1 N h .
H
442 VI.4 Zusammengesetzte Stichprobendesigns

Abbildung VI.7: Einteilung in zwei Schichten nach den Merkmalen „Geschlecht“ und „Alter“

Die Ziehungen innerhalb der Schichten können proportional oder disproportio-


nal erfolgen. Im Fall einer proportionalen Ziehung werden die Elemente in einer
Schicht nach den Anteilen gezogen, mit denen sie in der Grundgesamtheit vertre-
ten sind. Ist dies nicht der Fall, spricht man von einer disproportionalen Ziehung.
In diesem Fall ist eine Gewichtung erforderlich, welche die Verzerrungen durch die
Disproportionalität aufhebt. Ein Grund für eine disproportionale Ziehung kann
z.B. sein, dass bei einer proportionalen Schichtung eine Fallzahl resultieren wür-
de, die nur eine ungenügende Schachtelungstiefe für Subgruppenanalysen erlaubt
oder die nicht dazu geeignet ist, komplexe statistische Analysen in den Schichten
durchzuführen.

Beispiel VI.4.4 (Disproportionale Schichtung): Schichtung nach Ost- u.


Westdeutschland

Ein bekanntes Beispiel für eine disproportionale Schichtung ist die Schichtung
nach Ost und West in der Allgemeinen Bevölkerungsumfragen der Sozialwis-
senschaften (ALLBUS). Würde man proportional in den Erhebungsgebieten
ziehen, hätte man eine für Subgruppenanalysen ungenügende Anzahl von Fäl-
len im Osten. Daher wird im Osten eine größere Stichprobe gezogen als ihrem
Anteil in der Gesamtpopulation der deutschen Wohnbevölkerung entspricht.

Die Aufteilung der gesamten Stichprobe auf die Schichten wird auch als Allokation
bezeichnet. Eine optimale Allokation, d.h. eine Allokation, welche eine optimale
Schätzung der Population unter Annahme gleicher Kosten in den Schichten h er-
VI.4 Zusammengesetzte Stichprobendesigns 443

möglicht, ist die so genannte Neyman-Allokation. Gemäß der Neyman-Allokation


berechnet sich die Anzahl der in einer Schicht h zu ziehenden Elemente nk wie folgt:

N h S yh
nh = n

H
h =1
N h S yh

wobei H die Anzahl der Schichten, Nh die Anzahl der Elemente in der h-ten Schicht
und Syh die Standardabweichung der Untersuchungsvariablen y in der h-ten Schicht.
Geht man von unterschiedlichen Kosten in den Schichten aus, so berechnet sich
der optimale Stichprobenumfang nach der allgemeineren Formel:

N h S yh / 2 ch
nh = ( C − c0 )

H
h =1
N h S yh 2 ch

In dieser Formel bezeichnet c0 feste Overheadkosten, während ch > 0 die Erhebungs-


kosten für Element der h-ten Schicht bezeichnet. C bezeichnet die Gesamtkosten:

H
C = c0 + ∑nhc h .
h =1

Ein Problem der obigen Formeln für eine (kosten-)optimale Allokation besteht
darin, dass die Varianz Syh in der h-ten Schicht Uh bekannt sein muss, eine Voraus-
setzung, die im Allgemeinen in der Designphase eher nicht erfüllt ist; erst nach der
Erhebung könnte man eine Schätzung der Varianz vornehmen. Eine realistischere
Formel erhält man, wenn man eine Hilfsvariable x zur Verfügung hat, die mit der
Zielvariablen y hoch korreliert ist und die Standardabweichungen dieser Hilfsva-
riablen in den einzelnen Schichten bekannt sind. In diesem Fall kann Formel zur
Berechnung von nh auf die Hilfsvariable bezogen werden:

N h Sxh
nh = n .

H
h =1
N h Sxh

In dieser Formel ist Sxh die Standardabweichung der Hilfsvariablen x in Schicht


h. Diese Schätzung ist nur dann optimal, wenn die Korrelation zwischen Hilfs-
variablen und Zielvariablen 1,0 ist. Andernfalls ist sie nur näherungsweise op-
timal.
444 VI.4 Zusammengesetzte Stichprobendesigns

Weitere alternative Allokationen sind die proportionale Allokation, die zum


Summenwert von y proportionale Allokation und die zum Summenwert einer Hilfs-
variablen x proportionale Allokation. Die proportionale Allokation ist definiert
durch:
Nh
nh n .
N

Diese Allokation erhält man, wenn man annimmt, dass die Varianzen von y in allen
Schichten gleich sind. Eine zum Summenwert von y proportionale Allokation ist
definiert durch


Nh
yk
nh =n k =1
.

N
k =1
yk

Diese Allokation ist optimal, wenn der Variationskoeffizient in allen Schichten


gleich ist. Der Variationskoeffizient cvyh in einer Schicht h ist definiert durch

S yh
cv yh .
yh

Ersetzt man die Zielvariable y durch eine mit y korrelierte Hilfsvariablen x, so er-
hält man eine zum Summenwert der Hilfsvariablen x proportionale Allokation.

VI.4.3.2 Schätzer für geschichtete Auswahlverfahren

Die Schätzer bei geschichteter Stichprobenauswahl berücksichtigen die Zerlegung


der Grundgesamtheit U in H Schichten U 1 ,U 2 ,...,U h ,...,U H . Alle Schätzer in den
folgenden Ausführungen sind Horvitz-Thompson-Schätzer und beziehen die De-
signgewichte mit ein. Wir verzichten aber aus Gründen der Übersichtlichkeit auf
das Subscript „HT“ als Hinweis auf die Horvitz-Thompson-Qualität.
Bei einer geschichteten Zufallsauswahl ergibt sich bei bekanntem N folgende
Formel für den Schätzer Ŷ des Populationstotals der Variablen y:

H
YˆST = ¦Yˆh
h =1
VI.4 Zusammengesetzte Stichprobendesigns 445

Für den Horvitz-Thompson-Schätzer –


yˆU des Populationsmittelwerts ȳU ergibt sich:

H
ˆ
y = ¦ h =1Yh ,
ST
N
yk
wobei Yˆh = ¦  Š der Horvitz-Thompson-Schätzer für den Summenwert in der
π kh
h-ten Schicht ist und πkh die Wahrscheinlichkeit für die Inklusion eines Elements k
in der h-ten Schicht.
Bei einfacher Stichprobenauswahl ergibt sich für πkh:

nh
π kh = ,
Nh

wobei Nh der Umfang der h-ten Schicht und nh der Stichprobenumfang der in der
h-ten Schicht gezogenen Stichprobe sh ist. Der Schätzer für den Summenwert in der
Population hat in diesem Fall folgende Form:

H
YˆST = ¦N h y sh ,
h =1

wobei:

yk
y sh = ∑ S h
nh

der Mittelwert der in der h-ten Teilpopulation Uh gezogenen Stichprobe sh ist. Als
Schätzer für den Populationsmittelwert ergibt sich bei einem geschichteten Stichpro-
bendesign mit einfacher Zufallsauswahl in jeder Schicht:

H H
y = N h y h = Nh 1
ST ∑
h =1 N

h =1
∑ Sh
× yk .
N nh
446 VI.4 Zusammengesetzte Stichprobendesigns

Beispiel VI.4.5:

Angenommen, wir hätten die Population aller in der Bundesrepublik Deutsch-


land lebenden Personen im Alter ab 18 Jahren und diese in zwei Schichten, eine
Teilpopulation West und in eine Teilpopulation Ost, zerlegt. Dann ergibt sich für
den Mittelwert von y, z.B. vom Nettoeinkommen, in der BRD:

N West N west
y BRD = yWest + y Ost .
N N

VI.4.4 Klumpenauswahl

Das Design der Klumpenauswahl (engl.: cluster sampling) geht davon aus, dass
die Population U in allgemein M Subpopulationen U 1 ,U 2 ,...,U i ,...,U M zerlegt
werden kann. Aus diesen M Subpopulationen wird dann eine Stichprobe s von
m Subpopulationen gezogen, deren Elemente vollständig erhoben werden. Bei
der Klumpenauswahl (auch: einstufige Klumpenauswahl; engl.: single stage cluster
sampling) handelt es sich um eine direkte, einstufige Auswahl, wobei zunächst nicht
die Elemente der Population selber, sondern Mengen solcher Elemente gezogen
werden. Eine weitere Auswahlstufe findet nicht statt, da alle Elemente eines Klum-
pens untersucht werden. Eine Klumpenauswahl bietet sich an, wenn eine direkte
Auswahl von Elementen nicht oder nur zu sehr hohen Kosten möglich ist. Dies
ist etwa dann der Fall, wenn keine Auswahlgrundlage für eine direkte Stichprobe
der Untersuchungseinheiten zur Verfügung steht. Ein Beispiel wäre die Population
aller Schüler, die eine Hauptschule besuchen. Da es keine Auswahlgrundlage aller
Hauptschüler gibt, könnte man eine Stichprobe von Hauptschulen ziehen und in
diesen Hauptschulen alle Schüler untersuchen. Mit hohen Kosten und einer Ge-
fährdung der Durchführbarkeit wäre zu rechnen, wenn die Elemente der Populati-
on weit gestreut sind und daher mit hohen Interview-Kosten und langen Feldzeiten
zu rechnen wäre.
Die formale Darstellung des Schätzers für das Design der Klumpenauswahl er-
fordert Begriffe, deren hier verwendete symbolische Bezeichnungen in Tabelle IV.2
zusammengestellt sind.
VI.4 Zusammengesetzte Stichprobendesigns 447

Tabelle VI.2: Notation im Überblick

Ebene Name Anzahl der Elemente Elemente


Population U N y1,…,yk,…,yN
Zerlegung von U in UcL M U1,…,Ui,…,UM
Klumpen
Stichprobe von scL m U1,…,Ui,…,Um
Klumpen
Einzelne Klumpen: Ui Є scL Ni y1,…,yk,…,yNi

Abbildung VI.8 erläutert die Auswahl am Beispiel einer Population von Haupt-
schülern einer Stadt, die sich auf 8 Hauptschulen verteilen.

Abbildung VI.8: Klumpenauswahl

Weitere zentrale Symbole sind in Tabelle VI.3 zusammengestellt.

Tabelle VI.3: Wichtige Begriffe in der Clusterauswahl-Schätzung und ihre Notation


Symbol Bedeutung
Y Summenwert der Variablen y in der Population
Yi Summenwert der Variablen y in Klumpen i
ȳi Mittelwert von y im Klumpen i
ȳ Mittelwert von y in der Population U
ŶCL,HT Horvitz-Thompson-Schätzer für das Populationstotal im De-
sign der Klumpenauswahl
yˆ=CL,HT Horvitz-Thompson-Schätzer für den Populationsmittelwert im
Design der Klumpenauswahl
V(ŶCL,HT) Varianz des Schätzers des Totals ŶCL,HT
V̂(ŶCL,HT) Schätzer der Varianz des Schätzers des Totals
448 VI.4 Zusammengesetzte Stichprobendesigns

Sei Ni die Anzahl aller Elemente des Klumpens Ui. Dann ist der Summenwert Yi
einer Variablen y in Ui gegeben durch:

Ni
Yi = ∑y k .
k =1

Der Mittelwert im Klumpen i ist dann:

1
yi Yi .
Ni

Der Umfang N der Population lässt sich auch als Summe der Umfänge Ni aller
Klumpen Ui in der Zerlegung UCL darstellen:

M
N = ∑N i
i =1

Der Summenwert (Populationstotal) der Zielvariablen y in der Population ist


M
Y = ∑Yi
i =1

Der Summenwert einer Zielvariablen über alle Klumpen in der Klumpenstichpro-


be sCL ist

m
YsCL = ∑Yi
i =1

Entsprechend berechnet sich der mittlere Summenwert in der Klumpenstichprobe


wie folgt:


m
Yi
YsCL = i =1

m
Der zu schätzende Mittelwert der Population U ist:

1 M
y= ∑Yi .
N i =1
VI.4 Zusammengesetzte Stichprobendesigns 449

Der Horvitz-Thompson-Schätzer für das Populationstotal ergibt sich als Summe


der Schätzungen der Summenwerte in den einzelnen Klumpen:

m
Yi
YˆCL ,HT = ¦ .
i =1 π sc ,i

In der Formel sind m die Anzahl der Klumpen in der Stichprobe sCL der Klumpen
und Yi der Summenwert von y im Klumpen i der Stichprobe sCL. πsc,i ist in diesem
Fall die Inklusionswahrscheinlichkeit des Klumpens i. Da jedes Element der Popu-
lation U, das zu einem Ui gehört, keinem anderen Uj angehören kann und alle Ele-
mente eines Klumpens ausgewählt werden, gilt für ein Element k Є Ui, dass πk = πsc,i.
Als Schätzer für den Mittelwert von y in der Population U ergibt sich:

y 1 ˆ 1 m Yi
CL , HT
N
YCL , HT ¦ .
N i 1 S sc ,i

Wenn wir aus Gründen der Übersichtlichkeit den Teil sc des Subskripts bei πsc,i
weglassen, ergibt sich als Varianz des Schätzers für das Populationstotal ŶHT,CL in
der Population:

Yˆk Yˆl
( )
m m
V YˆCL , HT = ¦¦ (π kl − π kπ l )
k =1 l =1 πk πl

Die Varianz kann erwartungstreu geschätzt werden durch

Yˆk Yˆl
( )
m m
1
Vˆ YˆCL ,HT = ¦¦ (π kl − π kπ l ) .
k =1 l =1 π kl πk πl

Zwei wichtige Spezialfälle der Klumpenauswahl betreffen die einfache Zufallsaus-


wahl der Klumpen und die größenproportionale Zufallsauswahl der Klumpen.

Einfache Zufallsauswahl der Klumpen ohne Zurücklegen und gleichem


Umfang n aller Klumpen
Für eine einfache Zufallsauswahl SI ist die Inklusionswahrscheinlichkeit für die
Inklusion eines Klumpens aus der Zerlegung UCL in M Klumpen m/M, das Design-
gewicht (inverse Inklusionswahrscheinlichkeit eines Klumpens) also M/m. Infolge-
dessen ergibt sich für die Schätzung des Populationstotals Y:
450 VI.4 Zusammengesetzte Stichprobendesigns

m
m
Yi M m ¦ Yi
YˆCL ,SI = ¦  …Ž Yˆ = ¦ = ¦Yi = M i =1 = MYsCL .
i =1 π i m i =1 m

Als Horvitz-Thompson-Schätzer für den Populationsmittelwert ergibt sich im Fall


der einfachen Zufallsauswahl:

y M
CL , SI
YsCL .
N

In Worten:
Im Fall einer einfachen Zufallsauswahl ist der Schätzer für den Populationsmittel-
wert der mit dem Verhältnis von Anzahl der Klumpen zu Umfang der Population
gewichtete Mittelwert von y in der Vereinigung aller Klumpen aus sCL.

Man kann zeigen, dass die Varianz von y CL , SI durch folgende Formel ausgedrückt
werden kann:

( ) ⎛ M ⎞ 1− f
V y CL , SI = ⎜ ⎟
⎝N⎠ m
SYU CL

mit f m / M (Auswahlsatz für die Klumpen) und

1 M
∑ (Yi − YU CL )
2
2
SYU =
CL
M − 1 i =1

wobei


M
Yi
YU CL = i =1

den Mittelwert der Summenwerte in den Klumpen über alle Klumpen der Zerlegung
UCL der Klumpen darstellt.
2
SYU CL
kann geschätzt werden durch
VI.4 Zusammengesetzte Stichprobendesigns 451

1 m
( Yi − YsCL ) .
2
SˆYU
2
= ¦
CL
m − 1 i =1

Exkurs VI.5: Beurteilung der Homogenität eines Designs der Klumpenaus-


wahl bei einfacher Zufallsauswahl:

Die Homogenität einer Klumpenauswahl betrifft das Verhältnis der Varianz in-
nerhalb der Klumpen zur Varianz zwischen den Klumpen. Sie lässt sich bestim-
men über den Homogenitätkoeffizienten

S 2 − SW2 SW2
ρ= 2
=1− 2 .
S S

2
In diesem Ausdruck ist SW die gepoolte Varianz innerhalb der Klumpen und
2
S die Gesamtvarianz der Variablen y in der Population. ρ misst also, welcher
Anteil der Gesamtvarianz von y auf die Varianz innerhalb der Klumpen zurück-
zuführen und ist und entspricht dem Intraklassenkorrelationskoeffizienten (vgl.
z.B. Hartung, Elpelt & Klösener, 1995, S. 290; Hays, 1994, p. 332). Eine hohe
Homogenität bedeutet, dass die Varianz innerhalb der Gruppen klein ist und in-
folgedessen also die Werte der Variablen y innerhalb der Klumpen ähnlich sind.
Eine niedrige Homogenität besteht dann, wenn die Varianz innerhalb groß ist.
2
Die gepoolte Varianz innerhalb, SW , berechnet sich wie folgt:

M Ni
1
∑∑ ( y k − yi )
2
SW2 =
N − M i =1 k =1

In diesem Ausdruck ist ȳi der Mittelwert von y im Klumpen i.


Die Intraklassenkorrelation lässt sich auch in anderen Termini beschreiben. In
der Varianzanalyse ist der folgende Ausdruck verbreitet:

MSB − MSW
ρ= ,
MSB + ( n. − 1) MSW
452 VI.4 Zusammengesetzte Stichprobendesigns

wobei:
MSB: Model Mean Square (Mittlere Quadratsumme zwischen)
MSW: Means Square Error (Mittlere Quadratsumme innerhalb)
n: Stichprobenumfang pro Gruppe, falls balanciert.
Betrachten wir den Fall, dass alle Clustergrößen gleich sind, so ergibt sich zwi-
schen dem Designeffekt der Schätzung eines Summenwerts d e f f (Ŷ) (Verhältnis
der Varianzschätzung auf Grund einer einfachen Zufallsauswahl in den Klum-
pen und der Varianzschätzung bei einer direkten einfachen Zufallsauswahl aus
der Population) und dem Homogenitätskoeffizienten ρ folgende Beziehung:

d e f f (Ŷ) = 1 + (N - 1)ρ

In dieser Formel ist N =Ni bei gleichen Clusterumfängen. Der Formel kann ent-
nommen werden, dass der Designeffekt den Wert 1 annimmt, wenn die Intra-
klassenkorrelation 0 ist. In diesem Fall gibt es keinen Unterschied in der Präzi-
sion des Schätzers zwischen dem Design der Klumpenauswahl und dem Design
der einfachen Zufallsauswahl. Der Designeffekt erhöht sich mit steigender In-
traklassenkorrelation bzw. mit steigender Homogenität innerhalb der Klumpen,
was gleichbedeutend mit einem Präzisionsverlust durch die Klumpung ist.

Größenproportionale Klumpenauswahl
Eine größenproportionale Klumpenauswahl ist dadurch gekennzeichnet, dass die
Inklusionswahrscheinlichkeit eines Klumpens gleich dem Verhältnis des Umfangs
Ni des Klumpens i zum Umfang N der Population gesetzt wird, d.h. es gilt:

Ni
πi = .
N

Als Horvitz-Thompson-Schätzer für den Summenwert von y in der Population er-


gibt sich in diesem Fall:

m
Yi m Yi m
NYi m
Yi m
YˆCL = ¦ = ¦ =¦ = N¦ = N ¦y i .
i =1 π i i =1
N i i =1 N i i =1 N i i =1
N
VI.4 Zusammengesetzte Stichprobendesigns 453

Als Schätzer für den Populationsmittelwert ergibt sich:

m
y = YCL = N ¦ i =1y i = y i .
ˆ m

CL
N N ¦
i =1

Im Fall der größenproportionalen Auswahl der Klumpen ist also der Schätzer für
den Populationsmittelwert von y gleich dem Mittelwert der Mittelwerte aller Klum-
pen der Klumpenstichprobe.
Als Varianz von y HT ,CL ergibt sich

( )
V y CL =
1 M
∑N h ( y h − yU )
Nm h =1
2

Sie kann geschätzt werden durch

( )
m m
1 § ·
Vˆ y CL = ¦ N i ¨ y i − ¦y i ¸ .
m ( m − 1) i =1 © i =1 ¹

VI.4.5 Mehrstufige Auswahlverfahren

Auswahlverfahren können in mehreren Stufen erfolgen. Bei der zweistufigen Aus-


wahl (engl.: two-stage sampling) wird die Grundgesamtheit zunächst wie bei der
einstufigen Klumpenauswahl in disjunkte Teilgesamtheiten zerlegt. Diese Teil-
gesamtheiten heißen auch Primäreinheiten (engl.: primary sampling units, kurz:
PSUs). Auf der ersten Stufe erfolgt zunächst eine Zufallsauswahl der PSUs. Auf
der zweiten Stufe wird dann im Unterschied zur einstufigen Klumpenauswahl aus
jeder Primäreinheit eine Zufallsauswahl von Sekundäreinheiten oder „secondary
sampling units“, kurz: SSUs) vorgenommen, wobei diese Sekundäreinheiten sowohl
Elemente als auch Klumpen von Elementen sein können. Sind die SSUs Klumpen,
so wird in jedem Klumpen jedes Element erhoben.
Als mehrstufige Auswahl wird ein Auswahlverfahren betrachtet, das mehr als
zwei Stufen beinhaltet. Bei der dreistufigen Auswahl (engl.: three-stage sampling)
(vgl. Abbildung VI.9) werden die Sekundäreinheiten wiederum in Teilgesamthei-
ten zerlegt, aus denen mittels einer Zufallsauswahl wiederum Tertiäreinheiten ge-
454 VI.4 Zusammengesetzte Stichprobendesigns

zogen. Diese können wieder Elemente oder Klumpen von Elementen sein. Dieser
Prozess wiederholt sich bei mehr als drei Stufen.

Abbildung VI.9: 3stufiger Auswahlprozess

Struktur der Schätzer bei einer zweistufigen Auswahl von Elementen


Wie im Fall der Klumpenauswahl gehen wir davon aus, dass die Grundgesamtheit
U wiederum in eine Menge UCL von M Teilgesamtheiten Ui (i = 1, …, M) die auch
als Primäreinheiten bezeichnet werden, zerlegt ist. Die Anzahl der Elemente in der
i-ten Primäreinheit sei wieder mit Ni bezeichnet. Die beiden Stufen der 2-stufigen
Auswahl sind:
Stufe 1:
Aus der Zerlegung UCL von Primäreinheiten wird eine Stichprobe sCL von m PSUs
unter Zugrundelegung eines Stichprobendesigns pCL(·) gezogen.
VI.4 Zusammengesetzte Stichprobendesigns 455

Stufe 2:
Aus jeder gezogenen Primäreinheit Ui Є sCLwird eine Stichprobe si des Umfangs nsi
von Elementen gemäß einem Stichprobendesign pi(·|sCL) gezogen. Die SSUs sind im
Fall der zweistufigen Auswahl also die Elemente, keine Stichproben.
Man beachte, dass den Ziehungen auf den verschiedenen Stufen unterschiedliche
Stichprobendesigns zugrunde liegen können. So könnte z.B. die Ziehung der Pri-
märeinheiten auf der Grundlage einer einfachen Stichprobenauswahl mit Auswahl-
wahrscheinlichkeiten erfolgen, die Ziehung der Sekundäreinheiten aber mit unter-
schiedlichen Auswahlwahrscheinlichkeiten.
Diese Allgemeinheit kann durch das Prinzip der Invarianz und der Unabhängig-
keit eingeschränkt werden. Das Prinzip der Invarianz des Designs der zweistufigen
Auswahl besagt, dass die Stichprobenauswahl auf der zweiten Stufe nach dem glei-
chen Design wie auf der ersten Stufe erfolgt. Nehmen wir z.B. an, die Auswahl der
PSUs auf der ersten Stufe würde nach dem Design der einfachen Zufallsauswahl
durchgeführt, dann würde im Fall der Invarianz des Designs die Stichprobenaus-
wahl innerhalb aller PSUs ebenfalls nach dem Design der einfachen Zufallsauswahl
erfolgen. Die Annahme der Unabhängigkeit wiederum besagt, dass die Stichpro-
benauswahl in einer PSU unabhängig von den Auswahlen in den übrigen PSUs
erfolgt. Diese Annahmen werden in Folgenden zugrunde gelegt.
Sei

Ni
Yi = ∑y k
k =1

der Summenwert der Variablen y in der Primäreinheit Ui. Ni sei die Anzahl der
SSUs, in Ui.
Wenn auf der ersten Stufe eine Stichprobe sCL von m Primäreinheiten gezogen
wurde, lässt sich die Summe Yi der Variablen y in der Primäreinheit Ui Є sCL durch
den entsprechenden Horvitz-Thompson-Schätzer schätzen:

nsi
yk
Yˆi = ¦ ,
k =1 π k|i

wobei π k|i die bedingte Wahrscheinlichkeit der Inklusion des Elements k unter der
Bedingung der Auswahl der Stichprobe si ist. nsi bezeichnet die Anzahl der Sekun-
däreinheiten, also den Elementen, in der gezogenen Primäreinheit Ui.
456 VI.4 Zusammengesetzte Stichprobendesigns

Die Varianz dieses Schätzers ist

Ni Ni
yk yl
Vi = ∑∑ (π kl|i − π k|iπ l|i ) .
k =1 l =1 π k|i π l|i

Sie kann geschätzt werden durch

m m
Vˆi = ¦¦
(π kl|i − π k|iπ l|i ) y k y l .
k =1 l =1 π kl|i π k|i π l|i

Bei Auswahl einer gleichen Anzahl von Sekundäreinheiten in jeder Primareinheit


vereinfacht sich der Ausdruck für die Varianz (vgl. Särndal, Swensson & Wretman,
1992, p. 136):

2
1 Ni Ni ⎛ yk yl ⎞
Vi = − ∑∑ (π kl|i − π k|iπ l|i ) ⎜⎝ π k|i − π l|i ⎟⎠ .
2 k =1 l =1

Als Formel für den Varianzschätzer ergibt sich:

1 nsi nsi (π kl|i − π k|iπ l|i ) § y k


2
yl ·
Vˆi = − ¦¦ ¨ − ¸ .
2 k =1 l =1 π kl|i © π k |i π l|i ¹

Nachdem wir die Summenwerte für die Primäreinheiten schätzen können, ergibt
sich als Schätzer für den Summenwert von y in der Population U:

m
Yˆi
Yˆ = ¦ ,
i =1 π CL ,i

wobei π CL ,i die Inklusionswahrscheinlichkeit der Primäreinheit Ui bezogen auf die


Partition UCL der Grundgesamtheit U ist.
Die Varianz des Summenwert-Schätzers in einer zweistufigen Zufallsauswahl
V2st setzt sich additiv zusammen aus der Varianz, die auf die Primäreinheiten zu-
rückgeht und der Varianz, die auf die Sekundäreinheiten zurückzuführen ist:

V2 st = VPSU + VSSU
VI.4 Zusammengesetzte Stichprobendesigns 457

wobei:

M M
Yi Y j
VPSU = ∑∑ (π Iij − π Iiπ Ij ) .
i =1 j =1 π Ii π Ij

und


M
Vi
VSSU = i =1
,
π Ii

wobei Vi wie oben definiert ist.


Als Schätzer für den Schätzer der Varianz V2st lässt sich der folgende Ausdruck
ableiten:

(π kl|i − π k|iπ l|i ) YˆiHT YˆjHT + nsI Vˆi


( )
m m
Vˆ2 st YˆHT = ¦¦ ¦
i =1 j =1 π kl|i π Ii π Ij i =1 π Ii

Der zweistufige Fall lässt sich auf mehr als zwei Stufen verallgemeinern (vgl. Särn-
dal, Swensson & Wretman, 1992, S. 144). Dann werden auf der zweiten Stufe nicht
mehr Elemente, sondern Tertiäreinheiten gezogen, die wiederum Elemente oder
weitere Einheiten 4. Stufe, etc. sein können. Ein praktisches Beispiel für eine Aus-
wahl in drei Stufen stellt das ADM-Stichprobendesign für Face-to-Face-Umfragen
dar (vgl. Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V., 2013).
Im Fall einer einfachen Stichprobenauswahl ohne Zurücklegen auf beiden Stu-
fen vereinfachen sich die Formeln für den oben aufgeführten allgemeinen Horvitz-
Thompson-Schätzer. Als Schätzer für das Populationstotal Y ergibt sich in diesem
Fall:

nsi
M m M m M m § ¦ yk ·
Yˆ = ¦N i y si = ¦YˆiHT = ¦N i ¨ k =1 ¸.
m i =1 m i =1 m i =1 ¨ nsi ¸
© ¹

Als Schätzer für den Populationsmittelwert ȳ ergibt sich dann

m
y = M Yˆi .
¦
mN i =1
458 VI.4 Zusammengesetzte Stichprobendesigns

Die Varianz des Schätzers für das Populationstotal ist gegeben durch

1− fI 2 1 − fi 2
( )
V2 st YˆHT = M 2
m
M M
StU I + ¦N i2
m i =1 ns i
SU i .

wobei:
m
fI (Auswahlsatz für die Primäreinheiten)
M
n si
fi (Auswahlsatz für die Sekundäreinheiten innerhalb der Primäreinheit Ui
Ni

∑ Yi ⎞
M
1
∑ ⎜ ⎟ und
M
StU I =
2
Yi −
i =1

M − 1 i =1 ⎜ M ⎟
⎝ ⎠

∑ k =1y k ⎞⎟ = S 2 = 1 N i ( y k − yUi ).
Ni
1
∑ ⎜ ∑
Ni
SU2 i = y k −
N i − 1 k =1 ⎜ Ni ⎟
Ui
Ni − 1 k =1
⎝ ⎠

Sie lässt sich schätzen durch


1  fI 2 M M 2 1  fi 2

Vˆ2 st YˆHT M2
m
ˆ I 
StU ¦N i nsi Ssi ,
m i1

wobei
2
1  ª §  YˆiHT ·º
¦ «YˆiHT  ¨¨ ¦ ‹ ൌͳ
2
StU
ˆ I ‹ ൌͳ ¸¸ »
m 1 ¬« © m ¹ ¼» und

1 nsi ⎛⎜ ∑ k =1y k ⎞⎟ = 1 nsi ( y k − y si )2 .


nsi

Ss2i = ∑
nsi − 1 k =1 ⎜
y k − ∑
nsi ⎟ nsi − 1 k =1
⎝ ⎠

Eine weitere Vereinfachung ergibt sich, wenn die PSUs auf der ersten Stufe bei Vor-
liegen eines geeigneten Maßes der Größe (z.B. Anzahl der Einwohner in einer Ge-
meinde) nach Größe in H Schichten von PSUs etwa gleichen Umfangs stratifiziert
werden. Unter der Annahme, dass auf beiden Stufen eine einfache Zufallsauswahl
vorgenommen wird, hat der Horvitz-Thompson-Schätzer für das Populationstotal
Y die folgende Form:

H
N CL ,h
Yˆ ¦n ¦N y i si .
h 1 CL , h sCL ,h
VI.4 Zusammengesetzte Stichprobendesigns 459

In dieser Formel sind NCL,h die Anzahl der Primäreinheiten in der Schicht h bezo-
gen auf die Zerlegung UCL der Grundgesamtheit in M PSUs, sCL,h eine Stichprobe
von Primäreinheiten aus den Primäreinheiten in Schicht h des Umfangs nCL,h Ni die
Anzahl der Elemente in der PSU i und ȳsi der Mittelwert der Zielvariablen y in der
Stichprobe von Elementen, die in der Primäreinheit Ui gezogen wurde.
Sind für alle M PSUs in der Zerlegung UCL Größenmaße ui bekannt, so lässt sich
unter der Voraussetzung einer einfachen Zufallsauswahl auf beiden Stufen auch der
folgende Verhältnisschätzer für das Populationstotal ableiten:

¦
Yˆ = ¦  ui si
N i y si
.
¦u si
i

In dieser Formel ist ui irgendein Maß für die Größe des i-ten Klumpens, das für alle
Klumpen der Zerlegung UCL vorliegt.

VI.4.6 Selbstgewichtende Designs

Selbstgewichtende Designs (engl.: self-weighting design) sind zwei- oder mehrstu-


fige Designs, bei dem alle Elemente der Population die gleiche Wahrscheinlichkeit
π k = n / N besitzen, gezogen zu werden (vgl. z.B. Bethlehem, 2009, p. 117).
Wir beschränken uns hier auf die Darstellung eines zweistufigen selbstge-
wichtenden Designs, wobei wir zunächst annehmen wollen, dass die Auswahl
sowohl auf der ersten Auswahlstufe als auch auf der zweiten Auswahlstufe nach
dem Design der einfachen Zufallsauswahl erfolgt. Will man erreichen, das in einem
2stufigen Auswahlverfahren jedes Element der Population die gleiche Wahrschein-
lichkeit besitzt, in eine Stichprobe des Umfangs n zu kommen, so muss gelten

m ni n
π k = π CL ,iπ k|i = = ,
M Ni N

m ni
wobei der Auswahlsatz für die Ziehung auf der ersten Stufe und der Aus-
M Ni
wahlsatz für die Ziehung einer Stichprobe aus dem Klumpen Ui des Umfangs ni auf
der zweiten Stufe.
Diese Gleichung kann für alle Elemente k nur dann erfüllt sein, wenn das Ver-
hältnis ni/Ni für alle ausgewählten Ui gleich ist, was bedeutet, dass die Stichproben-
460 VI.4 Zusammengesetzte Stichprobendesigns

auswahl auf der zweiten Stufe größenproportional erfolgen muss. Aus der Glei-
chung ergibt sich durch Auflösung nach ni , dass in einer Primäreinheit Ui

n M
ni Ni
N m
Sekundäreinheiten gezogen werden müssen. Für Ui mit etwa gleichem Umfang Ni
können also gleich viele Sekundäreinheiten/Elemente gezogen werden.
Als Schätzer für das Populationstotal ergibt sich:

M m M m
Yˆ = ¦N i y si = ¦Yˆi .
m i =1 m i =1

Für die Schätzung des Mittelwerts ergibt sich:

m
y = M 1 Yˆi .
¦
N m i =1

Die obigen Ableitungen gelten für den Fall, dass auf beiden Auswahlstufen nach
dem Design der einfachen Zufallsauswahl gezogen wird. Wenn wir auf der ers-
ten Auswahlstufe nicht unbedingt nach diesem Design ziehen, so gibt es für jeden
Klumpen Uh auf der ersten Auswahlstufe eine Inklusionswahrscheinlichkeit π CL ,i ,
in die Stichprobe der Klumpen aufgenommen zu werden. Wollen wir eine einfache
Zufallsauswahl der Elemente aus der Grundgesamtheit erreichen, so muss gelten:

ni n
π Cl ,i = .
Ni N

Lösen wir nach π CL ,i auf, so erhalten wir:

n ni n Ni
π CL ,i = / = .
N N i N ni
VI.4 Zusammengesetzte Stichprobendesigns 461

Einen alternativen Zugang zum Begriff des selbstgewichtenden Designs geben


Särndal, Wretman & Swensson (1992, p. 141ff). Nach ihnen müssen im Fall der
Selbstgewichtung im Sinne gleicher Inklusionswahrscheinlichkeiten für alle Popu-
lationselemente mit allen Primäreinheiten Ui Größenmaße ui verbunden sein, so
dass gilt
1) π Cl ,i = cui
ni 1
2) .
N i ui
In diesem Fall gilt:

ni 1
π k = π CL ,iπ k|i = cui ⋅ = cui ⋅ = c.
Ni ui

Die Inklusionswahrscheinlichkeiten sind also in diesem Fall alle gleich der Kons-
tanten c.

Beispiel:

Ein Landkreis U bestehe aus M Ortsgemeinden, die wir als Primäreinheiten


eines 2stufigen Designs betrachten. Unser Stichprobendesign soll so aussehen,
dass zunächst aus den Ortsgemeinden Ui mit Ni Zielpersonen eine Stichprobe
gezogen wird. Anschließend werden in jeder der ausgewählten Ortsgemeinden
ni Zielpersonen befragt. N sei die Anzahl der Zielpersonen im Landkreis.
Damit aus dem Design eine gleiche Inklusionswahrscheinlichkeit c für alle Ele-
mente aus U resultiert, setzen wir c = 1 ⁄ N. Die assoziieren Größen ui seien
die durchschnittlichen Steuereinnahmen der Gemeinden in den letzten 5 Jah-
ren. Dann bedeutet SCl,i = cui, dass die Gemeinden auf der ersten Stufe mit einer
Wahrscheinlichkeit gezogen werden, die gleich dem Anteil des Steuereinkom-
mens relativ zur Gesamtzahl der Zielpersonen im Landkreis ist.
ni 1
Aus folgt, dass der Stichprobenumfang ni pro Gemeinde bei ni = Ni /ui
N i ui
liegen muss, damit die gleiche Inklusionswahrscheinlichkeit c = 1 ⁄ N resultiert.
462 VI.4 Zusammengesetzte Stichprobendesigns

VI.4.7 Bestimmung des Mindeststichprobenumfangs

Grundsätzlich hängt der notwendige Umfang einer Stichprobe von folgenden Fak-
toren ab:

• der Varianz (Variabilität) der Untersuchungsvariablen in der Grundgesamtheit:


je größer die Varianz eines Merkmals bereits in der Grundgesamtheit, desto
mehr Befragte werden gebraucht, um diese Variabilität in der Stichprobe ab-
zubilden;
• dem Fehler, den ich in Bezug auf die Schätzung der Populationswerte (z.B. mitt-
leres Alter oder Anteile der Geschlechter) in Kauf zu nehmen bereit bin;
• dem Risiko (der Irrtumswahrscheinlichkeit, mit der ich eine Fehlentscheidung
bzgl. des Populationswerts akzeptieren möchte.

Allerdings sind für die Festlegung des Stichprobenumfangs nicht nur formale
Gründe des Stichprobendesigns von Bedeutung. Von Bedeutung ist vielmehr spe-
ziell unter Auswertungsgesichtspunkten auch die Schachtelungstiefe bei der Einbe-
ziehung mehrerer Variablen. In diesem Fall befindet man sich im Bereich der mul-
tivariaten Analyse, die größere Stichprobenumfänge erforderlich machen kann.
Bei Anteilswerten lässt sich der Stichprobenumfang wie folgt bestimmen (vgl.
Cochran, 1972, S. 92ff):

4 PQ
n=
(tolerierte Abweichung )
2

Nehmen wir z.B. die Variable „Geschlecht“ mit den Prozentanteilen 45% Männer
und 55% Frauen. Dann ergibt sich bei einer tolerierten Abweichung (Genauigkeit)
von 5% folgender Stichprobenumfang:

4 PQ 4 × 45 × 55 4 × 2.475 9.900
n= = = = = 396
(tolerierte Abweichung ) 5×5
2
25 25
VI.5 Repräsentativität 463

( SI )
Allgemein lässt sich der Mindeststichprobenumfang nmin einer einfachen Zufalls-
auswahl wie folgt bestimmen (vgl. Gabler & Quatember, 2013):

⎡ ⎤
⎢ z12−α ⋅ S 2 ⎥
( SI )
nmin =⎢ 2
⎥.
⎢ b2 + 1 ⋅ z 2 α ⋅ S 2 ⎥
⎢⎣ N 1− 2 ⎥⎦

In dieser Formel bedeuten:


z12−α : Konfidenzintervall bei einer Irrtumswahrscheinlichkeit α;
2

b: geforderte Mindestgenauigkeit (maximale Schwankungsbreite des Schätzers θ̂


um den Populationsparameter θ;
S2: Populationsvarianz der Variablen y;
[x]: kleinste ganze Zahl ≤ x.
S2 ist unbekannt und muss aus den Stichprobendaten geschätzt werden. Vorausset-
zungen für die Anwendung dieser Formel eine normale Stichprobenverteilung des
Schätzers und zu vernachlässigende Nicht-Stichprobenfehler.

VI.5 Repräsentativität

VI.5.1 Präzisierungen des Repräsentativitätsbegriffs

Die oft gestellte Frage: „Ist die Umfrage überhaupt repräsentativ?“ bzw. die For-
derung nach einer repräsentativen Umfrage wird oft von Auftraggebern oder von
kritischen Kommentatoren von Umfrageergebnissen gestellt, ohne dass klar wird,
in welchem Sinne der Begriff verwendet wird. In den meisten Fällen wird er als ein
allgemeines Qualitätsmerkmal ohne weitere Präzisierung verwendet. Wie Kruskal
und Mosteller (1979a, 1979b, 1979c) festgestellt haben, wird der Begriff „Repräsen-
tativität“ in sehr unterschiedlichen Bedeutungen verwendet. Bethlehem, Cobben &
Schouten (2011, p. 17) empfehlen daher mit Recht den Gebrauch des Begriffs „Re-
präsentativität“ mit einer präzisen Definition zu verbinden. Besonders populär ist
die Definition des Repräsentativitätsbegriffs als verkleinertes Abbild der Population
(„minitiature of the population“). Diese Definition wird auch von anderen Autoren
wie z.B. Hartung, Elpelt und Klösener (2009) häufig als Definition genannt. In die
gleiche Richtung zielt auch die Präzisierung von Stenger (1994):
464 VI.5 Repräsentativität

Eine Stichprobe ist repräsentativ, wenn alle Merkmalsausprägungen von Merkma-


len wie Geschlecht, Alter, Ausbildung, Beruf, etc. mit Häufigkeiten vertreten sind,
die denen in der Grundgesamtheit proportional sind (Strukturgleichheit von Stich-
probe und Grundgesamtheit). Allerdings muss dabei der Einfluss des Antwortver-
haltens auf die Repräsentativität berücksichtigt werden.

Diesen Auffassungen ist gemeinsam, dass repräsentative Stichproben die statisti-


schen Eigenschaften der Grundgesamtheit widerspiegeln sollten. In diese Rich-
tung zielt auch die Definition von Gabler und Quatember (2013): Eine Stichprobe
(oder ein Stichprobenergebnis) ist für eine Population hinsichtlich einer interes-
sierenden Verteilung oder eines diese Verteilung charakterisierenden Parameters
repräsentativ, wenn diese Verteilung oder der Parameter damit (zumindest nähe-
rungsweise) unverzerrt geschätzt werden können und bei dieser Schätzung auch
eine gewünschte Genauigkeit eingehalten wird. Statistisch überprüfbar ist diese
Strukturgleichheit allerdings nur in Bezug auf Merkmale, deren Verteilung in der
Grundgesamtheit bekannt ist oder bei denen bekannt ist, dass sie mit den Merk-
malen, für die Repräsentativität nachgewiesen werden kann, sehr hoch korreliert
sind. Bei der Beurteilung spielt die Präzision der Schätzung eine entscheidende
Rolle. Die Frage, die in diesem Fall zu beantworten ist, lautet: Ist der Unterschied
zwischen Parameterschätzung und Parameter statistisch signifikant ist. Sind die Pa-
rameter einer Variablen in der Zielpopulation bekannt, kann die Repräsentativität
dieser Variablen abgeschätzt werden (z.B. mit dem Gauss-Test für Mittelwerte), der
in allen Statistik-Programmpaketen angeboten wird. Wird die Nullhypothese, dass
die Stichprobe aus einer Grundgesamtheit mit dem angenommenen Mittelwert,
zurückgewiesen, so kann die Stichprobe bezüglich der überprüften Variablen nicht
als repräsentativ im Sinne eines verkleinerten statistischen Abbilds der Grundge-
samtheit angesehen werden.
Weitere Bedeutungen des Repräsentativitätsbegriffs sind verbunden mit der
Auswahl von Elementen im Rahmen eines „Equal Probability Sampling“, wo Ele-
mente aus der Population mit den gleichen Wahrscheinlichkeiten ausgewählt wer-
den sowie mit der „Abwesenheit selektiver Einflüsse (absence of selective forces)“ auf
dem Weg von der Bruttostichprobe zur Nettostichprobe.
Schouten, Cobben & Bethlehem (2009; vgl. auch Bethlehem, Cobben & Schou-
ten, 2011, p. 181) beziehen den Begriff „Repräsentativität“ auf die individuellen
Wahrscheinlichkeiten („propensities“) der Populationselemente, auf eine Frage
zu antworten. Gemeint ist dabei nicht die Wahrscheinlichkeit, eine bestimmte
Antwort zu geben, als z.B. einen bestimmten Skalenwert zu nennen, sondern die
Wahrscheinlichkeit, überhaupt zu antworten. Sie gehen von der Überlegung aus,
dass vollständige Repräsentativität (engl.: strong representativeness) dann gege-
VI.5 Repräsentativität 465

ben ist, wenn die individuellen Antwortwahrscheinlichkeiten und damit auch die
Ausfallwahrscheinlichkeiten (engl. response propensities) für alle Elemente in der
Population gleich und damit nicht mehr von deren Eigenschaften abhängig sind. In
diesem Fall hängt die Wahrscheinlichkeit nicht zu antworten nicht von bestimmten
Merkmalen wie etwa dem Geschlecht ab. Diesem Konzept nach sind die Antwor-
ten in einer Umfrage in Bezug auf eine Menge von Hilfsvariablen (z.B. Alter, Ge-
schlecht, Bildung, etc.) X repräsentativ genau dann, wenn die Antwortwahrschein-
lichkeiten über alle Ausprägungen von X der Populationselemente gleich sind; d.h.
bezüglich eines Vektors X von Hilfsvariablen gilt, dass die individuellen Antwort-
wahrscheinlichkeiten ρX(x) über alle Ausprägungen x der Hilfsvariablen X konstant
sind. Äquivalent dazu ist die Aussage, dass die individuellen Antwortwahrschein-
lichkeiten gleich der mittleren Antwortwahrscheinlichkeit in der Population sind.
Abweichungen von der vollständigen Repräsentativität drücken sich in dem Aus-
maß aus, in dem die Propensities voneinander abweichen.
Als Indikatoren für Repräsentativität führen Schouten, Cobben und Bethlehem
(2009, p. 109) den Begriff des Repräsentativitätsindikators, kurz: R-Indikators, ein.
Ein R-Indikator ist definiert über die Variabilität der individuellen Antwortwahr-
scheinlichkeiten

R ( ρ X ) = 1 − 2S( ρ X )

wobei
1 N
S2 ( ρ X ) = ∑( ρ X ( xk ) − ρ )
2

N k =1

mit S: Standardabweichung der Antwortwahrscheinlichkeiten, N: Umfang der Po-


pulation. Diese Definition ist so gewählt, dass der Indikator Werte im geschlos-
senen Intervall [0,1] annimmt, mit dem Wert 1 als starker Repräsentativität und
0 als maximale Abweichung von der starken Repräsentativität. Die obige Formel
ist definiert für die Population und setzt die Kenntnis der individuellen Antwort-
wahrscheinlichkeiten aller Elemente der Population voraus. Schouten et al. schla-
gen die Verwendung von Antwort-basierten R-Indikatoren (engl.: response-based
R-indicators) vor, um für die Schätzung von R die individuellen Antwortwahr-
scheinlichkeiten in der Stichprobe verwenden. Basis ist der Mittelwert der mit den
Designgewichten gewichteten individuellen Antwortwahrscheinlichkeiten in der
Stichprobe:
466 VI.5 Repräsentativität

1 N si
ρl = ¦ρˆ X ( xi ) π i .
N i =1
l ist der Schätzer der individuellen Antwortwahrscheinlichkeit in der Population
U
^

auf Grund der Daten der Stichprobe. R wird durch den Schätzer R ersetzt mit

1 N si
( )
2
Rˆ = 1 − 2S ( ρ X ) = 1 − 2 ¦ ρˆ X ( x i ) − ρl .
N − 1 i =1 π i
^
ρ X (xi) sind die aus der Stichprobe geschätzten individuellen Antwortwahrschein-
lichkeiten. Der Ansatz von Schouten et al. kann als Präzisierung der Bedeutung von
Repräsentativität als Abwesenheit selektiver Einflüsse aufgefasst werden, da nach
diesem Ansatz Repräsentativität dann gegeben ist, wenn die Hilfsvariablen keinen
Selektionseffekt ausüben.

VI.5.2 Repräsentativität in Online-Access-Panels

Für die Stichprobenauswahl werden zunehmend auf unterschiedlichen Wegen re-


krutierte Online-Access-Panels verwendet (zur Definition vgl. Teil I). Im Fall eines
solchen Panels liegt eine prärekrutierte Stichprobe als Basis für weitere Stichproben
vor, wobei sich der Teilnehmerpool eines Access-Panels kontinuierlich oder stu-
fenweise verändern kann. Im Vergleich zur Entwicklung der Population kann ein
Access-Panel bei unzureichender Pflege eine davon abweichende Entwicklung von
Merkmalsverteilungen aufweisen. Abbildung VI.10 zeigt ein zu einem Zeitpunkt
rekrutiertes Panel, das in Bezug auf ein dichotomes Merkmal im Vergleich zur Po-
pulation allmählich mit der Zeit stark überaltert. Während der Anteil einer Merk-
malsausprägung in der Population abnimmt, bleibt er im Panel konstant.
VI.5 Repräsentativität 467

Abbildung VI.10: Überalterung eines Access-Panels

Abbildung IV.11 zeigt einen fatalen Verlauf während einer kontinuierlichen Rekru-
tierung, die zu einer nahezu gegenläufigen Entwicklung führt. Solche Entwicklun-
gen lassen sich nur durch kontinuierliche statistische Kontrollen evaluieren, indem
die Entwicklung zentraler Hilfsvariablen in der Population beobachtet und mit den
Veränderungen im Panel verglichen wird.
468 VI.5 Repräsentativität

Eine interessante Frage ist, ob sich aus einem über Websites rekrutiertes, selbst-
selektives Access-Panel, das über einen längeren Zeitraum existiert und in Bezug
auf die Gesamtheit der Teilnehmer möglicherweise nicht repräsentativ ist, reprä-
sentative Substichproben ziehen lassen. Grundsätzlich erscheint dies für die Hilfs-
variablen möglich, wie Abbildung VI.12 erläutern soll.

Abbildung VI.12: Repräsentative Substichproben in Online-Access-Panels

Das mittlere Rechteck in der Abbildung soll die Substichprobe darstellen. Sie enthält
das dichotome Merkmal in gleichen Anteilen wie in der Population. Bei dieser Be-
trachtung muss aber berücksichtigt werden, dass es sich in diesem Beispiel nur um
die Repräsentativität in Bezug auf Randverteilungen handelt und nicht in Bezug auf
die gemeinsame Verteilung mit anderen Merkmalen. Auch dies ist prüfbar. Abwei-
chungen von der Population könnten mit Hilfe von unterschiedlichen Formen der
Gewichtung korrigiert werden.
Das erforderliche Monitoring des Panel-Zustands einschließlich der Vergleiche
mit der Population führt in der Regel zur Entscheidung, die Stichprobe aufzufrischen
bzw. vollständig zu erneuern. Repräsentativität bezüglich soziodemografischer Hilfs-
variablen bedeutet allerdings nicht automatisch auch Repräsentativität hinsichtlich
der Zielvariablen. Analysen des Zusammenhangs zwischen Hilfs- und Zielvariablen
sind eigentlich für jede neue Erhebung, die auf einer Stichprobe aus einem Access-Pa-
nel beruht, notwendig. Ein soziodemographisches Updating des Panels muss noch
nicht notwendig ein Updating bezüglich der Zielvariablen bedeuten, die von Umfra-
gen zu Umfrage variieren können. Ist der Einsatz eines Access-Panels geplant, sollte
man sich über die Rekrutierungsstrategie und die Maßnahmen zur Panelpflege genau
informieren. Es hängt allerdings nicht zuletzt von der Fragestellung und den metho-
dischen Notwendigkeiten ab, in welchem Umfang man methodische Kompromisse
eingehen kann. Insbesondere, wenn keine Schlüsse auf die Grundgesamtheit gezogen
werden sollen oder wenn die Fragestellung eher experimenteller Natur ist, können
auch Kompromisse hinsichtlich der Repräsentativität eingegangen werden.
VI.6 Auswahlverfahren für telefonische Umfragen 469

VI.6 Auswahlverfahren für telefonische Umfragen

VI.6.1 Allgemeines

In Abschnitt 1 wurde der Begriff Auswahlgrundlage präzisiert. Die Entwicklung


einer Auswahlgrundlage für die Zufallsauswahl von Telefonstichproben aus einer
Grundgesamtheit muss zunächst sicherstellen, dass der Fehler durch Undercovera-
ge möglichst klein gehalten wird; d.h. die Auswahlgrundlage (Listenmaterial, etc.)
sollte vollständig sein, da nach Definition einer Zufallsauswahl jedes Element der
Population eine Wahrscheinlichkeit ungleich 0 aufweisen muss, in die Stichpro-
be zu gelangen. Fehlt ein Element in der Auswahlliste, so ist diese Voraussetzung
nicht mehr gegeben. Dies bedeutet, dass Telefonstichproben in diesem Fall keine
Zufallsstichproben aus der Menge aller Bürger der Bundesrepublik Deutschland
darstellen können.
Grundsätzlich besteht die Menge der telefonisch erreichbaren Privatpersonen
aus den folgenden Teilmengen:
• Personen, die nur per Festnetz zu erreichen sind;
• Personen, die per Festnetz und Mobilfunk zu erreichen sind;
• Personen, die nur per Mobilfunk zu erreichen sind („Mobile Onlys“).
Nach Erhebungen des Statistischen Bundesamts betrug der Anteil der Haushalte
mit Festnetzanschluss im Jahr 2015 91,5%, die Anzahl der Haushalte mit Mobil-
funkanschluss betrug im Jahr 2015 93,5%. Im zweiten Quartal des Jahres 2017 lag
die Anzahl der Mobilfunkteilnehmer nach Angaben der Bundesnetzagentur bei
132 Millionen. Mobilfunkteilnehmer sind Nutzer, die bei einem öffentlichen Mo-
bilfunkdienst angemeldet sind und über diesen mittels zellularer Mobilfunktech-
nik Zugang zum öffentlichen Telefonnetz (PSTN) erhalten. Insgesamt sind 99% der
Privathaushalte über Telefonanschlüsse erreichbar. Obgleich Daten über die Ver-
fügbarkeit technischer Geräte der steten Veränderung unterliegen, eröffnet sich für
Telefonumfragen grundsätzlich die Möglichkeit einer nahezu vollständigen Abde-
ckung der Haushalte durch geeignete Auswahlgrundlagen. Eine solche Abdeckung
ist durch Telefonregister allerdings nicht zu erreichen. Dies liegt daran, dass nicht
alle Privathaushalte mit einem Telefonanschluss in öffentlichen Registern eingetra-
gen sind. In Städten beträgt der Anteil der eingetragenen Festnetzanschlüsse z.T.
nur ca. 30%. Der Anteil der in Registern eingetragenen Mobilfunkanschlüsse ist
noch erheblich geringer. Von den im Jahr 2013 vorhandenen 115,3 Millionen Mo-
bilfunkanschlüssen waren nur ca. 2 Millionen eingetragen. Dies entspricht einem
Anteil von 0,2% (vgl. Sand, 2014, 2016). Schließlich ist auch zu bedenken, dass es
470 VI.6 Auswahlverfahren für telefonische Umfragen

eine Gruppe von Personen gibt, die ausschließlich über Mobilfunk erreichbar sind
(sog. Mobile-Onlys). Dieser Prozentsatz liegt bei ca. 12-13% (vgl. Häder & Häder,
2009). Aus dieser Situation ergeben sich die folgenden Schlussfolgerungen:

Die Nutzung der Telefonregister als alleinige Auswahlgrundlage für Telefonstich-


proben ist sowohl in Bezug auf die Festnetzanschlüsse, als in Bezug auf die Mobil-
funkanschlüsse nicht geeignet;
Es muss eine Auswahlgrundlage für das Festnetz geschaffen werden, die es gestat-
tet, auch die nicht eingetragenen Festnetzanschlüsse zu erreichen;
Es muss eine Auswahlgrundlage für die Mobilfunkteilnehmer geschaffen werden,
um auch jene Haushalte zu erreichen, die ausschließlich über einen Mobilfunkan-
schluss verfügen.

Da es keine vollständige Auswahlgrundlage für Telefonnummern gibt, zieht man


die Stichprobe aus zwei Auswahlgrundlagen: einer Auswahlgrundlage für Fest-
netznummern und einer Auswahlgrundlage für Mobilfunknummern (Dual-Fra-
me-Ansatz; vgl. Abschnitt VI.1).
Die Unvollständigkeit der Festnetzeinträge wäre zu verschmerzen, wenn sich
die soziodemografischen Merkmale der Personen in eingetragenen Haushalten
nicht von denen in nicht eingetragenen Haushalten systematisch unterscheiden
würden. Letzteres ist aber der Fall. So sind über das Festnetz erreichbare eingetra-
gene Personen deutlich älter und weisen eine geringere Schulbildung auf. Tabelle
VI.4 fasst die Ergebnisse einer Umfrage im Jahr 2011 (Brutto-Stichprobenumfang:
108.000) im Rahmen des Fluglärmprojekts NORAH (vgl. Gemeinnützige Umwelt-
haus GmbH, 2015) in der Region Frankfurt/M. für das Merkmal „Alter“ zusam-
men. Man erkennt auch hier eine deutliche Unterrepräsentation der jüngeren Per-
sonen und eine Überrepräsentation der älteren Personen in der Zufallsstichprobe
von Adressen gegenüber der Stichprobe der auf dieser Grundlage recherchierten
Telefonnummern.
Auch die Gruppe der nur über das Mobilfunknetz erreichbaren Personen un-
terscheiden sich von den übrigen Mobilfunkteilnehmern systematisch. Überreprä-
sentiert sind die männlichen Einpersonenhaushalte (vgl. Häder & Häder, 2009).
Die für die Festlegung einer Auswahlgrundlage bei Telefonstichproben einsetz-
baren Verfahren lassen sich unabhängig davon, ob es sich um Festnetz- oder Mo-
bilfunkstichproben handelt, in zwei Klassen einteilen (vgl. hierzu auch Lepkowski
1988):
• zufällige Erzeugung von Telefonnummern
• listenbasierte (list-assisted) Auswahlverfahren
VI.6 Auswahlverfahren für telefonische Umfragen 471

Tabelle VI.4: Altersvergleich zwischen recherchierten Festnetznummern und Adressstich-


probe im Fluglärm-Projekt NORAH (in Prozent)

Alter in Jahren Adressstichprobe Recherchierte Fest-


netzstichprobe
bis unter 20 1,7 1,5
20 bis unter 30 15,0 8,7
30 bis unter 40 16,6 8,3
40 bis unter 50 20,2 17,1
50 bis unter 60 16,4 17,9
60 bis unter 70 12,9 17,4
70 bis unter 80 11,2 18,7
80 und älter 6,0 10,4
Summe 100 100

VI.6.2 Zufällige Nummernerzeugung

Bei der zufälligen Erzeugung von Telefonnummern (engl.: Random Digit Dialing;
kurz: RDD) werden Telefonnummern mit Hilfe eines Zufallsgenerators erzeugt.
Seine ideale Anwendung findet dieses Vorgehen dann, wenn, wie in den USA, alle
Telefonnummern eine feste Länge besitzen und nach den gleichen Prinzipien auf-
gebaut sind. In den USA besteht eine Telefonnummer aus insgesamt 10 Ziffern.
Die ersten drei Ziffern definieren den sog. Area Code (den Code für die Region),
die nächsten drei als Präfix bezeichneten Ziffern bilden den sog. Central Office
Code, im Alltag auch als Exchange (Vermittlungsstelle) bezeichnet. Die letzten vier
Ziffern schließlich bilden das sog. Suffix und identifizieren den individuellen Tele-
fonkunden innerhalb einer Area-Präfix-Kombination.
Die Area Codes haben auch eine geographische Bedeutung, während Präfixe
ohne geographische Kriterien vergeben werden. Zwar haben die Vermittlungsstel-
len eine geographische Bedeutung, doch können Vermittlungsstellen zwei oder
mehrere Präfixe besitzen, nur ungefähr die Hälfte besitzt nur ein einziges Präfix.
Da bei idealer Realisierung des RDD-Verfahrens jede aus zehn Ziffern bestehende
Nummer die gleiche Wahrscheinlichkeit hat erzeugt zu werden, werden nicht nur
gültige, sondern auch ungültige Telefonnummern nach dem Verfahren einer einfa-
chen Zufallsauswahl ausgewählt.
472 VI.6 Auswahlverfahren für telefonische Umfragen

Das reine RDD-Verfahren ist sowohl für die USA als auch für die Bundesrepu-
blik schon deshalb nicht praktikabel, weil die Anzahl der erzeugten ungültigen Te-
lefonnummern ungeheuer groß ist. Im Fall der Bundesrepublik kommt als weiteres
Hindernis für eine Anwendung die Struktur des Nummernsystems dazu. Wichtig
ist aber die grundlegende Idee der Zufallserzeugung. Die Frage, die sich dabei stellt,
ist die, wie man die Zahl der erzeugten ungültigen, d.h. nicht existenten Ziffernfol-
gen weiter reduzieren kann. Ein Ausweg besteht darin, die Zufallsauswahl listenba-
siert vorzunehmen (siehe unten).
Das reine RDD-Verfahren in den USA wurde von Mitofsky (1970) und Waks-
berg (1978) modifiziert. Sie entwickelten ein 2-stufiges Design. Auf der ersten Stufe
werden gültige Kombinationen von Area/Präfix-Ziffern sowie die ersten zwei Zif-
fern des Suffixes gezogen. Die letzten beiden Stellen des Suffixes definieren einen
100er Block möglicher Telefonnummern von Privathaushalten. Dann wird aus je-
dem Block eine zufällig ausgewählte Nummer angerufen. Ist diese Nummer die
gültige Nummer eines Privathaushalts, so wird der betreffende Block in die Menge
der PSUs der ersten Stufe aufgenommen. Ist die Nummer keine gültige Nummer,
so wird der Block nicht berücksichtigt. Diese Methode der Auswahl von PSUs ist
größenproportional, da die Wahrscheinlichkeit der Aufnahme einer PSU auf der
ersten Stufe proportional zur Anzahl der gültigen Nummern in den Blöcken ist.
Auf der zweiten Stufe, werden für jede PSU weitere k-1 Nummern angerufen, wo-
bei k eine vorher festgelegte Konstante ist. Bei jeder angerufenen Nummer wird
auch die Realisation eines Interviews angestrebt.

VI.6.3 Listenbasierte Verfahren

Listenbasierte Verfahren können sein:


• eine direkte Auswahl aus einer Liste, sei diese Liste nun die aktuellen amtli-
chen Telefonbücher bzw. die aktuelle amtliche Telefon-CD-ROM oder die
käuflich erworbene Auswahlliste eines kommerziellen Unternehmens, z.B. bei
bestimmten Spezialpopulationen;
• eine direkte Auswahl von Nummern aus einer Liste mit anschließender Modi-
fikation der ausgewählten Nummer.
VI.6 Auswahlverfahren für telefonische Umfragen 473

A. Direkte Listenauswahl ohne Nummernmodifikation


Bei einer direkten Auswahl ohne Nummernmodifikation geht man davon aus, dass
alle Elemente der Grundgesamtheit vollständig in einer Auswahlliste aufgeführt
sind und sich die Auswahl der Nummern nur auf die Nummern der Liste bezieht;
d.h. die in der Liste nicht aufgeführten Telefonnummern werden nicht zum Aus-
gangspunkt für die Erzeugung weiterer Telefonnummern gemacht.
Für eine Bevölkerungsumfrage unter Haushalten mit Telefonanschluss in der
Bundesrepublik kommt in der Praxis als Auswahlliste in erster Linie eine aktuelle
Version der Telefon-CD-ROM in Frage. Eine direkte, nicht modifizierte Auswahl
aus der Telefon-CD-ROM erscheint für repräsentative Bevölkerungsstichproben
aus den oben genannten Gründen allerdings nicht geeignet sondern nur bei Spe-
zialpopulationen sinnvoll, z.B. bei Unternehmen einer bestimmten Branche, bei
Schulen eines Typs, die alle auf einer CD-ROM aufgelistet sind, etc. Bei Verwen-
dung von Auswahllisten kommerzieller Anbieter besteht ebenfalls die Gefahr man-
gelnder Aktualität und nicht nachprüfbarer Unvollständigkeit.

B. Direkte Listenauswahl mit Nummernmodifikation


Ein Beispiel für eine direkte Listenauswahl mit Nummernmodifikation ist das
Plus-Digit-Verfahren, (vgl. Lepkowski 1988, p. 93), bei dem auf die letzte Ziffer die
Zahl 1 addiert wird. Die resultierende Stichprobe enthält die ursprünglich ausge-
wählten Nummern und die neu erzeugten Nummern. Eine Variante besteht darin,
die zu addierenden Ziffern nach Zufall auszuwählen. Eine weitere Variante listen-
basierter Verfahren stellt das Randomized-Last-Digit (RLD)-Verfahren dar, bei dem
die letzte oder die letzten beiden Ziffern gestrichen werden und durch zufällig er-
zeugte Ziffern oder Ziffernfolgen ersetzt werden.

C. Modifiziertes RDD-Verfahren von Gabler und Häder für Deutschland


Schon bald war klar, dass das von Mitofski und Waksman vorgeschlagene und in
den USA weithin genutzte modifizierte RDD-Verfahren effektiver gestaltet werden
kann, wenn Informationen über eingetragene Nummern in die Auswahl der Blöcke
einbezogen werden. So schlugen Casady & Lepkowski (1991) eine Schichtung der
Menge der Blöcke in solche mit mindestens einer eingetragenen Nummer („high
density blocks“) und solche ohne eingetragene Nummer („low density blocks“) vor.
Die „low density“-Schicht konnte entweder unberücksichtigt bleiben oder einer
weiteren Schichtung auf der Basis weiterer Hilfsvariablen zugeführt werden (vgl.
Tucker, Lepkowski & Piekarski, 2002).
474 VI.6 Auswahlverfahren für telefonische Umfragen

Für die Bundesrepublik Deutschland haben Gabler und Häder (1997, 1999,
2000) ein ähnliches Verfahren entwickelt, bei dem die nicht besetzten Blöcke eben-
falls nicht berücksichtigt werden. Die Autoren gehen bei ihren Überlegungen zur
Entwicklung einer geeigneten Auswahlgrundlage für telefonische Zufallsstichpro-
ben in der Bundesrepublik Deutschland von der Erkenntnis aus, dass auch bei
RLD-Techniken die Inklusionswahrscheinlichkeiten unbekannt und für die Tele-
fonhaushalte unterschiedlich sind. Ihr Vorschlag, der auch Grundlage für das Tele-
fonstichprobenmodell des Arbeitskreises deutscher Markt- und Sozialforschungs-
institute (ADM) ist (vgl. ADM, 2013; Heckel 2002, 2007; Von der Heyde 2002) ist,
zielt auf ein Design, das zu gleichen Inklusionswahrscheinlichkeiten auf der Ebene
der Haushalte führt. Allerdings stellte sich sehr schnell heraus, dass gleiche Inklu-
sionswahrscheinlichkeiten wegen einer steigenden Zahl von Haushalten mit meh-
reren eingetragenen Nummern in Bezug auf die Haushalte nicht realisierbar ist.
Haushalte mit mehreren Telefonanschlüssen haben eine höhere Wahrscheinlich-
keit, in die Stichprobe zu kommen als Haushalte mit nur einem Telefonanschluss.
Eine Korrektur kann dadurch erfolgen, dass eine Gewichtung entsprechend der
Anzahl der pro Haushalt vorhandenen Anschlüsse erfolgt, was wiederum nur mög-
lich ist, wenn diese Information im Interview für jeden Haushalt erhoben wird (sie-
he Abschnitt 3.3).
Die Konstruktion des Auswahlrahmens erfolgt im Fall des Verfahrens von
Gabler und Häder in zwei Stufen. Zunächst werden auf der ersten Stufe als PSUs
Gemeinden ausgewählt, da für diese weitere Hilfsvariablen (z.B. Anzahl der Ein-
wohner, Altersverteilung, etc.) sowie statistische Charakterisierungen weiterer Va-
riablen vorhanden sind oder noch gebildet werden können. Auf der zweiten Stufe
wird für jede Gemeinde anhand eines aktuellen Telefonverzeichnisses (z.B. auf CD-
ROM) die Verteilung der Telefonnummern auf sog. Blöcke bestimmt (vgl. Gabler
& Häder 1997, S. 9), wobei zunächst festgestellt wird, welche Blöcke überhaupt mit
eingetragenen Nummern besetzt sind. Als Blöcke werden gleich lange Abschnitte
der Ziffernfolge fester Länge, z.B. der Länge 100 bezeichnet. Aus den besetzten Blö-
cken einer Gemeinde j wird dann eine feste Anzahl von Blöcken n(j) gezogen. Die-
se sollte nicht zu niedrig sein, da Telefonnummern innerhalb eines Blocks eventuell
räumlich zusammenliegen und damit Klumpungen entstehen könnte. Aus jeden
ausgewählten Block werden dann m(j) Ziffernfolgen zufällig erzeugt.
Die Wahrscheinlichkeit für die Auswahl einer festen Ziffernfolge aus einem be-
stimmten Block ist nach der Produktregel für Wahrscheinlichkeiten:

n( j) m( j )
W ( j) = × .
K ( j) L
VI.6 Auswahlverfahren für telefonische Umfragen 475

K(j) bezeichnet in dieser Formel die Anzahl der mit Nummern besetzten Blöcke.
Natürlich sollte die Anzahl m(j) der pro Block ausgewählten Ziffernfolgen nicht
größer sein als die Blocklänge L, und die Anzahl n(j) der ausgewählten Blöcke sollte
nicht größer sein als die Anzahl der besetzten Blöcke insgesamt. Außerdem sollte
die Summe der Produkte m(j) × n(j) über alle ausgewählten Gemeinden nicht grö-
ßer sein als die Gesamtzahl der Telefonnummern über alle Gemeinden. Man kann
zeigen, dass das Produkt m(j) × n(j) mit der sog. Blockdichte variiert. Die Block-
dichte ist definiert als das Verhältnis der Anzahl der Blöcke in einer Gemeinde j zur
Anzahl der in der Gemeinde vergebenen Telefonnummern.
Das Verfahren von Gabler und Häder stellt insofern einen angemessenen Vor-
schlag für einen Rahmen für Telefonstichproben dar, als die Inklusionswahrschein-
lichkeiten, also die Wahrscheinlichkeiten dafür, dass eine gültige Ziffernfolge in die
Stichprobe aufgenommen wird, angegeben werden können. Praktisch arbeitet das
Verfahren so, dass zunächst die Nummern der ausgewählten Gemeinden bereinigt
werden, in dem mit Hilfe eines Softwareprogramms die Nummern mit bestimmten
Telefonbuchzusätzen (z.B. Funktelefone), Fremdeinträge (fremde Vorwahlnum-
mern oder Orte), Nummern mit Bindestrich (Sammelanschlüsse) und sonstige
unzulässige Nummern (Notrufe, Nummern mit unzulässiger Länge, Mehrfachein-
träge) ausgeschlossen werden.
Die Bildung der Blöcke erfolgt dadurch, dass man bei allen eingetragenen Te-
lefonnummern der ausgewählten Gemeinden die letzten beiden Ziffern streichen
(vgl. Abbildung VI.13).
Die Ziffern ohne die beiden letzten weggelassenen Nummern definieren einen
Ziffernstamm. Dabei kann es natürlich mehrere, theoretisch 100 gleiche Ziffern-
stämme geben. Alle Ziffernstämme außer einem werden dann eliminiert. Alle Zif-
fernfolgen, die sich aus einem Ziffernstamm plus Ziffernpaaren von 00-99 ergeben,
bilden dann einen Block. Im Fall einer anderen Längenvereinbarung sieht die Bil-
dung jeweils anders aus. So würde man etwa bei Bildung von 1000er Blocks die
letzten drei Ziffern abschneiden, so dass Ziffernstamm plus angefügter drei Ziffern
einen Block bilden. In jedem Fall bildet die Gesamtzahl von Länge x Anzahl der
Stammziffern die Bruttostichprobe der potentiellen Telefonnummern, die angeru-
fen werden sollen, von denen man aber noch nicht weiß, ob sie überhaupt existie-
ren bzw. gültig sind. Sind die besetzten Blöcke identifiziert, bilden die potentiellen
Rufnummern dieser Blöcke eine Obermenge von Nummern als Basis für die Stich-
probenauswahl, die nunmehr uneingeschränkt zufällig erfolgen kann. Nur solche
Telefonnummern haben keine Auswahlchance, die nicht eingetragen sind oder in
einem Block liegen, in dem keine eingetragene Nummer vorkommt. Man kann zei-
gen, dass dieser Fall nur sehr selten auftritt. Für die Effizienz des Verfahrens ist die
sog. Hitrate H ein geeignetes Maß. Sie ist definiert durch
476 VI.6 Auswahlverfahren für telefonische Umfragen

eingetragene Nummern + nicht eingetragene Nummern


H=
Anzahl der erzeugten Zimmernfolgen

Abbildung VI.13: Bildung von Nummernstamm, 100erBlocks und Blockdichte

Von Bedeutung ist natürlich ebenfalls, wie viele Rufnummern erzeugt werden müs-
sen, um eine Nettostichprobe vorgegebenen Umfangs realisieren zu können. Der
VI.6 Auswahlverfahren für telefonische Umfragen 477

Umfang dieser Bruttostichprobe kann nachfolgender Formel abgeschätzt werden


(vgl. Gabler & Häder, S. 74):

FSS
SSP = ,
B
λ
(1 − REC ) (1 − LE )

wobei:
SSP: Size of Sampling Pool (Umfang der Bruttostichprobe)
FSS: Final Sampling Size (Umfang der Nettostichprobe)
REC: Respondent Exclusion Criteria (Anteil der Telefonnummern, die keinen
Privathaushalt darstellen oder nicht zur Grundgesamtheit gehören
LE: Loss of Eligbles (Anteil der Nonresponse)
B: Blockdichte der eingetragenen Nummern
λ Anteil der im Telefonbuch Eingetragenen

Wie man sieht, müssen einige der Größen aus anderen geschätzt oder unterstellt
werden, so z.B. der Anteil der Eingetragenen. Verfügt man über ausreichende Re-
chenkapazität, kann man bei der Ziehung von Haushaltsstichproben nach dem
Verfahren von Gabler und Häder auf die vorherige Ziehung von Gemeinden ver-
zichten und versuchen, den Stichprobenrahmen auf alle Nummern der Bundesre-
publik zu beziehen.
Beschränkt man sich auf eine Teilmenge von Gemeinden, muss bedacht wer-
den, dass die Vorwahlbereiche nicht mit den Gemeindegrenzen übereinstimmen,
sondern dass die Menge der Haushalte in einer Gemeinde über mehrere Vorwahl-
nummern erreichbar sein können. Dies bedeutet einerseits, dass auch die Blöcke
anderer Vorwahlbereiche einbezogen werden müssen und die Zuordnung von
Haushalten zu Gemeinden durch ein Screening-Verfahren abgesichert werden
muss.

VI.6.4 Die Ziehung von Mobilfunk-Stichproben

Die im vorangegangenen Abschnitt geschilderten Verfahren finden vor allem in


der Ziehung von Festnetzstichproben (engl: landline samples) Anwendung. Wie
oben bereits beschrieben, ergibt sich aus der Unvollständigkeit der Register in Be-
zug auf Mobilfunkteilnehmer und der Tatsache, dass ein Teil der Bevölkerung nur
über Mobilfunk telefonisch erreichbar ist, die Notwendigkeit der Erstellung einer
478 VI.6 Auswahlverfahren für telefonische Umfragen

zusätzlichen Auswahlgrundlage für die zufällige Auswahl von Mobilfunk-Num-


mern. Neben der besseren Erreichbarkeit bestimmter Personengruppen wie etwa
jüngerer Personen spricht für die Einbeziehung von Mobilfunknummern auch die
Tatsache, dass sich die Gruppe der „Mobile-Onlys“, d.h. der Personen, die aus-
schließlich ein Mobiltelefon (engl.: cell phone) benutzen, in wichtigen Merkmalen
von den übrigen Nutzern unterscheidet. „Mobile-Onlys“ sind sehr viel jünger, ha-
ben ein geringeres Haushaltsnettoeinkommen, haben eine geringere Schulbildung,
gehören eher der Gruppe der Arbeitslosen und der Arbeiter an und leben eher in
Einpersonenhaushalten.
Da es keine veröffentlichte Auswahlgrundlage in Form von Listen gibt, emp-
fiehlt sich hier die Erzeugung eines Auswahlrahmens analog zum Verfahren von
Gabler und Häder. Ein denkbares Verfahren wäre die zufällige Ergänzung von 7
Ziffern, die auf die Vorwahl des Anbieters folgen (vgl. Heckel 2007).
Um die Anforderungen an eine Zufallsauswahl auch für Mobilfunkstichproben
zu erfüllen, werden die Mobilfunknummern wie bei der Festnetzauswahl zufällig
generiert und angerufen. Es ist bekannt, dass die Anzahl theoretisch vergebener
mobiler Telefonnummern bei 279 Millionen liegt. Diese Nummern wurden durch
die Bundesnetzagentur an verschieden Mobilfunkanbieter vergeben. Bekannt ist
jedoch auch, dass die Zahl der Telefonbucheinträge für Mobilfunknummern nur
bei ca. 2,3 Millionen liegt. Dieses Verhältnis macht deutlich, dass zur Realisierung
einer repräsentativen Stichprobe die zufällige Generierung von Mobilfunktelefon-
nummern notwendig ist. Für eine solche Zufallsgenerierung liegt bei GESIS - Leib-
niz-Institut für Sozialwissenschaften ein Auswahlrahmen vor, der zweimal jährlich
aktualisiert wird. Der Auswahlrahmen umfasst dabei Nummern aller vier Netzbe-
treiber in Deutschland (Telekom, Vodafone, E-Plus und O2). Bei den von der GE-
SIS generierten Ziffernfolgen handelt es sich sowohl um vergebene als auch nicht
vergebene Mobilfunknummern, nicht geschaltete Nummern (stichprobenneutrale
Ausfälle) müssen daher aus der großen Anzahl generierter Nummern zunächst
aussortiert werden.
Die Auswahl gültiger Mobilfunknummern kann mittels Home Location Regis-
try (HLR) Lookup, einem kostenpflichtiges Verfahren, durchgeführt werden. Mit
diesem Verfahren können aus den zufällig generierten Nummern diejenigen her-
ausgefiltert werden, die tatsächlich vergeben sind. Das Verfahren wird über eine
Datenbank realisiert und führt nicht zu Störungen bei potenziellen Zielpersonen
indem die Telefonnummern automatisch „ausprobiert“ werden. Das HLR-Ver-
fahren wird von privaten Anbietern durchgeführt. In einer Studie von GESIS (vgl.
Sand, 2016) zeigte sich beim Vergleich zwischen Anbietern von Lookup-Verfahren,
dass neben der Kostenstruktur und der Art und Weise der berichteten Ergebnisse
VI.7 Stichprobenauswahl durch Begehung von Klumpen 479

auch deutliche Unterschiede beim berichteten Status von überprüften Rufnum-


mern bestehen.

VI.7 Stichprobenauswahl durch Begehung von Klumpen

Stehen Register für eine Stichprobenauswahl für Face-to-Face-Umfragen aus


unterschiedlichen Gründen nicht zur Verfügung besteht die Möglichkeit, Ad-
ressen durch Begehungen von Klumpen zu rekrutieren. Dies ist der Ansatz des
ADM-Stichprobensystems (vgl. ADM, 2013: 88 ff). Das ADM-Stichprobensystem
besteht aus drei Dateien:
• Einer Sampling Point-Datei. Sampling Points sind sog. synthetische Stimmbe-
zirke. Synthetische Stimmbezirke sind Stimmbezirke, die so korrigiert wurden,
dass sie eine ähnlich große Zahl von Einwohnern und eine ähnlich homogene
Struktur aufweisen. Eine Ziehung von Sample Points stellt also eine Flächen-
stichprobe dar. Insgesamt gibt es in der BRD 52.947 Points, die im Schnitt je-
weils 746 Haushalte umfassen.
• Eine Begehungsunterlagendatei, in der für jeden Sample Point die geographi-
sche Abgrenzung des Points (=Auflistung des Gemeindenamens, der Ortsteile
und der Straßen,- und Hausnummernabschnitte; vgl. ADM, 2013, S. 92).
• Die Startadressen-Datei enthält zufällige Startadressen, welche der Interviewer
als Basis für die Begehung nach einer bestimmten Schrittweite hat.
Die Stichprobenbildung erfolgt in drei Auswahlstufen:
1) Systematische Ziehung der Sample Points, die in der folgenden Weise angeordnet
sind:
a. Oberste Anordnungsebene: Bundesländer
b. Pro Bundesland Anordnung nach Regierungsbezirken
c. Pro Regierungsbezirk Anordnung nach Kreisen
d. Pro Kreis Anordnung nach Gemeindegrößenklassen
e. Pro Gemeindegrößenklasse nach Gemeinden/Stadtteilen/Sampling Points.
2) Auswahl der Zielhaushalte (siehe unten)
3) Die Auswahl der Zielpersonen im Haushalt geschieht nach dem sog, Schweden-
schlüssel (zur praktischen Realisierung siehe ADM, 2013: S. 111) oder nach
dem Geburtstagsschlüssel, bei dem diejenige Zielperson befragt wird, die zu-
letzt Geburtstag hatte. Beide Verfahren führen zu vergleichbaren Ergebnissen.
480 VI.7 Stichprobenauswahl durch Begehung von Klumpen

Stichprobentheoretisch handelt es sich also um eine geschichtete ein- oder zwei-


stufige Klumpenauswahl aus einer Zerlegung der Fläche Deutschlands in Klum-
pen, wobei die Klumpen die Sampling Points darstellen. zweiten Stufe eine Stich-
probe von Haushalten und auf der dritten Stufe eine Zielperson gezogen wird. Die
Auswahl der Adressen kann auf verschiedene Art und Weise erfolgen:
• Totale Auflistung der Adressen im Sampling Point mit Rückmeldung der Adres-
sen an das Institut und Auswahl der Haushalte durch das Institut (Haushalts-
vorabauflistung; Adress-Random). Für die Begehung müssen in diesem Fall
folgende Informationen vorliegen
• Vorgegebene Auflistung der Straßen;
• Reihenfolge der zur Bearbeitung der Hausnummern vorgegebenen Straßen-
zügen, wobei grundsätzlich in Verkehrsrichtung gearbeitet und mit geraden
Hausnummern begonnen wird;
• Reihenfolge der Auflistung von Privathaushalten in Mehrfamilienhäusern.
Als Grundsätze für die praktische Auflistung ist folgendes Vorgehen üblich:
• Es wird von oben nach unten gelistet;
• Es wird von rechts nach links gearbeitet. ‚‘Rechts‘‘ ist immer die Seite, die
beim Durchschreiten der Haustür rechts liegt.
• Teilweise Auflistung: Wird die Stichprobe nicht wiederholt verwendet, ist es
möglich, nur einen Teil des Sampling-Points aufzulisten. Erst wenn das gesam-
melte Adressenmaterial ‚‘verbraucht‘‘ ist, wird in einem weiteren Teil aufgelis-
tet. Der Vorteil liegt in der Aktualität des Adressmaterials und in der Ökonomie
des Vorgehens.
Die Auflistung von zufälligen Teilstichproben erfolgt in der Regel nach dem Ran-
dom-Route-Verfahren (auch: Random Walk). Dabei wird aus den in den Bege-
hungsunterlagen pro Sampling Point aufgelisteten Straßen in einer nach Zufall
ausgewählten Straße nach Zufall ein Startpunkt aus der Startadressendatei vor-
gegeben. Von diesem Startpunkt aus wird dem Interviewer ein eindeutiger Weg
durch den Sampling-Point vorgeschrieben, z.B. anhand eines Stadtplans oder einer
Random-Route-Anweisung. So wird etwa jeder 5., 6., oder allgemein n-te Haushalt
(n: Schrittweite) aufgelistet. Aus diesen so aufgelisteten Adressen kann wieder eine
Auswahl getroffen werden (Adress-Random) oder es erfolgt keine Rückmeldung
mehr an das Institut und der Interviewer versucht, direkt einen Kontakt mit dem
Haushalt herzustellen.
Das Verfahren durch Begehung ist sehr abhängig von dem Verhalten der Inter-
viewer, das sich insbesondere in Sampling Points auswirken kann, die in sozialen
Problemgebieten liegen. Problematische Adressen, z.B. abgelegene Adressen mit
schwerer Bewachung, etc. werden von den Interviewern aus Gründen des Selbst-
VI.8 Auswahl von Personen im Haushalt (Within-Household Sampling) 481

schutzes eher gemieden. Besonders bedenklich erscheint das Verfahren, wenn auf
eine Vorabauflistung der Adresse verzichtet wird. Hier erscheint ein mögliches Ein-
fallstor für Manipulationen zu liegen, da davon auszugehen ist, dass einige Intervie-
wer den einfachsten Weg wählen. Dieser kann auch darin bestehen, dass Adressen
aufgesucht werden, von denen bekannt ist, dass sie an der Umfrage teilnehmen.
Die Adressen sollten aus Gründen der Interviewer-Kontrolle nach Möglichkeit zur
Verfügung stehen.

VI.8 Auswahl von Personen im Haushalt (Within-House-


hold Sampling)

Bei mehrstufigen Verfahren besteht die vorletzte Stufe oft in einer Menge von
Haushalten, aus denen dann eine oder mehrere Zielpersonen auszuwählen sind.
Dieses Verfahren muss in Übereinstimmung mit dem gewählten Stichprobende-
sign stehen und so gestaltet sein, dass Schätzer für die Populationswerte konstruiert
werden können. Die Auswahl geschieht oft im ersten Kontakt mit einer Auskunfts-
person (auch: Kontaktperson, Screening-Person). Die Auswahl von Zielpersonen im
Haushalt erfordert immer zumindest eine rudimentäre Form des Screenings, bei
dem festgestellt wird, ob es Personen im Haushalt gibt, die den Kriterien genügen,
welche eine Zielperson definieren (z.B. die Eigenschaft, ein Alter ab 18 Jahren be-
sitzen). In der Regel wird nur eine Person pro Haushalt ausgewählt. Ausnahmen
von dieser Regel kann es z.B. bei seltenen Populationen geben. Gaziano (2005) gibt
einen Überblick über die verschiedenen Methoden zur Auswahl einer Zielperson
im Haushalt, ebenso Le et al. (2013). Im Folgenden wird nur eine Auswahl der
wichtigsten Alternativen vorgestellt.
Die Kish-Methode und ihre Varianten:
Das älteste Verfahren stellt die Kish-Methode dar (vgl. Kish, 1949). Dabei wird
zunächst eine Liste aller Haushaltsmitglieder in der Weise erstellt, dass zunächst
alle Männer nach abnehmendem Alter, dann alle Frauen nach abnehmendem Al-
ter aufgelistet werden. Aus dieser Liste wird nach Zufall eine Person ausgewählt.
Die Kish-Methode kann unterschiedlich praktisch umgesetzt werden. Die in
Deutschland übliche Methode ist der Schwedenschlüssel (kish selection grid), der
unterschiedlichen Kommunikationsarten angepasst werden kann. Bei Face-to-Fa-
ce-Befragungen besteht eine Möglichkeit darin, auf dem Fragebogen für jede
Haushaltsgröße eine zufällig ausgewählte Zahl vorzusehen: Für einen Zwei-Perso-
nen-Haushalt steht nach Zufall ausgewählt entweder eine 1 oder eine 2. Für einen
482 VI.8 Auswahl von Personen im Haushalt (Within-Household Sampling)

Dreipersonen-Haushalt steht nach Zufall ausgewählt eine 1, eine 2 oder eine 3, etc.
Die Auswahl der Zielperson erfolgt durch den Interviewer, der die ihm durch den
Schwedenschlüssel angegebene Person befragt. Ein Nachteil der Kish-Methode ist,
dass sie Fragen nach Geschlecht und Alter erfordert, also die Erhebung persönli-
cher Informationen an den Anfang stellt. Außerdem ist das Verfahren nur prakti-
kabel bis zu einer Haushaltsgröße von sechs Personen.
Eine weniger aufdringliche Variante wäre eine Auflistung der Haushaltspersonen
nur nach dem Alter (engl.: age only oder age order) (vgl. Denk & Hall, 2000) mit
anschließender Zufallsauswahl einer Person. Der Nachteil dieser Methode besteht
darin, dass es keine Schichtung nach Geschlecht in Haushalten mit Angehörigen
beiderseitigen Geschlechts erzeugt (vgl. Gaziano, 2005, p. 126).
Eine weitere Möglichkeit der Listenerstellung wäre die volle Auflistung aller
Haushaltsmitglieder. vornamensalphabetisch oder fortlaufend nach Alter mit Vor-
namen oder Kurzbezeichnung (Oma, Opa etc.) oder fortlaufend nach Alter und
Geschlecht (z.B. zuerst alle weiblichen Mitglieder nach Alter, dann alle männli-
chen, etc.). Eine Möglichkeit der Umsetzung sieht vor, dass für jedes Interview eine
Permutationszahlenfolge, z.B. der Zahlen 1 bis 9 gebildet wird. Zu befragen ist die
Person, die in der Zufallsreihenfolge zuerst aufgerufen wird.
Beispiel: So wäre bei einer Zufallsreihenfolge 9,8,6,4,2,5,7,2,3,1 z.B. im 2-Per-
sonenhaushalt die 2. Person (2 steht vor 1 in obiger Reihenfolge), im 4- Personen-
haushalt die 4. Person (die 4 steht vor den Zahlen 1, 2, und 3) zu befragen.
Weitere Methoden, die alle das Ziel haben, den Aufwand für die Bestimmung
der Person zu reduzieren, sind nicht mehr rein wahrscheinlichkeitsbasiert. Von
diesen stellen einige Varianten der Methode von Troldahl und Carter (T-C-Metho-
de) dar (vgl. Troldahl, 1964). Bei dieser Methode handelt es sich ebenfalls um eine
Variante der Kish-Methode, die eine raschere Bestimmung der Zielperson erlaubt.
Zunächst wird nach der Anzahl der Personen im Haushalt über der kritischen Al-
tersgrenze (z.B. ab 18 Jahren gefragt. Anschließend wird die Frage gestellt, wie viele
Personen davon männlich sind. Die Auswahl wird unter dem ältesten Mann, der
ältesten Frau, dem jüngsten Mann und der jüngsten Frau getroffen.
Eine Methode, welche das T-C-Verfahren weiter abkürzt, wurde von Hagan
und Collier vorgeschlagen (vgl. Hagan & Collier, 1983). Dabei wird die Zusam-
mensetzung des Haushalts nicht mehr erhoben. Stattdessen werden unter den
Interviewern nach Zufall folgende, vorher pro Interviewer festgelegte Varianten
der Auswahl verteilt: „jüngster Mann im Haushalt“, „ältester Mann im Haushalt“,
„jüngste Frau im Haushalt“, „älteste Frau im Haushalt“. Ist eine Person mit diesen
Eigenschaften nicht im Haushalt, wird die nächste Alternative gewählt. Ist z.B. der
älteste Mann nicht im Haushalt, so wird nach der ältesten Frau im Haushalt gefragt
(vgl. Hagan & Collier, 1983, p. 550).
VI.8 Auswahl von Personen im Haushalt (Within-Household Sampling) 483

Eine Modifikation der Alternative von Hagan und Collier stellt die Variante
„Youngest Male“/Oldest Female (YMOF) dar (vgl. z.B. Keeter & Fisher, 1997). Bei
dieser Variante wird zunächst nach einer der beiden Alternativen gefragt, wobei
diese Alternativen auf „gegenwärtig zu Hause“ bezogen werden; z.B. „Ich würde
gerne die jüngste männliche Person im Alter von 18 Jahren und älter im Haushalt
sprechen. Ist diese zu Hause?“. Ist diese Person nicht zu Hause, wird gefragt: „Kann
ich mit der ältesten weiblichen Person im Alter ab 18 Jahren sprechen, die gerade
zu Hause ist?“ Ist auch diese Person nicht zu Hause, wird die Kontaktaufnahme
beendet und später noch einmal angerufen.
Bei Telefonumfragen wird nicht nur aus Zeit- und Kostengründen, sondern
auch, um die Belastung der Kontaktpersonen zu gering wie möglich zu halten, die
eher pseudoprobabilistische Methode des letzten oder nächsten Geburtstags ange-
wandt. Dabei wird diejenige Person im Haushalt befragt, deren Geburtstag dem
Befragungstag zuerst vorangeht oder im zuerst folgt (vgl. Salmon & Nichols 1983).
Methode von Rizzo, Brick und Park (2004):
Auch die Methode von Rizzo, Brick und Park (2004) ist besonders geeignet für
Telefonumfragen. Sie verzichtet ebenfalls auf eine ausführliche Erhebung der Haus-
haltsstruktur. Sie trägt dem Umstand Rechnung, dass 85% der Haushalte in den
USA zwei und weniger Erwachsene haben. Um einen Erwachsenen auszuwählen,
wird entweder die Kontaktperson oder der andere Erwachsene ausgewählt. Die
Auswahl erfolgt in zwei Schritten:
Schritt 1:
Frage die Kontaktperson (Screener respondent) nach der Anzahl der Erwachsenen
im Haushalt (Festlegung von N)
Wenn N=1, wird die Kontaktperson ausgewählt
Wenn N>1, wähle die Kontaktperson mit einer Wahrscheinlichkeit 1/N aus. Wenn
ausgewählte Person die Kontaktperson ist, dann ist der Auswahlprozess beendet.
Wenn N=2 und die Kontaktperson wurde nicht ausgewählt, teile der Kontaktper-
son mit, dass die andere Person ausgewählt wird;
Schritt 2:
Wenn N>2 und die Kontaktperson wird nicht ausgewählt, verwende die Kish-Me-
thode oder die Last-Birthday-Methode unter Ausschluss der Kontaktperson.
Dieses Verfahren ist aus den gleichen Gründen wie in den USA auch in Deutsch-
land anwendbar. Gaziano (2005) hat 16 Studien ausgewertet, die sich mit Verglei-
chen zwischen den oben genannten Verfahren beschäftigt haben und kommt in
ihrer Zusammenfassung zu folgenden Ergebnissen (vgl. Graziano, 2005, pp. 149):
484 VI.8 Auswahl von Personen im Haushalt (Within-Household Sampling)

Die Kish-Methode ist trotz der Aufdringlichkeit ihrer Fragen die populärste
Methode, da sie näherungsweise eine Wahrscheinlichkeitsauswahl ermöglicht. In
Einpersonen-Erwachsenenhaushalten und in Zweipersonen-Haushalten mit bei-
den Geschlechtern ist die Kish-Methode einfacher zu implementieren als die Ge-
burtstagsmethode. Allerdings weiß man wenig über die Fehler, die bei der Auflis-
tung der Haushaltspersonen gemacht werden.
Die Kooperationsraten waren bei der Last-Birthday-Methode den Kooperati-
onsraten der Kish-Methode überlegen. Die Last-Birthday-Methode führte aber zu
einer stärkeren Identifikation der Frauen im Haushalt, repräsentiert aber besser
junge Männer. Die Methode des nächsten Geburtstages wurde seltener angewen-
det als die Methode des letzten Geburtsages und als eher irreführend empfunden.
Es schien mehr Probleme mit der Korrektheit der Auswahl zu geben. So wurden
Schwankungen zwischen 75% und 90% der korrekten Identifikation berichtet (vgl.
Lavrakas, Stasny & Harpuder, 2000; O’Rourke & Blair, 1983). Außerdem zeigte
sich, dass mit steigender Haushaltsgröße die Wahrscheinlichkeit steigt, dass die
Kontaktperson die Information über den letzten Geburtstag nicht geben kann. In
der Anwendung ihres Verfahrens fanden Rizzo, Brick und Blair (2004), dass in 5%
der Dreipersonen-Haushalte, in 7% der Vierpersonen-Haushalte und in 16% der
Haushalte mit mehr als vier Personen die Geburtstagsinformation nicht gegeben
werden konnte.
YMOF war leichter zu applizieren als „Last Birthday“ und unterscheidet sich nur
geringfügig in positiver Weise in Bezug auf die Kooperationsrate. Die nicht-proba-
bilistische Natur einiger Verfahren sollte nicht darüber hinwegtäuschen, dass die
Anpassung an Zensusdaten dennoch hoch sein kann.
Es wäre natürlich am einfachsten und auch kostengünstiger, die Zielperson un-
ter den im Haushalt zum Befragungszeitpunkt anwesenden Personen auszuwählen.
Dies bedeutet allerdings, dass man damit die Teilnahme von der Anwesenheit mit
der möglichen Konsequenz systematischer Teilnahmeeffekte abhängig macht. Die
Anwesenheit zum Zeitpunkt des Interviews ist zumindest nicht mehr zufallsge-
steuert. Haushaltsgewichtungen sind daher streng genommen nicht anwendbar.
Es zeigt sich, dass bei der Anwendung von Verfahren zur Bestimmung einer
Zielperson im Haushalt Kompromisse geschlossen werden müssen zwischen me-
thodischen Ansprüchen, Kosten und Einfachheit der Anwendung. Bei der Ent-
scheidung für das ein oder andere Verfahren spielt insbesondere eine Rolle in wel-
cher Kommunikationsform der Kontakt hergestellt werden soll. Bei schriftlicher
Kontaktaufnahme kann ein Kurzfragebogen zugeschickt werden, in Face-to-Fa-
ce-Umfragen, obliegt die Kontaktaufnahme dem Interviewer, wobei im Fall der
Kish-Methode, die Auswahl durch entsprechende Tabellen unterstützt werden
VI.9 Rekrutierung von Teilnehmern in Webumfragen 485

kann. Die telefonische Kontaktaufnahme muss vor allem leicht durchführbar sein,
da es sich um die Methode mit dem höchsten Zeitdruck handelt.
Die erwähnten Methoden beziehen sich auf Formen der Kontaktaufnahme, bei
denen eine Auswahl nach einfachen Eigenschaften von Zielpersonen, z.B. Alter ab
18 Jahren, erfolgt. Die Eigenschaften können aber ohne weiteres komplexer sein
wie z.B. bei der Erhebung des Migrantenstatus oder anderer Merkmalskomplexe.
In diesen Fällen muss ein umfangreicherer Screening-Fragebogen eingesetzt wer-
den. In diesen Fällen spricht man von einem Screening-Interview.
Es liegt nahe, das Screening auch zur Ziehung geschichteter Stichproben zu ver-
wenden. Stichprobentheoretisch bedeutet das Screening aber, dass das Vorhanden-
sein der Schichtungsmerkmale und ihrer Ausprägungen einem Auswahlverfahren
unterliegen; d.h. die Merkmale und ihre Ausprägungen sind zufällig gezogen, wäh-
rend eine geschichtete Stichprobe eine Schichtung der Grundgesamtheit bedeutet.
In dieser Weise kann über ein Screening nur eine nachträgliche Schichtung (siehe
unten) erreicht werden.

VI.9 Rekrutierung von Teilnehmern in Webumfragen

Couper (2000) schlägt eine Einteilung der Rekrutierungsformen bei Internet-ba-


sierten Umfragen vor und unterscheidet dabei zwischen wahrscheinlichkeitsbasier-
ten Rekrutierungsformen und Rekrutierungsformen, die nicht wahrscheinlich-
keitsbasiert sind (vgl. Abbildung VI.14). Ein weiteres Unterscheidungsmerkmal
betrifft die Frage, ob die Teilnehmer offline oder online rekrutiert werden. Wahr-
scheinlichkeitsbasierte Verfahren und nicht auf Wahrscheinlichkeiten basierende
Verfahren gibt es prinzipiell sowohl bei der Offline-Rekrutierung als auch bei der
Online-Rekrutierung. Wird etwa eine Menge von E-Mail-Adresse offline im Rah-
men eines Schneeballverfahrens rekrutiert, so rekrutiert man damit Adressen off-
line mit Hilfe eines nicht wahrscheinlichkeitsbasierten Verfahrens.
Nicht-wahrscheinlichkeitsbasierte Methoden werden in Webumfragen oft mit
Unterhaltungsfunktion eingesetzt, etwa bei Abstimmungen oder bei Wahlen. Es
zählen aber auch alle uneingeschränkten selbst-selektiven Umfragen dazu, bei
denen der Nutzer, der gerade auf eine bestimmte Website kommt, zu einer Um-
frage eingeladen wird. Dies können auch Einladungen zur Teilnahme an einem
Online-Access-Panel sein.
486 VI.9 Rekrutierung von Teilnehmern in Webumfragen

Abbildung VI.14: Stichprobenauswahl bei Webumfragen

Oft angewandte Formen der nicht wahrscheinlichkeitsbasierten Einladung zur


Teilnahme an Umfragen sind:
• Banner: sind Anzeigen auf Webseiten, die über einen Hyperlink auf die Home-
page des Forschers (Institut, Unternehmen, etc.). Zur Rekrutierung ´von Pro-
banden enthalten sie typischerweise Statements wie: „Ihre Meinung ist gefragt“,
„Umfrage“, etc.
• Interzept-Methoden: Interzeption beim Surfprozess des Nutzers. Bei dieser
Technik wird beim Aufruf oder Verlassen einer Internetseite ein Browser-Fens-
ter geöffnet. Sie sind im Gegensatz zum Banner nicht in eine Webseite einge-
bettet. Dazu gehören:
• Pop-up-Fenster: öffnen sich über der angeforderten Webseite.
• Pop-under- Fenster: öffnen sich unterhalb der Seite
• „Floating“ Fenster: bewegen sich über die Seite.
Zwischenfenster: öffnen sich bevor sich die aufgerufene Seite aufgebaut hat.
• „Hijack“-Fenster: trennen den Nutzer vollständig von der angeforderten Seite
und lenken ihn auf ein neues Browserfenster.
VI.10 Rekrutierung von Stichproben in seltenen Populationen 487

Wahrscheinlichkeitsbasierte Methoden sind solche, die nicht vollständig selbstre-


krutiert sind und die eine Wahrscheinlichkeitsauswahl auf der Basis einer zufalls-
basieren Rekrutierung von E-Mail-Adressen beruhen, wie z.B. telefonischen Re-
krutierung von E-Mail-Adressen auf der Basis einer RDD-Stichprobe, aber auch
zufallsbasierte Auswahlen aus Mailing-Listen oder Teilnehmern in Newsgroups.
Auch die Interzept-Methode des n-ten Besuchers, bei der jeder n-Besucher der
Webseite zur Teilnahme aufgefordert wird, kann in gewissem Sinn als wahrschein-
lichkeitsbasiert angesehen werden, da, bezogen auf die Besucher der Webseite, die
Wahrscheinlichkeit angegeben werden könnte, dass eine Teilnehmerstichprobe
eines bestimmten Umfangs realisiert wird. Allerdings ist die Grundgesamtheit in
diesem Fall nicht bekannt. Außerdem ist diese Methode einem starken Selbstselek-
tionseffekt ausgesetzt. Nur Besucher dieser Website kommen in die Situation, zur
Teilnahme an der Umfrage aufgefordert zu werden.
Bei offline über eine Zufallsauswahl vorrekrutierten Teilnehmern muss unter-
schieden werden zwischen Stichproben aus der Population der Internetnutzer und
Stichproben aus der gesamten Population. Im zuletzt genannten Fall muss dafür
Sorge getragen werden, dass die Teilstichproben die notwendige Hard- und Soft-
wareausstattung erhalten und im Umgang mit Computer und Internet geschult
sind (vgl. Teil II). Dieses Vorgehen ist etwa im niederländischen LISS-Panel reali-
siert (vgl. Das, 2012).

VI.10 Rekrutierung von Stichproben in seltenen


Populationen

Forschungsfragestellungen können sich auf Subpopulationen in der Gesamtpopu-


lation beziehen, die nur sehr kleine Teilmengen der Gesamtpopulation darstellen.
Solche Subpopulationen werden auch seltene Populationen, seltene Subpopulationen
(domains) (engl.: rare populations bzw. rare domains) oder sehr schwer erreichbare
Populationen (engl.: hard-tor-reach populations; kurz: H2R-groups; vgl. Tourangeau
et al., 2014; Willis et al., 2014). genannt. Beispiele sind Migranten, Flüchtlinge, Ob-
dachlose, rassisch Verfolgte, kulturelle Minoritäten, etc. Kish (1987) unterscheidet
drei Stufen der Seltenheit von Subpopulationen:
• größere Subpopulationen (engl.: major domains) mit einem Umfang von 10%
und mehr der Gesamtpopulation;
• geringere Subpopulationen (engl.: minor domains) mit einem Umfang von
1-10%;
488 VI.10 Rekrutierung von Stichproben in seltenen Populationen

• Mini-Subpopulationen (engl.: mini-domains);


• seltene Typen (engl.: rare types) mit einem Umfang von unter 0,01%.
Im Zusammenhang mit der Ziehung von Stichproben in seltenen Subpopulationen
ergeben sich vor allem folgende Fragen (vgl. hierzu Kalton, 2009):
• Gibt es nur eine oder gibt es mehr als eine Auswahlgrundlage für die seltene
Subpopulation?
Wie vollständig ist die Population in den Auswahlgrundlagen repräsentiert?
• Ist die Subpopulation in bestimmten Teilen der Auswahlgrundlage konzent-
riert?
• Falls eine Person der seltenen Subpopulation aus der Gesamtpopulation rekru-
tiert wird: Lässt sich die Zugehörigkeit der Person zur seltenen Population zu
akzeptablen Kosten bestimmen?
• Können Personen seltener Populationen durch andere Personen leicht erkannt
werden?
• Halten sich Angehörige seltener Populationen an bestimmten Orten oder tre-
ten sie in bestimmten Veranstaltungen in Erscheinung?
• Sind die Angehörigen der seltenen Population durch bestimmte dauerhafte
Merkmale gekennzeichnet wie z.B. Ethnizität oder durch ein kurzfristiges Er-
eignis wie einen Krankenhausaufenthalt?
Der einfachste Fall liegt vor, wenn die seltene Population nahezu vollständig in der
Auswahlgrundlage durch Identifikatoren repräsentiert ist. Dies wäre etwa für die
Subpopulationen von in der Bundesrepublik lebenden und offiziell gemeldeten
Personen bestimmter Nationalitäten der Fall, wenn ein 2stufiges Stichprobende-
sign gewählt wird, bei dem auf der ersten Stufe eine Stichprobe von Gemeinden
gezogen wird und auf der zweiten Stufe eine Personenstichprobe, da in den Melde-
registern die Nationalität der Personen festgehalten ist. Auch eine direkte Auswahl
aus dem Ausländerzentralregister wäre prinzipiell möglich, ist aber an bestimmte
Voraussetzungen geknüpft. Allerdings zieht man mit dieser Stichprobe nur jene
Ausländer, die auch gemeldet sind. Andere Gruppen wie illegale Einwanderer wer-
den dadurch nicht erfasst. Auch andere seltene Subpopulationen wie z.B. Perso-
nen im Alter von 80 Jahren lassen auf der Basis von Melderegister-Informationen
identifizieren, so dass aus ihnen eine Stichprobe praktisch gezogen werden kann.
In allen diesen Fällen kann die Auswahlgrundlage als näherungsweise vollständig
bezeichnet werden.
Für die Rekrutierung von Stichproben seltener Populationen lassen sich folgen-
de Verfahren heranziehen, die oft eine Erhöhung des Umfangs der Ausgangsstich-
probe erfordern (sog. Oversampling):
VI.10 Rekrutierung von Stichproben in seltenen Populationen 489

Screening
Ein Screening wird notwendig, wenn die Auswahlgrundlage nicht die zur Identifi-
kation der Populationselemente notwendigen Informationen enthält. Ein Beispiel
wäre eine Telefonstichprobe aus der Population aller über Festnetz oder Mobil-
funkanschluss kontaktierbaren Personen im Alter zwischen 18 und 21 Jahren, die
Menge aller Frauen über 60 Jahren, die auf Grund einer Krankheit schon einmal in
einer Rehabilitation waren, die Menge aller Personen, die schon einmal eine Fern-
reise nach Ostafrika angemacht haben, etc. In diesem Fall muss durch eine Reihe
von Fragen erst ermittelt werden, ob die kontaktierte Person Angehörige der sel-
tenen Population ist oder nicht. Dabei stellt sich die Frage des Umfangs der Stich-
probe, der notwendig ist, um eine vorher festgelegte Nettostichprobe zu erreichen.
Ist der Anteil der Subpopulation in der Gesamtpopulation bekannt, so kann der
notwendige Umfang der Ausgangsstichprobe unter der Maßgabe, dass keine Aus-
fälle durch Unterdeckung oder Nonresponse auftreten, leicht berechnet werden:
Es gilt:

Nh
× nbrutto = nnetto .
N

Daraus folgt:

N
nbrutto nnetto .
Nh

In dieser Formel sind N der Umfang der Gesamtpopulation, Nh der Umfang der
Subpopulation, nnetto Umfang der Nettostichprobe und nbrutto Umfang der Brutto-
stichprobe. Wenn wir einen Subpopulationsanteil von 5% in der Gesamtpopulation
haben, so wäre bei einer Nettostichprobe von nnetto = 1.000 eine Bruttostichprobe
von 20.000 Personen zu ziehen, um den Umfang der Nettostichprobe ohne Be-
rücksichtigung von Nonresponse zu erreichen. Nicht immer ist Umfang oder der
Anteil der interessierenden Subpopulation in der Gesamtstichprobe bekannt. In
diesem Fall kann in einer ersten Phase eine ausreichend große Stichprobe aus der
Gesamtpopulation gezogen werden, um festzustellen, hoch der Anteil ungefähr ist.
Bei der Bestimmung des Umfangs der Bruttostichprobe ist allerdings immer der
mögliche Anteil von Nonresponse zu berücksichtigen. So wäre bei einem Nonre-
sponse-Anteil von 30% wäre an Stelle einer Stichprobe von 20.000 Personen eine
Stichprobe von 60.000 Personen zu ziehen und danach zu screenen und zu kontak-
tieren. Dies bedeutet, dass die Screening-Kosten hier eine hohe Bedeutung haben.
Ob sie tragbar sind, hängt wiederum vom möglicherweise bereits vorher fixierten
490 VI.10 Rekrutierung von Stichproben in seltenen Populationen

Gesamtbudget, das in der Regel wiederum mit der Bedeutung des Projekts und sei-
nen Fragestellungen zu tun hat. Wichtig ist insbesondere auch, wie hoch der Anteil
der Screening-Kosten an den Gesamtkosten der Erhebung sind (vgl. hierzu auch
Sudman, 1972). Ist die Haupterhebung auf Grund der besonderen Untersuchungs-
methoden sehr kostspielig, so machen die Screeningkosten im Vergleich eventuell
einen vertretbaren Anteil aus.
Das Screening seltener Populationen kann erweitert werden, in dem z.B. eine
ausgewählte Kern-Adresse (engl.: core adress) der Stichprobe kontaktiert wird und
nach der Existenz von Mitgliedern der seltenen Population in n Nachbaradressen
gefragt wird. Dieses Vorgehen wird auch als Enumeration bezeichnet. Um die Kos-
ten zu senken, sollte für das Screening eine preiswerte Alternative gewählt werden.
Für die Haupterhebung kann dann ein anderer Mode eingesetzt werden. Als preis-
werte Alternativen gelten das telefonische Screening und das postalische Screening.
Allerdings darf bei allen Alternativen der Aspekt der Vollständigkeit der Auswahl-
grundlage nicht unbeachtet bleiben.
Disproportionale Schichtung
Die disproportionale Schichtung erlaubt eine stärkere Optimierung des Screenings,
in dem in den Schichten mit einem höheren Anteil der seltenen Population ein
höherer Auswahlsatz zugrunde gelegt wird. Wenn die seltene Population z.B. aus
Personen mit einer seltenen Krankheit bestehen würde und man wüsste, dass diese
Krankheit stark gehäuft in der Altersgruppe ab 70 Jahren auftritt, so würde man
nach Alter schichten und in der Schicht der über 70jährigen einen höheren Anteil
von Personen ziehen. Für die Entscheidung für eine disproportionale Schichtung
sind vor allem folgende Aspekte von Bedeutung (vgl. Kalton, 2009, p. 231): die
Prävalenzrate des seltenen Merkmals in den Schichten (Prävalenzrate: Häufigkeit
des Auftretens des Merkmals zum Zeitpunkt der Untersuchung im Verhältnis zur
Häufigkeit der in die Untersuchung einbezogenen Personen), der Anteil der selte-
nen Population in der Schicht und die Kosten. Die epidemiologische Bezeichnung
„Prävalenzrate“ entspricht dem Anteil der Personen mit dem seltenen Merkmal in
der Bruttostichprobe.
Zweiphasen-Auswahl:
Die 2stufige Auswahl besteht in der Regel darin, dass in einer ersten Phase grobe
Informationen über das Vorkommen des seltenen Merkmals erhoben werden, um
anschließend in einer zweiten Phase Personen mit diesem Merkmal genauer zu
untersuchen. Ein Beispiel wäre die Ziehung einer Haushaltsstichprobe, bei der zu-
nächst eine Auskunftsperson gebeten wird, Angaben über das Vorhandensein des
Merkmals (z.B. Krankheit, Behinderung) ggf. eingeschränkt auf bestimmte Alters-
gruppen, im Haushalt zu machen. Anschließend werden die genannten Personen
VI.10 Rekrutierung von Stichproben in seltenen Populationen 491

noch einmal in Hinblick auf die entscheidenden Merkmale untersucht und dann
einer Schicht in einer vorher vorgenommenen Schichtung zugeteilt. Schließlich
wird eine disproportionale Stichprobe gezogen.
Multiple Auswahlgrundlagen
Multiple Auswahlgrundlagen lassen sich vor allem einsetzen, um Defizite in der
Abdeckung der Population in einer Auswahlgrundlage auszugleichen.
Netzwerk-Auswahl (engl.: network sampling)
Bei der Auswahl von Angehörigen seltener Populationen durch die Netzwerk-Aus-
wahl werden die Personen der Stichprobe als Informanten über die Personen ein-
gesetzt, die mit ihnen in bestimmter Weise verbunden sind (z.B. bestimmte For-
men der Verwandtschaft, etc.). Die Informanten werden gebeten, für die mit ihnen
verbundenen Personen Informationen über die seltenen Eigenschaften zu geben.
Diese Personen können dann weiter untersucht bzw. interviewt werden.
Auswahl von Zentren (engl.: centres) bzw. Örtlichkeiten (engl.: locations)
Wenn bekannt ist, wo sich Angehörige seltener Personen zu bestimmten Zeitpunk-
ten oder über einen bestimmten Zeitraum aufhalten (z.B. auf welchen Plätzen, in
welchen Restaurants, in welchen sozialen Einrichtungen, etc.), so kann man versu-
chen, die sich in diesen Örtlichkeiten aufhaltenden Personen als Grundlage für eine
Stichprobenauswahl zu nehmen. Allerdings ist wichtig, dass man Höhe und Syste-
matik der Unterdeckung einschätzen kann. Ein Beispiel geben Baio, Blangiardo &
Blangiardo (2011) in Bezug auf die ägyptische Population im Mailand. Die Autoren
zeigen, wie man in diesem Fall die Inklusionswahrscheinlichkeiten und die Schät-
zer ableiten kann. Dieses Verfahren lässt sich auch mit der Multiplizitätsauswahl
verbinden, indem die sich an diesen Örtlichkeiten aufhaltenden Personen nach de-
nen gefragt werden, die sich dort vorübergehend oder dauerhaft nicht aufhalten.
Damit kann auch eine Einschätzung der Unterdeckung erfolgen.
Telefonische Klumpenauswahl
Eine telefonische Klumpenauswahl (Telephone Cluster Sampling bzw. TCS) bietet
sich ebenfalls bei seltenen Populationen an, wobei das folgende Vorgehen vorge-
schlagen wird (vgl. Blair & Czaja 1982; Blair & Blair 2006): Aus einer in Num-
mernblöcke (z.B. in 100er Blöcke) oder in anderer Weise unterteilten Menge von
Telefonnummern wird nach RDD oder einer anderen Art listenbasierter Zufall-
sauswahl eine Telefonnummer ausgewählt. Führt der Anruf nicht zu einer Zielper-
son, wird keine Nummer aus dieser Menge mehr angerufen. Trifft man aber auf ein
Element der Zielpopulation wird die Auswahl fortgesetzt bis man die vorher fest-
gelegte Anzahl von Interviews durchgeführt hat. Dieses Verfahren führt zu einem
schnellen Ausschluss der Telefonregister, in denen es keine Zielpersonen gibt und
492 VI.10 Rekrutierung von Stichproben in seltenen Populationen

zu einer Auswahl dort, wo es welche gibt. Der Nutzen hängt davon ab, wie stark die
Elemente der Zielpopulation geklumpt sind und wie schwer die Zielpersonen bei
einer einstufigen Auswahl zu finden sind.
RDS (Respondent Driven - Sampling)
Das RDS-Verfahren (vgl. Heckathorn, 1997) stellt eine Variante des Schneeball-
verfahrens dar. Man geht man von einer Anfangsstichprobe der Studienpopulation
aus, die Einladungen an Freunde und Bekannte versendet, welche wiederum Ein-
ladungen an ihre Freunde und Verwandte versenden, etc. Um statistische Schät-
zungen zu ermöglichen, müssen die Teilnehmer die Anzahl der Personen kennen,
die mit ihnen verbunden sind, die Rekrutierung muss zufällig erfolgen und der
Gesamtprozess durch einen Markov-Prozess beschreibbar sein. Lu et al. (2013)
wenden das Verfahren auf soziale Netzwerke an.
Eine weitere Strategie der Rekrutierung von Angehörigen seltener Populationen
kann darin bestehen, Angehörige über einen längeren Zeitraum zu akkumulieren.
Spezifische Auswahlverfahren für seltene Subpopulationen, die sich durch Eigenschaf-
ten der Zeichenfolgen ihres Namens identifizieren lassen
Ein Beispiel für ein solches Verfahren stellt das sog. Ononmastik-Verfahren dar
(vgl. Humpert, 2004; Humpert & Schneiderheinze 2000), das oft in der Auswahl
von Migrantenstichproben verwendet wird. Beim Onomastik-Verfahren wird der
vollständige Telefonbucheintrag (Vorname, Nachname, Zusatzeintrag) auf der
Grundlage der Namensforschung (Onomastik) den Sprachen der Herkunftsländer
zugeordnet. Das Verfahren kann auf alle Namenslisten angewendet werden. In den
meisten Fällen wird aber auf Namen im Telefonregister angewendet. Das Onomas-
tik-Verfahren erfordert die folgenden Arbeitsschritte:
• Fortlaufende Bibliographie der Onomastik-Literatur;
• Datentechnische Erfassung der Vor- und Nachnamen;
• Parallele Zuordnung aller Sprachen;
• Festlegung der Nationalitätenzuordnung aufgrund der Sprachenkombination.
Da das Verfahren auf Telefonbucheinträgen beruht, können nur im Telefonbuch
eingetragene Haushalte in die Stichprobe einbezogen werden, führt also zwangs-
läufig zu einer Unterdeckung der Migrantenpopulation. Allerdings zeichnet sich
das Verfahren durch eine hohe Hitrate aus. Wegen der Unterdeckung erscheint es,
sofern finanzierbar, sinnvoll das Verfahren durch eine Stichprobe der im Telefon-
buch nicht eingetragenen Migranten zu ergänzen. Weitere Möglichkeiten könnten
sich zukünftig über die Nutzung sozialer Netzwerke ergeben.
VI.11 Zusammenfassung 493

Nutzung spezifischer Kommunikationskanäle


Wenn die Kommunikationskanäle bekannt sind, über die Minderheiten bevorzugt
erreicht werden können, kann versucht werden, diese für Befragungen zu nutzen.
Ein Beispiel ist die Nutzung von Ethno-Mobilfunkanbietern wie
D1-Netz (Telekom)
• Turkcell
• LEBARA MOBIL
D2-Netz (Vodafone)
• Mobi (Star Communications GmbH)
• Lycamobile/ GT mobile
E1-Netz (o2 inkl. ePlus)
• Ay Yildiz
• Ortel Mobil
• TURKTELECOM
zur Kontaktaufnahme mit Personen mit Migrationshintergrund.

VI.11 Zusammenfassung

In diesem Teil VI ging es um die Auswahl der Ausgangsstichprobe eines Surveys


auf der Basis wichtiger Stichprobendesigns sowie um die Schätzung von Populati-
onswerten einschließlich ihrer Optimierung durch Gewichtungsverfahren. Thema
waren in diesem Teil VI Stichproben, die noch nicht durch Ausfälle während der
Erhebung betroffen sind. Schon hier wie auch später im Fall von Nonresponse (vgl.
Teil VII) können Verbesserungen der Schätzungen durch den Einsatz von Hilfsva-
riablen erfolgen, deren Verteilungen sowohl in der Zielpopulation als auch in der
Ausgangstichprobe bekannt sind.
Zentral für die Festlegung des Stichprobendesigns sind die verfügbaren Aus-
wahlgrundlagen, aber auch die Kosten und die Verfügbarkeit von Operatoren, die
für die Realisierung der Erhebung zur Verfügung stehen. Deuten sich während der
Erhebung Probleme an, kann versucht werden, im Rahmen eines responsiven Vor-
gehens (siehe Teil I) das Design ohne allzu großen Qualitätsverlust anzupassen.
Wenn irgendwie möglich, sollten Kontrollen der Qualität der Stichprobenaus-
wahl vorgenommen werden, z.B. durch die Berechnung von Designeffekten, die auf
verschiedene Arten von Klumpungen, zurückgehen (durch Interviewer, Auswahl
von Sampling Points, etc.). Eine wichtige Funktion des Teils VI sollte nicht zuletzt
494 VI.11 Zusammenfassung

in einer Sensibilisierung hinsichtlich der verschiedenen Aspekte bestehen, die für


die Qualitätseinschätzung der Stichprobenauswahl herangezogen werden sollten.
Selbstverständlich lässt sich ein Stichprobendesign nicht immer so umsetzen, wie
es wünschenswert wäre. Auch hier ist wie in allen Schritten des Umfrageprozesses
in der Regel mit einem Unterschied zwischen Ideal und Wirklichkeit zu rechnen,
der mehr oder weniger stark ausgeprägt sein kann. Gründe hierfür können nicht
nur im verfügbaren Kostenrahmen und den organisatorischen Randbedingungen,
sondern auch in der spezifischen Zielpopulation und deren Identifizierbarkeit so-
wie den Schwierigkeiten der Kontaktaufnahme liegen.
Teil VII: Auf dem Weg von der
Zielpopulation zur Nettostichprobe

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 495
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_7
VII.1 Einführung und Überblick

Ist die Ausgangs- bzw. Bruttostichprobe aus einer vollständigen Auswahlpopula-


tion unter Ausschluss der nicht auswählbaren Elemente gezogen und liegen für
jedes Element in der Auswahlgrundlage die notwendigen Daten für die Kontakt-
aufnahme vor, so kann auf dieser Grundlage die Kontaktaufnahme mit den Ele-
menten der gezogenen Ausgangsstichprobe eingeleitet werden. Allerdings enthält
die Auswahlgrundlage nicht immer die zum Ausschluss nicht wählbarer Elemente
notwendigen Identifikatoren, so dass deren Identifikation erst auf der Basis eines
Screenings in der Phase der Kontaktaufnahme erfolgen kann. Dies ist sehr oft bei
Telefonumfragen der Fall, da Telefonregister in der Regel nicht die notwendigen In-
formationen über die definierenden Merkmale der Zielpopulation enthalten. Wie
wir im Abschnitt über die Ziehung von Stichproben seltener Populationen gesehen
haben, gibt es aber auch Ausnahmen. Ein Beispiel für eine solche Ausnahme ist
gegeben, wenn die im Telefonregister eingetragenen Namen als Identifikatoren für
die nationale Herkunft herangezogen werden können. Auch die Entscheidung, ob
ein Eintrag eine Firma ist oder nicht lässt sich in Bezug auf die meisten Einträge im
Telefonregister entscheiden.
Am Ende einer Umfrage steht schließlich eine Menge realisierter Interviews, die
oft auch als finale Stichprobe oder Nettostichprobe bezeichnet wird und deren Ele-
mente zusammen mit den erhobenen Informationen im Datensatz digital abgebil-
det werden. Der Datensatz ist Grundlage für weitere Aktivitäten der Datenaufberei-
tung und Editierung (siehe Teil I), ggf. weitere Elemente aus der finalen Stichprobe
herausgenommen werden können wie z.B. extreme Ausreißer. Erst danach steht
der editierte Datensatz für die Datenanalyse zur Verfügung.
Der Weg von der Ausgangsstichprobe zur Nettostichprobe ist in der Regel mit
vollständigen Ausfällen von Elementen der Ausgangsstichprobe gepflastert. Der
Ausfall ganzer Elemente aus der Stichprobe wird auch als Unit-Nonresponse be-
zeichnet. Die resultierende Nettostichprobe, die schließlich realisiert wird, hat da-
her zumeist einen erheblich geringeren Umfang als die Ausgangsstichprobe. Sie
ist allerdings noch nicht der Endpunkt aller Ausfälle, denn die Zugehörigkeit ei-
nes Elements zur Nettostichprobe bedeutet noch nicht unbedingt, dass für dieses
Element Werte auf allen Variablen vorliegen. Vielmehr können aus verschiedenen
Gründen fehlende Werte durch Antwortverweigerungen, Nichtbeachtung von
Fragen, etc. auftreten. Fragen bzw. item-bezogene Ausfälle von Befragten werden
auch als Item-Nonresponse bezeichnet. Gelegentlich wird Item-Nonresponse auch
Nonresponse zweiter Stufe (engl.: second-level nonresponse) genannt, weil die Ein-
heit zwar teilgenommen hat, aber dennoch bei einigen Items Antworten fehlen.
498 VII.1 Einführung und Überblick

Unit-Nonresponse ist dagegen in dieser Terminologie eine Nonresponse erster Stufe


(engl.: first-level nonresponse). Der Begriff der Nettostichprobe bedeutet also nicht,
dass für alle Befragten alle Variablen mit Werten belegt sind, sondern er kenn-
zeichnet aber die Trennungslinie zwischen dem Auftreten von Unit-Nonresponse
und dem Auftreten von Item-Nonresponse. Wie in Teil I bereits ausgeführt wurde,
beeinflussen die verschiedenen Arten von Nonresponse zusammen mit der Unter-
deckung als Nichtbeobachtungsfehler den totalen Umfragefehler.
Abbildung VII.1 gibt einen Überblick über den Weg von der Zielpopulation zur
Nettostichprobe und die verschiedenen Arten von Nonresponse, die auf diesem
Weg eintreten können. Dabei ist auch die Stichprobenauswahl mit aufgeführt, weil
sie zum Ausschluss von Elementen führt. Unit-Nonresponse lässt sich formal auch
über die Item-Nonresponse definieren. Sie ist dann gegeben, wenn für einen Fall
auf keiner Zielvariablen Werte vorliegen, d.h., wenn für einen Fall Item-Nonres-
ponse auf allen Zielvariablen vorliegt. Ausfälle werden, insbesondere, wenn es um
Item-Nonresponse geht, auch als fehlende Werte (engl.: missing values) bezeichnet.

Abbildung VII.1: Der Ausfallprozess

Beide Arten von Nonresponse, Unit-Nonresponse und Item-Nonresponse, können


grob einer der folgenden Teilphasen der Erhebungsphase zugeordnet weden:
• die Kontaktphase bzw. Screening-Phase, in der ein Erstkontakt mit der ausge-
wählten Einheit, z.B. einem Privathaushalt erfolgt, an den sich weitere Kontakte
VII.2 Typische Ausfallmuster 499

anschließen können bis eine Kontaktaufnahme mit der Zielperson und die Bitte
um Teilnahme erfolgen kann. Bei positiver Teilnahmeentscheidung kann eine
Terminierung des Interviews erfolgen. Oft schließt sich das Interview direkt an
die Kontaktaufnahme mit der Zielperson an. Die in dieser Phase gesammelten
Daten zählen zu den Paradaten. Dazu zählen etwa die Anzahl der Kontaktver-
suche (eng.: call-backs) bis zur Herstellung eines Kontakts mit der Zielperson
oder bis zur Herstellung des Kontakts mit einem Klumpen, z.B. Privathaushalt-
bei einem 2tufigen Design.
• der Interviewphase nach erfolgter Einwilligung der Zielperson ins Interview, in
der es primär um das auf die Präsentation der Frage/Item folgende Verhalten
der Befragten geht, also das, was oft als Antwortverhalten (vgl. Teil III) bezeich-
net wird.
Während sich Unit-Nonresponse auf Grund von Ereignissen wie mangelnder
Erreichbarkeit oder Verweigerung vor allem in der Kontaktphase ereignet, tritt
Item-Nonresponse ausschließlich in der Interviewphase auf. Item-Nonresponse ist
Ergebnis einer Entscheidung, auf eine im Interview gestellte Frage zu antworten
oder nicht zu antworten und betrifft somit das Antwortverhalten der Befragten, das
durch eine Frage und ihren Kontext (z.B. Anwesenheit Dritter, Anwesenheit des In-
terviewers, Formulierung der Frage, Sensitivität der zu erhebenden Informationen,
etc.) beeinflusst wird.
In den folgenden Abschnitten werden von Ausfällen ausgehenden Gefährdun-
gen der Stichproben-, und damit der Umfragequalität präzisiert sowie Maßnahmen
zur Reduktion, Kontrolle und Korrektur von Nonresponse-Effekten dargestellt.

VII.2 Typische Ausfallmuster

Ausfälle können in verschiedene Arten subklassifiziert werden, je nachdem ob es


sich z.B. um unbeobachtete latente Variablen, Variablen außerhalb des betrachteten
Datensatzes oder um unbeobachtete Werte im Datensatz, handelt etc. Diese ver-
schiedenen Ausfallvarianten können unterschiedliche Muster bilden. Rubin und
Little (vgl. Rubin & Little, 2002, pp. 5) haben diese Muster (engl.: missing data pat-
terns) zusammengestellt. Sie definieren u.a. auch, welche Verfahren der Datenana-
lyse und der Ersetzung fehlender Werte anwendbar sind. Folgende Muster können
unterschieden werden:
500 VII.2 Typische Ausfallmuster

Univariate Nichtantwort:
Der Begriff der univariaten Nichtanwort ist in Abbildung VII.2 graphisch veran-
schaulicht.

    

Abbildung VII.2: Univariate Nichtantwort

In der Abbildung repräsentiert die Variable Y5 eine Variable mit fehlenden Werten.
Die übrigen Variablen sind vollständig. Sie können prinzipiell als Hilfsvariablen
für Verfahren der Ersetzung (Imputation) fehlender Werte verwendet werden, mit
deren Hilfe eine Schätzung der Populationswerte von Y5 verbessert werden könnte.
Multivariate Zwei-Muster-Nichtantwort:
Im Fall einer multivariaten Zwei-Muster-Nichtantwort haben wir mehrere Vari-
ablen, bei denen Werte für alle Untersuchungseinheiten vorliegen sowie mehrere
Variablen, bei denen für die gleichen Untersuchungseinheiten fehlende Werte vor-
liegen (vgl. Abbildung VII.3).
VII.2 Typische Ausfallmuster 501

    

Abbildung VII.3: Multivariate Zwei-Muster-Nichtantwort

In der Abbildung weisen die Variablen Y1 und Y2 keine fehlenden Werte auf, wäh-
rend dies bei den Variablen Y3, Y4 und Y5 bei den gleichen Untersuchungseinheiten
nicht der Fall ist. Ein Muster dieser Art liegt z.B. vor, wenn bei einer Bruttostich-
probe für alle Untersuchungseinheiten Hilfsvariablen wie Geschlecht und Alter
bekannt sind, auf dem Weg zur Nettostichprobe aber durch Nichtkontakt oder
Verweigerung, also auf Grund von Unit-Nonresponse eine bestimmte Teilmenge
von Untersuchungseinheiten aus der Stichprobe herausfällt. In diesem Fall liegen
für die Menge der Nichtrespondenten nur Messungen von Hilfsvariablen vor, alle
anderen Variablen weisen für diese Gruppe fehlende Werte auf. Ein Beispiel wäre
eine Meldeamtsstichprobe, bei der für alle Personen der Bruttostichprobe Werte
der Variablen Geschlecht und Alter vorliegen, nach der Erhebung aber aller Werte
der Zielvariablen.
Monotones Antwortmuster:
Monotone Antwortmuster treten vor allem in Panelerhebungen auf, wenn auf
Grund unterschiedlicher Ursachen in jeder Welle weitere Fälle aus der Ausgangs-
stichprobe herausfallen, ohne in folgenden Wellen wieder in die Erhebung einzu-
treten (vgl. Abbildung VII.4).
502 VII.2 Typische Ausfallmuster

    

Abbildung VII.4: Monotones Antwortmuster

In Abbildung VII.4 stehen Y1 –Y5 für eine Variable, die in fünf aufeinander fol-
genden Panelwellen erhoben wurde. Bei monotonen Antwortmustern ergibt sich
durch Faktorisierung eine Vereinfachung der Algorithmen zur Parameterschät-
zung mit Maximum-Likelihood-Verfahren (vgl. Little & Rubin, p. 133).
Allgemeines Antwortmuster:
Allgemein können fehlende Werte bei beliebigen Untersuchungseinheiten und be-
liebigen Zielvariablen auftreten. Diese Situation ist in Abbildung VII.6 dargestellt.
File-Matching:
Die Situation des File-Matching betrifft den Fall, wo zwei oder mehrere Variablen
nicht gemeinsam in einer einzigen Erhebung beobachtet werden konnten, wohl
aber in zwei oder mehr Erhebungen. In diesem Fall kann versucht werden, die un-
terschiedlichen Datenquellen abzugleichen und einen gemeinsamen vollständige-
ren Datensatz zu bilden (vgl. Abbildung VII.7 für zwei Datenquellen).
VII.2 Typische Ausfallmuster 503

    

Abbildung VII.6 : Allgemeines Antwortmuster

  

Abbildung VII.7: File-Matching


504 VII.2 Typische Ausfallmuster

In der Abbildung ist Y1 eine Menge von Variablen, die in zwei Datenquellen voll-
ständig erhoben wurden. Y2 und Y2 sind Mengen von Variablen, die jeweils nur in
einer der beiden Datenquelle gemessen wurden.
Unbeobachtete (latente) Variablen:
Viele in den Sozialwissenschaften untersuchte Variablen sind unbeobachtet (auch:
latent). Beispiele hierfür sind Einstellungsvariablen. Diese Variablen müssen über
beobachtete Indikatoren operationalisiert werden, was zu so genannten Mess-
modellen führt, die statistisch analysierbar sind (vgl. Teil IV). Latente Variablen
können als Variablen aufgefasst werden, bei denen alle Werte fehlen, da nur ihre
Indikatoren beobachtet werden können, sie selber aber nicht. an Abbildung VII.8
stellt X eine Menge von latenten Variablen und Y eine Menge von vollständig be-
obachteten Variablen dar.



Abbildung VII.8: Latente Variablen

Die auf den verschiedenen Stufen der Durchführung einer Erhebung auftretenden
Ausfälle können eine Selektion von Elementen mit bestimmten Merkmalen be-
VII.3 Ausfallmechanismen 505

wirken, mit der Konsequenz, dass Elemente mit bestimmten Merkmalen in einer
Stichprobe stärker oder schwächer vertreten als in der vorangegangenen Referenz-
stichprobe, die durch die Ausfälle verändert wird (vgl. unten). Selektionseffekte
können prinzipiell alle Variablen, Hilfs- und Zielvariablen einer Umfrage betreffen.

VII.3 Ausfallmechanismen

Ob ein Element aus einem erhobenen Datensatz herausfällt oder nicht, kann in
unterschiedlicher Weise statistisch modelliert werden. Eine Variante wäre, die
Variable „Ausfall vs. Nichtausfall“ (z.B. Kontakt vs. Nichtkontakt“, Teilnahme vs.
Nichtteilnahme) als abhängige Variable zu betrachten, deren Wahrscheinlichkei-
ten durch für relevant gehaltene, inhaltlich begründete, unabhängige Variablen im
Rahmen eines statistischen Modells vorherzusagen oder zu erklären. In Abschnitt
VII.7.2.2 werden solche Modellansätze in Bezug auf die Teilnahmeentscheidung
vorgestellt. Im vorliegenden Abschnitt geht es um die fehlenden Werte in einem
Datensatz sowie die statischen Bedingungen ihrer Ersetzbarkeit.
In diesem Fall beschränkt man sich auf eine von inhaltlichen Überlegungen
zunächst freie rein statistische Charakterisierung der Mechanismen, die zugleich
die statistischen Bedingungen für mögliche Maßnahmen aufzeigt, mit denen die
durch Ausfälle bedingten Verzerrungen der Stichprobe korrigiert werden könnten.
Die rein statistische Charakterisierung von Ausfallmechanismen (engl. „missing
data mechanism“) nimmt die Art und Weise in den Blick, in der die Wahrschein-
lichkeiten von fehlenden und beobachteten Werten zusammenhängen können. Sie
wurde ursprünglich von Rubin (1976) im Rahmen eines Bayes-Ansatzes zur Erset-
zung fehlender Werte vorgeschlagen. Die erste wirklich umfassende Darstellung
der statistischen Analyse mit fehlenden Werten findet sich bei Rubin und Little
(1987; 2. Auflage 2002). Weitere Darstellungen finden sich in Schafer (1997), End-
ers (2010, vor allem für Sozialwissenschaftler geeignet), Van Buuren (2012), Bethle-
hem (2009) sowie Bethlehem, Cobben und Schouten (2011). Annahmen über diese
Mechanismen bestimmen vor allem die Verfahren, mit denen Stichprobenverzer-
rungen durch Gewichtungen korrigiert werden können. Die Betrachtungsweise
von Little und Rubin führt zu Begriffen, die inzwischen zum Standardrepertoire
der Umfrageforschung gehören. Diese Begriffe sind MCAR, MAR und NMAR so-
wie der Begriff der Ignorierbarkeit. Die Begrifflichkeiten sind, wie einige Autoren
betonen, durchaus nicht ohne weiteres klar und werden von diesen in bestimmter
Weise präzisiert (vgl. Bethlehem, 1999, 2009; Lohr, 1999; Särndal & Lundström,
2005). Die genannten Begriffe werden unten näher erläutert.
506 VII.3 Ausfallmechanismen

Eine zu den Ausfallmechanismen vollkommen äquivalente Betrachtungswei-


se ergibt sich, wenn statt der Mechanismen für das Entstehen einer Nichantwort
Antwortmechanismen (engl.: „response mechanism“), d.h. die Mechanismen für
die Erzeugung einer Antwort in den Blick genommen werden (vgl. z.B. Bethlehem
2009). In diesem Fall wird nach der Antwortwahrscheinlichkeit gefragt, d.h. nach
der Wahrscheinlichkeit, an einem Interview teilzunehmen, eine Frage/Item zu be-
antworten, und nicht nach der Wahrscheinlichkeit einer Nichtantwort.
Ausgangspunkt für die statistische Charakterisierung von Ausfallmechanismen
ist zunächst der vollständige Datensatz, der durch eine Datenmatrix Y dargestellt
wird (vgl. Abbildung V.II9). Eine solche Datenmatrix besitzt so viele Zeilen wie
Untersuchungseinheiten (Fälle) und so viele Spalten wie Variablen. yij bezeichnet
den Wert, den eine Untersuchungseinheit (Fall) i auf der Variablen Yi besitzt.

Abbildung VII.9: Datenmatrix

Wir haben im vorangegangenen Abschnitt gesehen, dass in dieser Matrix für ei-
nige Untersuchungseinheiten und Variablen Werte fehlen können, wobei die An-
ordnungen der fehlenden Werte bestimmte Muster bilden können. Durch Bildung
einer Indikatormatrix M, die für jede Person i und eine Variable yi einen Eintrag
mij = 1 enthält, wenn der Wert einer Person auf dieser Variablen fehlt und sonst den
Eintrag mij = 0, kann dargestellt werden, an welcher Stelle der Datenmatrix Werte
VII.3 Ausfallmechanismen 507

fehlen. Abbildung VII.10 enthält ein Beispiel für vier Untersuchungseinheiten und
vier Variablen. Dargestellt sind die vollständige Datenmatrix Y, der beobachtete
Teil Yobs der Datenmatrix, der fehlende Teil Ymis der Datenmatrix und die Indika-
tormatrix M. In dem dargestellten Beispiel weist jede Variable mindestens einen
fehlenden Wert auf. Es sind also keine Hilfsvariablen mit vollständigen Informa-
tionen vorhanden. Äquivalente Formulierungen der Indikatormatrix erhält man,
wenn man statt der Wahrscheinlichkeiten für das Auftreten fehlender Werte die
Antwortwahrscheinlichkeiten betrachtet und statt der Indikatormatrix M die Indi-
katormatrix R betrachtet, in der für eine Untersuchungseinheit und eine Variable
ein Wert 1 steht, wenn eine Antwort erfolgte und 0 sonst (vgl. Bethlehem, 2009;
Bethlehem, Cobben & Schouten, 2011).
Auf der Basis der eingeführten Unterscheidungen können die Ausfallmecha-
nismen bzw. die Antwortmechanismen danach klassifiziert werden, ob sie von den
Werten der Datenmatrix, vom beobachteten Teil der Datenmatrix oder vom feh-
lenden Teil der Datenmatrix abhängen.

⎛ y11 y12 y13 y14 ⎞ ⎛ y11 y12 y14 ⎞


⎜ ⎟ ⎜ ⎟
y 21 y 22 y 23 y 24 ⎟ y 22
Y =⎜ Yobs =⎜ ⎟
⎜ y 31 y 32 y 33 y 34 ⎟ ⎜ y 32 y 33 y 34 ⎟
⎜⎜ ⎟ ⎜⎜ ⎟
⎝ y 41 y 42 y 43 y 44 ⎟⎠ ⎝ y 41 y 43 y 44 ⎟⎠

⎛ y13 ⎞ ⎛0 0 1 0⎞
⎜ ⎟ ⎜ ⎟
y 21 y 23 y 24 ⎟ 1 0 1 1⎟
Ymis =⎜ M =⎜
⎜ y 31 ⎟ ⎜1 0 0 0⎟
⎜⎜ ⎟⎟ ⎜⎜ ⎟
⎝ y 42 ⎠ ⎝0 1 0 0 ⎟⎠

Abbildung VII.10: Vollständige Datenmatrix, beobachteter Teil der Datenmatrix, unbeo-


bachteter Teil der Datenmatrix und Indikatormatrix

Zunächst kann danach gefragt werden, unter welchen Bedingungen fehlende Wer-
te im Datensatz für die Parameterschätzung und die statistische Datenanalyse die
geringsten Verzerrungsprobleme erzeugen. Diese Situation ist dann gegeben, wenn
die Ausfallwahrscheinlichkeiten von Werten nicht von deren Ausprägungen, seien
sie nun beobachtet oder nicht, abhängen. Sei φi die Wahrscheinlichkeit, dass einer
Variablen ein fehlender Wert mi = 1 auftritt. Hängt diese Wahrscheinlichkeit nicht
von yi ab, so nimmt die Wahrscheinlichkeit, dass ein Ausfall auftritt oder nicht, für
alle Fälle i einen konstanten Wert φi = φ an. Der Ausfallmechanismus heißt in die-
508 VII.3 Ausfallmechanismen

sem Fall „Missing Completely At Random“, kurz: MCAR. Die beobachteten Werte
der Datenmatrix Y stellen in diesem Fall einfach eine von den fehlenden Werten
unabhängige Substichprobe dar. MCAR reduziert in diesem Fall nur den Stichpro-
benumfang und erhöht damit den Standardfehler. Bei Annahme von MCAR gilt
also (vgl. Little & Rubin, 2002, p.12):
f(M|Y,φ)=f(M|φ).
Hängt die Wahrscheinlichkeit für das Auftreten fehlender Werte nur vom beobach-
teten Teil der Datenmatrix Y, Yobs, nicht aber vom fehlenden Teil der Datenmatrix
ab, so spricht man von „Missing At Random“ bzw. MAR. In diesem Fall gilt:
f (M|Y , φ) = f (M|Yobs , φ) für alle Ymis , φ.
Nehmen wir z.B. an, wir hätten das Alter und das Einkommen erhoben. Wenn
die Wahrscheinichkeit für das Auftreten eines fehlenden Werts auf der Variablen
„Einkommen“ mit dem Alter kovariieren würde und für Fälle mit dem gleichen
Alter konstant wäre, dann wäre die Bedingung MAR erfüllt. In diesem Fall können
auf dem Regressionsansatz beruhende Verfahren zur Ersetzung fehlender Werte
eingesetzt werden.
Hängt die Verteilung für das Auftreten fehlender Werte M auch von den fehlen-
den Werten in der Datenmatrix Y ab, so spricht man von „Not Missing At Random“
bzw. NMAR. Dieser Fall wäre in obigem Beispiel dann gegeben, wenn unabhän-
gig vom beobachteten Alter vor allem die höheren Einkommensgruppen die Frage
nicht beantwortet hätten.
Während das Vorliegen von MCAR zu erwartungstreuen Schätzern von Mittel-
wertsparametern führt, ist dies bei MAR und NMAR nicht der Fall. Allerdings ist die
Verzerrung bei MAR unter Verwendung von Hilfsvariablen korrigierbar, während
dies bei NMAR nicht möglich ist. Little & Rubin (2002) zeigen, dass der Ausfallme-
chanismus bei der Maximum- Likelihood-Schätzung und bei der Bayes-Schätzung
außer Acht gelassen werden kann, wenn MAR zutrifft und wenn die Parameter
der Verteilungen von Y und von M voneinander unabhängig sind. In diesem Fall
spricht man von einem ignorierbaren (engl.: ignorable) Ausfallmechanismus. Gel-
ten diesen Bedingungen nicht, so wird der Ausfallmechanismus nichtignorierbar
(engl.: nonignorable) genannt. In diesem Sinne ist NMAR ein nicht-ignorierbarer
Ausfallmechanismus. Dies bedeutet, dass der Ausfallmechanismus bzw. das Ant-
wortverhalten getrennt und explizit durch Einbeziehung externer Variablen als Ur-
sachen modelliert werden muss. Zu weiteren Unterscheidungen hinsichtlich der
Arten von Ignorierbarkeit wie der Unterscheidung nach der Kenntnis des nicht
ignorierbaren Mechanismus vgl. Little und Rubin (2002, Kapitel 15).
VII.4 Gefährdungen der Umfragequalität durch Ausfälle 509

Alternative Interpretationen der Begriffe MCAR, MAR und NMAR basieren


auf der explizieten Unterscheidung zwischen Hilfsvariablen und Zielvariablen.
Trifft man eine Unterscheidung zwischen Hilfsvariablen, deren Werte für alle Un-
tersuchungseinheiten beobachtet wurden und Zielvariablen, so bedeutet der Be-
griff MCAR, dass die Ursache Z für das Auftreten fehlender Werte weder mit den
Werten der beobachteten Hilfsvariablen X noch mit den Werten der Zielvariab-
len Y zusammenhängt. MAR bezeichnet dagegen den Fall, dass das Auftreten von
fehlenden Werten M sowohl von einer unabhängigen Ursache Z als auch von den
Hilfsvariablen X abhängt. Bei Vorliegen von NMAR existiert eine Beziehung zwi-
schen Z und M, eine Beziehung zwischen X und M sowie eine direkte Beziehung
zwischen der Zielvariablen Y und M, die durch X nicht vollständig kontrollierbar
ist. Diese Situationen lassen sich wie in Abbildung VII.11 dargestellt beschreiben
(vgl. Bethlehem, Cobben & Schouten, 2010, p. 51; Groves et al., 2009, p. 192).

Abbildung VII.11: Ausfallmechanismen (missing data mechanisms)

VII.4 Gefährdungen der Umfragequalität durch Ausfälle

VII.4.1 Selektionseffekte

Wir haben in Teil II die durch Kommunikationsformen bewirkten Selektionseffek-


te diskutiert. Selektionseffekte können aber nicht nur auf Grund der Verwendung
bestimmter Kommunikationsformen entstehen. Vielmehr gibt es zahlreiche andere
Ursachen dafür, dass Befragte mit bestimmten Merkmalen in der resultierenden
Nettostichprobe mit Anteilen vertreten sind, die von denen in der Zielpopulation
510 VII.4 Gefährdungen der Umfragequalität durch Ausfälle

abweichen. Grundsätzlich können Selektionseffekte auf allen Stufen des Wegs von
der Zielpopulation zur Nettostichprobe auftreten (vgl. Abbildung VII.12).

Abbildung VII.12: Selektionsprozess

Ursache für Selektionseffekte durch Unterdeckung sind Mängel der Auswahlgrund-


lage. Letztere können dazu führen, dass nur Befragte mit bestimmten Merkmalen
in der Auswahlgesamtheit zu finden sind. In Bezug auf Unit-Nonresponse sind es
die Interaktionen zwischen Merkmalen der Umfrage (Interviewerverhalten, Thema
der Umfrage, etc.) und Merkmalen der Befragten (Geschlecht, Alter, Bildung, etc.).
Selektionseffekte durch Item-Nonresponse entstehen auf Grund von Interaktionen
von Merkmalen der Befragten mit Merkmalen des Interviews einschließlich der
Merkmale von Fragen und Fragebogen.
Wie Abbildung VII.12 zeigt, können Selektionseffekte immer auf vorangegan-
gene Teilstichproben, die Auswahlgesamtheit oder direkt auf die Zielpopulation
bezogen sein, der Selektionseffekt durch Unterdeckung auf die Zielpopulation, der
Selektionseffekt durch Unit-Nonresponse auf die Ausgangsstichprobe, etc. Selek-
tionseffekte bieten immer wieder Anlass für empirische Verteilungsunterschiede
einer Zielvariablen zwischen einer Stichprobe und der Vorgängerstichprobe (z.B.
zwischen der Nettostichprobe und der Ausgangsstichprobe). Solche auf dem Wege
von der Zielpopulation zur Nettostichprobe auftretenden Verzerrungen (Bias)
können die Umfragequalität durch die Erhöhung des totalen Umfragefehlers (siehe
Teil I) negativ beeinflussen. Im Einzelnen handelt es sich um
VII.4 Gefährdungen der Umfragequalität durch Ausfälle 511

• Verzerrungen durch Unterdeckung der Zielpopulation in der Auswahlgrund-


lage;
• Verzerrungen der Auswahlgesamtheit durch die Ziehung der Ausgangsstich-
probe;
• Verzerrungen der Ausgangsstichprobe durch Unit-Nonresponse;
• Verzerrungen der Nettostichprobe durch Item-Nonresponse.
Ein Bias in Bezug auf bestimmte Zielvariablen äußert sich darin, dass sich die Mit-
tel- bzw. Anteilswerte der Zielvariablen von einer Stichprobe zur anderen durch
Ausfälle verändern. Prinziell erscheint es möglich, dass sich ein Bias auf dem Weg
von der Zielpopulation zur Menge der Respondenten, die eine konkrete Frage/Item
beantwortet haben, nicht nur verstärkt, sondern auch abschwächt. Der Bias ist Va-
riablen-spezifisch und kann nur für Variablen berechnet werden, deren statistische
Kennwerte sowohl auf der unter,- als auch auf der übergeordneten Stufe zur Ver-
fügung stehen. So wird man etwa den Bias durch Unterdeckung nur berechnen
können, wenn die Kennwerte der Variablen sowohl auf der Ebene der Zielpopula-
tion als auch auf der Ebene der Auswahlgesamtheit zur Verfügung stehen und der
Bias durch Unit-Nonresponse lässt sich nur berechnen, wenn die Kennwerte der
Variablen sowohl auf der Ebene der Ausgangsstichprobe als auch auf der Ebene
der Befragungsteilnehmer zur Verfügung stehen. Der Bias lässst sich aber auch als
Funktion der Mittelwertsdifferenzen zwischen der Menge der ausgefallenen Ele-
mente und der in der Stichprobe verbleibenden Elemente, im Fall von Uni-Nonre-
sponse, zwischen Nichtrespondenten und Respondenten darstellen (siehe unten).
Für alle Variablen, deren Werte nur für die nicht herausgefallenen Elemente
vorliegen, lassen sich Verzerrungen von Zielvariablen auf bestimmten Stufen nur
dann korrigieren, wenn sie mit Hilfsvariablen korreliert sind, deren Werte auch auf
der übergeordneten Stufe vorliegen. Die Art der einsetzbaren Gewichtungsverfah-
ren zur Verzerrungskorrektur ist auf allen Stufen strukturell identisch. Wie in den
Abschnitten VII.4.2 und VII.4.3 gezeigt wird, lässt sich der Bias auf den verschie-
denen Stufen mathematisch präzisieren.
512 VII.4 Gefährdungen der Umfragequalität durch Ausfälle

VII.4.2 Probleme durch Unterdeckung und


Unterdeckungsfehler

Insbesondere für einige Formen computerunterstützter Umfragen, insbesondere


für selbst-administrierte Umfragen, stellt die Unterdeckung ein Problem dar, das
nicht immer ohne weiteres zu lösen ist. Bei computerunterstützten Telefonumfra-
gen sind nicht nur Listenverfahren ohne Nummernmodifikation, etwa auf der Ba-
sis von Telefonregistern wegen der Unvollständigkeit der Auswahlgrundlage ein
Problem. Grundsätzlich stellt auch die zunehmende ausschließliche Nutzung von
Mobiltelefonen ohne Festnetzanschluss die Vollständigkeit aller Auswahlgrundla-
gen in Frage, die auf Festnetzanschlüssen beruhen. Ein Ausweg würde hier in der
Erzeugung einer neuen Auswahlgrundlage unter Einschluss ausschließlicher Mo-
bilfunknutzer bestehen.
Im Fall einiger Rekrutierungsformen bei Webumfragen sind die Auswahl-
grundlage und damit die Auswahlgesamtheit gar nicht definiert. Daher kann auch
die Frage der Güte der Schätzung gar nicht erst gestellt werden. Auf der anderen
Seite wird eine Schätzung von Parametern der Grundgesamtheit auch nicht immer
angestrebt.
Ob ein Unterdeckungsfehler angenommen werden muss oder nicht, hängt auch
mit der Definition der Zielpopulation zusammen. Ist die Zielpopulation z.B. defi-
niert als die Menge aller in Privathaushalten mit Telefonanschluss lebenden und im
Telefonregister aufgeführten Personen im Alter von 18 Jahren, so stellt das Telefon-
buch in Bezug auf diese Zielpopulation eine vollständige Auswahlgrundlage dar. Ist
die Zielpopulation hingegen definiert als die Menge aller in Privathaushalten mit
Telefonanschluss lebenden Personen im Alter von 18 Jahren und darüber, führt die
Auswahl auf der Basis des Telefonbuchs zu einer Unterdeckung.
In Bezug auf die Allgemeinbevölkerung stellt eine Auswahlgrundlage, die nur
jene Haushalte/Personen umfasst, die über eine bestimmte technische Ausstattung
verfügen, für CSAQ-Umfragen sicher eine grundsätzliche Gefährdung dar. So be-
grenzt etwa TDE die Auswahlgrundlage auf die Menge der Personen, die Zugang
zu Tastentelefonen haben. Webumfragen beschränken die Population auf die Men-
ge der Internetnutzer. Probleme der Computerausstattung betreffen dabei nicht nur
das Vorhandensein von Computern an sich, sondern auch deren Ausrüstung wie
Kapazität, die Festplatte, die Laufwerke, die Betriebssysteme, etc. Es ist allerdings
damit zu rechnen, dass sich Mindeststandards durchsetzen, so dass nur besondere
Anforderungen zu Problemen führen würden. Eine Lösung des Ausstattungspro-
blems würde darin bestehen, allen Untersuchungseinheiten der Grundgesamtheit
die Ausstattung zur Verfügung zu stellen (siehe Teil II) oder spezifische Lösun-
gen zu finden wie die von De Pijper und Saris (1986) vorgeschlagene Lösung. In
VII.4 Gefährdungen der Umfragequalität durch Ausfälle 513

ihrer Untersuchung diente das Fernsehgerät der Befragten als Monitor. Ein Mo-
dem übertrug Blöcke von Fragen und die die Befragten antworteten über das Te-
lefon. Auch das LISS-Panel (vgl. Das, 2012) oder das Mixed-Mode-Access-Panel
des GESIS-Leibniz-Institut für Sozialwissenschaften setzen Methoden ein, um
auch jene zu erreichen, die aus unterschiedlichen Gründen nicht in der Lage sind,
die notwendige Ausstattung zur Verfügung zu stellen. Natürlich ändert sich die
Ausstattungssituation auf Grund einer kontinuierlichen Diffusion technologischer
Innovationen in die Bevölkerung fortlaufend und kann nicht für einen Zeitpunkt
festgeschrieben werden.
Der durch Ausfälle auf der Ebene der Auswahlgrundlage verursachte Covera-
ge-Fehler bzw. der Coverage-Bias lässt sich in Bezug auf eine Zielvariable Y formal
wie folgt definieren (vgl. Groves et al., 2009, p. 55):

U
Yc − Y =
N
(YC − YU ) ,
wobei:

Y : Mittelwert einer Variablen Y in der gesamten Zielpopulation

YC : Mittelwert in der Auswahlgesamtheit


Mittelwert der Zielpopulation, die nicht in der Auswahlgrundlage ent-
YU :
halten ist
N : Gesamtanzahl der Elemente in der Zielpopulation
U : Gesamtanzahl der auswählbaren Elemente, die nicht in der Auswahl-
grundlage enthalten sind (Anzahl der nicht in der Auswahlgrundlage
enthaltenen Elemente der Zielpopulation)

Das Verhältnis
U
N
heißt auch Unterdeckungsrate (engl.: noncoverage-rate).
Man erkennt aus der obigen Formel für den Unterdeckungsfehler, dass sich der
Fehler mit sinkender Differenz zwischen dem Mittelwert einer Variablen in der Aus-
wahlgesamtheit und dem Mittelwert der Variablen in der nicht abgedeckten Popu-
lation bei konstanter Unterdeckungsrate verringert. Er verringert sich ebenfalls mit
sinkender Unterdeckungsrate bei konstanter Differenz zwischen dem Mittelwert ei-
ner Variablen in der Auswahlgesamtheit und dem Mittelwert der Variablen in der
nicht abgedeckten Population.
514 VII.4 Gefährdungen der Umfragequalität durch Ausfälle

Wie auch im Fall der Unit-Nonresponse (siehe unten) stellt die Unterdeckung
vor allem dann ein Problem dar, wenn der Ausfallmechanismus nicht ignorierbar
ist und es nicht in der Auswahlgrundlage identifizierbare externe Ursachen wie
z.B. Ausstattungsmerkmale gibt, die dazu führen, dass Elemente der Zielpopulation
mit spezifischen Merkmalen fehlen, sodass die Auswahlgesamtheit entsprechend
verzerrt ist. So gilt etwa für Webumfragen, dass die Ausstattung mit Computern,
der Zugang zum Internet, etc. immer noch von den soziodemographischen Vari-
ablen Bildung, Geschlecht und Alter abhängt. Eine Stichprobe, die aus einer Aus-
wahlgrundlage gezogen wurde, die nur die höheren Bildungsstufen, die jüngeren
Altersjahrgänge, und eher Männer umfasst, kann nur Aussagen über eine entspre-
chend verzerrte Auswahlgesamtheit liefern, aber nicht über die Allgemeinbevöl-
kerung.
Die Konsequenzen der Nichtberücksichtigung eines Teils der Zielpopulati-
on lässt sich am Beispiel des Anteils von ca. 13% aus der Allgemeinbevölkerung
erläutern, der ausschließlich über Mobilfunk erreichbar ist: In Deutschland un-
terscheiden sich reine Mobilfunk-Teilnehmer von Festnetz-Teilnehmern in den
Variablen „Geschlecht“, „Alter“, „Erhebungsgebiet (Ost/West)“ und monatlichem
„Haushalts-Nettoeinkommen“ (vgl. Glemser, 2007). Betroffen sind also wichtige
soziodemographische Hilfsvariablen, von denen angenommen werden kann, dass
sie auch verschiedene, inhaltlich relevante Zielvariablen beeinflussen könnten. Die
Nichtberücksichtigung der Mobile-Onlys kann auch die Schätzer einschließlich ih-
rer Varianz beeinflussen. Peytchev, Carley-Baxter und Black (2010) fassen auf der
Basis ihrer eigenen empirischen Analysen einer Erhebung zur Gewalt in der Ehe
die verschiedenen Arten, in denen Schätzer durch Nichtberücksichtigung von Mo-
bilfunknummern beeinflusst werden können, in der folgenden Weise zusammen
(vgl. Peytchev, Carlex-Baxter & Black, p. 299):
• Beeinflusst werden nicht nur Mittelwerte und Anteile, sondern auch Varianzen
sowie Zusammenhänge zwischen Zielvariablen in der Stichprobe.
• Die Nichtberücksichtigung der Mobile-Onlys kann auch die Varianzen der
Schätzer und daher auch die Signifikanztests beeinflussen.
• Demographische Merkmale können bei einigen Merkmalen über Gewichtun-
gen angepasst werden, bei anderen Merkmalen dagegen erhöht sich der Bias.
• Insgesamt sind die Verzerrungen spezifisch für die Art der berechneten Statis-
tiken und die Art der Schätzer.
VII.4 Gefährdungen der Umfragequalität durch Ausfälle 515

VII.4.3 Nonresponse-Bias

Da mit einer Umfrage die Absicht verbunden ist, Populationseigenschaften auf Basis
der Stichprobe so gut wie möglich abzubilden, muss nicht nur die Verzerrung durch
Unterdeckung von Interesse sein, sondern auch die Verzerrung durch Nonresponse.
Das Ausmaß an Verzerrung durch Nonresponse, der sog. Nonresponse-Bias (engl.:
nonresponse bias) oder auch Nonresponse-Fehler (engl.: nonresponse error) kann für
eine Stichprobe s und eine Variable Y nach folgender Formel bestimmt werden:

M
Yr − Ys =
N
(Yr − Ym ) ,
wobei:

Yr : Mittelwert der Respondenten in der Auswahlgesamtheit;


Ys : Mittelwert der Respondenten in der Stichprobe;
Ym : Mittelwert der Nichtrespondenten in der Auswahlgesamtheit;
N : Gesamtanzahl der Elemente in der Auswahlgesamtheit;
M : Gesamtanzahl der Nichtrespondenten in der Auswahlgesamtheit.

M
N
heißt auch Nonresponse-Rate.
Der Nonresponse-Bias beschreibt, wie stark der Mittelwert einer Variablen in
der Menge der Respondenten in einer Stichprobe vom Mittelwert aller Personen in
der Ausgangsstichprobe abweicht. Aus der Formel ist ersichtlich, dass der Nonre-
sponse-Fehler unter den folgenden Bedingungen den Wert Null annimmt:
• Es gibt keinen Mittelwertunterschied zwischen der Teilstichprobe der Befrag-
ten und der Gesamtstichprobe.
• Alle Elemente der Bruttostichprobe konnten befragt werden.
Die obige Formel ist deterministisch, insofern sie voraussetzt, dass die Auswahlge-
samtheit in zwei Schichten zerlegt ist: die Schicht der Respondenten und die Schicht
der Nichtrespondenten. Die Formel für den Nonresponse-Bias kann aber auf die
Ausgangsstichprobe bezogen werden. In diesem Fall variieren die Umfänge der
Respondenten und Nichtrespondenten von Stichprobe zu Stichprobe, so dass hier
516 VII.4 Gefährdungen der Umfragequalität durch Ausfälle

eigentlich der Erwartungswert (Mittelwert) eingesetzt werden muss (vgl. Groves,


1989):
ms
Bias ( y r ) = E( ( y r − y s ) .
ns
In dieser Formel sind y r und y s die Mittelwerte der Respondenten und Nichtre-
spondenten in der Stichprobe, ns der Stichprobenumfang der Ausgangsstichprobe
und ms Anzahl der Nichtrespondenten in der Ausgangsstichprobe.
Da Ziehungen aus der gleichen Zielpopulation unter verschiedenen Stichproben-
designs unterschiedliche Nonresponse-Raten produzieren, empfiehlt es sich, von den
individuellen Antwortwahrscheinlichkeiten ρk auszugehen. Eine Verzerrung durch
Nonresponse entsteht, wenn die Mechanismen, welche die Teilnahmeentscheidung
beeinflussen, in Beziehung zu Variablen steht, die in den Schätzer eingehen. Groves
(2006) schlägt daher vor, die von Bethlehem (2002) entwickelte Formel
σ yρ
Bias ( y ) =
ρ

zu verwenden. In diesem Ausdruck ist Vyρ die Kovarianz zwischen der Variablen y
und den individuellen Antwortwahrscheinlichkeiten. ρ– ist die mittlere Antwort-
wahrscheinlichkeit. Nach dieser Formel steigt der Bias mit wachsender Kovarianz
zwischen der betrachteten Untersuchungsvariablen y und den individuellen Ant-
wortwahrscheinlichkeiten bei gleich bleibender durchschnittlicher Antwortwahr-
scheinlichkeit und sinkt mit zunehmender durchschnittlicher Wahrscheinlichkeit
der Nichtantwort. Mit anderen Worten: Das Ausmaß der Verzerrung nimmt zu,
wenn die individuellen Teilnahmewahrscheinlichkeiten mit der Untersuchungs-
variablen zusammenhängen. In seiner obigen Form bezieht sich der Nonrespon-
se-Bias auf alle Ausfälle, die durch Nonresponse entstehen einschließlich der durch
Item-Nonresponse und darüber hinaus sogar auf alle Arten von Ausfällen ein-
schließlich von Ausfällen durch Unterdeckung. Ein alternativer Ausdruck für die
obige Formel für den Nonresponse-Bias ist:

∑ iN=1 ( y i − y )(π i − π )
Bias ( y ) ≈

In dieser Formel sind yi der Wert des Elements i auf der Variablen y, –y der Mittel-
wert von y, πi die Ausfallwahrscheinlichkeit des Elements i(π>0), –π die mittlere
Ausfallwahrscheinlichkeit und N –π die Schätzung der Anzahl der Respondenten.
Es ist zu erwarten, dass sich die Ausfälle in der Rekrutierungsphase zu einem
Gesamtfehler verbinden. Abbildung VII.13 stellt die Stufen eines Auswahlprozes-
ses von Personen für eine telefonisch offline-rekrutierte Zufallsstichprobe von Teil-
VII.4 Gefährdungen der Umfragequalität durch Ausfälle 517

nehmern an einer Webumfrage dar. Auf jeder Stufe können sukzessiv Teilnehmer
aus der Stichprobe herausfallen bis schließlich eine Nettostichprobe von Teilneh-
mern entsteht, die an der Webumfrage teilgenommen haben (vgl. Deutschmann
& Faulbaum, 2001). Die Zielpopulation besteht in der Menge aller in Privathaus-
halten der Bundesrepublik Deutschland lebenden Personen mit Telefonanschluss
im Alter von 18 Jahren und darüber. Durch Beschränkung der Zielpopulation auf
eine Auswahlgrundlage, die nur aus Privathaushalten mit Telefonanschluss besteht,
entsteht bereits ein Unterdeckungsfehler. Aus dieser Auswahlgrundlage wird eine
Zufallsstichprobe von Haushalten gezogen, die kontaktiert werden. Auf Grund von
Unit-Nonresponse ergibt sich eine Substichprobe der teilnehmenden Haushalte.
Durch Zufallsauswahl einer Person im Haushalt entsteht eine Zufallsstichprobe
von Zielpersonen, die nach ihrer E-Mail- und Internetnutzung gefragt werden, was
zu einer Substichprobe von Internet- und E-Mail-Nutzern führt. Nur eine Teilmen-
ge dieser Stichprobe ist schließlich bereit, ihre E-Mail-Adresse zu nennen. Diese
Teilmenge wird dann zu einer Webumfrage eingeladen. Auch auf dieser Stufe kann
es noch Ausfälle geben, die in der Abbildung nicht dargestellt sind.

 

    





   


 

    




 

    








 


   !



  
 " #

     


 
 


   


 
   

Abbildung VII.13: Stufen des Auswahlprozesses telefonisch rekrutierten Teilnehmern einer


Webumfrage
518 VII.4 Gefährdungen der Umfragequalität durch Ausfälle

VII.4.4 Response-Rate, Bias und Stichprobenqualität

Übereinstimmend wurden von verschiedenen Autoren abnehmende Response-Ra-


ten bei sinkenden Kooperationsraten und Kontaktraten in westlichen Ländern und
den USA berichtet und zum Teil auch beklagt (vgl. de Leeuw & de Heer, 2002;
Curtin, Presser & Singer, 2005; Keeter et al., 2006). Curtin, Presser und Singer
(2005) berichten in Bezug auf den University of Michigan’s Survey of Consumer
Attitudes, einem Telefonsurvey, eine Abnahme der Response-Rate zwischen 1979
und 2003, wobei die Abnahme zwischen 1996 und 2003 sehr viel stärker war als in
den Jahren davor. Die Ergebnisse legen nahe, dass der Nonresponse-Anteil, der auf
Nichtkontakt zurückzuführen ist, im Vergleich zum Anteil, der auf Verweigerun-
gen zurückzuführen ist, zugenommen hat. Während noch 1997 in einer Übersicht
von 39 RDD Umfragen in den USA Responseraten zwischen 42% und 79% sowie
einer durchschnittlichen Response-Rate von 67% berichtet wurden (vgl. Massey,
O’Connor & Krotkin, 1997), sind die Berichte und Prognosen inzwischen deutlich
pessimistischer geworden. De Leeuw und de Heer (2002) berichten aber auch über
nationale Unterschiede in den Responseraten.
Nicht zuletzt die abnehmenden Responseraten haben Befürchtungen verstärkt,
dass mit niedrigen Responseraten auch ein erhöhter Nonresponse-Bias einherge-
hen könnte, da die Stichprobenqualität weniger durch die Nonresponse-Rate, son-
dern durch den Nonresponse-Bias beeinflusst wird (vgl. Groves, 2006; Peytchev,
2013). Nur wenn die Stichprobe der Respondenten eine reine Zufalls-Teilstichpro-
be der Ausgangsstichprobe darstellt, ist ein Bias nicht zur erwarten. Allerdings ist in
diesem Fall mit einer Auswirkung auf die Varianz des Schätzers zu rechnen.
Ein Bias in Bezug auf eine Zielvariable entsteht erst, wenn die Ursachen für den
Ausfall mit der Zielvariablen zusammenhängen (vgl. Abbildung VII.14). Dies gilt
nicht nur für die Unit-Nonresponse, sondern genau so für Ausfälle durch Unter-
deckung oder durch Item-Nonresponse. Allerdings reicht die Einbeziehung einer
einzigen gemeinsamen Ursache („common cause model“; vgl. Groves, 2006) nicht
immer aus. Vielmehr müssen in der Regel zusätzliche Hilfsvariablen berücksichtigt
werden, die mit den gemeinsamen Ursachen zusammenhängen (vgl. Groves et al.,
2012; Kreuter & Olson, 2010), weil die eigentlichen Ursachen nicht identifizier-
bar sind. Stattdessen beobachtet man eventuell nur Selektionseffekte hinsichtlich
verschiedener Hilfsvariablen wie Alter, Geschlecht, ohne dass die Variablen die zu
dieser Selektion führen, bekannt sind, sondern nur die Einflüsse der Hilfsvariablen.
VII.4 Gefährdungen der Umfragequalität durch Ausfälle 519

Abbildung VII.14: Voraussetzungen für den Bias

Angenommen, es würde festgestellt, dass sich die Nettostichprobe von der Aus-
wahlgesamtheit in der Zusammensetzung der Variablen „Alter“ unterscheidet.
Dann würde ein Altersbias durch die selektive Teilnahme in Bezug auf die Zielvari-
able erst dann entstehen, wenn das Alter sowohl mit der Teilnahmewahrscheinlich-
keit als auch mit der Zielvariablen korreliert ist. Gilt dies nicht, gibt es diesen Bias
in Bezug auf die Zielvariable nicht.
Nehmen wir das Beispiel eines konkreten Items: die Wichtigkeitseinstufung des
Items „Religion und Kirche“. Angenommen, die Wahrscheinlichkeit, an der Erhe-
bung teilzunehmen, wäre für Frauen höher als bei Männern ist und Frauen würden
außerdem eine höhere Einstufung des Items „Wichtigkeit von Religion und Kirche“
vornehmen als Männer. Dann würde ein Bias dieser Variablen die Folge sein.
Etwas komplizierter wird es, wenn sowohl die Teilnahmewahrscheinlichkeit als
auch die Wahrscheinlichkeit, eine bestimmte Frage zu beantworten, berücksich-
tigt werden. Sind beide Wahrscheinlichketen korreliert, so beantworten Personen,
die eher teilnehmen auch eher eine Frage, eine Effekt, der die Art und Weise, wie
geantwortet wird, nicht direkt betrifft. Um den Effekt auf die Variable einer der bei-
den Wahrscheinlichkeiten zuordnen zu können, muss der Effekte der einen Wahr-
scheinlichkeit aus der jeweils anderen herauspartialisiert werden.
Groves und Peytcheva (2008, p.183) kommen in ihrer Metaanalyse, deren Be-
schränkungen sie explizit erwähnen, u.a. zu der Schlussfolgerung, dass hohe Res-
ponseraten das Risiko von Verzerrungen reduzieren können; dies aber umso we-
niger der Fall ist, je stärker die Ausfallursache mit einer Variablen korreliert ist. Es
520 VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten

gibt Umfragen mit einer niedrigen Nonresponse-Rate, aber einem großen Bias. An-
dererseits führt eine Erhöhung der Response-Rate nicht notwendig zu einer Reduk-
tion des Nonresponse-Bias (vgl. auch Peytchev, Baxter und Carley-Baxter, 2009).
Diese Befunde und auch die Formel für den Bias zeigen, dass die Nonrespon-
se-Rate mitbestimmend für den Bias ist und damit einen Indikator für den Bias dar-
stellt. Ein weiterer Indikator ist der oben bereits ausführlich beschriebene Selektions-
effekt. Nonresponse bewirkt immer eine Selektion von Respondenten mit bestimmten
Merkmalen aus der zufällig gezogenen Ausgangsstichprobe und damit aus der Aus-
wahlgesamtheit. So können sich in der Nettostichprobe der Respondenten mehr
Männer als Frauen, mehr ältere Personen als jüngere Personen, etc. Eine Selektion
kann dadurch festgestellt werden, dass die Zusammensetzung der Stichprobe mit der
Zusammensetzung der Auswahlgesamtheit in Bezug auf gemeinsame Hilfsvariablen
verglichen wird. Dies sind in der Regel soziodemographische Merkmale. Um solche
Vergleiche zu ermöglichen, sollten so viele Hilfsmerkmale wie möglich sowohl in
der Nettostichprobe als auch in der Auswahlgesamtheit und der Ausgangsstichprobe
einbezogen werden. Verschiedene Analysen zeigen, dass die Zusammensetzung der
Ausgangsstichprobe in Bevölkerungsumfragen durch die Nonresponse-Rate nicht
unbedingt beeinflusst wird (vgl. z.B. Blohm & Koch, 2013; Koch, 1998; Schneekloth
& Leven, 2003). Grundsätzlich hängen solche Befunde aber auch davon ab, ob bei
Durchführung der Umfrage bereits Strategien zur Vermeidung von Selektionseffek-
ten wie z.B. bestimmte Schulungsmaßnahmen bei Interviewern eingesetzt wurden.

VII.5 Aufschlüsselung von Unit-Nonresponse und


Nonresponse-Raten

VII.5.1 Differenzierung nach Ursachen

Unit Nonresponse tritt vornehmlich in der Kontaktphase als negative Antwort auf
die Bitte um Teilnahme auf, wobei der Einleitung bzw. Gesprächseröffnung eine be-
sondere Bedeutung zukommt. So berichten bereits Oksenberg und Cannell (1988)
in Bezug auf Telefonumfragen, dass über 90% der Ausfälle während der Einleitung
entstehen. Als Ursachen für die Nichtteilnahme kommen in Betracht:
• Nichtkontakt (engl.: noncontact): Die Bitte um Teilnahme an der Umfrage (engl.:
survey request) konnte nicht vorgetragen werden (z.B. bei Nichterreichbarkeit,
Nicht-Auffindbarkeit, Nichtzustellbarkeit des Fragebogens, etc.);
• Verweigerung (engl: refusal) : Untersuchungseinheit verweigert die Teilnahme;
VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten 521

• Unvermögen, an der Umfrage teilzunehmen (z.B. wegen Krankheit, mangelnder


Sprachkompetenz, etc.);
Um die Teilnahmewahrscheinlichkeit zu erhöhen, können im Rahmen der Kon-
taktaufnahme durch Einsatz eines Mixed-Mode-Designs gleichzeitig verschiede-
ne Befragungsarten als Tracks angeboten werden (vgl. Teil II). Den kontaktierten
Zielpersonen wird in diesem Fall freigestellt, welche Befragungsart sie bevorzugen,
die schriftliche, die telefonische, die internet-basierte Befragungsart oder den Fa-
ce-to-Face-Modus. Damit ist die Erwartung verbunden, dass sich unterschiedliche
Ausfallursachen untereinander aufheben. Allerdings können durch Modebevor-
zugungen auch zusätzliche Stichprobenverzerrungen entstehen. Beispiele sind die
Rekrutierung eines Access-Panels im Rahmen des Schwerpunkts „Survey Metho-
dology“ der Deutschen Forschungsgemeinschaft (vgl. Engel et al., 2013) oder die
Rekrutierung eines Access-Panels im Projekt NORAH (Noise-Related Annoyance,
Cognition, and Health; vgl. Schreckenberg et al., 2011) zum Thema „Lärmbelästi-
gung“ der Hessischen Landesregierung, für die sowohl einen Telefontrack als auch
ein Online-Track vorgesehen waren.
Schließlich können Ausfälle ganzer Stichprobenelemente im Datensatz nicht
nur durch das Verhalten von Kontaktpersonen, sondern auf Grund des Täu-
schungsverhaltens von Interviewern entstehen. So können nachträglich festgestell-
te Fälschungen von Interviews dazu führen, dass die betreffenden Interviews aus
der finalen Stichprobe aller Interviews herausgenommen werden müssen.

VII.5.2 Klassifikation von Ausfallraten nach AAPOR

Um beurteilen zu können, welche Quellen an den Ausfällen in einer Umfrage betei-


ligt sind, d.h. um z.B. feststellen zu können, ob es eher an der mangelnden Erreich-
barkeit oder eher an der mangelnden Kooperation lag, sollten die Anteile dieser
Quellen berichtet werden. Dabei sollten die Standarddefinitionen der American
Association for Public Opinion Research (AAPOR) zugrunde gelegt werden (vgl.
AAPOR, 2011; siehe auch Hidiroglou et al. 1993; Bethlehem, 2009). Dabei werden
folgende Symbole verwendet:

RR = Response rate (Antwortrate)


COOP = Cooperation rate (Kooperationsrate)
REF = Refusal rate (Verweigerungsrate)
522 VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten

CON = Contact rate (Kontaktrate)


I = Complete interview (vollständiges Interview)
P = Partial interview (partielles Interview)
R = Refusal and break-off (Verweigerung oder Abbruch)
NC = Noncontact (Nichtkontakt)
O = Other (andere, z.B. Ausfälle wegen Krankheit, mangelnder Sprach-
kompetenz, etc.
UH = Unknown if household/occupied (unbekannte Auswählbarkeit, z.B.
wenn nur Kontaktperson verweigert und unbekannt ist, ob es seine
Zielperson gibt, die teilgenommen hätte, wenn nur Anrufbeantwor-
ter, Besetztzeichen, Unzustellbarkeit von Fragebögen, etc.)
UO = Unknown other (andere nicht auswählbare Fälle)
e = Estimated proportion of cases of unknown eligibility that are eligible

Erläuterungen:
Was ein vollständiges, ein partielles oder rein abgebrochenes Interview ist, muss
nach AAPOR-Empfehlungen klar definiert sein. Beispiele sind:
1) Ein Interview ist vollständig, wenn mindestens 80% aller Fragen beantwortet
sind, es ist partiell vollständig, wenn 50-80% beantwortet sind und es stellt ei-
nen Abbruch dar, wenn weniger als 50% beantwortet sind;
2) Ein Interview ist vollständig, wenn mindestens 80% aller Fragen gestellt wur-
den, es ist partiell vollständig, wenn 50-80% gestellt wurden und es stellt einen
Abbruch dar, wenn weniger als 50% gestellt wurden;
3) Ein Interview ist vollständig, wenn 100% aller zentralen Fragen beantwortet
wurden, es ist partiell vollständig, wenn 50-90% aller zentralen Fragen beant-
wortet wurden, es stellt einen Abbruch dar, wenn weniger als 50% aller zentra-
len Fragen beantwortet wurden;
Diese drei Fälle können auch miteinander kombiniert werden. So kann z.B. verein-
bart werden, dass ein vollständiges Interview dann vorliegt, wenn 100% der zentra-
len Fragen und 80% aller Fragen beantwortet wurden.
Response-Raten:
Die Standarddefinitionen der AAPOR unterscheiden sechs verschiedene Respon-
se-Raten:

I
RR1 = .
( I + P ) (
+ R + NC + O ) + (UH + UO )
VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten 523

RR1 ist die minimale Response-Rate. Diese ist gleich der Anzahl der vollständigen In-
terviews geteilt durch die Summe von vollständigen und partiellen Interviews plus der
Anzahl der Nichtinterviews (Verweigerungen plus Nichtkontakt plus der aus anderen
Gründen nicht Teilnehmenden) plus aller Fälle, deren Auswählbarkeit unbekannt ist.

RR2 =
(I + P) .
( I + P ) + ( R + NC + O ) + (UH + UO )
RR2 zählt die partiellen Interviews zu den Fällen, die geantwortet haben.

I
RR3 =
( I + P ) + ( R + NC + O ) + e (UH + UO )
RR3 bezieht statt der Anzahl der Fälle mit unbekanntem Status der Auswählbarkeit
eine Schätzung dieser Größe mit ein, die auf der Basis wissenschaftlicher Informa-
tionen erfolgen sollte.

RR 4 =
(I + P)
( I + P ) + ( R + NC + O ) + e (UH + UO )
RR4 zählt wieder die partiellen Interviews zu den beantworteten Fragebögen.

I
RR5 = .
( I + P ) + ( R + NC + O )

RR6 =
(I + P) .
( I + P ) + ( R + NC + O )
RR5 und RR6 nehmen an, dass es keine nicht auswählbaren Fälle gibt. RR6 stellt die
maximale Response-Rate dar.
Kooperationsraten:
Kooperationsraten beziehen sich auf die Anzahl der Interviews, die unter allen aus-
wählbaren kontaktierten Einheiten durchgeführt werden konnten. AAPOR unter-
scheidet vier verschiedene Kooperationsraten:

I
COOP1 = .
(I + P) + R + O
COOP1 ist die minimale Kooperationsrate.
524 VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten

COOP 2 =
(I + P) .
(I + P) + R + O
COOP2 bezieht wieder die partiellen Interviews in die Zählung der gültigen Inter-
views mit ein.

I
COOP 3 = .
( I + P )+R

COOP 4 =
(I + P) .
(I + P) + R
COOP3 und COOP4 gehen davon aus, dass Einheiten, die nicht zu einem Interview
fähig sind, auch nicht kooperieren können. Daher wird auf die Angabe von O im
Nenner verzichtet.
Verweigerungsraten:
Eine Verweigerungsrate bezieht sich auf die Anzahl aller Fälle, bei denen ein Haus-
halt oder Befragter ein Interview verweigert haben bzw. auf die Abbrüche der po-
tentiell auswählbaren Personen. Die Standarddefinitionen der AAPOR unterschei-
den drei Varianten von Verweigerungsraten:

R
REF1 = .
( I + P ) + ( R + NC + O ) + (UH + UO )

R
REF 2 =
( I + P ) + ( R + NC + O ) + e (UH + UO )
R
REF 3 = .
(I + P) + R + O
Die Nenner sind analog zu denen in den Response-Raten definiert.
Kontaktraten:
Die Kontaktrate misst den Anteil aller Fälle, in dem ein verantwortliches Haus-
haltsmitglied erreicht wurde. Sie bezieht sich auf den Haushalt und nicht nur auf
die Kontaktaufnahme mit der Zielperson. AAPOR unterscheidet drei verschiedene
Kontaktraten:
VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten 525

CON1 =
(I + P) + R + O .
( I + P ) + ( R + NC + O ) + (UH + UO )
CON 2 =
(I + P) + R + O .
( I + P ) + ( R + NC + O ) + e (UH + UO )

CON 3 =
(I + P) + R + O .
( I + P ) + ( R + NC + O )
Die Nenner sind wieder wie bei den Response-Raten definiert.
Entscheidend für die Berechnung der Raten ist der sog. finale Dispositionscode,
d.h. der Zustand nach dem letzten Kontaktversuch. Ein Dispositionscode (engl. di-
sposition code) gibt den Status der Ausfälle während der Erhebung wieder. Die-
ser kann sich im Verlauf der Erhebung verändern. Als finalen Dispositionscode
bezeichnet man den Zustand nach Beendigung der Erhebung, also jeweils immer
der nach dem letzten Kontakt geltende Dispositionscode (zu den Festlegungen der
Codes vgl. AAPOR (2011). Die Dispositionscodes werden beim Einsatz von Befra-
gungssoftware automatisch berechnet. Das Klassifikationsschema lässt sich dabei
festlegen. Es sollte auf jeden Fall so eingerichtet sein, dass sich die AAPOR-Ra-
ten berechnen lassen (bei CATI-Umfragen z.B. Anrufbeantworter, unterbrochenes
oder beendetes Interview, Verweigerung, Termin bei telefonischen Befragungen
sowie keine Reaktion („aktiv“) bei Online-Befragungen. Für die Dokumentati-
on des Feldgeschehens bei Telefonumfragen und Online-Umfragen während der
Durchführung ist der aktuelle Zustand der Dispositionscodes entscheidend.
Bei Kontakten mit den Zielpersonen über Mobiltelefone, muss eine Anpassung
der Disposition Codes erfolgen. Wie Callegaro et al. (2007) feststellen, können die
Standarddefinitionen der AAPOR nicht einfach von RDD-Festnetz-Erhebungen auf
Erhebungen über Mobilfunk übertragen werden. Im Vergleich zu Festnetz-Erhebun-
gen fehlt bei Erhebungen per Mobilfunk eine Standardisierung. So können sich die
Nachrichten des Providers stark voneinander unterscheiden, bei einem einzigen Fall
können mehrere mögliche Dispositionen eine Rolle spielen. So können Anrufe bei
der gleichen Mobilfunk-Nummer eine Mischung von auswählbaren, unbestimmten
und nicht-auswählbaren Zuständen ergeben. Die Autoren geben die Empfehlung,
alle Anrufe mit einer gemischten Kontaktgeschichte als Fälle mit unbestimmter Aus-
wählbarkeit zu zählen (vgl. Callegaro et al., 2007, p. 667). Im Gegensatz zum Vor-
gehen bei Festnetz-Umfragen kann nicht davon ausgegangen werden, dass sich mit
einer Zunahme der Kontaktversuche eine klare Zuordnung zu den auswählbaren Fäl-
526 VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten

len ergibt. Stattdessen kann im Verlauf der Zeit z.B. ein Wechsel von „außer Betrieb“,
„prepaid“, „in Betrieb“ und „nicht verbunden“ eintreten.

VII.5.3 Arten von Nonresponse in Internet-basierten Umfragen

Insbesondere die Evaluation der Kooperationsbereitschaft bei WWW-Umfragen er-


fordert eine feinere Erfassung der Nicht-Antworten, die auch den Bearbeitungstypus
mit einschließt (vgl. Bosnjak, Tuten & Bandilla, 2001). Jeder Typus hängt von spe-
zifischen Merkmalen der Fragen und ihrer Präsentation sowie von Merkmalen der
Befragten ab (vgl. Bosnjak 2002). Folgende Typen können unterschieden werden:
• Unit-Nonresponse:
Alle Untersuchungseinheiten, die sich nicht am Web-Survey beteiligt haben;
• Antwortende Dropouts:
Alle Untersuchungseinheiten, die sich zunächst für eine Beteiligung am
Web-Survey entscheiden, die Fragen, welche eingeblendet werden, auch beant-
worten, jedoch vor Beendigung des Fragenprogramms aussteigen;
• Lurker:
Personen, die sich durch das Fragenprogramm durchklickt, jedoch keine einzi-
ge Frage beantworten;
• Lurkende Drop-Outs:
Diese Gruppe sieht sich einen Teil der Fragen an und steigt vor Beendigung des
Fragenprogramms aus;
• Item Nonresponders:
Personen, die zwar das gesamte Fragenprogramm durchlaufen, aber nicht alle
Fragen beantworten;
• Item Nonresponders Drop-Outs:
Personen die nicht alle Fragen beantworten das Fragenprogramm vorzeitig ver-
lassen.
Berücksichtigt werden sollte außerdem, ob die Nonresponse unwillentlich, wie z.B.
durch technische Probleme wie Zusammenbruch der Online-Verbindung, zustan-
de kam oder ob die Nonresponse ihren Grund in einer bewussten Entscheidung
hat.
VII.6 Statistische Modellierung von Ausfallereignissen 527

VII.6 Statistische Modellierung von Ausfallereignissen

Die Alternative „Ausfall vs. Nichtausfall“ stellt ein dichotomes Ereignis dar, das
je nach Art des Ausfalls unterschiedlich konkretisiert werden kann. Beispiele für
unterschiedliche Konkretisierungen sind „Kontakt vs. Nichtkontakt“, „Teilnahme
vs. Verweigerung“, „Aufnahme in die Auswahlgesamtheit vs. Nichtaufnahme“,
„Antwort auf eine Frage vs. Antwortverweigerung“. Allen gemeinsam ist, dass es
sich um dichotome Ereignisse handelt, die formal jeweils als dichotome Variable
R mit den Werten bzw. Zuständen R = 1 (z.B. Teilnahme) und R = 0 (z.B. Verwei-
gerung) präzisiert werden. Gegenstand der Vorhersage ist die Wahrscheinlichkeit
einer Ausfallalternative.
Versuche, diese Variable als abhängige Variable durch unabhängige Prädiktor-
variablen mit Hilfe eines statistischen Modells vorherzusagen, münden in einem
Regressionsmodell für dichotome abhängige Variablen. Beispiele für solche Model-
le sind die binäre logistische Regression und andere Alternativen wir Probit-Mo-
delle, Modelle für zensierte Variablen, kurz: alle Spezifikationen des verallgemeiner-
ten linearen Modells (engl.: generalized linear models; kurz: GLIM; vgl. McCullagh &
Nelder, 1989; Fahrmeier, Hamerle & Tutz, 1996). Handelt es sich bei den unabhän-
gigen Variablen um latente unbeobachtete Variablen müssen entsprechende An-
sätze der Analyse mit latenten Variablen herangezogen werden (vgl. z.B. Muthén.,
1984; Skrondal & Rabe-Hesketh, 2004).
Das meist verwendete Modell ist das der binären logistischen Regression (vgl.
z.B. Tutz, 2000). Ein binäres logistisches Modell ist für m unabhängige Variablen
1, x1 , … , xj , … , xm und Regressionskoeffizienten β0 , β1, … , βj , … , βm durch die
folgende Form einer logistischen Funktion charakterisiert:

exp xcβ
S x .
1  exp x cβ

Aus dieser Beziehung folgt:

S x
exp x cβ
1S x

und

§ S x ·
log ¨ x cβ.
¨ 1  S x ¸¸
© ¹
528 VII.7 Bedingungen der Interview-Teilnahme

In diesen Ausdrücken sind x΄ der Zeilenvektor der unabhängigen Variablen, β der


Spaltenvektor der Regressionskoeffizienten und π(x) = P(R = 1|x) die Wahrschein-
lichkeit der Alternative R = 1 unter der Bedingung x. exp(x΄β) ist die Schreibweise
für eexp (x΄β). Selbstverständlich lassen sich auch andere Funktionen wählen wie z.B.
Probit (Verteilungsfunktion einer kumulativen Normalverteilung).
Die Wahrscheinlichkeit an der Stelle eines bestimmten Werts von x heißt Pro-
pensity Score. Die Propensity ist die individuelle Antwortwahrscheinlichkeit, d.h.
die Antwortwahrscheinlichkeit eines Elements mit bestimmen konkreten Merk-
malsausprägungen. Die unabhängigen Variablen können gemischt metrisch oder
kategorial sein.
Das Verhältnis von Wahrscheinlichkeit und Gegenwahrscheinlichkeit

π (x)
1− π (x)

heißt Chancen bzw. „odds“. Die „odds“ spiegeln Tendenzen zu der einen oder an-
deren Ausfallalternative wider. Angewandt auf die Teilnahmeentscheidung wür-
den positive „odds“ eine Tendenz zur Teilnahme widerspiegeln, angewandt auf die
Entscheidung, eine Frage zu beantworten, wäre es die Neigung, eher zu antworten.
Unabhängige Variablen können Hilfsvariablen wie „Alter“, „Geschlecht“, etc.
oder Zielvariablen sein. Sie können dabei auch als Kontrollvariablen bzw. Kovariate
eingeführt werden, deren Funktion darin besteht, Effekte konfundierender Variab-
len aus den Effekten der Zielvariablen herauszunehmen. Die Anwendung des Mo-
dells auf die Teilnahmeentscheidung setzt voraus, dass die unabhängigen Variablen
sowohl für die Respondenten als auch für die Nichtrespondenten gemessen werden
konnten Eine wichtige Rolle spielen diese Modelle nicht nur bei der inhaltlichen
Modellierung des Antwortverhaltens, sondern auch bei der Gewichtung.

VII.7 Bedingungen der Interview-Teilnahme: Kontaktier-


barkeit und Teilnahmebereitschaft

VII.7.1 Kontaktierbarkeit

Nach Ziehung einer Bruttostichprobe aus einer Auswahlgrundlage geht es zunächst


darum, zu den auf der Basis einer wohl definierten Auswahlgrundlage ausgewähl-
ten Elementen (Haushalte, persönliche Adressen, Unternehmen, etc.) einen Kon-
takt herzustellen, der in vielen Fällen nicht schon mit der eigentlichen Zielperson
VII.7 Bedingungen der Interview-Teilnahme 529

realisiert wird, sondern zunächst mit einer von der Zielperson unterschiedenen
Kontakt- bzw. Auskunftsperson, über welche dann erst der Kontakt mit der Ziel-
person hergestellt wird. Die Form der Kontaktaufnahme ist nicht nur abhängig
von der Zielpopulation, sondern nicht zuletzt von der Art der in der Auswahl-
grundlage zur Verfügung stehenden Informationen. Sollen Befragte über Haushal-
te identifiziert werden, so muss zunächst eine Auswahlgrundlage vorliegen, in der
die Haushaltsadressen aufgeführt sind. Dies sind in der Regel Privatadressen, über
die zunächst eine Haushaltsperson erreicht wird, mit deren Hilfe die Zielperson im
Haushalt identifiziert werden kann. Dies ist etwa bei Telefonstichproben der Fall,
bei denen zunächst eine Kontaktperson im Haushalt erreicht wird. Eine Variante,
die darin besteht, einen Haushalt so oft zu kontaktieren bis eine Zielperson den
Hörer abnimmt, ist in der Regel aus Kosten- und Zeitgründen nicht realisierbar.
Die Wahrscheinlichkeit eines Kontakts (engl.: contactability) mit einer Kontakt-
und/oder einer Zielperson bzw. dafür, dass ein Kontakt überhaupt hergestellt wer-
den kann, hängt vor allem ab von
• Hindernissen des Zugangs;
• Muster der häuslichen Erreichbarkeit, bei Unternehmensumfragen: Muster der
betrieblichen Anwesenheit.
Die Art der Hindernisse wechselt je nach Befragungsart und Population. Beispiele
für Zugangshindernisse bei Interviewer-administrierten Umfragen und Personen-
stichproben sind Kontaktpersonen, die den Zugang zu Zielpersonen verweigern.
Kontaktpersonen übernehmen dann in Bezug auf die Zielperson die Funktion ei-
nes Gate-Keepers, von dem es abhängt, ob überhaupt ein Kontakt zu einer Zielper-
son zustande kommen kann. Bei Unternehmensumfragen übernehmen oft Sekre-
tariate, Assistenten/innen, Mitarbeiter/innen die Rolle des Gatekeepers. Aussagen
wie „Meine Frau gibt keine Interviews“ oder „Meine Mutter ist zu alt, um noch an
einem Interview teilzunehmen“ oder im Fall von Unternehmensumfragen „Mein
Chef ist zu sehr beschäftigt“ oder „Mein Chef lehnt Interviews grundsätzlich ab“
können zu einem Verlust eines Falls führen. Im Fall von Befragungen älterer Per-
sonen können Kinder den Zugang zu Eltern versperren. Ehemänner können den
Zugang zu den Ehefrauen verweigern. Obwohl es sich um Verweigerungen der
Kontaktpersonen handelt, sind diese Verweigerungen aus Sicht des Kontakts mit
den Zielpersonen Zugangshindernisse.
Beispiele für Zugangshindernisse bei selbst-administrierten postalischen Um-
fragen sind z.B. Personen, welche die Post vorher öffnen und zugesandte Befra-
gungsunterlagen nicht weiterleiten, sondern gleich in den Abfallkorb werfen, nicht
vorhandene Briefkästen, etc. So konnten z.B. Couper, Mathiowetz und Singer
(1995) für die USA zeigen, dass in ungefähr der Hälfte der Haushalte nur eine Per-
530 VII.7 Bedingungen der Interview-Teilnahme

son die Post sortiert und dass ca. 60% die Post ohne sie zu öffnen, aussortieren.
Weniger davon betroffen sind persönlich adressierte Schreiben (Beispiele für Zu-
gangshindernisse bei Webumfragen sind Passwörter, mangelnde technische Aus-
stattung, etc.
Zugangshindernisse können prinzipiell durch Merkmale des sozialen Umfelds
wie z.B. Angst vor dem Öffnen einer Wohnungstür in sozialen Brennpunkten, ne-
gative Erfahrungen und negative Berichte in den Medien, soziodemographische
Merkmale wie berufliche Belastung und häufige Abwesenheiten mit der Entschei-
dung, den Anrufbeantworter einzustellen, beeinflusst werden. Auch kulturelle
Einflüsse und damit zusammenhängende Entscheidungen, wer eine Person in die
Wohnung lassen darf oder nicht, können hier wirksam sein.
Genauso wie Hindernisse des Zugangs kann auch das Muster der häuslichen
Erreichbarkeit direkt beeinflusst werden durch Merkmale des sozialen Umfelds.
Dazu gehören infrastrukturelle Merkmale wie Anschluss an öffentliche Verkehrs-
mittel, Versorgung mit Kindertagesstätten sowie Einkaufsmöglichkeiten. Nicht
ausreichende Einkaufsmöglichkeiten vor Ort können bedeuten, dass lange Wege
in Kauf genommen werden müssen. Dieser Effekt kann sich verstärken, wenn be-
stimmte Altersgruppen mit eingeschränkter Beweglichkeit betrachtet werden. Ein-
flüsse dieser Art manifestieren sich z.B. in Stadt/Land-Unterschieden.
Auch soziodemographische Merkmale wie Alter, Geschlecht, Erwerbsstatus,
Familienstand, Beruf, sozialer Status können sich direkt auf die Anwesenheit/Ab-
wesenheit auswirken. Beispiele sind beruflich bedingte Abwesenheiten am Tag oder
häufige Abwesenheiten auf Grund von beruflich bedingten Reisen wie Tagungsrei-
sen, Montagetätigkeit etc., altersbedingte häufige Anwesenheit am Vormittag, etc.
Familien mit Schulkindern müssen für einen Urlaub die offizielle Ferienzeit nut-
zen. Frauen mit Kindern haben eine andere Struktur des Alltags als berufstätige
Männer. Diese soziodemographischen Variablen weisen wiederum eine Abhän-
gigkeitsstruktur untereinander auf, die wiederum bestimmt, welche Variablen sich
indirekt oder direkt auf die Anwesenheit auswirken.
Weitere Determinanten der Erreichbarkeit sind die Art der beruflichen Tä-
tigkeit, das Freizeitverhalten, die Jahreszeit bzw. das Wetter. Im Fall von Unter-
nehmensumfragen hängt das Muster der betrieblichen Anwesenheit z.B. von der
Betriebsgröße, von der Art der beruflichen Tätigkeit und von der Position im Un-
ternehmen ab. Für die telefonische Erreichbarkeit für allgemeine Bevölkerungsum-
fragen gibt es offensichtlich optimale Kontaktzeiten (vgl. hierzu auch Vigderhouse,
1981; Weeks, Kulka & Pierson, 1987). So stellen sich die späten Nachmittagsstun-
den und der Abend als Zeiten, heraus, an denen Personen am ehesten telefonisch
erreichbar sind. Bei der Festlegung der Termine muss immer bedacht werden, dass
Telefonanrufe eine Störung für die Befragten darstellen, so dass der in amerikani-
VII.7 Bedingungen der Interview-Teilnahme 531

schen Untersuchungen empfohlene Sonntag in der Bundesrepublik keine Chance


hat. Am Wochenende kommt noch der Samstag zwischen 12.00 Uhr und 19.00 Uhr
in Betracht. Um die unterschiedlichen Anwesenheiten während der Wochentage in
der Kontaktstrategie abzubilden, erscheint es in allen Interviewer-administrierten
Modi notwendig, die Kontaktversuche über die Zeit hinweg zu streuen. Bei Um-
fragen mit Mobiltelefonen stellt sich als wesentliches Zugangshindernis die Aus-
schaltung des Mobiltelefons heraus. Hier ist die Zeitspanne, in der das Mobiltelefon
ausgeschaltet ist, eine wichtige Determinante (vgl. Carley-Baxter, Peytchev & Black,
2010).
Bei dieser Analyse der optimalen Kontaktaufnahme muss bedacht werden, dass
sich die Kontaktierbarkeit zunächst auf die Kontaktperson bezieht, Das Problem
verstärkt sich weiter, wenn die Kontaktierbarkeit der Zielperson betrachtet wird.
Zunächst wird die Kontaktierbarkeit der Kontaktperson durch die oben genannten
Merkmale beeinflusst. Anschließend können zumindest einige dieser Merkmale
auch die anschließende Kontaktierbarkeit der Zielperson beeinflussen.
Eine Methode, die Wirkung des Anwesenheitsmusters auf die Erreichbarkeit zu
reduzieren sind eine Erhöhung der Anzahl und eine zeitliche Streuung der Kon-
taktversuche. Für das persönliche Aufsuchen in Face-to-Face-Umfragen bedeutet
dies eine erhöhte Anzahl von Anfahrten in geeigneten zeitlichen Abständen, bei
telefonischer Kontaktaufnahme bedeutet dies eine Erhöhung der Anzahl der Kon-
taktversuche und eine entsprechende Streuung, bei Internet-basierten Umfragen
bedeutet dies eine Erhöhung der Anzahl der Einladungen. Für Telefonumfragen
sollte in wissenschaftlichen Studien und in Studien der amtlichen Statistik eine
Anzahl von mindestens 10 Kontaktversuchen vorgesehen werden. CATI-Systeme
lassen sich auf beliebige Kontaktstrategien einstellen. Es gab Vermutungen, dass
die Steuerung der Anrufe durch das CATI-Programm den Anteil der Fehlkontakte
reduziert. Diese konnten aber nicht bestätigt werden (Groves & Magilavy, 1986, pp.
292; Weeks 1988). Als wichtiger erwies sich das Training der Interviewer in Bezug
auf die technische Handhabung.
Bei Face-to-Face-Umfragen mit einer Kontaktaufnahme durch persönliches
Aufsuchen ist das Verhalten der Interviewer von großer Bedeutung. Überlässt man
bei einer Kontaktaufnahme durch persönliches Aufsuchen des Haushalts die Ge-
staltung der zeitlichen Streuung den Interviewern, wird man mit entsprechenden
Einflüssen von soziodemographischen Merkmalen der Interviewer rechnen müs-
sen. So können Interviewer, die ihre Tätigkeit oft nur frei- oder nebenberuflich
neben anderen beruflichen oder nicht-beruflichen Tätigkeiten ausüben, mögli-
cherweise persönliche Kontakte zu einer Adresse nur am Abend oder zu anderen
festen Terminen realisieren. Dies stellt dann eine besondere Aufgabe für die Ein-
satzplanung und das Feldmanagement dar. Wichtig ist auch, dass der Interviewer
532 VII.7 Bedingungen der Interview-Teilnahme

bei mehrfachen Kontaktversuchen die vorgeschriebene Anzahl der Kontaktversu-


che tatsächlich einhält, was zumindest teilweise eine Frage der Entlohnung und der
Supervision sowie der „Kultur“ des Umfrageinstituts ist.
Falls die Stichprobenauswahl bei Webumfragen offline und wahrscheinlich-
keitsbasiert erfolgt, wird der Kontakt zur Zielperson oft zunächst in einem an-
deren Mode als dem Web-Mode hergestellt. Ein Beispiel stellt die Ziehung einer
RDD-Stichprobe dar, bei der die Zielpersonen nach einem Screening, bei dem
zunächst nach der Existenz des Internetzugangs und dann einer E-Mail-Adresse
gefragt werden, telefonisch um Teilnahme an der Webumfrage ersucht und um die
Mitteilung ihrer E-Mail-Adresse gebeten werden. Ist diese Bitte positiv entschie-
den, erhält die Zielperson zunächst per E-Mail eine Einladung mit einem Link zur
Website, auf der der Online-Fragebogen zu finden ist sowie einen individuellen
Zugangscode. Ein Zugangshindernis stellt auch in diesem Fall die fehlende Aus-
stattung dar, wobei das Hindernis bereits im Fehlen eines Rechners bestehen kann.
Obgleich vor allem bei nicht-wahrscheinlichkeitsbasierten Auswahlverfahren
auftretend, kann es durchaus auch bei wahrscheinlichkeitsbasierten Methoden zu
Problemen kommen, welche die Authentizität und die Mehrfachteilnahme betref-
fen. Die Mehrfachteilnahme kann durch den oben erwähnten Zugangsode und
eine entsprechende Kontrolle durch die Systemsoftware ausgeschlossen werden.
Möglich ist aber, dass nach einem Abbruch eine andere Person die Bearbeitung des
Fragebogens fortsetzt. Wie bei Mailumfragen kann prinzipiell nicht sichergestellt
werden, dass die im Rahmen eines Auswahlverfahrens auf der Basis einer Aus-
wahlgrundlage ausgewählte Person den Fragebogen ausfüllt oder eine von dieser
Person verschiedene Person. Diese Unsicherheit mangelnder Authentizität kann
durch kein Verfahren beseitigt werden, da alle zur Identifikation herangezogenen
Merkmale wie Passwörter, Kreditkartennummern, etc. an dritte Personen weiter-
gereicht werden können. Neben dem Aufruf der Website mit dem Fragebogen und
dem Aufruf des Fragebogens mit einem individuellen Zugangscode ist auch die
Anmeldung über Login mit Nutzernamen und selbst generiertem Passwort mög-
lich. Birnbaum (2004, p. 814) hat weitere Maßnahmen zur Kontrolle von Mehr-
fachteilnehmern zusammgengestellt:

Instruktionen:
Aufforderung, nur einmal an der Befragung teilzunehmen;
Zurücknahme von Incentives:
Belohnungen werden nur denjenigen zuteil, die nur einmal an der Umfrage teilgenommen ha-
ben;
Verwendung von Identifikatoren:
VII.7 Bedingungen der Interview-Teilnahme 533

Identifikatoren wie Matrikelnummern, Telefonnummern, E.Mail-Adressen, Wohnadressen, de-


mographische Informationen oder Namen können zur Identifikation der Befragten herangezo-
gen werden;
Kontrolle über IP-Adressen:
Kontrolle auf wiederholte Verwendung von IP-Adressen;
Vergabe von Passwörtern:
Der Zugang zur Umfrage ist nur über ein Passwort möglich;
Cookies:
Überprüfung von Cookies auf vorherige Teilnahme;
CGI-Skripte (werden nur noch selten verwendet):
CGI-Skripte können verwendet werden, um zu prüfen, von welcher Website (URL) die Daten an
das CGI (Common Gatewy Interface) geschickt wurden;
Logfile-Analyse:
Die Logfile-Analyse erlaubt die Entdeckung von Anforderungsmustern;
Follow-up von Substichproben:
Kontaktierung der Teilnehmer, um die ID zu identifizieren;
Überprüfung auf identische Fälle:
Ausfiltern identischer oder nahezu identischer Fälle;
Insgesamt kann das Problem der Mehrfachteilnahme allerdings eher als gering angesehen wer-
den (vgl. Birnbaum 2001, 2004; Reips 1997).

Im Allgemeinen verlässt man sich bei Umfragen darauf, dass eine Mehrfachteil-
nahme dann nicht stattfindet, wenn die Attraktivität nicht durch Incentives oder
durch interessante experimentelle Varianten mit Gewinnauszahlungen (z.B. bei
Choice-Experimenten) erheblich gesteigert wird.

VII.7.2 Determinanten der Teilnahmebereitschaft: Theoreti-


sche Ansätze

VII.7.2.1 Allgemeine Aspekte

Nicht nur der Kontakterfolg, sondern auch die Teilnahmeentscheidung hängt von
einer Vielzahl unterschiedlicher Faktoren ab, von denen einige unter der Kontrolle
des Forschers und andere nicht unter der Kontrolle des Forschers stehen (vgl. Gro-
ves & Couper, 1998; Groves et al., 2009). Nicht unter der Kontrolle des Forschers
534 VII.7 Bedingungen der Interview-Teilnahme

stehen Merkmale der sozialen Umgebung (politisch ökonomisch und sozial; Um-
frageklima, Merkmale der Nachbarschaft) und die Merkmale des Befragten (Struk-
tur des Haushalts, soziodemographische Merkmale, Kenntnisse über das Thema
der Befragung, Erfahrungen mit Umfragen, affektiver Zustand, psychologische
Disposition). Unter Kontrolle des Forscher stehen das Erhebungsdesign (Belastung
der Befragten, Auswahl der Befragten, Thema der Umfrage, Wahl der Erhebungsart
und Administrationsform, Strategie der Belohnung bzw. Incentivierung) und die
Interviewer (soziodemographische Merkmale, Erfahrung, Erwartungen, affektiver
Zustand). Die vom Forscher kontrollierbaren und nicht kontrollierbaren Faktoren
treten in Wechselwirkung und beeinflussen die Teilnahmeentscheidung.
Im Zusammenhang mit der Teilnahmebereitschaft werden zahlreiche Einfluss-
faktoren vermutet (vgl. Cialdini, Groves & Couper, 1992), die z.T. aus sozialpsycho-
logischen Ansätzen abgeleitet werden können:

Reziprozität (engl: reciprocation):


Personen sind eher geneigt, an einer Umfrage teilzunehmen, wenn sie den Eindruck haben, dass
sie ihm nutzt bzw. dass sie für die Teilnahme und den damit verbundenen etwas zurückerhal-
ten. Dies können etwa Belohnungen oder ein Entgegenkommen gegenüber den Befragten sein.
Letzteres ist z.B. der Fall, wenn Befragte, welche die Beantwortung eines langen Fragebogens
abgelehnt haben, einen kürzeren vorgelegt bekommen.
Konsistenz (engl.: consistency):
Personen nehmen eher an einer Umfrage teil, wenn das Ziel der Umfrage ihren eigenen Einstel-
lungen, Überzeugungen, Werten, etc. entspricht (z.B. Verbesserung der Lebensbedingungen, des
ÖPNV, der Umwelt). Dies bedeutet für Interviewer-administrierte Umfragen, dass Interviewer
mit größerer Wahrscheinlichkeit erfolgreich sind, wenn es ihnen gelingt, zwischen den Einstel-
lungen der Befragten und dem Thema der Befragung einen Zusammenhang zu etablieren.
Soziale Validierung (engl.: social validation):
Personen nehmen eher teil, wenn sie den Eindruck haben, dass andere ebenfalls bereit sind, an
der Umfrage teilzunehmen.
Autorität (engl.: authority):
Personen nehmen eher teil, wenn die Umfrage von einer legitimierten Institution durchgeführt
wird
Knappheit (engl.: scarcity):
Personen nehmen eher an einer Umfrage teil, wenn sie glauben, dass dies eine seltene Gelegen-
heit ist, die man nicht versäumen sollte. Dies bedeutet für die Einleitung in eine Interview, dass
dieser Aspekt betont werden sollte. Ein Beispiel wäre der Hinweis, dass nur einer von 300.000 in
die Befragung einbezogen wird (vgl. Cialdini, Couper & Groves, op. cit.: 483)
Zuneigung (engl.: liking):
VII.7 Bedingungen der Interview-Teilnahme 535

Personen nehmen eher teil, wenn der/die Interviewer/in ihnen attraktiv erscheint oder ihnen
ähnlich ist (gleiche Überzeugungen, Wertvorstellungen, etc.
Hilfsbereitschaft (engl.: helping tendency):
Personen, nehmen eher an einer Befragung teil, wenn sie damit eine Hilfeleistung verbinden
können. Dies bedeutet, dass eine Interview eher zustande kommt, wenn an die soziale Hil-
fenorm appelliert wird. Dies könnte z.B. bedeuten, dass ein durch den Regen triefnasser Inter-
viewer eher ein Interview bekommt.

Die aufgeführten Aspekte finden sich auch im Ansatz des maßgeschneiderten De-
signs von Dillman. Obwohl zunächst für Selbst-administrierte Umfragen gedacht,
ist dieser Ansatz aber in vielen Aspekten auch auf Interviewer-administrierte Um-
fragen anwendbar. Wie bereits in Teil I dargestellt, werden gemäß dieser Theorie
Personen durch das motiviert, was sie für ihr Handeln als Gegenleistung erhalten.
Angewandt auf die Kontaktaufnahme mit einer Person und die Bitte um Teilnahme
heißt dies, dass die Prinzipien des sozialen Tausches beachtet werden sollten. Dazu
zählen z.B Linie Incentives, Anpassung an die Bedürfnisse der Befragten wie z.B.
die Anpassung an die zeitlichen Restriktionen der Befragten sowie die Übermitt-
lung von Zeichen des Respekts und der Dankbarkeit.
Von großer Bedeutung für die Teilnahmemotivation ist auch die thematische
Relevanz einer Befragung, wobei der Effekt des thematischen Interesses aber mit
der Befragungsart variieren könnte. Einige Autoren äußern die Vermutung, dass
sich Themeneffekte in postalischen Umfragen und CATI-Umfragen unterschei-
den. Durch eine wiederholte Nennung des Auftraggebers und die Möglichkeit, sich
die Fragen vor der Rücksendung anzusehen, scheint die Wirkung des Themas auf
die Teilnahmeentscheidung bei postalischen Umfragen weniger relevant zu sein
(vgl. Groves, Presser & Dipko, 2004; Presser et al., 2006). Positiv auf die Teilnahme
scheint auszuwirken, wenn die Reflexion über das Thema positive Belohnungen für
den Befragten mit sich bringt, etwa durch Erzeugung positiver Assoziationen, Bil-
der, Erinnerungen oder die Möglichkeit, eigene Kenntnisse zu demonstrieren. Ist
das Thema zwar relevant für den Befragten, aber mit negativen Gedanken besetzt,
sinkt die Teilnahmebereitschaft.
536 VII.7 Bedingungen der Interview-Teilnahme

VII.7.2.2 Ansätze zur Modellierung der Teilnahmebereitschaft

Speziell für die Vorhersage der Bereitschaft zur Teilnahme an einem Interview sind
verschiedene, auf inhaltlichen Überlegungen und z.T. auf empirischen Befunden
beruhende Erklärungsansätze entwickelt worden, die im Folgenden in Kurzdar-
stellungen beschrieben werden und zu deren statistische Überprüfung sich die Ab-
schnitt 6 beschriebenen statistischen Modelle eignen:

A. “Leverage Saliency”-Modell“ (vgl. Groves & Couper 1998; Groves, Singer &
Corning 2000):

Das Leverage Saliency-Modell beschreibt den Effekt, welchen die vom Interviewer
in der Kontaktphase vorgetragenen Attribute der Umfrage auf die Teilnahmebereit-
schaft haben und wurde zunächst für Interviewer-administrierte Interviews ausge-
arbeitet. Das Modell geht davon aus, dass Interviewer bei der Bitte um Teilnahme
Merkmale hervorheben, von denen sie glauben, dass sie für eine positive Teilnah-
meentscheidung der angesprochenen Personen günstig sind, d.h. das Modell geht
davon aus, dass die Interviewer den Inhalt ihrer Kontaktaufnahme auf die ange-
sprochenen Personen maßschneidern. Nach diesem Modell hängt die Teilnahme-
wahrscheinlichkeit von zwei zentralen Merkmalen ab:
1) der Bewertung, welche eine Person einem in der Bitte um Teilnahme vorge-
tragenen Merkmal (z.B. Auftraggeber, Länge des Interviews, Belohnung, etc.)
einem Merkmal gibt;
2) der Salienz, Auffälligkeit bzw. Stärke der Betonung (engl.: saliency), die diesem
Merkmal im Rahmen der Bitte um Teilnahme vom Interviewer gegeben wird.
In der Veranschaulichung ihres Modells stellen die Autoren Richtung und Höhe ei-
ner Bewertung als Distanz auf einem Hebel vom Angelpunkt des Hebels dar, wäh-
rend der Grad der Betonung durch das Gewicht von am Hebel hängenden Kugeln
dargestellt wird (vgl. Abbildung VII.14). Aus dieser Veranschaulichung leitet sich
der Name des Modells ab.
VII.7 Bedingungen der Interview-Teilnahme 537

Abbildung VII.14: Leverage-Saliency-Modell

Der Effekt eines Attributs j auf die Teilnahmewahrscheinlichkeit einer Person i ist
gemäß des Leverage-Saliency-Modells eine Funktion der Wahrscheinlichkeit Sij,
mit der das Attribut in der Bitte um Teilnahme in der Ansprache hervorgehoben
wird sowie der Höhe und der Richtung Lij , mit der das Attribut von der kontaktier-
ten Person i bewertet wird. Zwischen der individuellen Wahrscheinlichkeit einer
Kooperationsentscheidung (Propensity) als abhängiger Variablen und Lij und Sij
nehmen die Autoren einen logistischen Zusammenhang an:
J
ln ⎡⎣ pi / (1 − pi ) ⎤⎦ = β 0 + ∑β1 j Lij + β 2 j Sij + β 3 j Lij Sij .
j =1

In dieser Formel ist J die Anzahl der Attribute. Als individuelle Wahrscheinlichkeit
für die Kooperation von Person i ergibt sich dann:
J
β0 + ∑β1 j Lij + β2 j Sij + β3 j Lij Sij
pi = e j =1
.
538 VII.7 Bedingungen der Interview-Teilnahme

Wenn die Bewertung eines Attributs mit einem Merkmal Ci einer Person i zu-
sammenhängt, wie z.B. dem Alter oder der Religionszugehörigkeit, so dass ein
bestimmtes Attribut j in Abhängigkeit von diesem Merkmal höher oder niedriger
bewertet wird, kann das auf das Attribut j bezogene Merkmal Cij der Person i auch
als Proxy für das Attribut in die Modellgleichung aufgenommen werden: Zwischen
der Wahrscheinlichkeit pi einer individuellen Entscheidung zur Kooperation als
abhängiger Variablen und der Variablen Cij als in Bezug auf das Attribut j und den
Grad der Salienz Sij ergibt sich für ein einzelnes Attribut j die folgende Gleichung:

ln ⎡⎣ pi / (1 − pi ) ⎤⎦ = β 0 + β1Cij + β 2Sij + ε i ,

wobei pi wieder die Wahrscheinlichkeit der Kooperation einer Person i mit einer
bestimmten Konstellation der Werte der unabhängigen Variablen, Cij die Charak-
terisierung der Person in Bezug auf das Attribut j und Sij der Grad, mit der das
Attribut betont bzw. hervorgehoben wird.
Auch wenn das Modell für Interviewer-administrierte Umfragen ausgearbeitet
wurde, so liegt die Anwendung auf Anschreiben und Einleitungstexte und die dort
mehr oder weniger stark betonten Merkmale in selbst-administrierten Umfragen
auf der Hand.
RC (Rational Choice)-Modell:
Nach dem RC-Modell entscheidet sich eine Person für eine Teilnahme, wenn der
Nutzen einer Teilnahme deren Kosten übersteigt; d.h. die Teilnahmeentscheidung
basiert auf einer Kosten-Nutzen-Analyse (vgl. Schnell, 1997; Singer, 2011). Die Per-
son handelt also rational im Sinne einer Maximierung des Entscheidungsnutzens.
Ursprünglicher Ausgangspunkt eines RC-Modells ist das Modell des maximalen
subjektiv erwarteten Nutzens (SEU-Modell; vgl. Savage, 1954; Edwards, 1955).
Unter den angebotenen Handlungsalternativen, im vorliegenden Fall „Teilnahme
vs. Nichtteilnahme“ entscheidet sich die Person also für die Alternative mit dem
höchsten subjektiv erwarteten Nutzen:
J
SEU ( A ) = ∑pi*u j .
j

In diesem Ausdruck ist SEU der subjektiv erwartete Nutzen der Handlungsalterna-
tive A, J ist die Anzahl der sog. states of nature, d.h. der ungewissen Gelegenheiten
bzw. Bedingungen, die eintreten könnten und unter denen die Handlungsalternati-
ve ggf. realisiert werden müsste und uj ist die Nutzenbewertung der Konsequenzen,
welche Handlungsalternative A bei Realisierung unter Bedingung j hat, p✴i ist die
subjektive Wahrscheinlichkeit, mit der Gelegenheit j auftritt. Negative Nutzwerte
VII.7 Bedingungen der Interview-Teilnahme 539

bedeuten Kosten. Dies bedeutet praktisch, dass die Alternative mit den geringsten
Kosten gewählt wird. In der Anwendung auf die Teilnahmeentscheidung geht es
um die beiden Alternativen: Teilnahme-Nichtteilnahme. Die Zustände der Natur
sind die unterschiedlichen Zustände, die nach Überlegungen des Befragten eintre-
ten könnten wie z.B. De-Anonymisierung, hoher Zeitaufwand, etc.. Das RC-Mo-
dell ist allerdings inzwischen nicht mehr mit dem klassischen SEU-Modell iden-
tisch, sondern bezieht zahlreiche andere Komponente wie die Rahmung (framing)
der Situation mit ein.
Esser (1986) hat darauf aufmerksam gemacht, dass die Nutzen- und Kosten-
gesichtspunkte oft gering ausgeprägt sind und die Entscheidung daher in diesen
Fällen aus einer Situation der Indifferenz heraus erfolgt, so dass relativ periphere
Aspekte zum Tragen kommen können wie „Stimmung“, „Thema“, „Geschick des
Interviewers“ etc. Von den indifferenten Befragten unterscheidet Esser Personen,
bei denen die Teilnahme bzw. die Verweigerung mit einer starken Handlungsmo-
tivation verbunden ist, in einem bestimmten kulturellen Milieu verankert ist oder
bei denen die Befragten mit der Teilnahme oder Nichtteilnahme ein besonderes
Interesse verbinden. Die in die Nutzenbewertung eingehenden Kosten unterteilt
Esser in Opportunitätskosten und Transaktionskosten. Zu ersteren zählt er den Nut-
zen der anderen Handlungsalternativen wie z.B. „andere Verpflichtungen“. Zu den
wichtigeren Transaktionskosten rechnet Esser etwa die Unsicherheit im Umgang
mit fremden Situationen, Verständigungsprobleme und Befürchtungen.
Wie Singer (2011) am Beispiel von Zusicherungen von Vertraulichkeit zeigt, ist
eine Entscheidung darüber, was als Kosten und was als Nutzen gewertet werden
kann, nicht immer klar ist. So ist eine zu intensive Zusicherung bei nicht-sensitiven
Themen wohl eher der Kostenseite zuzurechnen.
Theorie des überlegten/geplanten Verhaltens (vgl. Aijzen, 2005; Aijzen & Krebs, 1994):
In ihrer ursprünglichen Form der Theorie des überlegten Handelns (engl.: theory of
reasoned action) wird die Verhaltensintention als Funktion der Einstellung gegen-
über dem Verhalten und der subjektiven Norm aufgefasst:

B = I ∝ ⎡⎣w1 AB + w w SN ⎤⎦.

In diesem Ausdruck bezeichnet B das Verhalten, I die Verhaltensintention, AB die


Einstellung gegenüber dem eigenen Verhalten und SN die subjektive Norm. Zu-
sätzlich kann angenommen werden, dass die subjektive Norm von normativen
Überzeugungen (engl.: normative beliefs) und die Einstellung von Verhaltensüber-
zeugungen (engl.: behavioral beliefs) abhängt. Das Zeichen „ v “ bedeutet „pro-
portional“.
540 VII.7 Bedingungen der Interview-Teilnahme

Die Komponenten des Modells werden in der Regel durch entsprechende Items
operationalisiert. Man beachte, dass die Verhaltensintention nicht mit dem Verhal-
ten selbst identifiziert werden kann. In dieser Form wurde die Theorie von Hox,
De Leuuw, und Vorst (1995) auf die Teilnahmeentscheidung angewendet, wobei
noch einige zusätzliche Unterscheidungen eingeführt wurden wie z.B. die Unter-
scheidung zwischen spezifischen und allgemeinen Intentionen. Für die Messung
der allgemeinen Einstellung wurden acht Items entworfen, darunter die Gefühle
gegenüber Umfragen. Zur Erfassung der subjektiven Norm wurden vier Items kon-
struiert, welche die Wahrscheinlichkeit erhoben, mit der eine Person bereit ist an
Umfragen von Universitäten oder Marktforschungsinstituten teilzunehmen. Drei
Items dienten der Erfassung der normativen Überzeugungen. Sie bezogen sich auf
die subjektiven Normen von Freunden. Die Verhaltensüberzeugungen wurden
durch drei Skalen erhoben, wobei der persönliche Wert der Privatheit, die Bewer-
tung vergangener Erfahrungen mit Umfragen und zum empfundenen Aufwand,
der mit der Teilnahme verbunden ist. Analysiert wurde ein Strukturgleichungs-
modell mit latenten Variablen und den Items als Indikatoren. Das Modell konnte
gut an die Daten angepasst werden, allerdings konnte die Übereinstimmung von
Intention und Verhalten nicht bestätigt werden.
Die Theorie des überlegten Handelns wurde später zu einer Theorie des geplan-
ten Verhaltens (engl.: theory of planned behavior) durch Einbeziehung der wahrge-
nommenen Verhaltenskontrolle (engl.: perceived behavioral control) als zusätzlicher
Komponente erweitert. Das Modell des geplanten Verhaltens kann durch die fol-
genden Beziehungen beschrieben werden:

B = ⎡⎣w1I + w 2 PCB ⎤⎦
I ∝ ⎡⎣w1 AB + w 2SN + w 3 PCB ⎤⎦.

In dieser Formel erscheint als weitere Komponente die Variable PCB (perceived
behavioral control). Beispiele für Anwendungen der Theorie des geplanten Ver-
haltens auf die Teilnahmeentscheidung finden sich bei Gordoni & Schmidt (2010),
in Bezug auf Entscheidungen des arabischen Bevölkerungsteils in Israel, Bosnjak
(2002) in Bezug auf die Teilnahmeentscheidung bei Webumfragen und Haunber-
ger (2011) in Bezug auf die Teilnahme an einem Online-Access-Panel. Auch in der
Untersuchung von Haunberger wird die Irrelevanz der Intention für das tatsächli-
che Verhalten thematisiert. Die Korrelation zwischen Intention und Verhalten liegt
nach Metanalysen bei etwa 0,53 (vgl. Sheeran, 2002). Für die Messung der Einstel-
lungen gegenüber Umfragen haben Rogelberg et al. (2001) ein Instrument entwi-
ckelt. Bosnjak, Metzger und Gräf (2010) untersuchten eine erweiterte Version des
Modells auf die Teilnahme an mobilen Umfragen. Burger et al. (2010) untersuchten
VII.8 Maßnahmen zur Erhöhung der Responserate 541

mit Hilfe dieses Modellansatzes die Faktoren, welche die Erreichbarkeit mobiler
Teilnehmer beeinflussen.

VII.8 Maßnahmen zur Erhöhung der Responserate

VII.8.1 Einführende Bemerkungen und Überblick

Die zur Erhöhung der Response-Rate vorgeschlagenen Maßnahmen beruhen auf


mutmaßlichen, der Alltagspsychologie entnommenen, oder wissenschaftlich und/
oder empirisch begründeten Einschätzungen der Gründe für eine positive Teilnah-
meentscheidung und ebensolchen Einschätzungen über die Gründe für eine erfolg-
reiche Kontaktaufnahme. Im ersten Fall liegt der Schwerpunkt auf einer Erhöhung
der Kooperationsrate, im zweiten Fall auf einer Erhöhung der Kontaktrate oder
einfach der Anzahl der Kontaktversuche, weil die Herstellung eines Kontakts die
Voraussetzung für eine Kooperation und damit für die Rekrutierung zusätzlicher
Respondenten darstellt. Die Kontaktrate ergibt sich aus der Wahrscheinlichkeit,
mit der Elemente der Zielpopulation erreichbar sind. Wie wir gesehen haben, ist
diese nicht nur abhängig von den Verhaltensregelmäßigkeiten der Zielpersonen,
sondern auch vom Verhalten der Kontaktperson und ihrer Rolle als Gatekeeper.
Insbesondere bei Personen, die nur über Drittpersonen, z.B. Pflegepersonen, ange-
sprochen werden können, ist die Wahrscheinlichkeit eines erfolgreichen Kontakts
mit der Zielperson auch abhängig von der Wahrscheinlichkeit eines Kontakts mit
den entsprechenden Drittpersonen.
Da sich die Wahrscheinlichkeit von Nonresponse im Wesentlichen multipli-
kativ zusammensetzt aus der Kontaktierbarkeit, also der Wahrscheinlichkeit eines
Kontakts mit der Zielperson und der Wahrscheinlichkeit einer positiven Antwort
auf den „survey request“ sollte das Augenmerk immer auf beiden Maßnahmen zur
Erhöhung der Responserate beruhen:
• Maßnahmen zur Erhöhung der Kontaktrate;
• Maßnahmen zur Erhöhung der Kooperationsrate.
Maßnahmen zur Erhöhung der Kontaktrate in Bezug auf die Zielperson müssen
berücksichtigen, dass Zielpersonen zumindest teilweise nur durch Weitervermitt-
lung über eine Kontaktperson erreicht werden können. Dies führt dazu, dass der
Wunsch, mit einer Zielperson ein Interview durchzuführen, vor dem Kontakt mit
der Zielperson bereits der Kontaktperson vorgetragen werden muss, die darüber
542 VII.8 Maßnahmen zur Erhöhung der Responserate

hinaus oft auch die notwendigen Daten zur Auswahl der Zielperson, z.B. im Haus-
halt liefern soll, ist das Augenmerk zunächst auch auf die Motivation der Kontakt-
person zu richten, eine Weiterleitung an die Zielperson zu ermöglichen und/oder
ggf. notwendigen Daten über die Zielperson zur liefern. Um diese Motivation zu
verstärken, muss speziell die Form der Kontaktaufnahme einschließlich einer at-
traktiven und überzeugenden Darstellung der Studie bedacht werden.
Ist ein Kontakt mit der Zielperson erfolgt, sollte bei einer negativen ersten Ant-
wort nicht auf weitere Maßnahmen verzichtet werden, den Respondenten doch
noch zu einer Teilnahme zu bewegen. Dazu gehören weitere Überzeugungsarbeit,
sowie ein eventueller Modewechsel, ein Austausch der Interviewer oder die Nach-
kontaktierung von Verweigerern in im Rahmen eines Zweiphasen-Designs (vgl.
hierzu Groves et al., 2009, pp. 202).
Die gebräuchlichsten bisher vorgeschlagenen Maßnahmen zur Erhöhung der
Kontaktrate und/oder der Kooperationsrate wollen wir unter den folgenden Kate-
gorien subsummieren.
• Ankündigungen (engl.: advance letters)
• Zuwendungen (engl.: incentives)
• Interviewerperformanz und Maßnahmen zur deren Optimierung
• Optimierung der Bitte um Teilnahme („survey request“)
• Form und Inhalt der Kontaktaufnahme
• Wahl der Kommunikationsform
• Rekrutierungsaufwand, Nonresponse und Datenqualität
Zahlreiche empirische Befunde zu den die Teilnahmebereitschaft beeinflussenden
Merkmalen der Befragten und die daraus folgende Zusammensetzung der Stich-
probe lassen sich wegen mangelnder oder fehlender Kontrollierbarkeit der ent-
scheidenden Variablen nicht in konkrete Maßnahmen umsetzen. Zudem sind diese
Befunde auch nicht immer konsistent. So fand etwa Goyder (1987), dass höhere
Bildung und niedrigeres Alter die Teilnahmebereitschaft förderten, während z.B.
Pötzschke und Müller (2006) bei Telefonumfragen einen kurvenlinearen Zusam-
menhang zwischen Lebensalter und Teilnahmebereitschaft feststellten. In dieser
Studie ergaben sich niedrigere Teilnahmequoten für Jüngere und Ältere. Dieser
Befund konnte auch von Schnauber und Daschmann (2008) bestätigt werden, die
eine höhere Teilnahmebereitschaft der mittleren Altersgruppe feststellten. Befun-
de dieser Art lassen sich eigentlich nur durch statistische Maßnahmen wie Over-
sampling, disproportionale Ziehung oder Gewichtung ausgleichen.
VII.8 Maßnahmen zur Erhöhung der Responserate 543

VII.8.2 Ankündigungen

Unabhängig vom Thema der Umfrage ist die Art und Weise von Bedeutung, in
der die Kontaktaufnahme mit den Elementen der Ausgangsstichprobe erfolgt. Dies
kann durch eine Vorab-Ankündigung in Form eines Ankündigungsschreiben (engl.:
advance letters; prenotification letters) oder unangekündigt erfolgen. Ankündigun-
gen sind zu unterscheiden von Anschreiben in Mailumfragen, denen der Frage-
bogen beigelegt wird. Die positive Wirkung von Ankündigungen auf die Respon-
se-Raten ist vielfach empirisch belegt (vgl. Heberlein & Baumgartner 1978 in Bezug
auf postalische Umfragen; Groves & Couper, 1998 in Bezug auf Face-to-Face-Um-
fragen; Goldstein & Jennings, 2002, Mann, 2005 sowie De Leeuw et al. 2007 in
Bezug auf CATI-Umfragen mit listenbasierter oder zufallsbasierter Listenauswahl).
Ankündigungsschreiben vermindern, insbesondere bei Telefonumfragen, den
Überraschungseffekt und geben dem Interview den Charakter der Legitimation,
indem sie den Befragten signalisieren, dass keine Werbe- oder Verkaufsabsicht im
Spiel ist. Dennoch bleibt bei telefonischen Umfragen die ausschließlich erste Kon-
taktaufnahme oft dem Telefon vorbehalten (sog. kalte Anrufe; engl.: cold calls). Dies
hat den einfachen Grund, dass bei Anwendung des RDD-Verfahrens die Adressen
der Befragten vorher nicht bekannt sind, so dass als einzige Möglichkeit bleibt, den
Befragten auf Wunsch weitere Materialien zuzusenden. Dies bedeutet, dass dem
Eröffnungs- bzw. Einleitungsteil bei Telefonumfragen eine besondere Bedeutung
zukommt. Die einzige Alternative, auch in RDD-Umfragen ein Ankündigungs-
schreiben zu versenden, besteht darin, die im Rahmen der RDD-Nummerner-
zeugung generierten Nummern mit dem Telefonregister abzugleichen. Die An-
kündigungsschreiben werden dann nur an jene verschickt, für die eine registrierte
Nummer existiert. Link und Mokdad (2005) gingen in dieser Weise vor und bestä-
tigten die positive Wirkung des Ankündigungsschreibens für die Substichprobe der
Registrierten in der RDD-Stichprobe. Gleichzeitig ergaben sich aber soziodemo-
graphische Unterschiede hinsichtlich Alter und sozio-ökonomischem Status. Die
Ankündigungsschreiben bewirkten offensichtlich eine Verzerrung der Stichprobe
in Richtung höheres Alter und höheren Status. Die Kosten für das Ankündigungs-
schreiben wurde aufgewogen durch die verstärkte Teilnahme der registrierten Sub-
stichprobe (vgl. dazu auch Hembroff et al., 2005).
De Leeuw et al. (2007) berichten bei CATI-Umfragen eine Erhöhung der Re-
sponserate von 58% auf 66% und einer Erhöhung der Kooperationsrate von 64%
auf 75% bei Versand von Ankündigungsschreiben, eine Größenordnung, die etwas
über dem von Link und Mokdad (2005) berichteten Zuwachs liegt (ca. 6%). Hem-
broff et al. (2005) berichten einen Zuwachs von 5,4%. Frühe Analysen von Dillman,
Gallegos und Frey (1976) berichten dagegen über Erhöhungen von 4,4%, Traugott,
544 VII.8 Maßnahmen zur Erhöhung der Responserate

Groves und Lepkowski (1987) sogar um 13,4%. Nicht bestätigt werden konnte die
Wirkung von Ankündigungsschreiben bei CATI-Umfragen in den Experimenten
von Singer, van Hoewyk und Maher (2000).
Mit den Ankündigungsschreiben können Einladungen verbunden werden,
welche die Legitimität und den Wert der Umfrage stärken, Misstrauen reduzie-
ren und den Eindruck von Reziprozität bewirken können. Diese Prinzipien gelten
insbesondere für Anschreiben, die nicht vorab, sondern zusammen mit weiteren
Unterlagen und dem Fragebogen bei postalischen Umfragen versandt werden. Für
ihre Gestaltung lassen sich bestimmte Prinzipien formulieren (vgl. den Überblick
von Dillman 2000; Porst 2001). Die Wirkung von Ankündigungen variiert mit der
Länge der Anschreiben (vgl. Dillman, Gallegos und Frey, 1976), der Organisation
des Briefkopfs (vgl. Brunner & Carroll, 1969), der zwischen Ankündigung und Te-
lefonkontakt verstrichenen Zeit (vgl. Pennell, 1990, zit. nach Hembroff, 2005) und
der Person, an die das Schreiben adressiert ist.
Der Mode von Ankündigungen ist prinzipiell unabhängig vom Mode, in dem
das Interview durchgeführt wird. So kann etwa eine E-Mail-Umfrage oder eine
Webumfrage auch telefonisch, schriftlich/postalisch, per E-Mail oder per SMS an-
gekündigt werden.

VII.8.3 Zuwendungen

Eine weitere Maßnahme zur Erhöhung der Teilnahmewahrscheinlichkeit bei In-


terviewer-administrierten und Selbst-administrierten Umfragen mit und ohne
Computerunterstützung ist die Einführung von Zuwendungen (engl.: incentives),
die oft in eingeschränkter Bedeutung auch als Belohnungen bezeichnet werden.
Zuwendungen
• stellen Motivatoren dar. Sie ersetzen interne Motivatoren wie Interesse etc.
durch externe Motivatoren wie z.B. Geldzahlungen oder Sachleistungen.
• erhöhen den Nutzen einer Teilnahme;
• stellen eine Anerkennung für die Teilnahme bzw. eine in der Regel bescheidene
Aufwandsentschädigung im Sinne eines sozialen Austauschverhältnisses dar;
• stellen eine Möglichkeit dar, Respondenten zu gewinnen, die sich eher selten an
Umfragen beteiligen.
Beim Einsatz von Incentives ist zu bedenken, dass nicht alle Arten von Incentives
für alle Gruppen von Respondenten gleichermaßen wirksam sind. Hat man geeig-
nete Frame-Indikatoren als Hilfsvariablen zur Verfügung, kann man gezielt versu-
VII.8 Maßnahmen zur Erhöhung der Responserate 545

chen, die Teilnahmebereitschaft von Subgruppen mit bestimmten Merkmalen, z.B.


bestimmte ethnische Gruppen, bestimmte Altersgruppen, etc. durch maßgeschnei-
derte Incentives zur erhöhen (vgl. z.B. Link & Burks, 2013).
Wirkungen verschiedener Zuwendungsarten:
Eine überwältigende Zahl empirischer Studien belegt für Mailumfragen, für telefo-
nische Umfragen und für Face-to-Face-Umfragen, dass
• monetäre Incentives in Form von Geld nicht-monetären Incentives in Bezug
auf die Erhöhung der Teilnahmebereitschaft überlegen sind;
• vorausgezahlte, d.h. leistungsunabhängige Incentives (auch: unkonditionale mo-
netäre Incentives; engl. prepaid incentives) leistungsabhängigen bzw. konditio-
nalen, d.h. an die Vollendung des Interviews bzw. an die Zurücksendung des
Fragebogens gekoppelten Incentives, die naturgemäß zunächst nur versprochen
werden können, in Bezug auf die Erhöhung der Response-Rate überlegen sind.
Zahlreiche empirische Studien belegen die Wirksamkeit unkonditionaler monetä-
rer Incentives zur Erhöhung der Response-Rate. So ergab schon eine frühe Meta-
analyse von Church (1993) zu den Wirkungen von Incentives in Mail-Umfragen,
die 38 experimentelle und quasiexperimentelle Studien einbezog, dass Incentives in
Form von Geld (monetäre Incentives; engl.: monetary incentives) sowie nicht-mone-
täre Incentives nur dann eine positive Wirkung auf die Responserate haben, wenn
sie dem Anschreiben beigelegt sind. Church schloss u.a. außerdem aus seiner Ana-
lyse, dass das Timing für das Angebot von Incentives eine wichtige Rolle bei der
Erhöhung der Teilnahmebereitschaft spielt. Unkonditionale monetäre Incentives
hatten den größten Effekt auf die Teilnahme. Diese Befunde konnten auch in einer
neueren Metaanalyse bestätigt werden (vgl. Mercer et al., 2015).
Die Bevorzugung von monetären Zuwendungen bei Mailumfragen gegenüber
Lotterien und Spenden bestätigen auch Warriner et al. (1996). Warriner et al. fan-
den, dass es bereits bei 5$ zu einer Erhöhung der Response-Rate um 10% kam.
Respondenten bevorzugten eindeutig die unmittelbare Belohnung. James und Bol-
stein (1992) fanden in Bezug auf Mailumfragen, dass bereits eine vorausgezahlte
Belohnung von 1$ die Antwortrate im Vergleich zu einer Kontrollgruppe signifi-
kant erhöhte. Sie erhöhte sich ferner signifikant bei einer Steigerung von 1$ auf 5$
und von 5$ auf 20$. Ein Versprechen von 50$ blieb ohne Effekt auf die Antwortrate.
Unerheblich war, ob die Belohnung durch Bargeld oder einen Scheck erfolgte.
Willimack et al. (1995) berichten über eine Abnahme von Verweigerungen
durch unkonditionale monetäre Incentives bei Face-to-Face-Umfragen.
Zu ähnlichen Ergebnissen kamen auch andere Analysen (vgl. Groves & Couper
1998, p. 281 in Bezug auf alle Modes; Singer et al. 1997, 1998 in Bezug auf Fa-
ce-to-Face-Umfragen und Telefonumfragen). Singer, Groves und Corning (1999)
546 VII.8 Maßnahmen zur Erhöhung der Responserate

fanden, dass Ankündigungsschreiben unter Beilage eines Incentives von 5$ signifi-


kant häufiger teilnahmen. Die Steigerung lag bei 8%. Ähnliche Ergebnisse berich-
ten Singer, van Hoewyk & Maher (2000). Sie konnten in verschiedenen Experimen-
ten zeigen, dass Ankündigungsschreiben und Belohnungen, die nur versprochen
wurden, bei CATI-Umfragen mit zufälliger Nummernerzeugung keine positiven
Auswirkungen auf die Antwortrate haben. Die Wirkung änderte sich aber sofort,
wenn dem Ankündigungsschreiben eine Belohnung in Höhe von 5$ beigelegt wur-
de. In diesem Fall hatte das Ankündigungsschreiben eine signifikante Wirkung auf
die Kooperationsrate. Die Antwortrate stieg um ca. 10%. Allerdings scheint diese
Form der Belohnung keine Wirkungen auf die Teilnahmebereitschaft bei Wieder-
holungsbefragungen zu haben. Curtin, Singer und Presser (2007) bestätigten bei
Telefon-Umfragen den Anstieg der Response-Rate von 12% bei Einsatz von un-
konditionalen Incentives von 5$. Dagegen steht eine Minderung von 13% bei Per-
sonen, die ein Ankündigungsschreiben ohne Incentives erhielten. Die Erhöhung
der Incentives auf 10$ führte nur zu einer leichten, nicht signifikanten Erhöhung.
Rao, Kaminska und McCutcheon (2010) analysierten die kombinierte Wir-
kung von Incentives, Ankündigungsschreiben und wiederholten Anrufen (engl.:
follow-up telephone calls) bei der Rekrutierung von Teilnehmern für das Gallup
Panel. Dabei wurde auch die Wirkung von Incentives schon bei der Rekrutierung
untersucht. Die Autoren berichten über eine Erhöhung der Response-Rate von
12,1% bei der RDD-Form der Rekrutierung, wenn Ankündigungen mit Incentives
von 2$ verbunden werden. Gegenüber einem Ankündigungsschreiben allein gab
es eine Steigerung von 9,5%. Allerdings war die endgültige Teilnahme am Panel,
gemessen an der Rücksendung eines Welcome-Fragebogens, für die Mail-rekru-
tierten Respondenten erheblich höher.
Ryu, Couper und Marans (2004) verglichen Zuwendungen mit Bargeld (engl.:
cash incentives) und Belohnungen mit Sachleistungen (engl.: in-kind incentives) in
postalischen und Face-to-Face-Umfragen. Die Ergebnisse bestätigen, dass Bar-
geld-Belohnungen höhere Antwortraten bei Mailumfragen haben als Sachleistun-
gen. Die Antwortverteilungen variierten nicht zwischen den Belohnungsformen. Es
gab keine Unterschiede zwischen beiden Belohnungsformen bei Face-to-Face-Um-
fragen. Die Wirkung von Bargeld-Belohnungen war am wirksamsten in ärmeren
Gemeinden.
Allerdings gibt es auch Hinweise, dass bestimmte Formen der Teilnahme an
Lotterien, wenn sie unkonditional gegeben werden, die Response-Rate erhöhen. So
analysierten Boyle et al. (2012) die Wirkung von Lotterie-Rubbellosen (engl.: lottery
scratch tickets) bei Mailumfragen und fanden empirische Hinweise für eine Res-
ponse-steigernde Wirkung unkonditionaler Rubbellose bei der ersten Einladung.
VII.8 Maßnahmen zur Erhöhung der Responserate 547

Die Wirksamkeit von Belohnungen in Bezug auf die Rücklaufquote bei Mail-
umfragen wird auch im deutschen Sprachraum bestätigt. In einer Studie von Be-
cker, Imhof und Mehlkop (2007) stieg die Teilnahmebereitschaft durch Beilegen
von 10 Franken, während reine Versprechen von Incentives erfolglos waren und
in ihrer Wirkung schlechter als in einer Kontrollgruppe ohne Incentives. In einer
Studie von Stadtmüller (2009) reichte bereits 1 Euro, um die Teilnahmebereitschaft
und die Rücklaufgeschwindigkeit zu steigern.
Konditionale Belohnungen bringen, wenn überhaupt, nur einen geringen An-
stieg der Response-Rate (vgl. Blohm & Koch, 2013 in Bezug auf Face-to-Face-Um-
fragen). Dies bestätigen auch Analysen einer Umfrage unter jungen Marokkanern
und Türken von Van den Brakel, Vis-Visschers und Schmeets (2006) für CAPI-
und CASI-Modes.
Scherpenzeel und Toepoel (2012) berichten u.a. über die Wirkung von Incenti-
ves bei einer wahrscheinlichkeits-basierten Rekrutierung von Teilnehmern für ein
Online-Acess-Panel und kamen sowohl bei der CAPI- Variante als auch der CA-
TI-Variante zu dem Ergebnis, dass Incentives verbunden mit einer Ankündigung
die höchste Wirkung auf die Response-Rate haben, wobei die optimale Größenord-
nung der Incentives bei 10 Euro lag.
Brick et al. (2007) fanden, dass bei Mobilfunkumfragen Incentives in Höhe von
10$ zu einer höheren Responserate führten als Incentives in Höhe von 5$.
Zuwendungen bei Webumfragen:
Bosnjak und Tuten (2003) untersuchten die Wirkungen von unkonditionalen Zu-
wendungen gegenüber versprochenen Belohnungen und Verlosungen von Preisen
in Webumfragen und fanden dass die Verlosung von Preisen im Vergleich zu den
anderen Varianten die höchste Steigerung der Antwortrate bewirkte. Tuten, Galesic
und Bosnjak (2004) fanden empirische Belege dafür, dass die Ziehung von Preisen
und die unmittelbare Benachrichtigung über das Ergebnis für die Steigerung der
Teilnahmebereitschaft bei Webumfragen wirksamer als prepaid incentives sind.
Galesic und Bosnjak (2004) berichten einen signifikanten Anstieg der Antwortrate
bei unmittelbarer Benachrichtigung des Preises im Vergleich zur verspäteten Be-
nachrichtigung (1 Monat später).
Göritz (2006) untersuchte in zwei Metanalysen die Wirksamkeit von Zuwen-
dungen bei Webumfragen. Dabei untersuchte sie sowohl den Einfluss auf den
Anteil der Teilnehmer, die die erste Frage beantworteten (response) als auch den
Einfluss auf den Anteil, der den Fragebogen vollständig beantwortete (retention).
Dabei stellte sich heraus, dass materielle Belohnungen einen Einfluss sowohl auf
„response“ als auch auf „retention“ haben, wobei der Effekt auf „retention“ größer
ist. Beide Effekte waren aber gering, so dass Belohnungen insgesamt nur einen be-
548 VII.8 Maßnahmen zur Erhöhung der Responserate

grenzten Effekt in Websurveys haben. Nicht-monetäre Incentives scheinen wirksa-


mer in Webumfragen zu sein als in Offline-Umfragen.
Göritz und Luthe (2013) fanden keinen statistisch signifikanten Effekt von Lot-
terie-Incentives auf die Teilnahme an Befragungen in Online-Panels. Allerdings
fanden sich Effekte bei Teilnehmern mit niedrigem Einkommen. Die Autoren be-
zogen auch die Wirkung des Themas in die Analyse ein. Sie fanden Hinweise dafür,
dass eine geringere Auffälligkeit des Themas zu einer niedrigeren Grundmotivation
führt, was mehr Raum für die Wirkung der Incentives bietet. Auch eine Teilnahme
ohne eine vorangegangene Teilnahme führt zu einer niedrigeren Ausgangsmoti-
vation. Darüber hinaus wurde ein Abschwächungseffekt bei wiederholter Anwen-
dung von Lotterien festgestellt. Letztere scheinen nur in der ersten Welle zu wirken
(Göritz, 2008; Göritz & Wolf, 2007). Die Autoren nehme an, dass Eingeladene in
Webumfragen eher intrinsisch motiviert sind und daher weniger abhängig von ex-
trinsischen Belohnungen. Außerdem sind Panellisten an Lotterien gewöhnt und
wissen, dass die Chance relativ gering ist (Göritz & Wolf, 2007).
Nebeneffekte von Incentives:
Wiederholt wurde festgestellt, dass die Gabe von Incentives keine Auswirkung auf
die soziodemographische Zusammensetzung der Stichprobe hat (vgl. z.B. Blohm &
Koch, 2013; Rao, Kaminska & McCutcheon, 2010; Singer, Van Hoewyk & Maher,
2000). Auch eine Auswirkung auf die Datenqualität und das Ausmaß an Item-Non-
response konnte bisher nicht nachgewiesen werden (vgl z.B. Davern & Rockwood,
2003 für Face-to-Face-Umfragen). Vielmehr deuten empirische Analysen darauf
hin, dass Incentives das Ausmaß an Item-Nonresponse reduzieren können (vgl.
Singer, Van Hoewyk & Maher, 2000, pp. 179). Interaktionen zwischen der Vari-
ablen „Incentive versprochen“ vs. prepaid“ einerseits und dem Alter andererseits
belegen, das bei älteren Befragten die Item-Nonresponse stärker reduziert wird.
Die Hypothese, dass die extrinsische Motivation durch Incentives die intrinsische
Motivation reduziert und damit zu einer größeren Nachlässigkeit im Antwortver-
halten der Respondenten führt, konnte in diesem Zusammenhang nicht bestätigt
werden. Singer, Van Hoewyk & Maher fanden keine Auswirkungen der Incentives
auf einen speziell konstruierten Index der Datenqualität.
Grundsätzlich ist zu empfehlen, die Incentives auf einzelne Zielgruppen zu-
zuschneiden. Dies kann im konkreten Fall in einer kleinen Vorstudie ermittelt
werden. Grundsätzlich sind aber weitere Forschungsanstrengungen notwendig,
um der wachsenden Heterogenität in der Bevölkerung gerecht zu werden. Mit
Informationen an die Respondenten über Verwendung unterschiedlicher Incen-
tives sollte man allerdings zurückhaltend sein. Singer, Groves und Corning (1999)
fanden, dass Befragte sensitiv sind für Verteilungsgerechtigkeit von Incentives, sie
VII.8 Maßnahmen zur Erhöhung der Responserate 549

spielen aber im Vergleich zu anderen Gründen in Bezug auf die Teilnahmebereit-


schaft keine besondere Rolle.

VII.8.4 Form und Inhalt der Kontaktaufnahme

Einige Inhalte der Kontaktaufnahme sind nicht verhandelbar und müssen unab-
hängig von ihrer Wirkung auf die Befragten stets im Rahmen der Kontaktaufnahme
vorgetragen werden. So müssen mündliche oder schriftliche Kontaktaufnahmen
in jedem Fall die Vorgaben der Datenschutzgrundverordnung und der Standes-
richtlinien, die im Rahmen der Selbstregulation der Markt- und Sozialforschung
der Bundesrepublik Deutschland erarbeitet wurden (siehe Teil I) erfüllen. Dazu
gehören die Erwähnung der Freiwilligkeit der Teilnahme und die Zusicherung der
Anonymität. Letzteres bedeutet, dass Adressen und erhobene Daten nicht mitei-
nander verknüpft werden dürfen. Grundsätzlich ist dort, wo es möglich ist, eine
schriftliche Einwilligung zur Teilnahme erforderlich, wobei telefonische Umfragen
davon ausgenommen sind (siehe Teil I). Allerdings können Varianten der Präsen-
tation, etwa in Bezug auf die Salienz bzw. Auffälligkeit eingeführt werden, um die
Teilnahmebereitschaft entsprechend den Annahmen der Leverage-Saliency-Theo-
rie zu erhöhen.
Der Hinweis auf die Anonymität stellt eine Zusicherung der Vertraulichkeit dar,
die insbesondere bei sensitiven Themen von großer Bedeutung ist. Zusicherungen
der Vertraulichkeit können eine positive Wirkung auf die Teilnahmebereitschaft
haben (vgl. Singer, von Thurn & Miller, 1995), allerdings nur dann, wenn der Inhalt
der Befragung sensitiv ist (vgl. Singer, Hippler & Schwarz, 1992). Fällt die Zusiche-
rung zu ausführlich aus, besteht die Gefahr, dass die Befragten eher argwöhnisch
werden, indem sie die Wahrnehmung der Sensitivität verstärken (vgl. Singer, Hipp-
ler & Schwarz, 1992; vgl. auch die zusammenfassende Darstellung in Singer, 2011).
Dillman et al. (1996) fanden, wenn auch unter methodischen Vorbehalten, keine
negativen Auswirkungen verschiedener Arten der Zusicherung der Vertraulichkeit
auf die Anzahl vollständiger Interviews. Allerdings spielt hier die Einstellung der
Respondenten zur Vertraulichkeit eine gewisse, wenn auch nicht große Rolle (vgl.
Singer, Van Hoewyk & Neugebauer, 2003).
Wie bereits oben erwähnt, können Kontaktaufnahmen grundsätzlich in jeder
Kommunikationsform erfolgen und sind nicht an die Kommunikationsform der
später erfolgenden Interviews gekoppelt. Unter Aufarbeitung der bis dahin vorge-
legten empirischen Studien hat Dillman im Rahmen seiner Methode des totalen
Designs (engl. total design method; vgl. Dillman, 1978; Hippler, 1985) und seiner
550 VII.8 Maßnahmen zur Erhöhung der Responserate

Erweiterung auf Internet-, und Mixed-Mode-Umfragen im Rahmen der Methode


des maßgeschneiderten Designs (vgl. Dillman, Smyth & Christian, 2014) Richtli-
nien für Form und Ankündigungen in Selbst-administrierten Umfragen erarbeitet.
Aus den Richtlinien für Mailumfragen hat Porst (2001) Empfehlungen abgeleitet,
die wir bereits in Teil II vorgestellt haben.
In mehreren Studien (vgl. z.B. Heerwegh & Loosfeldt, 2006; Joinson & Reips,
2007; Pearson & Levine 2003; Porter & Withcomb 2003) wurde festgestellt, dass die
Personalisierung von Einladungen per E-Mail einen starken positiven Einfluss auf
die Teilnahmebereitschaft hat. Pearson & Levine fanden Interaktionen zwischen
Alter und Art der Begrüßung. Allerdings setzt der Erfolg einer personalisierten
Ansprache voraus, dass bereits Vertrauen aufgebaut wurde (vgl. Porter & With-
comb 2003). Joinson und Reips (2007) fanden empirische Hinweise dafür, dass die
Wirkung personalisierter Einladungen mit steigenden sozialen Status des Absen-
ders zunimmt. Diese Befunde können als Bestätigung der Prinzipien des maßge-
schneiderten Designs von Dillman angesehen werden.
Der Inhalt der Kontaktaufnahme sollte im Übrigen eine überzeugende Begrün-
dung der Untersuchung und des Themas enthalten, wobei Wichtigkeit und Sinn-
haftigkeit der eigenen Teilnahme herausgestellt werden sollte. Zentral an dieser
Stelle ist, das Interesse des Befragten am Thema zu stärken. Der Befragte sollte den
Eindruck gewinnen, dass eine Teilnahme an der Befragung für ihn selbst von Be-
deutung ist. Bei Interviewer-administrierten Umfragen sollte die durchschnittliche
Interviewdauer erwähnt werden.
Die Intensität, mit der das Thema in der Kontaktaufnahme betont werden kann,
muss auf die Interessen der Zielgruppe abgestimmt sein und auch situative Merk-
male berücksichtigen. Themen wie z.B. Fluglärm sind in einer Phase der Mobili-
sierung gegen Fluglärm, eher nicht zu betonen, da sich Proteste trotz grundsätz-
lichem Interesse am Thema, je nach Bewertung der Umfrage in der Öffentlichkeit
auch negativ auf die Teilnahmebereitschaft auswirken könnten. Die Wirkung des
Themeninteresses und der thematischen Relevanz auf die Kooperationsrate wird
eindrucksvoll bestätigt durch die Ergebnisse der Analysen von Groves, Presser und
Dipko (2004). Die Autoren fanden einen signifikanten Anstieg der Response-Rate
bei einer Teilstichprobe von Personen, die am Thema interessiert waren. Die Odds
der Teilnahme lagen bei 40%. Positiv auf die Teilnahme scheint sich das Thema
dann auszuwirken, wenn seine Reflexion positive Belohnungen für den Befragten
mit sich bringt, etwa durch Erzeugung positiver Assoziationen, Bilder, Erinnerun-
gen oder die Möglichkeit, eigene Kenntnisse zu demonstrieren. Ist das Thema zwar
relevant für den Befragten, aber mit negativen Gedanken besetzt, sinkt die Teil-
nahmebereitschaft (vgl. Presser et al. 2006). Dies kann allgemein bedeuten, dass
die Betonung des Themas in Einladungen zur Teilnahme auch riskant sein kann.
VII.8 Maßnahmen zur Erhöhung der Responserate 551

Es empfiehlt sich die Wirkung des Themas auf die Befragten in einem Pretest bzw.
in einer Voruntersuchung zu klären, um dann optimierte Entscheidungen für die
Haupterhebung treffen zu können.
Auch die Art und Weise, wie ein Umfrage-Sponsor erwähnt wird, ist von Be-
deutung für die Teilnahmebereitschaft. Eine Verbesserung der Teilnahme ist zu
erwarten, wenn der Sponsor eine geachtete Autorität ist. Groves et al. (2012) raten
als Konsequenz ihrer Analyse des möglichen Nonresponse-Bias durch die Unter-
stützung eines Sponsors durch die Befragten zu einer gewissen Vorsicht. Wenn der
Sponsor eine positive Beziehung zum Thema hat und im Zusammenhang mit dem
Thema gewisse Leistungen erbringt, dann kann ein Nonresponse-Bias in Bezug auf
die Fragen zu diesem Thema resultieren (vgl. Groves et al., 2012, p.523). In diesem
Fall ist dies bei der Interpretation der Ergebnisse zu berücksichtigen. Wenn ein
Wechsel des Sponsors möglich ist, sollte der Sponsor gewechselt werden. Der Effekt
des thematischen Interesses könnte aber mit der Befragungsart zu variieren.

VII.8.5 Interviewer-Performanz und Maßnahmen zu ihrer


Optimierung

VII.8.5.1 Empirische Befunde zum Interviewer-Verhalten

Interviewer wirken auf die Stichprobenelemente zunächst über die Wahrnehmung


ihrer Merkmale und die Wahrnehmung ihres Verhaltens, wobei aber die wahr-
nehmbaren Merkmale des Verhaltens auch Indikatoren für nicht direkt beobacht-
bare Variablen wie Einstellungen sein können (vgl. hierzu auch Reinecke, 1990).
Zu den wahrnehmbaren Merkmalen gehören im Falle von Face-to-Face-Umfragen
alle sprachlich/akustisch/stimmlichen Merkmale (z.B. Tonhöhe und -stärke, Rede-
fluss und Sprechgeschwindigkeit, Ausdrucksweise und Wortwahl, etc.) sowie alle
visuellen äußeren Merkmale des Interviewers einschließlich aller wahrnehmbaren
Verhaltens- und Handlungsmerkmale (z.B. Mimik, Gestik, Kleidung, Haar- und
Hautfarbe, Körpergröße, Body-Mass-Index, etc.). Aus diesen wahrnehmbaren
Merkmalen kann der Befragte Zuschreibungen wie „Höflichkeit“, „Hilfsbereit-
schaft“, „Zuwendung“, „physische Attraktivität“, etc. konstruieren (zur positiven
Rolle eines professionellen Erscheinungsbild. Grundsätzlich können die wahr-
nehmbaren Merkmale Grundlage sein für die Bildung von Hypothesen über die
Person des Interviewers und seine soziodemographischen Merkmale einschließlich
seines sozialen Status sowie seine Einstellungen und charakterlichen Merkmale.
Verantwortlich sind hier psychologische Prozesse der Eindrucksbildung (engl.: im-
552 VII.8 Maßnahmen zur Erhöhung der Responserate

pression formation), zu deren Modellierung wiederum Theorien der Urteilsbildung


und der sozialen Kognition herangezogen werden können. Interviewer-Merkmale
können sich sowohl auf die Nonresponse als auch auf das Antwortverhalten und
damit auf die Qualität der Messungen und die Datenqualität auswirken. Wir wollen
in diesem Abschnitt nur auf jene Interviewer-Effekte eingehen, die sich auf die Re-
sponse-Rate auswirken. Die Einflüsse auf das Antwortverhalten wurden in Teil III
diskutiert. Die empirischen Befunde sind durchaus nicht immer konsistent und
wie bei anderen Methodenstudien immer wieder abhängig von den angewandten
Methoden (experimentell vs. Beobachtungsstudien, etc.). und der untersuchten Po-
pulation.
Bei CATI-Umfragen sind von den Merkmalen des Interviewers nur sprachlich/
akustische/stimmliche Merkmale wahrnehmbar, so dass die Befragten ihre Hypo-
thesen über den Interviewer ausschließlich aus diesen Merkmalen ableiten können.
Bei Untersuchungen über den Einfluss von Interviewer-Merkmalen auf das Koope-
rationsverhalten der Befragten in Telefonumfragen fanden bereits Oksenberg und
Cannell (1988: 287; vgl. auch Oksenberg, Coleman & Cannell, 1986) die folgenden
Effekte:
• Interviewer, die als schnell und laut sprechend eingeschätzt wurden, die ferner
eine amerikanische Standardaussprache hatten und deren Stimme ferner kom-
petent und vertrauenswürdig klang, erzeugten geringere Verweigerungsraten.
• Interviewer, deren Intonationsmuster sich durch einen fallenden Ton auf früh
im Einleitungstext auftretenden Schlüsselworten auszeichneten, erzeugten
ebenfalls geringere Verweigerungsraten.

Interviewer-Varianz:
Insgesamt wird in der Literatur immer wieder eine hohe Varianz in den Leistungen
der Interviewer sowohl in Bezug auf die Messungen (vgl. u.a. Schnell und Kreuter,
2005) als auch auf verschiedene Quellen von Nonresponse (vgl. Hox und DeLeeuw,
2002; Link, 2006) hervorgehoben, die sich nur durch ein entsprechendes Training
reduzieren ließe (vgl. Fowler & Mangione, 1990; Freeman & Butler, 1978). Auch
Durrant und Steele (2009) fanden nicht nur eine Varianz der Interviewer in Bezug
auf die Nonresponse-Raten; vielmehr hatten Interviewer mit einer höheren Ver-
weigerungsrate auch eine niedrige Kontaktrate. Die Interviewer-Varianz kann eine
Größenordnung erreichen, die an die Stichprobenvarianz heranreicht (vgl. Bailey,
Moore & Bailar, 1978). Festzustellen ist eine hohe Varianz im Interviewer-Verhal-
ten (vgl. West & Olson, 2010). Antworten von Respondenten innerhalb eines Inter-
viewers waren ähnlicher als zwischen den Interviewern. Diese Unterschiede bezo-
gen sich nicht nur auf die Messungen, sondern auch auf den Rekrutierungserfolg.
Interviewer rekrutieren möglichweise systematisch Respondenten mit bestimmten
VII.8 Maßnahmen zur Erhöhung der Responserate 553

Merkmalen (vgl. West & Olson, 2010, p. 1022). Ähnlichkeiten der Reaktionen in-
nerhalb eines Interviews entstehen nach Meinung der Autoren z. T. auch deshalb,
weil sich die Interviewer in ihrem Nonreponse-Fehler in der von ihnen bearbeite-
ten Substichprobe unterscheiden; die Ursache der Ähnlichkeit liegt nach Meinung
der Autoren also in den Merkmalen der rekrutierten Personen und weniger daran,
dass ein Interviewer Korrelationen in den Antworten zwischen den Respondenten
erzeugt, ein Sachverhalt, der bereits von Groves und Fultz (1985) ins Spiel gebracht
wurde. Groves und Fultz erwähnen in der Interpretation ihrer Ergebnisse, dass
männliche Interviewer weniger Frauen, weniger ältere Personen, weniger ärmere
Personen und weniger Beschäftigungslose interviewen (vgl. Groves & Fultz, 1985).
Diese Unterschiede können auch aus unterschiedlichen Rekrutierungsstrategien
resultieren. West und Olson empfehlen, die Interviewer-Schulung darauf abzu-
stellen, die Nonresponse zwischen Interviewern zu egalisieren, statt nur auf die
Reduktion der Nonresponse zu achten. Offensichtlich muss bei Interviewern mit
merkmals-gesteuerten Selektionseffekten gerechnet werden. Allerdings deuten die
Ergebnisse von Schnell und Kreuter (2005) darauf hin, dass auch der Interpreta-
tion-Spielraum, der Interviewern durch die Frageformulierung bestimmter Items
eingeräumt wird, zu Interviewer-bezogenen Korrelationen zwischen Messungen
führen kann.
Selbstvertrauen, Überzeugungsfähigkeit und Erfahrung:
Neben den direkt beobachtbaren Merkmalen der Interviewer können auch nicht
direkt beobachtbare Merkmale der Interviewer eine Rolle spielen. So untersuchten
De Leeuw, Hox und De Heer (1998; vgl. auch Hox, De Leeuw und Snijkers, 1998)
den Einfluss von Meinungen und Einstellungen sowie von Interviewerstrategien
auf das Antwortverhalten in Interviewer-administrierten computerunterstützten
Interviews. Sie konnten zeigen, dass die Einstellungen der Interviewer zu ihrer ei-
genen Rolle einen Effekt auf die Antwortraten haben können. Interviewer, die ge-
neigter waren, den Befragten von der Teilnahme zu überzeugen, erzielten höhere
Antwortraten. Die Ergebnisse von Groves und Fultz (1985), Groves und Couper
(1998) sowie Hansen (2007) erhärten die Annahme, dass neben der Erfahrung das
Selbstvertrauen in die eigenen Fähigkeiten, d.h. die Einstellung des Interviewers
zu seiner eigenen Tätigkeit, die Kooperationsbereitschaft der Befragten erhöhen.
Dieser Effekt wird eindrucksvoll durch die Studie von Durrant et al. (2010) bestä-
tigt, die ebenfalls einen Effekt des Selbstvertrauens und einer positiven Einstellung
zur eigenen Überzeugungsfähigkeit fanden. Die Ergebnisse von Hansen ergeben
Hinweise dafür, dass männliche Interviewer in Telefoninterviews höhere Respon-
se-Raten erzielen als weibliche Interviewer. Ebenso spielt die Erfahrung eine we-
sentliche Rolle, ein Sachverhalt, der auch durch den Befund erhärtet wird, dass neu
554 VII.8 Maßnahmen zur Erhöhung der Responserate

rekrutierte Interviewer die höchsten Verweigerungsraten aufweisen (vgl. Groves &


Fultz, 1985; Blohm, De Leeuw & Hox, 2011).
Ähnlichkeit zwischen Interviewern und Respondenten:
Einige empirische Befunde scheinen zu belegen, dass die Ähnlichkeit zwischen
Merkmalen der Interviewer und der Respondenten eine signifikante Determinante
des Rekrutierungserfolgs sein kann. So fanden Durrant et al. wie auch schon Moor-
man et al. (1999), dass sich die Ähnlichkeit zwischen Merkmalen von Interviewern
und Befragten (z.B. in Bezug auf „Bildung“) positiv auf die Teilnahmebereitschaft
auswirkt. Der oben erwähnte Einfluss der Erfahrung reduzierte sich nach den Er-
gebnissen dieser Studie allerdings nach neun Jahren, wenn die Variable „Bezah-
lung“ kontrolliert wird. Es ergaben sich auch keine Unterschiede zwischen Inter-
viewern bei der Überzeugung „schwieriger“ Fälle.
Blohm, Hox und Koch (2006) fanden in ihrer Analyse der Daten der Allge-
meinen Bevölkerungsumfrage Sozialwissenschaften 2000 auf der Grundlage von
Selbstauskünften der Interviewer über ihr Kontaktverhalten, dass Interviewer, die
den Haushalt ohne vorherige Ankündigung kontaktierten, eine höhere Kooperati-
onsrate hatten. Interessant war, dass Interviewer, die ihre Interviewer-Tätigkeit ne-
ben ihrem Beruf ausübten, weniger Erfolg hatten, die Befragten zu einer Kooperati-
on zu überreden. Der Mode des Erstkontakts, telefonisch oder Face-to-Face durch
Aufsuchen, hatte keinen Effekt auf die Kooperationsrate. Allerdings sollte man die
telefonische Kontaktaufnahme dem einzelnen Interviewer nur dann überlassen,
wenn es wirklich erforderlich ist wie z.B. bei physikalischen Hinternissen, riskante
Nachbarschaft oder ungewöhnlichen Zeitfenstern.
Eröffnungsgespräch:
Das Eröffnungsgespräch des Interviewers bzw. die Gestaltung der Einleitung durch
den Interviewer ist von entscheidender Bedeutung für die positive oder negative
Entscheidung, an der Umfrage teilzunehmen. Verschiedene Experimente scheinen
die Hypothese zu bestätigen, dass die von Schober und Conrad vorgeschlagene
Liberalisierung der standardisierten Interview-Technik in Richtung auf ein kolla-
boratives Verhalten (vgl. Schober & Conrad, 1998, 2002, 2008) auch für die er-
folgreiche Gestaltung der Einleitung gelten sollte (vgl. Houtkoop-Steenstra & Van
den Bergh, 2000; Conrad et al., 2013). Conrad et al. (2013) fanden auf der Basis
der Auswertung von 1.380 über Recorder aufgenommen Einladungen empirische
Hinweise dafür, dass die Zustimmung zum Interview am höchsten ist, wenn der
Interviewer gemäßigt flüssig spricht, weder roboterhaft noch so wenig flüssig, dass
er inkompetent erscheint. Weitere Ergebnisse dieser umfangreichen Studie deuten
darauf hin, dass in erfolglosen Kontaktaufnahmen sehr viel gleichzeitig gesprochen
wird, mit zahlreichen Unterbrechungen durch die Interviewer. Außerdem deuteten
VII.8 Maßnahmen zur Erhöhung der Responserate 555

vermehrte Rückmeldungen durch die Befragten eher auf einen Erfolg des Kontakts.
Schaeffer et al. (2013) schlagen vor, dass die Interaktion in der Kontaktphase so ge-
staltet wird, dass eine ermutigende Umgebung entsteht. Dazu untersuchten sie die
Handlungen der Interviewer in Bezug auf Gesprächsmerkmale, die zur Schaffung
einer solchen Umgebung beitragen können. Dabei wurde auch die in der Bundes-
republik gängige Praxis bestätigt, dass Interviewer sich persönlich vorstellen. Auch
die Last, die Bitte um Teilnahme vorzutragen, sollte durch entsprechende Formu-
lierungen reduziert werden.
Blom, de Leeuw und Hox (2011) fanden in ihrer Analyse des European Social
Survey (ESS) zahlreiche Hinweise für den Einfluss von Interviewern und Nation
in der Kontaktphase auf Kontakt- und Kooperationsraten. Zu den interessanten
Befunden gehört die Erkenntnis, dass Gegensprechanlagen bei Face-to-Face-Um-
fragen eher einen Effekt auf die Kooperationsrate als auf die Kontaktrate haben.
Die Autoren erklären dies durch die sozio-ökonomischen Merkmale der Stichpro-
benelemente, da es Gegensprechanlagen vor allem in großen Appartementhäusern
gibt. Die Gegensprechanlage ermöglicht zwar einen Kontakt, verhindert aber einen
erfolgreichen Vortrag der Einleitung. Stichprobenelemente, die vorher telefonisch
kontaktiert wurden, zeigen eine höhere Kooperationsbereitschaft. Die positive Art
und Weise, mit Verweigerungen umzugehen, war das einzige Verhalten, das mit
der Kooperationsrate korrelierte. Die entsprechenden Interviewer gaben statt die
Argumente der Verweigerung zu wiederholen, weitere relevante Informationen.
Die Autoren nennen als Beispiel, dass statt der Wiederholung „Sie denken, dass Sie
zu alt sind“ eher die Information gegeben wurde: „Die Umfrage ist speziell für alle
Leute von Interesse“.
Täuschungsverhalten:
Neben oben genannten Auswirkungen von Interviewer-Merkmalen kann es Ten-
denzen von Interviewern geben, fest vereinbarte Leistungen vorzugeben, ohne sie
tatsächlich erbracht zu haben. Dazu gehören
• Vollständige Fälschungen von Interviews;
• Teilweise Fälschungen von Interviews wie z.B. die Reduktion des Interviews
auf den soziodemographischen Teil und Selbstausfüllung des Restfragebogens;
• Unkorrekte Administration des Fragebogens wie z.B. Administration im Tele-
fon-Mode statt im Face-to-Face-Mode;
• Nicht korrekte Begehung des Sample-Points.
Diese Verhaltensweisen lassen sich auch kombinieren wie z.B. telefonische Abfrage
nur der soziodemographischen Daten. Zweck dieses Verhaltens ist in der Regel die
Minimierung von Aufwand und Belastungen bei Beibehaltung oder sogar Erhö-
hung der Honorierung. Oft bleiben diese Fälschungen unentdeckt und lassen sich
556 VII.8 Maßnahmen zur Erhöhung der Responserate

auch bei geschickten Intervewern nur schwer durch statistische Analysen aufde-
cken (vgl. Reuband, 1990). Statistische Analysen deuten allerdings darauf hin, dass
sich die Fälschungen kaum auf die Schätzer auswirken (vgl. Schnell, 1991). Aller-
dings ist diese Wirkung maßgeblich vom Anteil der Fälschungen und der fälschen-
den Personen abhängig. In Zusammenhang mit Täuschungen kann der Aspekt der
Interviewer-Erfahrung auch einen negativen Beigeschmack entfalten. Sog. „erfah-
rene“ Interviewer wissen auch eher als unerfahrene wie man eine professionelle
Fälschung herstellt.
Ein häufiges Fehlverhalten betrifft die Einhaltung der Begehungsvorschriften
eines Sample-Points. Ein solches Fehlverhalten lässt sich positiv beeinflussen, wenn
die Adressen an das Institut zurückgemeldet werden. Besonders problematisch
wird es, wenn Interviewer scheinbar Begehungsvorschriften einhalten, tatsächlich
aber Adressen kontaktieren, von denen sie annehmen können, dass Kontakt und
Teilnahme gesichert sind.
Interviewer-Wechsel während der Feldphase:
Häufigere Ausstiege aus der Interviewer-Tätigkeit während der Feldphase können
Neurekrutierungen von Interviewern und damit den Einsatz eher unerfahrener,
neu zu schulender Interviewer notwendig machen (vgl. Groves und Fultz, oben),
was wiederum zu erhöhten Verweigerungsraten führen kann.

VII.8.5.2 Organisations- und trainingsbezogene Maßnahmen


zur Optimierung der Interviewer-Performanz

Die Interviewer-Einflüsse auf verschiedene Bestandteile der Response-Rate legen


in einigen, wenn auch nicht allen Fällen, Maßnahmen zur Verbesserung der In-
terviewer-Leistungen nahe. Allerdings ist die Durchführung solcher Maßnahmen
sowohl von der Kommunikationsform als auch vom Finanzrahmen abhängig, der
für die die Durchführung der Erhebung zur Verfügung steht. Auch in diesem Fall
erfordert die Qualitätssicherung entsprechende finanzielle Mittel. Außerdem sind
nicht alle auf dem Gebiet der Umfragen tätige Institute gleichermaßen organisato-
risch für diese Maßnahmen gerüstet. Auch wenn, die Umsetzung von Maßnahmen
zur Verbesserung der Interviewer-Leistungen aus verschiedenen Gründen wie etwa
den nicht immer vorhersehbaren, störenden Ereignissen der Feldarbeit, gelegent-
lich schwierig ist, sollte man sich doch vergenwärtigen, wie ein Optimum aussehen
könnte, auch wenn ziemlich sicher ist, dass man es nicht erreichen wird.
Die zur Verbesserung der Interviewer-Performanz einsetzbaren Maßnahmen
lassen sich den folgenden Kategorien zuordnen:
VII.8 Maßnahmen zur Erhöhung der Responserate 557

• Optimierung der Interviewer-Einsatzplanung;


• Kontrolle der Interviewer-Tätigkeit während und nach der Feldarbeit;
• Kontinuierliche Supervision der Interviewer-Leistungen über einen längeren
Zeitraum;
• Anpassung der Honorierung;
• Gestaltung des Interviewer-Trainings.

A. Auswahl und Einsatzplanung


Die Interviewer-Einsatzplanung sollte auf Grund der im vorangegangenen Ab-
schnitt berichteten Untersuchungsergebnissse folgende Aspekte berücksichtigen:
• Zum Einsatz kommen sollten nach Möglichkeit erfahrene Interviewer, wobei
allerdings Erfahrung auch bedeuten kann, dass die Interviewer gelernt haben,
wie man seine Arbeitsbelastung reduziert und seine Honorierung optimiert.
Von daher ist eine intensive Kontrolle der Interviewer während der Feldarbeit
notwendig.
• Optimale Anpassung des Einsatzes mit den Zeitfenstern, die den Interviewern,
insbesondere, wenn sie einem anderen Hauptberuf nachgehen, realistisch zur
Verfügung stehen. Da sich dies im Verlauf der Feldarbeit ändern kann, kann
diese Anpassung nur dynamisch, d.h. in kontinuierlicher Kommunikation mit
den Interviewern geschehen.
• Die Kommunikation zwischen Feldleitung und Interviewern zur Kommuni-
kation von Problemen im Feld sollte rasch und reibungslos passieren, was auf
Grund der inzwischen üblichen elektronischen Möglichkeiten kein Problem
darstellen dürfte. Bei Telefonumfragen nutzen die Interviewer ist diese Mög-
lichkeit im Normalfall ohnedies gegeben. Im Fall von Face-to-Face-Umfragen
ist ein Interviewer- ebenso wie eine Respondenten-Hotline eine zusätzliche
Option.
• Wie wir oben gesehen haben, spielt für die Leistung der Interviewer die Erfah-
rung eine große Rolle. Daher empfiehlt sich der Einsatz erfahrener Interviewer,
wobei sich die Erfahrung an den Merkmalen der Zielgruppe orientieren soll-
te. Die Beurteilung der Erfahrung sollte sich allerdings nicht einfach an der
Beschäftigungsdauer orientieren, sondern sollte neben der Anzahl der Erhe-
bungen auch die Anzahl der Kontaktversuche in den einzelnen Studien ein-
beziehen. In der Feldphase lassen sich Neurekrutierungen und der Austausch
von Interviewern, die während der Feldphase aus unterschiedlichen Gründen
nicht mehr zur Verfügung stehen, oft nicht vermeiden. Da die Feldzeit in der
Regel vorgegeben ist, müssen Formen der Nachschulung entwickelt werden,
die zeitlichen Vorgaben nicht nachhaltig stören und dennoch den Qualitäts-
558 VII.8 Maßnahmen zur Erhöhung der Responserate

anforderungen genügt. Wo praktisch durchführbar, sollten die beobachtbaren


und nicht beobachtbaren Merkmale zwischen Respondenten und Interviewern
angeglichen werden. Wie in Abschnitt VII.8.2 dargestellt, gibt es eine Reihe
empirischer Studien, die zeigen, dass sich die Ähnlichkeit zwischen Intervie-
wer-Merkmalen und Merkmalen der Respondenten positiv auf die Kooperati-
onsrate auswirkt.
• Es sollte nach Möglichkeit darauf geachtet werden, dass Interviewer von ihrer
Aufgabe überzeugt sind und eine positive Meinung von ihrer Arbeit haben.
Die Vermittlung dieser Eigenschaften kann z.T. durch die Schulung geleistet
werden. Sie ist aber auch eine Aufgaben der themen-bezogenen Schulung (auch:
Interviewer-Briefing), in der u.a. die Wichtigkeit des Umfragethemas heraus-
gestellt werden sollten. Da der Auftraggeber am besten über die Ziele der Um-
frage informiert ist, sollte er zur Schulung eingeladen werden, um das Projekt/
Thema vorzustellen.

B. Indikatoren der Leistungsbewertung (Performanz-Indikatoren)


Auswahl und Einsatz von Interviewern nach ihrer Leistungsqualität setzt den Ein-
satz geeigneter Leistungsindikatoren voraus. Um grundsätzliche Leistungsdefizite
von Interviewern erkennen zu können empfiehlt es sich, Leistungsindikatoren wie
Response,- Kontakt,- und Kooperationsraten der Interviewer über mehrere Studi-
en mit unterschiedlichen Rekrutierungsanforderungen festzuhalten. Von Intervie-
wern mit dauerhaften Defiziten sollte man sich trennen, wobei ein bestimmter Cut-
Off-Point gesetzt werden kann. Ein System zur Bewertung der Interviewer-Qualität
ist sehr schwierig zu realisieren. Dies liegt nicht zuletzt daran, dass es Studien mit
einem komplizierten Screening gibt, bei denen sehr viele Kontaktversuche not-
wendig sind, um einen erfolgreichen Kontakt mit der Zielperson herzustellen. Die
Zahl der notwendigen Kontaktversuche ist also Populations-abhängig. Auch kann
es Teile der Feldphase geben, in denen es immer schwieriger wird, einen Kontakt
herzustellen, etwa dann, wenn in einer telefonischen Erhebung die Kontakte der
leicht Erreichbaren bereits realisiert sind und nur noch die schwerer erreichbaren
Nummern zur Verfügung stehen oder in einer Face-to-Face-Umfrage nur noch die
schwer erreichbaren Adressen.
Grundsätzlich ergeben sich für die Bewertung der Leistungsqualität von Inter-
viewern zwei Gesichtspunkte:
• Die Fähigkeit, eine Kooperation herzustellen (Überzeugungsfähigkeit);
• Die Qualität des Interviews.
VII.8 Maßnahmen zur Erhöhung der Responserate 559

Die meisten vorgeschlagenen formalen Indizes beruhen auf der Fähigkeit


zur Herstellung einer Kooperation. Zur Beurteilung der Qualität eines Inter-
views gibt es ebenfalls statistische Bewertungsmöglichkeiten wie z.B. Anteil der
Don’t-Know-Antworten, Anteil der fehlenden Werte, Anteil von Interviews mit
Antwortstrategien, Auslassen von Fragen/Items, etc.
Zur Bewertung der Fähigkeit zur Herstellung einer Kooperation wurden zahl-
reiche Indizes vorgeschlagen. So schlägt Durand (2005) für Telefonumfragen den
Index NCPI (Net Contribution to Performance) vor. In die Berechnung des Index
bezogen auf eine Sitzung gehen folgende Größen ein:
• Anzahl der vollständigen Interviews beim Erstkontakt (A);
• Anzahl der Interviews nach Verabredung (B);
• Anzahl der Verweigerungen (C);
• Anzahl der vollständigen Interviews nach Verweigerungen (D).
Auf Basis dieser Informationen wird zunächst der folgende Rohindex berechnet:
(A + B) − C + 2D
Durch Division durch die Maximalzahl vollständiger Interviews (= Dauer der Sit-
zung geteilt durch Interviewlänge) erhält man den NCIP. Dieser Index vernachläs-
sigt die Pausen zwischen den Kontaktversuchen und basiert auf einer eher industri-
ell orientierten Arbeitsweise der Interviewer. Er unterscheidet auch nicht zwischen
„leichten“ und „schweren“ Fällen.
Für die Bewertung der Interviewer-Leistungen haben West und Groves (2013,
p. 355) einen Vorschlag unterbreitet, der die oben genannten Schwierigkeiten be-
rücksichtigt und Paradaten einbezieht. Die Berechnung erfolgt für einen bestimm-
ten Interviewer in folgenden Schritten:
a) Berechne für jeden Fall j die Wahrscheinlichkeit, dass der nächste Kontakt
erfolgreich sein wird. Diese Wahrscheinlichkeit pjc (Wahrscheinlichkeit eines
erfolgreichen Kontakts für Fall j beim Kontakt c) wird im Paradaten-Record
für diesen Fall festgehalten. Die Wahrscheinlichkeit lässt sich auf Basis aller
gesammelten Kontaktdaten einer Kontaktdatenbank schätzen, in dem für jede
Anzahl von Kontaktversuchen die Propensity berechnet wird, dass der nächste
Versuche erfolgreich sein wird. Die Berechnung der Propensity erfolgt unter
Einbeziehung von möglichst vielen Paradaten wie z.B. Informationen über
das Erhebungsgebiet, Sicherheitsbedenken der Interviewer, Art der Bebauung,
physikalische Hindernisse, Zahl der Anrufe, Anzeichen für das Vorhandensein
von Kindern, Interviewererfahrung, etc.).
b) Einem Interviewer, der Fall j auf der Grundlage des Ergebnisses des Kontakts
Ojc beim nächsten Anruf kontaktiert, wird ein Abweichungsscore (engl.: devia-
tion score)
djc = Ojc − pjc
560 VII.8 Maßnahmen zur Erhöhung der Responserate

zugeordnet, wobei Ojc = 1 für ein vollständiges Interview steht und Ojc = 0 sonst.
Ist die Wahrscheinlichkeit eines erfolgreichen Kontakts hoch ist der Abwei-
chungsscore niedrig. Ist die Wahrscheinlichkeit gering, ist er hoch. Durch diese
Form der Bewertung werden erfolgreiche schwierige Kontakte „belohnt“,
c) Der Interviewer bearbeitet insgesamt n Fälle während der Erhebungsphase, wo-
bei er insgesamt Cj Kontakte mit jedem Fall realisiert. Als Performanz-Indika-
tor kann dann der Propensity-angepasste Interviewer Performanz-Score (engl.:
propensity adjusted interviewer performance-score) PAIP berechnet werden. Er
besteht im Durchschnitt der Abweichungswerte über alle Kontakte aller vom
Interviewer bearbeiteten Fälle:

∑ ∑ d
n Cj
jc
j =1 c =1
d= .
∑ C
n
j
j =1

Der Score PAIP basiert nur auf den erfolgreichen Kontakten. Eine nur auf erfolgrei-
chen Kontakten beruhende Bewertung sollte ergänzt werden durch eine Bewertung
der Qualität der Interviews. Eine hohe Kooperationsrate mit schnell und schlampig
durchgeführten Interviews führt zu einer schlechten Datenqualität der Stichprobe,
die auch die Schätzer beeinflussen kann.
Die Berechnung von Indizes basiert auf mehr oder weniger umfangreichen
Kontaktinformationen, die die verfügbaren Paradaten einbezieht.

C. Kontrolle der Interviewer-Tätigkeit


Durch die Kontrolle der Interviewer-Tätigkeit während der Feldphase lassen sich
Defizite von Interviewern in Bezug auf Kontakt- und Kooperationsrate in einer
laufenden Erhebung identifizieren. Auskunft darüber geben bei Face-to-Face-Um-
fragen in der Regel elektronische Kontaktprotokolle, die kurzfristig abgerufen wer-
den können, bei Telefonumfragen lassen sich ebenfalls kontinuierlich verschieden
Dimensionen der Performanz wie Produktivität, Response- und Kooperationsrate
aus den Dispositionscodes abrufen bzw. berechnen. Außerdem sollte die Qualität
der Interviews, auch unter Einsatz statistischer Analysen der Datenätze in regel-
mäßigen Abständen kontrolliert werden. Es empfiehlt sich bei Telefoninterviews
dringend, sich nicht nur auf das Hineinhören und auf ausgewählte Aufzeichnungen
von Teilen des Interviews zu verlassen. Es sollte immer mindestens ein Supervisor
kontinuierlich mit der Beobachtung der Interviewer-Tätigkeit befasst sein.
Ggf. erscheint es sinnvoll, Interviewer auszutauschen, wobei sich ein Austausch
schon nach dem ersten Fehlkontakt anbieten kann. Es sollte nach Möglichkeit eine
zumindest stichprobenartige, besser aber 100%ige Kontrolle der Interviews schon
VII.8 Maßnahmen zur Erhöhung der Responserate 561

in der Erhebungsphase der Interviews durch Kontaktaufnahme mit den mutmaß-


lichen Respondenten erfolgen, um ein Fehlverhalten der Interviewer schon in der
Feldphase aufdecken zu können. Von unzuverlässigen Interviewern sollte man sich
nach mehrfachen Ermahnungen verabschieden.
Durch Gespräche und Nachschulungen von Interviewern lassen sich Nachläs-
sigkeiten korrigieren. Es kann aber auch durchaus vorkommen, dass Personen für
die Durchführung vollkommen ungeeignet sind. Von diesen sollte man sich eben-
falls trennen.
Honorierung von Interviewern:
Das System der Honorierung von Interviewern kann unterschiedlich konzipiert
und von Institut zu Institut variieren. Wichtig ist allerdings, dass die Honorierung
den Schwierigkeiten im Feld ggf. noch im Verlauf der Feldarbeit angepasst wird.
Bei Telefonumfragen wird es oft im Verlauf der Feldarbeit immer schwieriger,
bestimmte Teilstichproben zu erreichen. Daher besteht ein nicht unübliches Vor-
gehen darin, die Honorierung der Interviewer für schwierige Kontaktphasen zu
erhöhen. Auch bei ungünstigen Interviewzeiten, z.B. bei telefonischen Interviews
in den USA, die von Deutschland aus in der Nacht geführt werden, empfiehlt sich
eine Anpassung der Honorierung. Bei der zunehmenden Festanstellung von Inter-
viewern sind diesen Maßnahmen allerdings relativ enge Grenzen gesetzt.

D. Interviewer-Training
Das Interviewer-Training wurde bereits in Teil I als nowendiger Bestandteil der
Organisation Interviewer-administrierter Befragungen eingehend beschrieben. Es
wurde als elementarer Bestandteil von Interviewer-administrierten Umfragen be-
reits in Teil II angeprochen.

VII.8.6 Wahl der Kommunikationsform

Eine weitere Möglichkeit zur Verringerung der Nonresponse und zur Reduktion
des Bias ist eine geeignete Wahl der Kommunikationsform. Kommunikationsfor-
men unterscheiden sich durchaus im Ausmaß an Nonresponse und in ihren selek-
tiven Auswirkungen. Die Kunst besteht darin, die Kommunikationsform auf die
Zielpopulation maßzuschneidern und ggf. im Rahmen eines Mixed-Mode-Designs
zusammen mit anderen Kommunikationsformen so einzusetzen, dass die Respon-
562 VII.8 Maßnahmen zur Erhöhung der Responserate

se-Rate und möglichst auch der Nonresponse-Bias reduziert werden. Dies kann
auch im Rahmen eines responsiven Designs (vgl. Teil I) erfolgen.
Wie bereits in Teil II thematisiert, ist eine Kommunikationsform durch ein gan-
zes Bündel von Merkmalen gekennzeichnet, so dass bei einem Vergleich besonders
auf Konfundierungen zu achten ist. Löst man die Kommunikationsformen in ihre
Dimensionen „Kommunikationskanal“, „Administrationsform“ und „Befragungs-
technologie“ auf und betrachtet man die Konsequenzen für die Selektion von Be-
fragten, so ist sofort klar, dass ein globaler Vergleich, ohne dass die einzelnen, mit
den Kommunikationsformen verbundenen Merkmale isoliert werden, keine präzi-
sen Erkenntnisse über die Ursachen von Unterschieden erlaubt. Jede Kommunika-
tionsform unterliegt in ihrer Anwendung besonderen Voraussetzungen. Selbstad-
ministrierte Befragungen setzen die Schreib- und Lesefähigkeit in der gewählten
Interviewsprache voraus und können daher zu ethnischer und bildungsbezoge-
ner Selektion führen. Computerunterstützte Verfahren setzen nicht nur die Aus-
stattung voraus, sondern die Fähigkeit zur Nutzung, der Kommunikationskanals
entscheidet, über welche Sinnesorgane sprachliche Äußerungen wahrgenommen
werden und knüpft die Wahrnehmbarkeit sprachlicher Äußerungen an den physio-
logischen Zustand der Sinnesorgane des Befragten wie Hörfähigkeit, Sehfähigkeit,
etc. Die Anwesenheit eines Interviewers oder ein bestimmtes Verhalten des Inter-
viewers kann darüber mit entscheiden, ob die Befragten sich zu einer sensiblen
Frage äußern wollen.
Bei der Wahl der Technologie muss berücksichtigt werden, dass jüngere Perso-
nen oft eine höhere Affinität zu neuen Technologien haben als ältere Personen, ge-
bildetere eher als weniger gebildete. Befunde in dieser Richtung sind zumindest zu
erwarten. So fanden Deutschmann und Faulbaum (2001) signifikante Geschlechts-,
Alters,- und Bildungsunterschiede in Bezug auf die Teilnahme an Webumfragen.
Zu ähnlichen Ergebnissen in Bezug auf das Alter kommt auch Börkan (2010). Teil-
nehmer an Webumfragen waren signifikant jünger als solche, die an Mailumfragen
teilnehmen. Saunders (2012) liefert aber ein gutes Beispiel dafür, dass immer auch
bedacht werden muss, welche Population der Stichprobe zugrunde liegt. Er konnte
in einer Studie bei einer Stichprobe von IT-Mitarbeitern zeigen, dass IT-Mitarbei-
ter das Webinterview dem Mailinterview vorzogen, auch wenn dieser Unterschied
nicht besonders groß war und die Webteilnahme durch zahlreiche Fehler getrübt
war.
Besondere Aufmerksamkeit sollte dem Nutzungsverhalten und der Nutzungs-
kompetenz gewidmet werden. Ein Vergleich zwischen der Teilnahme an postali-
schen Umfragen und an Face-to-Face-Umfragen legt nahe, dass Befragte mit nied-
rigerem Bildungsniveau in postalischen Umfragen im Vergleich zu Face-to-Face
Interviews unterrepräsentiert sind (vgl. Dillman 1978). Es ist nicht auszuschließen,
VII.8 Maßnahmen zur Erhöhung der Responserate 563

dass dieser Effekt zumindest teilweise auf mangelnde Lese- und Schreibkompe-
tenzen bei weniger Gebildeten zurückgeht. Bei postalischen Umfragen haben die
Befragten ferner die Möglichkeit, noch vor der Teilnahmeentscheidung den Frage-
bogen einzusehen. Dagegen fällen die Befragten bei Interviewer-administrierten
Face-to-Face-Interviews sowie bei Telefoninterviews ihre Entscheidung auf der
Basis der Einleitung. Daher besteht bei postalischen Umfragen grundsätzlich ein
erhöhtes Risiko der themenbezogenen Selbstselektion. Selbstselektionsprobleme
gibt es auch bei hohen Ausschöpfungsquoten.
Hox und De Leeuw (1994) führten eine Metaanalyse von 45 Studien zum The-
ma „Nonresponse“ bei postalischen, persönlich/mündlichen Face-to-Face-Inter-
views und Telefoninterviews durch. Dabei ergab sich im Durchschnitt, dass In-
terviewer-administrierte Face-to-Face-Interviews die höchste Quote vollständiger
Interviews hatten, Telefoninterviews die zweithöchste Ausschöpfungsquote und
postalische Umfragen die geringste Ausschöpfung (61% der Studien).
De Leeuw (1992) untersuchte im Rahmen einer Metaanalyse die bis 1992 vor-
gelegten experimentellen Studien. Dabei stellte sich heraus, dass der Nonrespon-
se-Anteil, sowohl was die Nonresponse insgesamt, als auch die Item-Nonresponse
angeht, bei postalischen Umfragen am höchsten ist. Werden die Fragen beantwor-
tet, so scheinen die Daten allerdings eine bessere Qualität zu haben.
Börkan (2012) fand einen Unterschied in der Antwortrate zwischen Mailum-
fragen und Webumfragen. Die Antwortrate in Webumfragen war signifikant nied-
riger als in Mailumfragen. Shih und Fan (2006) kamen in einer Metaanalyse von
Mixed-Mode-Umfragen zu ähnlichen Ergebnissen.
Verschiedene frühe Studien beschäftigen sich mit der Akzeptanz bestimmter
Technologien (vgl. die Übersicht von Nicholls II, Baker & Martin, 1997). Dabei
ergab sich, dass Befragte ein CATI-Interview einem P&P-Interview vorzogen oder
sich zumindest indifferent verhielten (Groves & Nicholls 1986; Wojcik & Baker
1992). Verglichen mit P&P-Kontrollgruppen ergaben sich keine Unterschiede zwi-
schen Verweigerungsraten bei CATI und CAPI (vgl. Catlin & Ingram 1988; Baker
et al. 1995; Bergmann et al. 1994).
Duffy und Waterton (1984) fanden bei Haushaltsbefragungen höhere Verwei-
gerungsraten bei CASI als bei P&P. O’Reilly et al. (1994) sowie Mitchell (1993)
fanden in Laboratoriumssituationen und bei Untersuchungen im Klassenräumen,
dass Befragte CASI Befragungen P&P-Befragungen vorziehen. Wird in der Mitte
eines Interviews von CAPI zu CASI übergegangen, so scheint dies, wie Lessler und
O’Reilly (1994) bei Frauen im gebärfähigem Alter herausfanden, keine oder nur
geringe Probleme zu geben. Couper & Rowes (1995) fanden, dass in CASI-Inter-
views mit älteren Befragten die Fragebögen für den Zusatzteil in der Regel von den
Interviewern ausgefüllt werden.
564 VII.8 Maßnahmen zur Erhöhung der Responserate

Kiesler & Sproull (1986) berichten über niedrigere Antwortraten bei CSAQ als
bei P&P. Auf der anderen Seite zeigen Erfahrungen, dass der Wechsel von P&P auf
CSAQ Unternehmen keinen Einfluss auf die Antwortraten hat, wenn vorher dieje-
nigen identifiziert wurden, die über die notwendige Ausstattung verfügen.
Bei Webumfragen ist die Teilnahmebereitschaft insgesamt gering, sogar gerin-
ger als bei postalischen Umfragen (vgl. Dykema et al., 2013; Shin, Johnson & Rao,
2012. Kaplowitz, Hadlock & Levine (2004) konnten aber zeigen, dass sich die Rück-
laufquote bei Webumfragen der Rücklaufquote postalischer Umfragen angleicht,
wenn ein schriftliches Ankündigungsschreiben verschickt wurde.
Eine besondere Herausforderung stellen Mobilfunk-Umfragen dar. Wie Brick
et al. (2007) zeigen konnten, liegen hier die Responserate, aber auch die Verweige-
rungsrate höher als bei Festnetzumfragen.

VII.8.7 Rekrutierungsaufwand, Nonresponse und Daten-


qualität

Ein vollständiges Interview lässt sich nur nach einem Rekrutierungserfolg, d.h.
nach der Gewinnung eines teilnahmebereiten Respondenten, realisieren. Der Weg
dorthin ist immer mit einem mehr oder weniger großen Aufwand, im Folgenden
als Rekrutierungsaufwand bezeichnet, verbunden. Der Rekrutierungsaufwand be-
steht aus:
Aufwand für einen erfolgreichen Kontaktversuch:
Um den durch das Stichprobendesign vorgegebenen Umfang einer Nettostichpro-
be aus einer Ausgangsstichprobe realisieren zu können, muss der Anteil der Ziel-
population in der Gesamtpopulation abgeschätzt werden. Je geringer der Anteil,
desto mehr Kontaktversuche müssen durchgeführt werden, um einen erfolgreichen
Kontakt herzustellen, der wiederum die Voraussetzung für einen Erfolg der Bitte
um Teilnahme ist. Unterschieden müssen hierbei
• die Anzahl der Kontaktversuche bis zur Gewinnung eines Haushalts mit einer
auswählbaren (eligible) Zielperson;
• die Anzahl der Kontaktversuche bis zu einem erfolgreichen Kontakt mit der
Zielperson.
Die Faktoren, welche die Kontaktierbarkeit beeinflussen, wurden bereits beschrie-
ben. Insofern diese Faktoren wie optimale Kontaktzeiten, Berücksichtigung sai-
sonaler Bedingungen (z.B. Ferienzeiten) für die Zielpopulatio bekannt sind und
VII.8 Maßnahmen zur Erhöhung der Responserate 565

kontrolliert werden können, lässt sich die Anzahl der Kontaktversuche optimieren.
Entscheidend ist hier die Kontaktstrategie (vgl. Lynn, 2002), die sich im Verlauf der
Kontaktperiode anpassen kann, z.B. durch einen Modewechsel. Die obige Unter-
scheidung zwischen der Kontaktierbarkeit des Haushalts und der Kontaktierbarkeit
der Zielperson impliziert eine entsprechende Unterscheidung der Erreichbarkeit.
Ein Haushalt kann leicht erreichbar sein, die Zielperson aber nicht so leicht und
umgekehrt. Die Gesamtzahl der notwendigen Kontaktversuche betrifft also beide
Arten der Erreichbarkeit, die Erreichbarkeit des Haushalts und die Erreichbarkeit
der Zielperson. Sind die Zielpersonen in der Gesamtpopulation mit einem hohen
Anteil vertreten und kann man davon ausgehen, dass diese Personen in den vorge-
sehenen Kontaktzeiten oft im Haushalt anzutreffen, so liegt der Gedanke nahe, die
Zielperson gar nicht mehr unter allen Zielpersonen des Haushalts auszuwählen,
sondern nur aus den im Haushalt zum Kontaktzeitpunkt anwesenden Personen.
In diesem Fall ist davon auszugehen, dass die Kontaktierbarkeit und damit die Re-
alisierbarkeit eines Interviews durch den Kontaktzeitpunkt mitbestimmt werden.
Da mit dem Kontaktzeitpunkt Eigenschaften der Respondenten verbunden sind,
ist durchaus unklar, wie sich dieses Vorgehen auf den Messfehler bei unterschiedli-
chen Zielpopulationen auswirkt. Auch kann in diesem Fall eine Haushaltsgewich-
tung nicht mehr durchgeführt werden, da für die Auswahl einer Person nicht mehr
nur die Anzahl der Personen im Haushalt, sondern auch die Wahrscheinlichkeit
der Anwesenheit zum Kontaktzeitpunkt eine Rolle spielt.
Screening-Aufwand:
Der Screening-Aufwand besteht im Zeitaufwand für die Durchführung
des Screenings. Dieser hängt ab von der Komplexität und dem Umfang des
Screening-Instruments, das wiederum durch die Merkmale bestimmt wird, deren
Erhebung zur Identifikation der auswählbaren Personen notwendig ist. Zusätzlich
wird dieser Aufwand durch eine ungünstige Konstruktion des Screening-Instru-
ments sowie dadurch bestimmt, dass das Screening-Interview oft sowohl mit der
Kontaktperson als auch mit der Zielperson durchgeführt werden muss, im zuletzt
genannten Fall eventuell mit einer gekürzten Version.
Aufwand für das Eröffnungsgespräch (Einleitung):
Der Zeitaufwand für das Eröffnungsgespräch wird maßgeblich mitbestimmt durch
• notwendige Bestandteile wie individuelle Begrüßung, Kurzbeschreibung des
Themas, Hinweis auf die Freiwilligkeit, Zusicherung der Anonymität und Bitte
um Teilnahme;
• Aufklärungsbedarf von Kontakt- und Zielperson; dies kann auch die Zusen-
dung von Unterlagen per Fax, postalisch oder per E-Mail bedeuten; auch kann
es Rückfragen beim durchführenden Institut oder inhaltlich Verantwortlichen
566 VII.8 Maßnahmen zur Erhöhung der Responserate

geben, etwa über eine Hotline, eine Kontaktadresse oder eine kontaktierbare
Telefonnummern von ausgesuchten Mitarbeitern/innen.
• Überzeugungs- und Motivationsaufwand des Interviewers bei abschlägig be-
schiedener Bitte um Teilnahme; dieser besteht vor allem in einem Vortrag ge-
eigneter Argumente, um den Respondenten dennoch von einer Teilnahme zu
überzeugen, was in einer Sequenz von Argumentation und Gegenargumenta-
tion münden kann; über den Aufwand ist mit entscheidend, wie geschickt der
Interviewer die Begründungen des Respondenten für seine Nichtteilnahme,
entkräften kann; Die Optimierung der Überzeugungsstrategien ist eine Auf-
gabe des Interviewer-Trainings und der Person des Interviewers. Zur Optimie-
rung des Interviewer—Verhaltens sollten dem Interviewer entsprechende Ar-
gumente für den Kontakt zur Verfügung stehen, z.B. durch eine entsprechende
Hilfe-Funktion auf dem Bildschirm und/oder durch schriftliche Unterlagen
am Telefonplatz bei telefonischen Kontaktaufnahmen. Zunehmend Standard
wird der Einsatz eines Nonresponder-Fragebogens, mit Hilfe dessen versucht
werden kann, weitere soziodemographische Informationen sowie Informatio-
nen zu weiteren Verweigerungsgründen zu erhalten, die zu einer Erweiterung
der Disposition Codes führen können. Die Motivierung der Respondenten zur
Teilnahme kann mehr oder weniger schwierig sein, eine Einschätzung lässt sich
durch die Interviewer vornehmen. Das Zuspielen der Variablen „Motivations-
aufwand“ zum Datensatz erlaubt später eine Analyse, welche Folgen diese Vari-
able für die Datenqualität gehabt hat.

Zusatzaufwand für die Nachkontaktierung von Verweigerern bzw. Befragungsunwil-


ligen (engl.: reluctant respondents):
Wenn es nicht gelingt, Verweigerungen schon im Eröffnungsgespräch durch den
Vortrag geeigneter Argumente zu vermeiden, kann bei eher weichen Verweigerern
(z.B. „kein Interesse“, „keine Zeit“) und bei Verweigerern, bei denen die Gründe
scheinbar nicht prinzipieller Natur sind, eine weitere Kontaktaufnahme mit einem
mehr oder weniger aufwändigen können ein Konvertierungsinterview versucht
werden, das von speziell geschulten Interviewern durchgeführt werden sollte, sog.
Verweigerer-Konvertierern (engl.: refusal converters). Bei harten Verweigerern, die
vorgeben grundsätzlich nicht an Umfragen teilnehmen zu wollen, muss berück-
sichtigt werden, dass ein Konvertierungsversuch den Hinweis auf die Freiwillig-
keit der Teilnahme untergräbt, die im Bundesdatenschutzgesetz verankert ist. Hier
besteht die Gefahr gerichtlichen Auseinandersetzungen, die bisher zugunsten der
Kläger ausgegangen sind. Aus diesem Grund werden grundsätzliche Verweige-
rer vom Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V. in eine
Sperrdatei überführt.
VII.8 Maßnahmen zur Erhöhung der Responserate 567

Das Einleitungsgespräch mit Verweigerern muss auf die besonders sensible Si-
tuation abgestimmt werden. Der eingesetzte Fragebogen sollte auch in einer ge-
kürzten Version verfügbar sein, wenn der Befragte nicht bereit ist, den längeren
Originalfragebogen zu beantworten.
Der Zusatzaufwand für die Nachkontaktierung von Befragungsunwilligen be-
steht nicht nur im zusätzlichen Zeitaufwand, sondern auch in zusätzlichen Erhe-
bungskosten, die zum großen Teil durch Interviewer-Honorare bestimmt werden,
die für Konvertierer normalerweise höher ausfallen müssen. Rein stichprobenthe-
oretisch handelt es sich bei der Verweigerer-Stichprobe um eine Substichprobe, so
dass das dazu gehörige Stichprobendesign ein Zweiphasen-Design ist (vgl. Teil VI).
Dies bedeutet, dass eine stufenweise Gewichtung durchgeführt werden kann, wobei
zunächst eine Gewichtung auf die Ausgangsstichprobe erfolgt, die dann in Bezug
auf die Auswahlgesamtheit gewichtet werden kann. Dies macht insbesondere Sinn,
wenn man während des Eröffnungsinterviews bereits bestimmte Variablen erheben
konnte, die auf der Ebene der Auswahlgesamtheit nicht vorliegen. In Frage kom-
men hier auch Paradaten wie Anzahl der Kontaktversuche oder andere während
des Screenings erhobene Zusatzinformationen.
Olson, Lepkowski und Garabrant (2011) untersuchten die Wirkung von Über-
zeugungsbriefen (engl.; persuasion letters), die, abgestimmt auf Paradaten, die in der
Kontaktphase erhoben wurden, auf die Nichtrespondenten zugeschnitten wurden.
Die Autoren berichten, dass der Inhalt dieser Briefe weniger relevant für die Teil-
nahmebereitschaft ist, dass sich die Nichtrespondenten aber je nach motivieren-
dem Inhalt in ihren Merkmalen von einander unterscheiden können.
Rekrutierungsaufwand und Datenqualität:
Bei der Entscheidung für eine Erhöhung des Aufwands für die Rekrutierung (engl.:
recruitment effort) zusätzlicher Teilnehmer und damit für eine Erhöhung der Ko-
operationsrate stellt sich die Frage, ob der eingesetzte Rekrutierungsaufwand im
rechten Verhältnis zur Verbesserung der Stichprobenqualität steht und ob die
zusätzliche Rekrutierung möglicherweise mit einer Verschlechterung der Daten-
qualität einhergeht. Schließlich ist auch zu fragen, wie sich die unterschiedlichen
Quellen von Nonresponse, Nichtkontakt und Verweigerung, zueinander verhalten.
In dem zuletzt genannten Zusammenhang führen Brick und Williams (2009) Bele-
ge dafür an, dass ein erhöhter Anteil von Nichtkontakten mit einer Erhöhung von
Verweigererungen einhergeht und beide Arten von Nonresponse auf ähnlichen
Mechanismen beruhen. In der Tat könnte z.B. eine schlechte Erreichbarkeit für die
zeitliche Belastung des Respondenten sprechen, die wiederum zu einer höheren
Wahrscheinlichkeit führt zu verweigern. Anrufbeantworter könnten nicht nur für
568 VII.8 Maßnahmen zur Erhöhung der Responserate

zeitliche Beanspruchung sprechen, sondern auch für den Wunsch, nicht durch An-
rufe gestört zu werden, etc.
Einige Befunde sprechen dafür, dass schwer erreichbare Personen oder die Um-
stimmung anfänglicher Verweigerer den Messfehler erhöhen (vgl. Cannell & Fow-
ler, 1963; Kreuter, 2008). Cannell und Fowler fanden, dass Personen, die erst nach
umfangreicher Recherche erreicht werden konnten, weniger genaue Informatio-
nen über Krankenhausaufenthalte lieferten. Die Analysen von Bollinger und David
(2001) ergaben, dass Stichprobenelemente, die später aus der Umfragen ausschie-
den, weniger genaue Informationen in den Panelwellen, in denen sie teilnahmen,
lieferten als solche, die an allen Wellen teilnahmen; d.h. Personen, die zögern, an
einer Umfrage teilzunehmen, liefern auch weniger genaue Informationen. Fricker
(2007; vgl. auch Triplett et al., 2006 über ähnliche Befunde) fand einen Zusam-
menhang zwischen der Response-propensity, dass ein Haushalt alle acht Interviews
durchführt und zwei Indikatoren der Ungenauigkeit: Item Nonresponse und Ver-
wendung gerundeter Werte bei Berichten über Gehalt und Anzahl der Arbeits-
stunden. Personen, die eine Verweigerungsumkehr erhielten, berichteten weniger
Aktivitäten als solche, die schneller kooperierten.
Fricker und Tourangeau (2010) gingen ebenfalls der Frage nach, ob zusätzli-
che Rekrutierungsanstrengungen und zusätzliche Rekrutierungskosten den Non-
response-Bias reduzieren. Die Analysen beruhten auf Propensity-Modellen mit
verschiedenen Qualitätsindikatoren wie ganzzahlige Angaben, Item-Nonrespon-
se, Klassifikationsfehler und fehlende Tagebucheinträge. Die Ergebnisse sprachen
ebenfalls dafür, dass zusätzliche Rekrutierungsanstrengungen die Datenqualität
eher reduzieren.
Auch Kaminska, McCutcheon und Billiet (2010) untersuchten an Hand der Da-
ten des European Social Surveys (ESS) den Zusammenhang zwischen Datenqualität
und Widerwilligkeit. Indikatoren für Widerwilligkeit waren „Verweigerung“ (der
Befragte hatte mindestens 1 x verweigert), Anstrengung (wie stark die Befragten
ihr Bestes gaben) und Widerstand (resistance) (wie zögerlich die Befragten nach
Einschätzung der Interviewer antworteten). Als Indikatoren für Satisficing nahmen
sie „weiß-nicht-Antworten“, „Straightlining“ (gleiche Antworten in wenigstens ei-
nem Item-Block), „inkonsistente Antwort“ und „Wahl extremer Kategoren“ oder
„Wahl der Mittelkategorie“. Die Autoren fanden, dass der Zusammenhang zwischen
Widerwilligkeit und Satisficing schwindet, wenn nach den kognitiven Fähigkeiten
kontrolliert wird.
Tourangeau, Groves und Redline (2010) untersuchten den Zusammenhang zwi-
schen Teilnahmebereitschaft und Messfehler. Die Analyse der Autoren basiert auf
dem Modell der gemeinsamen Ursache für Teilnahmewahrscheinlichkeit und Da-
tenqualität: Wenn der Fragebogen Fragen enthält, die sozial unerwünscht sind und
VII.8 Maßnahmen zur Erhöhung der Responserate 569

den Befragten in Verlegenheit bringen, dann sind Befragte, die eher widerwillig
sind, an der Befragung teilzunehmen, auch ungenauer in ihren Antworten. Nicht-
wähler neigen zu fehlerhaften Angaben, Raucher neigen zu fehlerhaften Angaben,
etc. Die Analysen betätigten für die Wahlitems eine Korrelation zwischen den Teil-
nahmewahrscheinlichkeiten und den Zielvariablen. Nichtwähler nahmen seltener
an der Umfrage teil und wiesen eine höhere Anzahl fehlerhafter Angaben auf. Zu
ähnlichen Ergebnissen kommen auch Peytchev, Peytcheva und Groves (2010). Die
Autoren fanden empirische Hinweise bei einer Umfrage zum Thema „Abtreibung“,
dass Befragte, die weniger Abtreibungen berichten auch eine geringere Teilnahme-
wahrscheinlichkeit aufwiesen. Die gemeinsame Ursache lag in diesem Fall in der
sozialen Stigmatisierung. Eine Beseitigung der Interviewer-Befragten-Interaktion
führte zu einer erhöhten Auskunftsbereitschaft.
In einer differenzierteren Analyse, in der ein Vergleich mit administrativen Da-
ten möglich war, konnten Kreuter, Müller und Trappmann (2010) den Bias, den
mittleren quadratischen Fehler und die Varianz des Schätzers berechnen. Dabei
fanden die Autoren, dass es bei einer erhöhten Anzahl von Kontakten zu einer si-
gnifikanten Reduktion des Nonresponse-Bias kommt. Eine verstärkte Bearbeitung
der Stichprobe führte zu einer leichten Erhöhung des Messfehlers. Die Autoren fan-
den aber auch gegenläufige Effekte von Messfehler und Nonresponse. Ein erhöh-
ter Rekrutierungsaufwand führte zu einer Erhöhung des Mean Square Errors trotz
der Reduktion des Nonresponse-Bias. Mit zunehmendem Aufwand sinkt der MSE,
weil der Nonresponse-Error sinkt und der Messfehler nur gering ansteigt.
Olson (2013) kommt nach einer Sichtung der relevanten Literatur zum Zusam-
menhang zwischen Rekrutierungsaufwand durch wiederholte Kontaktversuche
und der Datenqualität u.a. zu folgenden Ergebnissen:
• Respondenten, die mit einer höheren Anzahl von Kontaktversuchen und Ver-
weigerungsumkehr rekrutiert wurden, neigen zu höheren Raten von Item Non-
response bei spezifischen Items als einfacher rekrutierte Respondentenespon-
dents;
• Respondenten, für deren Rekrutierung ein höherer Aufwand an Kontaktversu-
chen notwendig war, gaben auf einigen Items weniger genaue Antworten sowie
variablere Antworten als mit einem geringeren Aufwand rekrutierte Respon-
denten.
Betroffen von dem Zusammenhang zwischen Rekrutierungsaufwand und Item
Nonresponse sind nicht alle Arten von Items, sondern besonders sensitive, schwie-
rige oder Items, deren Beantwortung eine besondere Belastung für die Responden-
ten darstellt. Vieles spricht für eine gemeinsame Ursache für den Umwillen, an einer
Umfrage teilzunehmen, einerseits und der Datenqualität andererseits (vgl. Touran-
570 VII.9 Dokumentation von Nonresponse-Gründen

geau, Groves und Redline, op.cit). Die Frage ist, welche praktischen Konsequenzen
aus den Befunden über den Zusammenhang zwischen Rekrutierungsaufwand und
Datenqualität zu ziehen sind. Zunächst ist klar, dass der Rekrutierungsaufwand
nur dann den Nonresponse-Bias von Zielvariablen reduziert, wenn die Teilnahme-
wahrscheinlichkeiten mit den Zielvariablen zusammenhängen (Groves, 2006, Ol-
son, 2007). Die Berechnung dieses Zusammenhangs ist aber nicht immer praktisch
realisierbar, da er voraussetzen würde, dass die Zielvariablen auch für die Nichtre-
spondenten zur Verfügung stehen. Dies ist in der Regel nicht der Fall, kann aber
durch eine Nonresponder-Befragung zumindest für einen Teil der Nonresponder
durchgeführt werden.
In jedem Fall sollten der Rekrutierungsaufwand für jeden Fall im Datensatz
gekennzeichnet sein, so dass der Effekt der Herausnahme schwer rekrutierter Fälle
auf die Messung untersucht werden kann.

VII.9 Dokumentation von Nonresponse-Gründen

VII.9.1 Erfassungsformen

Noch vor der Berechnung der Ausfall-Raten gemäß AAPOR-Klassifikation (siehe


Abschnitt VII.5.2) sollten die Ausfallgründe als Zwischenergebnis oder Endergeb-
nis der Feldarbeit detailliert dokumentiert werden. Solche Dokumentationen wer-
den z.T. in Rohform durch die Erhebungssoftware ausgegeben. Tabelle VII.1 zeigt
eine Aufschlüsselung nach Dispositions-Codes einer Erhebung zur beruflichen
Mobilität (vgl. Abschnitt 5.2) als Ergebnis einer telefonischen Befragung.

Tabelle VII.1: Beispiel Dispositionscodes (Originalausdruck)

DISPOSITION DESCRIPTION RECORDS


CODE
2 Freizeichen 5929
3 besetzt 490
4 AB 2436
5 Fax 2147
6 Kein Anschluss unter dieser Nummer 4952
7 Rufnummer hat sich geändert 59
8 Geschäftsanschluss 2691
11 Termin KP* 89
VII.9 Dokumentation von Nonresponse-Gründen 571

12 Termin ZP** 7
14 ZP in Feldzeit nicht erreichbar 559
15 KP verweigert, legt auf 7620
16 Verständigungsschwierigkeiten 523
17 Keine Person zwischen 25 und 54 Jahren im HH 6768
23 ZP hat grundsätzlich keine Zeit 183
24 ZP hat kein Interesse 374
25 ZP verweigert aus anderen Gründen 219
28 ZP kann Interview nur in Englisch durchführen  
44 Termin mit neuer Nummer  
85 Quote erfüllt  
89 Quote erfüllt  
98 Abbruch mit Termin zur Fortsetzung 19
99 Abbruch 55
101 Interview komplett Fernpendler 87
102 Interview komplett Overnighter 50
103 Interview komplett Recent Relocator 70
104 Interview komplett Fernbeziehung 15
105 Interview komplett Multimobil 29
106 Interview komplett Nicht-Mobil  
107 Interview komplett Nicht-Mobil Kurzinterview 2184
110 KP-Interview Mobile  
111 KP-Interview Nicht-Mobile  
     
TOTAL 37555
ATTEMPTED
Not Attempted 0
TOTAL SAMPLE 37555

*KP: Haushaltsperson bzw. Kontaktperson; ZP: Zielperson

Nicht in jedem Fall lässt sich eine Unterscheidung zwischen Kontaktperson und
Zielperson treffen. Bei Umfragen, in denen zunächst eine Stichprobe von Haus-
halten gezogen wird und danach nach eine Person im Haushalt ausgewählt wird,
kann bei Verweigerungen nicht unbedingt bestimmt werden, ob die verweigernde
Person eine Zielperson war oder nicht. Eine Kontaktperson kann entweder selbst
bereits eine Zielperson sein oder nicht. Eine Unterscheidung zwischen der Ver-
weigerung des Haushalts und einer Verweigerung einer kontaktierten Zielperson
lässt sich in diesem Fall keine klare Entscheidung treffen. Interpretiert man alle
Verweigerungen als Verweigerungen von Zielpersonen ohne Berücksichtigung der
Kontaktpersonen, kann die Kooperationsrate eventuell unterschätzt werden. Wie
572 VII.9 Dokumentation von Nonresponse-Gründen

wir bei der AAPOR-Klassifikation gesehen haben, wird dort der Nichtkontakt auf
den Haushalt bezogen.
In Deutschland üblich ist, auch eine Einteilung in stichprobenneutrale Ausfälle und
systematische Ausfälle vorzunehmen. Ausgehend von der Bruttostichprobe ergibt
sich nach Abzug der stichprobenneutralen Ausfälle die bereinigte Stichprobe. Aus
der bereinigten Stichprobe ergibt sich dann nach Abzug der systematischen Ausfäl-
le die Nettostichprobe (vgl. Abbildung VII.15).





 


    


 


 


Abbildung VII.15: Brutto- und Nettostichprobe

Beispiele für stichprobenneutrale Ausfälle in CATI-Umfragen sind etwa:


Ansage „Kein Anschluss unter dieser Nummer“
Ansage „Rufnummer geändert“
Geschäftsadresse
Anrufbeantworter
Faxanschluss
Im Fall von Telefonumfragen wird empfohlen, die bereinigte Stichprobe noch ein-
mal wie in Tabelle VII.2 dargestellt, in ein Brutto I und ein Brutto II (zu unterteilen
vgl. Häder, 2000, S. 10).
VII.9 Dokumentation von Nonresponse-Gründen 573

Tabelle VII.2: Aufschlüsselung der Nonresponse bei Telefonumfragen

Telefon-Nr. insgesamt 56474 100,0 %


Stichprobenneutrale Ausfälle
Kein Anschluss 20201 35,8 %
Nummer geändert 168 0,3 %
Geschäftsanschluss 3154 5,6 %
Ständig Besetzt 379 0,7 %
Unbearbeitet 1991 3,5 %
Haushalte mit nicht ausreichender Sprach-
kompetenz 2166 3,8 %

Summe 28059 49,7 %


Bereinigtes Brutto I: 28415 100,0 %
Freizeichen 3598 12,7 %
Anrufbeantworter 1095 3,9 %
Fax, Modem 2803 9,9 %

Summe 7496 26,4 %


Bereinigtes Brutto II: 20919 100,0 %
Verweigerer, davon:
ZP hat keine Zeit 268 1,3 %
ZP hat kein Interesse 1313 6,3 %
Haushalt verweigert ohne Gründe 8638 41,3 %
Nicht angetroffen, davon:
ZP in Feldzeit nicht da 1876 9,0 %
Termin nicht abgearbeitet 146 0,7 %
Abbruch 63 0,3 %
Summe 12304 58,8 %
Realisierte Interviews: 8615 41,2%

Im Falle von Face-to-Face-Umfragen kann ähnlich vorgegangen werden. So findet


man bei der Allgemeinen Bevölkerungsumfrage für Sozialwissenschaften (ALL-
BUS) 2006 die in Tabelle VII.3 dargestellte Aufschlüsselung (Quelle: ALLBUS 2006
Methodenbericht).
Die Unterscheidung zwischen stichprobenneutralen Ausfällen und systemati-
schen Ausfällen ist nicht immer klar zu treffen. So kann z.B. das Einschalten eines
Anrufbeantworters durchaus eine Verweigerung bedeuten, was aber nicht eindeu-
tig festgestellt, sondern bestenfalls nur vermutet werden kann. Auch die Untersu-
chungsfragestellung spielt bei der Entscheidung, ob ein Ausfall ein neutraler Aus-
fall ist oder nicht, eine Rolle. In einer Erhebung über den wirtschaftlichen Erfolg
574 VII.9 Dokumentation von Nonresponse-Gründen

von Selbstständigen könnte die Nichterreichbarkeit auf Grund eines Faxgeräts zu


einem systematischen Ausfall führen. Entscheidend dafür, ob ein Ausfall als neutral
oder systematisch gewertet werden kann, ist durch die Überlegung bestimmt, ob
der Ausfallgrund mit Zielvariablen zusammenhängen könnte.

Tabelle VII.3: Beispiel für eine Aufschlüsselung von Ausfällen bei Face-to-Face-Umfragen

West Ost
N % N %
Ursprüngliche Bruttostichprobe 5.772 100,0 2.652 100,0
+ Zusätzlich eingesetzte Adressen als Ersatz für 647 11,2 232 8,7
stichprobenneutrale Ausfälle
= Bruttostichprobe 6.419 100,0 2.884 100,0
./. Stichprobenneutrale Ausfälle insgesamt 704 11,0 264 9,2
- Anschreiben nicht zustellbar 132 2,1 55 1,9
- Adresse falsch, existiert nicht (mehr) 122 1,9 41 1,4
- Zielperson verstorben 40 0,6 15 0,5
- Zielperson verzogen 343 5,3 133 4,6
- Zielperson lebt nicht in Privathaushalt 67 1,0 20 0,7
= Bereinigter Stichprobenansatz 5.715 100,0 2.620 100,0
./. Systematische Ausfälle insgesamt 3.416 59,8 1.498 57,2
- Im Haushalt niemand angetroffen 238 4,2 93 3,5
- Zielperson nicht angetroffen 137 2,4 63 2,4
- Zielperson nicht befragungsfähig 167 2,9 86 3,3
- ZP verweigert telefonisch bei 28 0,5 26 1,0
Projektleitung des Instituts
- ZP aus Zeitgründen nicht zum Interview bereit 261 4,6 107 4,3
- ZP generell nicht zum Interview bereit 2.366 41,4 1.080 41,2
- Zielperson spricht nicht hinreichend gut 121 2,1 10 0,4
deutsch
- Adresse nicht abschließend bearbeitet 26 0,5 15 0,6
- Interviews als (Teil-)Fälschung identifiziert 72 1,3 18 0,7
= Auswertbare Interviews 2.299 40,2 1.122 42,8

Ausschöpfungsquote:
Insbesondere in Umfragen deutscher Institutionen wird oft die sog. Ausschöp-
fungsquote berechnet. Sie ist definiert als Anteil der Anzahl der realisierten Inter-
VII.9 Dokumentation von Nonresponse-Gründen 575

views (Umfang der Nettostichprobe) zum Umfang der um die neutralen Ausfälle
bereinigten Stichprobe:

Umfang der Nettostichprobe


Ausschöpfungsquote .
Umfang der bereinigten Stichprobe

Wie man sieht, hängt die Ausschöpfungsquote davon ab, wie die Unterscheidung
zwischen stichprobenneutralen und systematischen Ausfällen getroffen wird. Der
Begriff der Ausschöpfungsquote wird durchaus nicht immer im gleichen Sinn ver-
wendet wie Porst (1996) in einer Untersuchung verschiedener Umfrageinstitute
festgestellt hat. Wie bereits dargestellt, ist eine niedrige Ausschöpfungsquote nicht
notwendig mit einen starken Bias verbunden.
Die Ausschöpfungsquoten haben in den letzten Jahren kontinuierlich abge-
nommen. Sie liegen für allgemeine Bevölkerungsumfragen gegenwärtig im Fall
seriöser CAPI-Umfragen bei 50% und darunter. Bei Telefonumfragen liegt die
Ausschöpfungsquote gegenwärtig höchstens zwischen 20-30%, nicht selten sogar
darunter, sofern keine besonderen Maßnahmen zur Erhöhung getroffen werden.
Bei postalischen Umfragen liegt die Rücklaufquote bei 10-20%. Diese Zahlen sind
aber in stetiger Veränderung begriffen. Gegenüber Versprechungen hoher Aus-
schöpfungsquoten ist äußerste Skepsis angebracht.
Werden Ausschöpfungsquoten berechnet, so sollte die Grenzziehung zwischen
stichprobenneutralen und systematischen Fällen transparent sein und mit dem
Forscher/Auftraggeber abgestimmt sein, so dass klar wird, auf welchen Definiti-
onen die Berechnung der der Ausschöpfungsquote beruht. Offensichtlich unter-
scheiden sich die Institute in ihren Berechnungsgrundlagen (vgl. Porst, 1996).

VII.9.2 Verweigerungsgründe

Gründe für eine Verweigerung können entweder spontan genannt werden oder
über einen Verweigerer-Fragebogen erfasst werden, insofern die Kontaktperson
bereit ist, weitere Fragen zu den Gründen ihrer Verweigerung zu beantworten.
Übersicht VII.1 enthält Beispiele für Nichtteilnahme in einer Umfrage zum The-
ma „Fluglärm“ (n=9.600), die spontan geäußert oder mit Hilfe eines Nonrespon-
der-Fragebogens erhoben wurden.
576 VII.9 Dokumentation von Nonresponse-Gründen

Übersicht VII.1: Beispiele für Verweigerungsgründe

Gründe 
Zeitmangel (auch keine Terminfindung möglich)
Datenschutz-/Anonymitätsbedenken/ Auswahlfragen (Herkunft der Nummer)
Angst vor Verkäufen
Angst vor heiklen Fragen
Wissensfrage oder Befürchtung, zu dem Thema nichts sagen zu können
Keine Lust, kein Interesse
Ständige Befragungen
Umfragen haben keinen Sinn, Zweck der Befragung ist unklar
Prinzipiell keine Teilnahme
Interview wurde schon geführt
Person fühlt sich zu alt
Person ist dauerhaft erkrankt
Weiterleitung auf Mobiltelefon
Anderer Modus (z.B. online oder postalisch) gewünscht
Resignation: Umfrage ändert nichts an Flughafenausbau, etc.
Keine Angabe von Verweigerungsgründen.
zwischenzeitlich über Hotline verweigert
dauerhaft nicht befragbar/verstorben

Der Anteil einiger dieser Gründe wie z.B. „keine Zeit“, „kein Interesse“ kann durch
ein geeignetes Verweigerer-Training der Interviewer reduziert werden. Da es sich
um sog. „weiche“ Verweigerungsgründe handelt, könnte noch ein weiterer Kon-
taktversuch unternommen werden.
Tabelle V.4 gibt ein Beispiel für Ausfallgründe einer Teilnehmerrekrutierung für
eine Webumfrage zum Thema „Diabetes“ (vgl. Deutschmann & Faulbaum, 2001).
VII.9 Dokumentation von Nonresponse-Gründen 577

Tabelle VII.4: Ausfallgründe in Webumfragen

Pct of Responses
lack of time 19.1
lack of confidence in anonymity and data protection 13 . 3
lack of own e-mail address 11.7
don't know e-mail address 10.1
rarity of Internet use 8.8
already given enough information in CATI-interview 8.8
fear of getting included in advertising campaigns 4.2
lack of experience with the Internet 3.4
costs of being online 1.1
other reasons or no reasons given 19.6
377 responses 100.0

Wie man sieht, sind das Fehlen von Vertrauen in die Anonymität und den Daten-
schutz in dieser Rekrutierung wichtige Gründe. Aber auch die Erfahrung im Um-
gang mit dem Internet spielt eine Rolle, die nicht nur durch Tabelle VII.4, sondern
auch durch die Daten in Tabelle VII.5 untermauert werden. Wie aus der Tabelle
erkennbar, steigt die Häufigkeit der Teilnahme mit der Häufigkeit der Internetnut-
zung.

Tabelle VII.5.: Häufigkeit der Internetnutzung und Teilnahmeentscheidung

Participation in Web survey Total


Yes No, but provided No
e-mail address

daily 57,6% 47,2% 36,4% 396 45,8%


more than once per 35,9% 43,0% 41,0% 346 40,0%
week
once per week or less 6,5% 9,8% 22,6% 123 14,2%
Total 100,0% 100,0% 100,0% 865 100,0%

Nonresponse-Daten bei Webumfragen und mobilen Befragungen sind in fortwäh-


render Änderung begriffen, da sich die Einstellungen zu verschiedenen Technolo-
gien im Verlauf der Zeit ändern.
Wichtiger als die Berechnung der Ausschöpfungsquote ist eine möglichst de-
taillierte Dokumentation der Ausfallursachen. Allerdings sind dieser Dokumen-
tation Grenzen gesetzt, da Verweigerer meistens nicht bereit sind, ihre Gründe zu
578 VII.10 Anpassungsgewichtung

nennen. Bei CATI-Umfragen wird oft einfach der Hörer aufgelegt, ohne dass die
Gelegenheit zu weiteren Nachfragen besteht. Gründe wie „keine Zeit“ sind nicht
besonders aussagekräftig und stehen oft stellvertretend für andere Gründe. Um
eine präzisere Kenntnis der Verweigerungsgründe zu bekommen, kann versucht
werden, Verweigerer zu überreden, einen sog. Nonresponder-Fragebogen zu be-
antworten, der dann zu einer weiteren Aufschlüsselung der Verweigerungsursa-
chen führt.

VII.10 Anpassungsgewichtung

VII.10.1 Einführende Bemerkungen

Eine der Wirkungen von Nonresponse besteht darin, dass auf Grund von Selek-
tionseffekten die Verteilungen von Zielvariablen in der Stichprobe der Respon-
denten von den Verteilungen in der Auswahlgesamtheit abweichen können. Die
Verteilungen in der Auswahlgesamtheit können sich auf Grund von Unterdeckung
wiederum von den Verteilungen in der Zielpopulation unterscheiden. Um den Ef-
fekt dieser Verteilungsunterschiede auf die Schätzer zu minimieren, wird jedem
Respondenten unter Verwendung von Hilfsinformationen oder Hilfsvariablen (vgl.
Teil VI) ein sog. Anpassungsgewicht (engl.: adjustment weight) zugeordnet. Mit Hil-
fe der Gewichte werden Verteilungen von Hilfsvariablen an bestimmte Referenz-
verteilungen dieser Variablen angeglichen. Diese Referenzverteilungen können
Verteilungen in der Population, Verteilungen in der Auswahlgesamtheit oder auch
Verteilungen in der Ausgangsstichprobe sein. Die Anpassung an die Population
kann durchaus stufenweise erfolgen: zunächst wird die Stichprobe der Respon-
denten an die Ausgangsstichprobe angepasst, dann die die Ausgangsstichprobe an
die Auswahlgesamtheit und schließlich die Auswahlgesamtheit an die Population,
wobei auf jeder Anpassungsstufe unterschiedlich Mengen von Zielvariablen bzw.
unterschiedliche Hilfsinformationen herangezogen werden können. In der Regel
wird die Verteilung der Hilfsvariablen direkt an die Verteilung in der Population
angepasst, was voraussetzt, dass Informationen über die Verteilungen der Hilfsva-
riablen sowohl auf der Ebene der Respondenten als auch auf der Ebene der Popu-
lation vorliegen.
Geht man davon aus, dass die Hilfsvariablen eine ausreichende prognostische
Relevanz für bestimmte Zielvariablen haben, so kann angenommen werden, dass
sich die Schätzer dieser Zielvariablen verbessern. Praktisch bedeutet die Gewich-
VII.10 Anpassungsgewichtung 579

tung, dass das Designgewicht im Horwitz-Thomson-Schätzer für den Populations-


parameter, z.B. das Populationstotal oder der Populationsmittelwert, mit einem
weiteren Gewicht, dem Anpassungsgewicht, multipliziert wird.

VII.10.2 Antwortmechanismen

Verschiedene Formen der Anpassungsgewichtung setzen bestimmte Annahmen


über den Antwortmechanismus voraus. In Abschnitt VII.3 haben wir die Defini-
tionen ignorierbarer und nicht-ignorierbarer Ausfallmechanismen kennengelernt.
Die Ignorierbarkeit der Ausfallmechanismen ist eine der Voraussetzungen für die
verschiedenen Formen der Anpassungsgewichtung. Sie spiegeln sich wider in ver-
schiedenen alternativen Spezifikationen von Antwortmodellen Ein Antwortmodell
(engl.: response model). besteht aus einer Menge von Annahmen über die wahre,
aber unbekannte Verteilung der Antworten bzw. Messungen (engl.: response distri-
bution; vgl. Särndal, Swensson & Wretman, 1992, pp. 563). Auf der Basis dieser
Annahmen können dann entsprechende gewichtete Schätzer konstruiert werden.
Ein einfaches Modell könnte etwa in der Annahme bestehen, dass die Wahr-
scheinlichkeiten, an einer Umfrage teilzunehmen oder auf ein Item zu antworten,
für alle Elemente der Ausgangsstichprobe gleich sind. Ein anderes, realistischeres
und sehr populäres Modell nimmt für die Gruppen einer geeigneten Zerlegung
der Stichprobe in Gruppen konstante Antwortwahrscheinlichkeiten an. Dieses Mo-
dell wird von Särndal, Swensson und Wretman (1992, pp. 578) als RHG (response
homogeneity group – Modell) bezeichnet. Bei diesem Modell wird angenommen,
dass alle Elemente einer Gruppe sh (h = 1, … , HS) in einer in HS Gruppen zerlegten
Ausgangsstichprobe s mit der gleichen Wahrscheinlichkeit antworten, wobei die
Antwortwahrscheinlichkeiten in unterschiedlichen Gruppen unterschiedlich sein
können. In diesem Modell gilt:
• Die bedingte Wahrscheinlichkeit π(k|s) dafür, dass ein Element, gegeben eine
Stichprobe s, zur Gruppe der Respondenten gehört, ist für alle Elemente k einer
Gruppe sh gleich einer festen Wahrscheinlichkeit θhs.
• Die bedingte Wahrscheinlichkeit πkl dafür, dass zwei Elemente k und l, gegeben
eine Stichprobe s, zur Gruppe der Respondenten gehört, ist gleich dem Produkt
der Wahrscheinlichkeit von k, zur Gruppe der Respondenten zu gehören und
der Wahrscheinlichkeit von l, zur Gruppe der Respondenten zu gehören.
Das Auffinden einer geeigneten Zerlegung einer Stichprobe in Gruppen mit nähe-
rungsweise gleichen Antwortwahrscheinlichkeiten kann nur auf Grund von Erfah-
580 VII.10 Anpassungsgewichtung

rungen vorgenommen werden. Dabei können auch Überlegungen über verschie-


dene Faktoren eine Rolle spielen, die ein konstantes Antwortverhalten erzeugen
können, wie Interviewer- und Befragtenmerkmale, Stadt/Land, etc.

VII.10.3 Gewichtungen ohne Hilfsvariablen: Der gewichtete


Klassenschätzer

Angenommen, wir zerlegen eine Ausgangsstichprobe s in Hs Gruppen sh mit den


Umfängen nh (h = 1, … , Hs). Die Umfänge der in den Gruppen befindlichen Re-
spondenten seien in einem Vektor m  =  (m1, … , mh, … , mHs) zusammengefasst.
Dann ist die Wahrscheinlichkeit π(k|s,m) dafür, dass ein Element k in der Stichprobe
des Umfangs ns unter der Annahme einer einfachen Zufallsauswahl, antwortet:

mh
S k |s , m fh für alle k  sh .
nh

Die Inverse dieser Wahrscheinlichkeit

1 1 nh
= =
π k|s ,m f h mh
heißt auch Klassengewicht. Es wird berechnet, in dem man die Anzahl der Elemente
der Klasse in der Population durch die Anzahl der Elemente der Klasse in der Men-
ge der Respondenten teilt. Das vollständige Gewicht für Element k ergibt sich als
Produkt aus dem Designgewicht 1 ∕ πk und dem Anpassungsgewicht:

⎛ 1 ⎞⎛ 1 ⎞
⎜ π ⎟⎜ π ⎟.
⎝ k ⎠ ⎝ k |s , m ⎠
Unter Einbeziehung dieses Gewichts ergibt sich als gewichteter Schätzer des Sum-
menwerts Y = ∑U yk in der Population:
Hs
§ 1 ·§ 1 · yk / S k
YˆcS * ¦y k ¨ S ¸¨ S ¸ ¦S f h1 y k / S k ¦ f ¦yh
1
k / Sk.
r © k ¹ © k |s , m ¹ r k |s , m h 1 rh

In dieser Formel ist r die Teilmenge der Respondenten in der Stichprobe s. Im Fall
einer einfachen Zufallsauswahl der Stichprobe s und einer einfachen Zufallsstich-
probe der Respondenten in den homogenen Gruppen ergibt sich
VII.10 Anpassungsgewichtung 581

N Hs
YˆcS * ¦nh yrh N y U .
n h1

Dieser Schätzer heißt auch gewichteter Klassenschätzer.

VII.10.4 Postratifikationsgewichte

Wir hatten in Teil VI den Poststratifikationsschätzer unter der Bedingung vorge-


stellt, dass keine Nonresponse vorliegt. Haben wir es mit Nonresponse zu tun, so
betrachten wir nicht die vollständige Menge der Elemente in einer Gruppe, son-
dern die Teilmenge der Respondenten.
Gegeben sei eine in H Gruppen s1, … , sh, … , sH nach Hilfsvariablen poststratifi-
zierte, nach dem Design der einfachen Zufallsauswahl gezogene Stichprobe s. Seien
r1, … , rh, … , rH die Teilstichproben der Respondenten in jeder Gruppe h mit den
Umfängen nr1, … , nrh, … , nrH. Angenommen, die Grundgesamtheit U sei nach den
gleichen Hilfsvariablen (z.B. Alter, Geschlecht, etc.) in H Gruppen mit den Um-
fängen N1, … , Nh, … , NH zerlegbar. Unter der Bedingung, dass die Antwortwahr-
scheinlichkeiten pro Gruppe für alle Elemente der Gruppe gleich sind, d.h. unter
der Bedingung des RHG-Modells, lässt sich das Populationstotal Y nach folgender
Formel schätzen:
H H nrh
Nh
Yˆcr ¦N h y rh ¦ n ¦y . k
h 1 h 1 rh k 1

Yˆcr heißt Poststratifikationsschätzer. Die Nh  ∕ nrh werden gelegentlich auch als Zell-
gewichte bezeichnet (vgl. z.B. Kalton & Flores-Cervantes, 2003). Sie werden für jede
Zelle der poststratifizierten Stichprobe berechnet, indem die Anzahl der Elemente
in der Populationszelle durch die Anzahl der Respondenten in der Stichprobenzelle
dividiert wird. Jeder Fall in der gleichen Zelle bekommt das gleiche Gewicht (vgl.
Beispiel VII.1).
582 VII.10 Anpassungsgewichtung

Beispiel V.1: Beispiel Zellgewichtung mit zwei Hilfsvariablen


Wird nach zwei Hilfsvariablen x1 und x2 stratifiziert, so bilden bei der Zellge-
wichtung zwei Kontingenztabellen den Ausgangspunkt: eine Kontingenztabelle
von Hilfsvariablen bezogen auf die Stichprobe, die durch nachträgliche Schich-
tung erstellt wurde, sowie eine Populationstabelle. Dies war der Ausgangspunkt
der Arbeit von Deming und Stephan (1940; vgl. auch Oh & Scheuren, 1983), die
sich mit der Anpassung von Häufigkeiten in einer Kontingenztabelle der Stich-
probe an bekannte Randhäufigkeiten der Population befassten (vgl. auch die
Darstellung in Kalton und Flores-Cervantes, (2003, pp. 84).
Die folgende Abbildung zeigt eine Kontingenztabelle für zwei Hilfsvariablen
x1 und x2 mit K und J Abstufungen, die in den Zellen der Stichprobe die Häu-
figkeiten der Respondenten enthält. Die Abstufungen von x1 seien mit a1, a2,…,
ak,…, aK bezeichnet, die Abstufungen der Variablen x2 mit b1, b2,…, bj,…, bJ. x1 sei
die Zeilenvariable und x2 die Spaltenvariable.
VII.10 Anpassungsgewichtung 583

nkj bezeichnet die Häufigkeit der Respondenten in der Zelle, die durch die k-te
Zeile und die j-te Spalte definiert ist. Sie ist also die Anzahl der Elemente in der
Stichprobe, die sowohl die Merkmalsabstufung ak als auch die Merkmalsabstu-
fung bj aufweisen. nk. (k = 1, …, K) bezeichnet die Randhäufigkeit (engl.: mar-
ginal frequency) der Abstufung ak des Merkmals x. n.j (j = 1, …, J) bezeichnet
die Randhäufigkeit (engl.: marginal frequency) der Abstufung bj des Merkmals y.
Alle Randhäufigkeiten eines Merkmals bilden die Randverteilung (engl.: marginal
distribution) des Merkmals. n ist der Stichprobenumfang. Eine entsprechende Ta-
belle lässt sich auch für die Population aufstellen:

In unserem Beispiel würde die Zellgewichtung bedeuten, dass alle Elemente in


der Zelle (k, j) mit dem Gewicht

N kj
nkj
versehen werden. Elemente in Zellen, die im Verhältnis zur Grundgesamtheit
eine sehr viel kleinere Häufigkeit beinhalten werden stärker gewichtet als solche,
bei denen der Anteil an der Populationshäufigkeit größer ist.
584 VII.10 Anpassungsgewichtung

Als fiktives Beispiel sei angenommen, in einer Gemeinde mit 3.550 EW sei
eine Umfrage von 1.180 Befragten nach dem Design der einfachen Zufallsaus-
wahl vorgenommen worden. Durchführt werden soll eine Gewichtsanpassung
nach Geschlecht und Zweitstimme bei der letzten Bundestagswahl. dar. Die em-
pirische Verteilung der Stichproben sei wie in Tabelle VII.6 wiedergegeben.

Tabelle VII.6: Empirische Verteilung in der Stichprobe

Geschlecht Zweitstimme letzte Bundestagswahl


CDU/CSU SPD F.D.P. Bündnis90/ Randhäufigkeit
Die Grünen
männlich 400 350 60 80 890
weiblich 440 420 40 90 990
Randhäufigkeit 840 770 100 170 1180

Die Verteilung in der Gemeindepopulation sei die in Tabelle VII.7.

Tabelle VII.7: Populationsverteilung

Geschlecht Zweitstimme letzte Bundestagswahl


CDU/CSU SPD F.D.P. Bündnis90/ Randhäufigkeit
Die Grünen
männlich 800 700 150 100 1750
weiblich 900 600 100 200 1800
Randhäufigkeit 1700 1300 250 300 3550

In unserem Beispiel würde z.B. die Zelle (weiblich , SPD) mit dem Gewicht

N 22 600
1, 43
n22 420
gewichtet. Mit dieser Gewichtung kann man versuchen, sowohl Verzerrungen
durch Nichtantwort als auch durch Unterdeckung zu korrigieren. Allerdings
ist damit die Annahme verbunden, dass alle Elemente in einer Zelle die gleiche
Wahrscheinlichkeit besitzen zu antworten bzw. in die Auswahlgrundlage aufge-
nommen zu werden, was der Annahme von MAR (siehe oben) entspricht.

Gelten nicht die Bedingungen von RHG (siehe oben), so entsteht ein Bias in der
Schätzung. Bethlehem, 2009) vergleicht den Postratifikationsschätzer für eine Ziel-
variable für vollständige Stichproben mit dem Schätzer unter Nonresponse. Auf
VII.10 Anpassungsgewichtung 585

Grund einer einfachen Ableitung, die hier nicht wiedergegeben werden soll, ergibt
sich der Bias durch Nonresponse für den Mittelwertschätzer auf Grund der Formel

1 H RρhY S ρh SYh
Bias ( y PS , R ) = ∑ ρ (h ) .
N h
N h =1

In dieser Formel ist RUhY die Korrelation zwischen der Zielvariablen Y und der Ant-
h
wortwahrscheinlichkeit ρ in Schicht h. S U und SYh sind die Standardfehler von Y
und ρ in Schicht h (vgl. die Ableitung in Bethlehem, 2009, p. 252). Die Formel zeigt,
dass der Bias den Wert 0 annimmt, wenn die Korrelation zwischen Antwortwahr-
scheinlichkeit und der Zielvariablen in allen Schichten 0 ist. Die Standardfehler
der Antwortwahrscheinlichkeiten und der Zielvariablen sind gering, wenn deren
Werte näherungsweise gleich sind.
Die Bedingungen für die Abwesenheit des Bias entsprechen denen, die ein
RHG-Modell definieren. Durch die Annahme gleicher Antwortwahrscheinlichkei-
ten in einer Schicht, ist eine Korrelation zwischen Zielvariablen und Antwortwahr-
scheinlichkeit ausgeschlossen.
Eine weitere traditionelle Anwendung des Poststratifikationsschätzers ergibt
sich unter der Annahme, dass die Grundgesamtheit in zwei Schichten zerlegt ist:
eine Schicht R der Respondenten und eine Schicht NR der Nichtrespondenten, so-
wie der Annahme, dass die Stichproben der Respondenten und der Nichtrespon-
denten Zufallsstichproben aus den jeweiligen Schichten darstellen. In diesem Fall
greift der Schätzer für geschichtete Stichproben. Der Populations-Summenwert ist
in diesem Fall:
2
y = N h y h = N R y R + N NR y NR ,
ST ∑
h =1 N N N
wobei NR und NNR die Umfänge der Schichten der Respondenten und Nichtrespon-
denten darstellen und − y R und −
y NR die Stichprobenmittelwerte der Respondenten
und Nichtrespondenten. Das Problem ist, dass weder R noch NR bekannt sind. Das
Gleiche gilt für die Mittelwerte von yR und NR bekannt sind.
Die obigen Verfahren setzen voraus, dass die Antwortwahrscheinlichkeiten ge-
schätzt werden können und dass eine Zerlegung in homogene Klassen möglich ist.
Dies ist aber nicht immer gegeben, weil nicht immer bekannt ist, wer verweigert
hat oder bei wem kein Kontakt zustande kam. Bei Telefoninterviews legen zahlrei-
che Personen einfach auf, ohne dass Eigenschaften irgendwelcher Art bestimmbar
wären. Eine Möglichkeit wäre, die Antwortwahrscheinlichkeiten zu schätzen, etwa
durch die Anzahl der Versuche bestimmte Klassen von Personen zu erreichen. (vgl.
Politz & Simmons 1949).
586 VII.10 Anpassungsgewichtung

VII.10.5 Raking

Sind auf Populationsebene nur die Randverteilungen der Variablen bekannt oder
möchte man aus anderen Gründen, z.B. weil die Anzahl der Zellen sehr groß ist
oder weil die Annahme identischer Antwortwahrscheinlichkeiten in den Zel-
len zweifelhaft ist, nur auf die Randverteilungen Bezug nehmen, kann das sog.
Raking-Verfahren angewendet werden. Es wurde ursprünglich von Deming und
Stephan (1940) entwickelt. Die Autoren widmen sich der Frage, wie die Zellhäufig-
keiten in der Population so geschätzt werden kann, dass die Summe der Differen-
zen zwischen den Zellhäufigkeiten in der Stichprobe und denen in der Population
ein Minimum ergeben (vgl. Deming & Stephan, 1940, p. 429):
K J
( mkj − nkj ) = min,
∑∑
k =1 j =1 nkj

wobei die mkj die angepassten Zellhäufigkeiten darstellen, die einer oder beiden der
folgenden Bedingungen genügen müssen:
Fall I (Anpassung an eine Randverteilung):
In diesem Fall sollte gelten:
J
N k .n
∑m
j =1
kj = mk . =
N
.

Fall II (Anpassung an zwei Randverteilungen):


In diesem Fall sollte zusätzlich gelten:
K
N . jn
∑m
k =1
kj = m. j =
N
.

Die beiden Randverteilungen sollen also mit dem Auswahlsatz multipliziert wer-
den. Die Autoren schlagen ein vereinfachtes Verfahren vor, das als iterative pro-
portionale Anpassung (engl.: iterative proportional fitting) bezeichnet wird (vgl. De-
ming & Stephan, 1940, p. 439). Es wird in der Literatur mit dem Raking-Verfahren
gleichgesetzt, obgleich es nur die multiplikative Form des Rakings beinhaltet und
daher auch als multiplikative Gewichtung bezeichnet wird (vgl. z.B. Bethlehem,
2009, p. 260). Wir wollen das Verfahren an Hand einer Anpassung an Zeilen- und
Spaltenrandsumme erläutern. Es besteht darin, dass zunächst die Zeilenrandsum-
men in der Stichprobe an die entsprechenden bekannten Zeilenrandsummen der
Population angepasst werden, was bedeutet, dass jede Zelle der k-ten Zeile mit dem
Gewicht
VII.10 Anpassungsgewichtung 587

N k.
nk .
gewichtet wird. So müssten in Beispiel V.1 die Zellen der ersten Zeile (männlich)
mit dem Gewicht

1750
890
gewichtet werden. In der Zelle (männlich, F.D.P.) würde dann nach diesem Schritt
der Wert

1750
60 × = 60 × 1.97 = 118, 2
890
stehen. Nach der Anpassung an die Zeilenrandsummen würde eine Anpassung an
die Spaltenrandsummen erfolgen. Dabei werden die bereits gewichteten Zellen der
j-ten Spalte mit dem Faktor

N. j
n. j .
gewichtet. In unserem Beispiel würde die bereits gewichtete Zelle (männlich, F.D.P.)
mit dem Faktor

250
100
gewichtet werden, so dass sich nach diesem Schritt die gewichtete Häufigkeit

250
118, 2 × = 118, 2 × 2, 5 = 295, 5
100
ergibt. Der Prozess wird so lange wiederholt, bis die Randsummen von Stichprobe
und Grundgesamtheit im Rahmen einer vereinbarten Grenze übereinstimmen.
Der in Teil VI eingeführte GREG-Schätzer ist gleichzeitig ein Beispiel für line-
ares Raking.
588 VII.10 Anpassungsgewichtung

VII.10.6 Kalibrierung

Deville und Särndal (1992; vgl. auch Särndal & Sundström, 2005) fassen die De-
signgewichtung und die Gewichtung zum Ausgleich von Unit-Nonresponse in ei-
nem als Kalibrierung (engl.: calibration) bezeichneten Ansatz zusammen. Ziel ist
die Ableitung eines sog. Kalibrierungsschätzers (engl.: calibration estimator) für das
Populationstotal
N
Y = ∑U y k = ∑ y k .
k =1

Bezeichnen wir die Stichprobe der Respondenten wieder mit r und deren Umfang
mit nr, so hat der Schätzer die allgemeine Form
nr
YˆW ¦w r
k yk ¦w k yk .
k 1

Die Aufgabe besteht darin, ein geeignetes System von Gewichten zu finden. Dies
wird wieder unter Zuhilfenahme von Hilfsvariablen gebildet. Bei der Ableitung der
Gewichte spielen drei Arten von Hilfsvariablen eine Rolle:
a) Hilfsinformationen auf der Ebene der Population:
Hilfsinformationen auf Populationsebene sind Summenwerte von Hilfsvariab-
len, die für die gesamte Population bekannt sind. Sie liegen entweder bereits als
Summenwerte vor oder aber sie können berechnet werden, weil aus einer exter-
nen Quelle wie z.B. einem Melderegister oder einer zusammengefügten Datei
von Melderegisterdaten die Werte für jedes Element der Population bekannt
sind. Ein Beispiel wäre der Fall, dass für jeden Respondenten die Werte auf den
Alter oder Geschlecht aus einer externen Quelle wir z.B. einem Melderegister
importiert werden können und daher auf Populationsebene bekannt sind. Bei
den importierten Werten muss es sich um messfehlerfreie Messfehler handeln
(zum Begriff des Messfehlers vgl. Abschnitt IV.2). Außerdem liegen die Werte
für Element k aus der Respondentenstichprobe r vor.
b) Hilfsinformationen auf Stichprobenebene:
Hilfsvariablen, bei denen Informationen für die Stichprobe s vorliegen, jedoch
nicht für die Population, dergestalt, dass
• für jedes Element k aus der Gesamtstichprobe s die Werte auf den Hilfsvari-
ablen bekannt sind und die Summenwerte auf der Populationsebene unbe-
kannt sind;
• für jedes Element k aus der Respondentenstichprobe r die Werte jedes Ele-
ments k auf den Hilfsvariablen bekannt sind.
VII.10 Anpassungsgewichtung 589

In diesem Fall können Horvitz-Thompson-Schätzungen des Populationstotals auf


Basis der Stichprobenwerte der Hilfsvariablen vorgenommen werden. In diesem
Fall besteht das Problem darin, dass die Werte aller Elemente von s vorliegen müs-
sen, diese aber für die Nichtrespondenten nicht bekannt sind. Eine Lösung bietet
hier der Einsatz von Nonresponder-Fragebögen, um zumindest einige Informatio-
nen von den Nichtrespondenten, insbesondere von den Verweigerern zu erhalten.
In der Regel liegen die Werte der Variablen "Geschlecht" vor, weil sie in der Kon-
taktphase beobachtet werden konnten. Wie bereits erwähnt, sollten Hilfsvariablen
in erster Linie nach ihrer potentiellen Erklärungskraft ausgesucht werden.
c) Hilfsinformationen auf beiden Ebenen:
In diesem Fall können sich die Informationen beider Ebenen ergänzen. Dies ist
der allgemeine Fall, der durch Wegfall einer der erwähnten Hilfsinformationen
diese als Spezialfälle enthält.
Das Vorgehen bei der Kalibirierung sei zunächst am Beispiel einer einzigen Hilfs-
variablen x erläutert. Liegt nur der Summenwert von x auf der Populationsebene
vor, wo werden die optimalen Gewichte wk für jedes Elemente k der Respondenten-
stichprobe so bestimmt, dass gilt:
nr N

∑ w x = ∑w x = ∑
r
k k k k
U
x k = ∑x k .
k =1 k =1

Die Gewichte sollen also so bestimmt werden, dass die Summe der gewichteten
Werte der Hilfsvariablen in der Stichprobe das Populationstotal reproduziert.
Liegen nur Hilfsinformationen auf Stichprobenebene vor, so werden die Ge-
wichte so bestimmt, dass gilt:
nr ns

¦ w x ¦w x ¦ d x ¦d x
r
k k k k
s
k k k k Xˆ HT .
k 1 k 1

In diesem Fall werden die Gewichte also so bestimmt, das die Horvitz-Thomp-
son-Schätzung des Populationstotals, d.h. die mit den Designgewichten
dk = 1 ∕ πk gewichtete Summe der Stichprobenwerte reproduziert wird.
Stehen mehr als eine Hilfsvariable zur Verfügung, so werden die Gewichte je
nach Ebene, Populationsebene oder Stichprobenebene nach einer der beiden Glei-
chungen bestimmt. Seien x1 , … , xj , … , xJ J Hilfsvariablen, die in einem Vektor
x = (x1 , … , xj , … , xJ) gesammelt werden. Ohne Einschränkung der Allgemeinheit
kann man die Hilfsvariablen des Vektors so anordnen, dass die Hilfsvariablen mit
Hilfsinformationen auf Populationsebene vor denen mit Hilfsinformationen auf
Stichprobenebene stehen (vgl. Särndal & Lundström, 2005: 54). Sei
590 VII.10 Anpassungsgewichtung

X = ( X1 ,…, X J * , X J * +1 ,…, X J ) =
(∑ U )
x1k ,…, ∑U x J * k ,∑ s d j * +1, k x j * +1, k …, ∑ s d Jk x Jk ,

der Vektor der Hilfsinformationen von J Hilfsvariablen, wobei die ersten J✳ Hilfs-
informationen aus den Populationstotals von J✳ Hilfsvariablen bestehen und die
restlichen J − J✳ Hilfsinformationen die Horvitz-Thompson-Schätzungen der Po-
pulationstotals der Hilfsvariablen beinhalten, für die auf Populationsebene keine
Hilfsinformationen vorliegen. Die allgemeine, als Kalibrierungsgleichung (engl.: ca-
libration equation) bezeichnete Form der Gleichung lautet für beliebige Anzahlen
von Hilfsvariablen dann:
∑r w x  = X.
k k

In dieser Formel bezeichnet xk den Vektor der Werte eines Elements k auf den
Hilfsvariablen des Hilfsvektors x.
Die auf der Basis dieser Gleichung bestimmten Gewichte heißen an die Hilfsin-
formationen kalibriert. Sie gehen als Gewichte in den Kalibrierungsschätzer YˆW
ein. Die Gewichte wk haben die allgemeine Gestalt
wk = dkvk ,
wobei
vk = 1 + λ'rxk.
λ'r ist ein Zeilenvektor von Gewichten für die Stichprobe der Respondenten, mit
denen die Werte der Respondenten gewichtet werden, um die Unterschätzungen
der Designgewichte auszugleichen. λ'r hat die Form

( ) (∑ d x x )
−1
λr’ = X − ∑ r dk x k


k k k
r

Was dies bedeutet, macht man sich ehesten an einer einzigen Hilfsvariablen x klar,
bei der nur der Horvitz-Thompson-Schätzer X̂ des Populationstotals für x vor-
liegt. Die obige Gleichung hätte in diesem Fall die Form

Or
Xˆ  ¦ d x .
r
k k

2
dxk k

Der Zähler Xˆ  ¦ r dk x k besteht in der Differenz zwischen dem geschätzten Po-


pulationstotal auf Grund der Gesamtstichprobe s und der Schätzung des Populati-
onstotals auf Basis der Teilstichprobe der Respondenten.
VII.10 Anpassungsgewichtung 591

VII.10.7 Gewichtung nach dem Verfahren des minimalen


Informationsverlusts

Bei der Methode des minimalen Informationsverlusts werden die Gewichte so


bestimmt, dass der Informationsverlust zwischen einem bereits bestehenden Ge-
wichts, z.B. dem Designgewicht und dem unter Annahme einer Menge von Rest-
riktionen zu bestimmenden neuen Gewicht ein Minimum ergibt. Solche Restrikti-
onen können z.B. darin bestehen, für eine Kombination von Merkmalsabstufungen
z.B. Alter (kategorisiert) und Geschlecht die bekannte Häufigkeit in der Population
oder des Mikrozensus festzulegen. Das neue Gewicht würde dann unter der An-
nahme der entsprechenden Populationshäufigkeiten berechnet.
Das Verfahren des minimalen Informationsverlusts wurde von Merz (1983)
entwickelt und basiert auf der Informationsmaß der Entropie. Die Entropie ist ur-
sprünglich ein Begriff der Kommunikationstheorie (vgl. Shannon & Weaver, 1949)
ein Maß für die Ungewissheit bzw. Unsicherheit, die mit einer Menge von Ereignis-
sen verbunden ist. Sie x eine diskrete Zufallsvariable, deren Werte x1 , … , xj , … , xn
mit den Wahrscheinlichkeiten p1 , … , pj , … , pn auftreten. Dann ist die Entropie H
der Wahrscheinlichkeitsverteilung f(x) folgendermaßen definiert (vgl. Merz, 1983,
S. 347):
n
1
H ( f ( x ) ) = H ( p1 ,…, pn ) = ∑p j log .
j =1 pj

Angenommen die Verteilung f(x) würde eine Verteilung g(x) mit den Wahrschein-
lichkeiten q1 , … , qj , … , qn, geschätzt durch die relativen Häufigkeiten in der Stich-
probe, ersetzen, so kann man den Informationsverlust definieren als
n n n
1 1 pj
I ( p : q ) = ∑p j log − ∑p j log = ∑p j log .
j =1 q j j =1 p j j =1 qj

Die neuen Gewichte pj (j = 1, … , n) werden so geschätzt, dass


n
pj
∑p log q
j =1
j
j
= min.
592 VII.10 Anpassungsgewichtung

Das allgemeine Optimierungsproblem besteht in der Minimierung einer Distanz-


funktion

⎛ pj ⎞
Z (p, q) = min p ⎜ Σ j p j log ⎟ 0 < pj, qj < 1, ∑jpj = ∑jqj = 1
⎝ qj ⎠

unter den Restriktionen

Sp = r.

Die Symbole in den obigen Formeln haben folgende Bedeutungen:


q : n-dimensionaler Vektor der Designgewichte
p : n-dimensionaler Vektor der Anpassungsgewichte
S : Stichprobenmatrix mit den Summen aller Merkmale i
(i=1,…,m)
r : Vektor vorgegebener
Populationshäufigkeiten (Restriktionen)
Z : Distanzfunktion

Zur Optimierung wird der Newton-Ralphson-Algorithmus verwendet. Die Popu-


lationshäufigkeiten werden als logische Restriktionen vorgegeben.
Tabelle V.6 zeigt die ursprünglichen Designgewichte und die neuen Gewichte
auf Grund auf Grund der Gleichsetzung der Häufigkeiten in den Kategorien des
höchsten Bildungsabschlusses zwischen einer Bevölkerungsstichprobe und Mik-
rozensus.
In unserem Beispiel wurde nur nach einer einzigen Hilfsvariablen gewichtet.
Gewichtet werden sollte vornehmlich nach den Populationswerten. Grundsätzlich
kann man sich aber wie bei jeder Form von Gewichtung auch an zuverlässigen gro-
ßen Referenzstichproben orientieren. Da eine Referenzstichprobe aber auch den be-
kannten Fehlerquellen unterliegt, sollte man in der Regel nur Stichproben wie den
Mikrozensus betrachten, bei denen die Abweichung der Ergebnisse von denen der
Grundgesamtheit als relativ gering eingeschätzt werden kann. Es kann aber vielfäl-
tige andere Gründe geben, sich an Referenzstichproben zu orientieren. So könnte
man z.B. daran interessiert sein zu erfahren, wie sich Daten darstellen würden, wenn
für ausgewählte Variablen die Daten der Referenzstichprobe unterstellt würden.
VII.10 Anpassungsgewichtung 593

Tabelle V.6: Gewichtsbestimmung nach der Methode des minimalen Informationsverlusts

Designgewicht Neues Gewicht


(Restriktion: Gleichsetzung der
Häufigkeiten zwischen Stichprobe
und Mikrozensus)
1,162 ,7096
1,162 ,9429
1,162 ,0029
1,162 ,9617
1,162 ,9429
1,162 ,7096
1,743 1,4144
,581 2,1867
,581 ,4715
1,162 ,7096
,581 ,0014
1,162 ,7096
,581 ,3548
1,162 ,7096
,581 2,1867
1,162 ,7096
1,162 ,9429
,581 ,4809
,581 ,3548
1,162 ,7143
1,162 ,7096
1,162 ,9429
1,162 ,0029
1,162 ,9617

VII.10.8 Propensity-Gewichtung

Die sog. Propensity-Gewichtung gewichtet nach den mit Ausprägungen der Hilfs-
variablen verbundenen Teilnahmewahrscheinlichkeiten dergestalt, dass Fälle mit
hoher Teilnahmewahrscheinlichkeit niedriger gewichtet und Fälle mit niedriger
Teilnahmewahrscheinlichkeit höher gewichtet werden. Durch diese Form der
Gewichtung wird erreicht, dass ein möglicher Bias, der durch die Korrelation der
594 VII.10 Anpassungsgewichtung

Teilnahmewahrscheinlichkeit mit den Zielvariablen bewirkt wird (vgl. Abschnitt


VII.4.4), reduziert oder sogar beseitigt wird.
Die Wahrscheinlichkeit einer Teilnahme an einer Erhebung kann z.B. mit be-
stimmten Hilfsvariablen wie Geschlecht, Alter, etc. zusammenhängen, indem etwa
Frauen eher an einer Erhebung zu einem bestimmten Thema eher teilnehmen als
Männer. Sind diese Hilfsvariablen wiederum mit Zielvariablen wie z.B. politischen
Einstellungen korreliert, so folgt daraus auch eine Korrelation der Teilnahmewahr-
scheinlichkeit mit diesen Zielvariablen. Durch die Propensity-Gewichtung werden
die Teilnahmewahrscheinlichkeiten für die einzelnen Ausprägungen der Hilfsvari-
ablen wie z.B. „wie z.B. „weiblich“ oder „männlich“ ausbalanciert, so dass auch die
Korrelationen der Zielvariablen mit der Teilnahmewahrscheinlichkeit vermindert
oder sogar aufgehoben wird.
Die Möglichkeit dieser Reduktion durch Propensity-Gewichtung ergibt sich aus
den theoretischen Arbeiten von Rosenbaum und Rubin (vgl. Rosenbaum 2002; Ro-
senbaum & Rubin 1983, 1984; D’Agostini & Rubin 2000, siehe auch Abschnitt I.1.7).
Aus diesen Arbeiten folgt: Wenn das dichotome Ereignis „Teilnahme vs. Nichtteil-
nahme“ nur von den Hilfsvariablen allein und nicht sowohl von den Hilfsvariablen
und den Zielvariablen abhängt (bedingte stochastische Unabhängigkeit), dann sind
die Propensity-gewichteten Hilfsvariablen nicht mehr mit der Variablen Teilnahme
vs. Nichtteilnahme korreliert. Dies gilt dann auch für alle Zielvariablen, die mit den
Hilfsvariablen bzw. allgemein: Kovariaten korreliert sind. Die Propensity-Gewich-
tung ist eine Fallgewichtung, bei der alle Fälle mit der gleichen Ausprägung der
unabhängigen Kovariaten das gleiche Gewicht erhalten. Bezeichnen wir die Teil-
nahmewahrscheinlichkeit eines Elements k mit ρk, so ist das Propensity-Gewicht
definiert als 1 ∕ ρk. Berücksichtigt man die Designgewichte, also die Inversen der in-
dividuellen Inklusionswahrscheinlichkeiten, so ergibt sich als Horvitz-Thompson
Schätzer für das Populationstotal Y:
nr
1 1 yk
YˆHT ¦S yk .
k 1 k Uk S k Uk
Als Schätzer für den Populationsmittelwert ergibt sich dann:

y 1 nr 1 1 yk
HT ¦
N k 1 S k Uk
yk
S k Uk
.

In diesen Formeln bezeichnet nr die Anzahl der Respondenten.


Die zur Bestimmung der Propensity-Scores eingesetzte logistische Regression
wurde in Abschnitt VII.6 zur allgemeinen Modellierung von Ausfallereignissen
vorgestellt.
VII.10 Anpassungsgewichtung 595

Für ein Element k berechnet sich das Propensity-Gewicht also wie folgt:
1
1
¨

§ exp x 'k β ·
¸ .
U xk
¨ 1  exp x 'k β
© ¸
¹
Die logistische Regression liefert für jede Merkmalskombination den dazugehö-
rigen Propensity-Score. Das Problem besteht darin, dass die Merkmale der nicht
teilnehmenden Fälle in der Regel nicht bekannt sind. Für Verweigerer, die also die
Bitte um Teilnahme negativ beantworten, sind die für das Modell notwendigen un-
abhängigen Variablen in der Regel nicht bekannt. Hier hilft eventuell die Nachbe-
handlung von Verweigerern weiter, wobei sich folgende Verfahren anbieten:
1) die Nutzung von Paradaten, wie Anzahl der Kontaktversuche, Informationen
auf Grund von Interviewer-Beobachtungen, Informationen der Screening-Pha-
se, etc.;
2) die Anwendung eines Kurzfragebogens („doorstep questionnaire“) mit Fragen,
die sensitiv in Bezug auf die Unterscheidung von Respondenten und Nichtre-
spondenten sind, unmittelbar nach der Verweigerung;
Die Varianten 1. und 2. werden auch unter dem Namen „basic question approach“
zusammengefasst (vgl. z.B. Bethlehem, 2009, pp.239; für eine Anwendung vgl. Mat-
suo et al., 2010).
Die Propensity-Gewichtung kann allgemein zur Korrektur des durch Selekti-
onseffekte bedingten Bias herangezogen werden. Statt der Betrachtung der indi-
viduellen Propensity Scores, werden in der Regel zwischen 5 und 10 Klassen von
Propensity Scores gebildet.

VII.10.9 Gewichtungen bei Internet-basierten Umfragen

VII.10.9.1 Einleitende Bemerkungen

Ziel der Gewichtungen bei Internet-Umfragen ist die Korrektur des Selektionsef-
fekts und des dadurch bedingten Bias, der durch Unterdeckung und Nonresponse
entsteht. Zahlreiche Rekrutierungsmethoden, etwa über Websites, Banner, etc. ba-
sieren auf Selbstselektion.
Will man Aussagen über die die Gesamtbevölkerung auf der Basis von Inter-
net-Umfragen machen, so muss berücksichtigt werden, dass nur ca. 80% (Stand
596 VII.10 Anpassungsgewichtung

2017; Quelle: Statista) der Gesamtbevölkerung Zugang zum Internet haben und
sich die Nutzer von Nichtnutzern nicht nur in Deutschland, sondern auch in an-
deren Ländern Europas in zentralen soziodemografischen Variablen unterscheiden
(vgl. Mohorko, De Leeuw & Hox, 2013). Allerdings kann die Abdeckung in be-
stimmten Teilgruppen der Bevölkerung sehr hoch sein. So haben gegenwärtig ca.
99% der 18-24jährigen einen Internet-Zugang.
Insofern sich eine Umfrage auf eine Zielpopulation bezieht, die durch eine voll-
ständige Abdeckung des Internetzugangs gekennzeichnet ist, ist der Zugang zu den
Elementen der Grundgesamtheit durch Interviews im Online-Modus grundsätzlich
gegeben. So kann etwa bei bestimmten Zielpopulationen wie etwa Unternehmen
ein entsprechender Zugang vorausgesetzt werden. Auch bei anderen Zielpopulati-
onen wie etwa den Studierenden einer Hochschule kann ein Internetzugang weit-
gehend vorausgesetzt werden, zumal die Hochschulen den Zugang zu den Internet-
diensten für die Studierenden bereitstellen. Allgemeine Hochschulinformationen
und Informationen zu Studium und Lehre müssen von den Studierenden ohnedies
immer abgerufen werden. Das Problem besteht in diesem Fall oft in der Beschaf-
fung einer geeigneten Auswahlgrundlage, da vollständige Listen mit E-Mail-Adres-
sen nicht immer verfügbar sind. Hier hilft manchmal nur ein Offline-Screening,
z.B. telefonisch, mit der Bitte, an der Online-Umfrage teilzunehmen. Gelegentlich
lassen sich die E-Mail-Adressen auch aus dem Netz zusammenstellen.
Für die Beurteilung der Durchführbarkeit von Webinterviews ist allerdings der
Anteil der Haushalte mit Internetzugang nicht ausreichend, da Personen auch auf
anderem Wege als über die Ausstattung des Haushalts einen Zugang zum Inter-
net herstellen können, etwa über Computer in Internet-Cafés, über Mobilfunk,
über Computer an Arbeitsplätzen, in Einrichtungen wie Hochschulen, etc. Für die
Durchführung einer Online-Umfrage ist allerdings nicht nur der Zugang von Inte-
resse, sondern die Verfügbarkeit einer E-Mail-Adresse, über die zur Teilnahme an
der Umfrage eingeladen werden kann.
Im Fall einer Unterdeckung der Zielpopulation durch die Einschränkung auf
den über das Internet interviewbaren Teil der Population entstehen Verzerrungen
in den Daten dadurch, dass sich Internetnutzer von Nichtnutzern in den Zielvaria-
blen systematisch unterscheiden können.
VII.10 Anpassungsgewichtung 597

VII.10.9.2 Postratifikationsgewichtung

Erfolgt die Stichprobenauswahl der Internet-Nutzer nach einem Zufallsdesign,


etwa einer zufallsgesteuerten Offline-Rekrutierung von Internetnutzern auf Basis
einer geeigneten Auswahlgrundlage der Zielpopulation, so kann man eine Kor-
rektur des Mittelwertschätzers durch Poststratifikation erreichen (siehe Abschnitt
VI.3.5.4) und Bethlehem, 2009, pp. 289; Bethlehem, 2010, pp. 174). Sei U eine Ziel-
population, die sich aus folgenden zwei Subpopulationen zusammensetzt: einer
Population UI von Elementen mit Internet-Zugang und einer Population UNI von
Elementen ohne Internetzugang. wobei: U = UI ∪ UNI und UI ∩ UΝΙ = ∅.
Angenommen, die Zielpopulation U sei auf der Basis von einer oder mehreren
geeigneten Hilfsvariablen (z.B. Alter) in H Schichten U1, … , Uh , … , UH zerlegt. Sei
... , U

Nh (h = 1, … , H) die Anzahl der Elemente in der Schicht Nh mit N = N1 + ∙∙∙ + NH.
Sei n der Umfang der Online-Stichprobe und nh die Anzahl der Online-Befragten
in Schicht h. Nimmt man an, dass alle Befragten in einer Schicht mit der gleichen
Wahrscheinlichkeit antworten (RHG-Modell, siehe oben), so kann das Gewicht wk
für ein Element k in Schicht h wie folgt bestimmt werden (vgl. Bethlehem, 2009,
p. 289):

Nh / N
wk .
nh / n
Als gewichteten Stichprobenmittelwert der Online-Stichprobe erhält man:

1 n 1 n Nh / N
y I , PS = ∑
n k =1
wk yk = ∑ yk
n k =1 nh / n
.

Durch Umformung erhält man den Poststratifikationsschätzer für den Mittelwert


für die Teilpopulation der Elemente mit Internetzugang:

1 H H
y I , PS = ∑
N h =1
N h y h = ∑Wh y h ,
h =1

wobei
Wh = Nh ∕ N.
Um den Bias B(− yI,PS) des Schätzers bewerten zu können, der durch die Be-
schränkung auf Fälle mit Internet-Zugang entsteht, müssen wir den Erwartungs-
wert E(− yI,PS) des Schätzers mit dem wahren Populationsparameter − yU vergleichen
(zur Definition des Erwartungswerts eines Schätzers vgl. Abschnitt Teil VI). E(−
yI,PS)
ist definiert wie folgt:
598 VII.10 Anpassungsgewichtung

N1 Nh NH
E ( y I , PS ) = × E ( yU I ,1 ) + " + × E ( yU I , h ) + " + ×
N N N
1 H
E ( yU I , H ) = ∑ N h E ( yU I , h ) .
N h=
Der Bias lässt sich dann wie folgt charakterisieren:
H
B ( y I , PS ) = E ( y I , PS ) − yU = yU I − yU = ∑Wh ( y hU I − y h )
h =1
H H
N NI ,h N
= ∑Wh ( yU I ,h − yU NI ,h ) = ∑ NI ,h ( yU I ,h − yU NI ,h ) .
h =1 Nh h =1 N

In dieser Formel bezeichnen −yhUIden Mittelwert der Elemente mit Internetzugang in


der Schicht Uh, −
yUNI,h den Mittelwert der Elemente ohne Internetzugang in Schicht
Uh und NNI,h die Anzahl der Elemente ohne Internetzugang in der Schicht Uh.
Wie aus der Formel für den Bias zu ersehen ist, hängt er von der Größe der Dif-
ferenz zwischen den Mittelwerten der Teilpopulationen der Elemente mit und ohne
Internetzugang ab. Hat man sehr gute Hilfsvariablen, die eine hohe Korrelation mit
den Zielvariablen aufweisen, so verringert sich diese Differenz. Klar ist zunächst,
dass sich die Mittelwertunterschiede in den Zielvariablen in den Schichten mit sin-
kendem Einfluss der Variablen „Internetzugang-ohne Internetzugang“ verringern.
Dieser Einfluss sinkt wiederum mit steigender Homogenität der Zielvariablen in-
nerhalb der Schichten. Diese wiederum ist von der Stärke des Zusammenhangs
zwischen Hilfsvariablen und Zielvariablen abhängig.

VII.10.9.3 Poststratifikation mit Hilfe eines Referenzsurveys

Eine Methode zur Reduktion des Unterdeckungsfehlers basiert auf dem Vergleich
mit Referenzsurveys. Ein Referenzsurvey ist ein unabhängiger, auf einer Zufalls-
stichprobe beruhender Offline-Survey, der nach Möglichkeit keine Unit-Nonres-
ponse oder zumindest keine nicht-ignorierbare Nichtantwort aufweist. Er sollte auf
jeden Fall erwartungstreue Schätzungen der Populationsparameter erlauben. Bei
Vorliegen ignorierbarer Nichtantwort können zur Korrektur der Schätzer geeignete
Gewichtungen durchgeführt werden. Ein Beispiel für eine Referenzumfrage wäre
z.B. eine telefonische Bevölkerungsumfrage auf der Basis zufällig erzeugter Num-
mern. Die Attraktivität dieses Ansatzes liegt darin, dass die unverzerrte Stichprobe
eines Offline-Surveys genutzt werden kann, um eine sehr viel umfangreichere On-
VII.10 Anpassungsgewichtung 599

line-Stichprobe zu gewichten. In Bezug auf Variablen, die in der Online-Stichprobe


gemessen wurden, erzeugt der Offline-Survey unverzerrte Schätzungen.
Bei der Anwendung auf die Korrektur des Unterdeckungsfehlers übernimmt die
Referenzumfrage gewissermaßen die Rekrutierung des nicht-abgedeckten Teils der
Population und damit die Rolle der Vervollständigung der Auswahlgrundlage. Der
Unterdeckungsfehler lässt sich im Fall einer Korrektur mit Hilfe einer Referenzum-
frage wiederum durch Poststratifikation reduzieren (vgl. hierzu Bethlehem, 2009,
2010; Bösch-Supan, 2004). Dabei werden die Mittelwerte der Schichten durch die
Online-Umfrage geschätzt, während die Schichtgewichte durch die Referenzum-
frage geschätzt werden. Wenn geeignete Hilfsvariablen zur Verfügung stehen, mit
denen eine nachträgliche Schichtung vorgenommen werden kann, lässt sich also
der Poststratifikationsschätzer einsetzen, der im Fall einer einzigen Hilfsvariablen
folgende Form hat:
H
mh
y I , RS = ∑ y I ,h .
h =1 m

Dabei ist mh ∕ m der relative Stichprobenumfang der Referenzumfrage in der Schicht


h und −
yI.h der Mittelwert in der h-ten Schicht der Onlinebefragung. Unter der An-
nahme, das keine Nichtantwort oder keine nicht-ignorierbare Nichtantwort und
damit kein Bias vorliegt, ist mh ∕ mein erwartungstreuer Schätzer von Wh = Nh ∕ N.
Daher ist der Erwartungswert des Schätzers identisch zu dem Schätzer ohne Refe-
renzumfrage. Daraus ergibt sich auch ein identischer Bias (zur Ableitung vgl. Beth-
lehem, 2009: 294). Zur Varianz des Schätzers vgl. Bethlehem, 2009, pp. 294).

VII.10.9.4 Propensity-Gewichtung bei Websurveys

Wie wir in Abschnitt VII.10.7 gesehen haben kann die Propensity-Gewichtung ein-
gesezt werden, um den Bias zu reduzieren, der dadurch entsteht, dass die mit Aus-
prägungen der Hilfsvariablen verbundene Teilnahmewahrscheinlichkeit mit Ziel-
variablen korreliert. Haben wir Ausprägungen von Hilfsvariablen sowohl für die
Teilnehmer als auch für die Nichtteilnehmer einer Webumfrage vorliegen, so kann
man versuchen, durch eine Gewichtung mit Propensity-Gewichten den Bias zu re-
duzieren, der durch Korrelation der Teilnahmewahrscheinlichkeit am Websurvey
mit Zielvariablen entstanden ist. Hilfsinformationen hat man für beide Gruppen
in der Regel vorliegen, wenn im Rahmen eines Zweiphasen-Stichprobendesigns
im Anschluss an eine erste Haupterhebung die Teilnehmer noch einmal gebeten
werden, an einer Webumfrage teilzunehmen. Auch bei Verwendung bestimmter
Auswahlgrundlagen wie z.B. amtlicher Melderegister als Basis für eine schriftliche
600 VII.10 Anpassungsgewichtung

Kontaktaufnahme mit der Bitte zur Teilnahme an einem Websurvey hat man als
Hilfsinformationen zumindest Meldedaten vorliegen. Geht man von einer allge-
meinen Bevölkerungsumfrage aus, die in einem Mode durchgeführt wurde, der
eine vollständige Abdeckung erlaubt, lässt sich der folgende korrigierte Webschät-
zer −
yU,I für den Populationsmittelwert berechnen (vgl. Schonlau et al., 2006; Nota-
tion nach Bethlehem, 2009):
NI
1
yU , I =
NI
∑w
k =1
k ,S w k , prop y k , I ,

wobei NI: Anzahl der Beobachtungen im Websurvey (Teilnehmer + Nichtteilneh-


mer), wk,S: Gewicht des Elements k im Gesamtsurvey S (bestehend aus Designge-
wicht × Anpassungsgewicht), wk,prop=1⁄Uk: Propensity-Gewicht und yk,I: Wert des
Elements k im Websurvey.
Als Designeffekt, der durch die Teilnahme entsteht, ergibt sich:

N I ∑ k =1w k2
n

Deff prop = ,
( )
2

∑ k =1w k
NI

wobei w k = ∑ k =1 w k , Sw k , prop , n: Anzahl der Teilnehmer.


N1

Der oben geschilderte Einsatz von Propensity-Gewichten erfordert das Vorliegen


von Hilfsinformationen sowohl für die Teilnehmer als auch für die Nichtteilneh-
mer. Eine Propensity-Gewichtung lässt sich aber auch zur Korrektur des Selekti-
onsbias verwenden, wenn es sich um eine selbstselektive Internetumfrage, etwa bei
einer Rekrutierung über Banner auf Websites handelt, bei der keine Informationen
über die Nichtteilnehmer vorliegen (vgl. Couper et al. 2004; Danielsson 2004; Lee
2006; Schonlau et al. 2003, 2004). Dabei wird zusätzlich zur Internetumfrage ein
unabhängiger Referenzsurvey auf der Basis einer Zufallsauswahl durchgeführt (sie-
he oben). Geht man davon aus, dass die Referenzumfrage keine Unit-Nonresponse
oder zumindest keine nicht-ignorierbare Nichtantwort beinhaltet, so dass erwar-
tungstreue Schätzer der Populationsparameter nach Design- und Anpassungsge-
wichtung möglich sind, können auf der Basis gemeinsamer Hilfsvariablen, welche
die Unterschiede zwischen Referenzumfrage und Internetumfrage gut erklären
können und nach Durchführung einer logistischen Regression wiederum Propen-
sity-Scores berechnet werden. Das Vorgehen besteht in folgenden Schritten:
Durchführung eines Referenzsurveys;
Durchführung eines Websurveys;
VII.10 Anpassungsgewichtung 601

Zusammenführung der Daten aus dem Websurvey und den an die Population
angepassten Daten des Referenzsurvey;
Bildung der Propensity Scores mit den Hilfsvariablen als Kovariaten;
Ggf. Zerlegung der Propensity Scores in ca. 5 Klassen;
Propensity-Gewichtung der Daten aus dem Websurvey.
Der Propensity Score ist in diesem Fall die Wahrscheinlichkeit, dass ein Befrag-
ter eher an einem Websurvey gegeben die Ausprägung der Hilfsvariablen. Wich-
tig für die Reduktion des Bias ist natürlich wieder, dass eine bedingte stochasti-
sche Unabhängigkeit der Variablen „Teilnahme am Websurvey“ vs. Teilnahme am
Referenzsurvey“ von den Zielvariablen, gegeben eine konkrete Ausprägung der
Hilfsvariablen vorliegt. Nur wenn dies vorausgesetzt werden kann, sind Teilnah-
mewahrscheinlichkeit und Zielvariablen nicht mehr korreliert.
Zentral für das Verfahren sind Hilfsvariablen, welche die Teilnahme am Web-
survey im Vergleich zu Teilnahme am Referenzsurvey gut erklären. Bestimmte
Institutionen wie z.B. das Marktforschungsinstuitut Harris Interactive verwenden
spezifische, sog. webographic questions als Hilfsvariablen. Andere verwenden sog.
psychographic questions, z.B. Einstellungsfragen, Fragen zu Lebensstilen und demo-
graphische Fragen (vgl. Forsman & Varedian 2004). Ein Beispiel für eine psycho-
graphische Frage wäre: „Sind Sie einsam?“ (vgl. Schonlau et al., 2004).
Lee (2006, vgl. auch Lee & Vaillant, 2009) präzisiert die Anwendung bei einem
Websurvey von Teilnehmern eines freiwillig rekrutierten selbstselektiven On-
line-Access-Panels. In diesem Fall ist davon auszugehen, dass über die Nichtteilneh-
mer des Panels keine Hilfsinformationen vorliegen. Daher wird ein Referenzsurvey
als Benchmark herangezogen. Dazu wird die Stichprobe SR der Teilnehmer des Re-
ferenzsurveys mit nR und der Stichprobe sW des Websurveys mit nW Elementen zu
einer Gesamtstichprobe s = sR ∪ sW mit n = nR + nW Elementen vereinigt. Anschlie-
ßend wird eine logistische Regression mit der abhängigen dichotomen Variable
„Teilnahme am Referenzsurvey/vs. Teilnahme am Websurvey“ und unabhängigen
Kovariaten als Hilfsvariablen durchgeführt. Die resultierenden Propensity Scores
werden in C Klassen mit etwa gleich vielen Elementen zerlegt. In einer Klasse c
befinden sich dann ncRTeilnehmer des Referenzsurveys und nWcTeilnehmer des Web-
surveys. Insgesamt besteht einen Klasse c also aus nc = ncR + nWcFällen. Anschließend
wird der folgende Korrekturfaktor berechnet, der die unterschiedlichen Verhältnis-
se der Gewichtssummen zwischen der Referenzstichprobe und der Webstichprobe
ausgleicht, d.h. dass der gewichtete Anteil der Befragten in jeder Klasse des Websur-
veys denen des Referenzsurveys entspricht:
602 VII.10 Anpassungsgewichtung

fc =
∑ k∈scR
dkR / ∑ k∈s RdkR
.
∑ k∈sW
c
dkW / ∑ k∈sW dkW

Unter der Annahme, dass die Gewichte gleich den Inversen der Inklusionswahr-
scheinlichkeiten sind, gilt:

Nˆ cR / Nˆ R
fc
Nˆ cW / Nˆ W

Bei einem Gewicht von 1 ergibt sich für fc :

ncR / n R
fc
nW
c /n
W

Als angepasstes Designgewicht djPSA,W (PSA: propensity adjusted) für die Elemente
des Websurveys ergibt sich dann:

Nˆ cR / Nˆ R W
d PSA
j
,W
f c d Wj dj .
Nˆ cW / Nˆ W

Dabei ist djW das Designgewicht der Einheit j im Websurvey. Die Wirkung des Fak-
tors fc lässt sich an der Berechnung der geschätzten Anzahl der Elemente im Web-
survey erkennen. Es gilt nämlich:

Nˆ cR
Nˆ cPSA ,W ¦d PSA ,W
j Nˆ W R .
jsW
c

Als Schätzer für den Mittelwert einer Zielvariablen y ergibt sich:

¦¦ d PSA
j
,W
yj
y PSA,W c jsW
c
.
¦¦ c jsW
d PSA
j
,W
c
VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren 603

VII.11 Verfahren bei Item-Nonresponse: Imputations-


verfahren

VII.11.1 Einzelverfahren im Überblick

Unter Imputation versteht man die Ersetzung fehlender Werte bei einer oder meh-
reren Zielvariablen. Dabei spielt eine Rolle, in wieweit auf Hilfsinformationen
zurückgegriffen werden kann. Als Ergebnis einer Imputation ergibt sich ein ver-
vollständigter Datensatz (engl.: completed data set). In einem vervollständigten Da-
tensatz weist keine Variable mehr einen fehlenden Wert auf.
Folgende Imputationsverfahren können unterschieden werden:
Ersetzung durch den Gesamtmittelwert:
Bei diesem Verfahren werden alle fehlenden Werte einer Variablen durch den Ge-
samtmittelwert dieser Variablen ersetzt. Das Verfahren liefert zwar einen akzeptab-
len Punktschätzer, führt aber notwendig zu einer Unterschätzung der Varianz und
zu ungültigen Konfidenzintervallen. und sollte, wenn überhaupt, nur bei Variablen
mit sehr wenigen fehlenden Werten eingesetzt werden.
Ersetzung durch Klassenmittelwerte:
Um dieses Verfahren anzuwenden, muss die Menge aller Respondenten, die auf
mindestens ein Item geantwortet haben, auf der Basis von Hilfsvariablen wie z.B.
soziodemographischen Variablen in Klassen von einander ähnlichen Elementen
zerlegt werden. Diese Klassen heißen auch Imputationsklassen. Die fehlenden Wer-
te innerhalb einer Klasse werden dann durch die Klassenmittelwerte ersetzt.
Hot-Deck-Imputation:
Bei Hot-Deck-Verfahren werden die fehlenden Werte von Individuen durch die
Werte anderer Individuen der gleichen Umfrage ersetzt, die dem Individuum ähn-
lich sind. Die Beurteilung der Ähnlichkeit wird auf der Basis bestimmter Merkmale
vorgenommen. Formale Verfahren zur Beurteilung der Ähnlichkeit wäre z.B. das
Verfahren des „nächsten Nachbars“. Sequentielle Hot-Deck-Verfahren funktionieren
in der Weise, dass beim ersten angetroffenen fehlenden Wert, der Datensatz durch-
laufen wird, um den ähnlichsten Fall in der Imputationsklasse zur ermitteln, der
eine auf der betreffenden Variablen eine Antwort gegeben hat. Der fehlende Wert
wird dann durch diesen Wert ersetzt. Bei diesem Verfahren ist nur ein Durchlauf
notwendig. Zur Beurteilung der Ähnlichkeit können auch Distanzmaße verwendet
werden, die sich auf bekannte Hilfsvariablen beziehen.
604 VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren

Cold-Deck-Imputation:
Cold-Deck-Verfahren verwenden Daten aus externen Quellen, z.B. frühere Survey
oder historische Daten, aber nicht aus dem betrachteten Survey selbst.
Zufällige Imputation:
Bei diesem Verfahren wird der fehlende Wert einer Variablen durch den Wert eines
zufällig ausgewählten Befragten auf der gleichen Variablen ersetzt.
Zufällige Imputation innerhalb von Klassen:
Hier wird die zufällige Imputation innerhalb ähnlicher Klassen angewandt.
Regressionsimputation:
Bei der Imputation durch Regression werden die fehlenden Werte durch die vor-
hergesagten Werte einer Regressionsgleichung ersetzt, wobei die Werte der Hilfs-
variablen in geeigneter Weise gewichtet sind. Im Standardfall werden die fehlenden
Werte yˆ k durch die vorhergesagten Werte f(xk) einer linearen Regressionsgleichung
ersetzt. Angenommen, die Elemente 3, 6 und 10 hätten das Item y nicht beantwor-
tet und ferner angenommen, es würden drei Hilfsvariablen x1, x2, x3 zur Verfügung
stehen, so dass x = (x1, x2, x3). Dann würden die fehlenden Werte yˆ k auf Grund der
Beziehung yˆ k f x1k , x 2 k , x 3, k (k = 3, 6, 10) ersetzt werden. Ihre Anwendung
setzt voraus, dass für die fehlenden Werte MAR (siehe Abschnitt VII.10.7.3) gilt.
Ratioimputation:
Die Ratioimputation ist ein Spezialfall der Regressionsimputation. Liegen nur eine
Hilfsvariable x und eine Zielvariable y vor, so dass zwischen beiden eine feste line-
are Beziehung der Form
yk = xkβ
existiert, so gilt für β:


nry
yk
β= k =1
,

nry
k =1
xk

wobei ry die Menge der Elemente, welche das Item y beantwortet haben und nry der
Umfang von ry. Unter dieser Annahme lassen sich fehlende Werte yˆ k gemäß der
Gleichung

yˆ k xk E

ersetzen. Die Annahme einer deterministischen Beziehung der obigen Art stellt
eine sehr strenge Voraussetzung dar. Sie kann z.B. erfüllt sein bei Panelbefragun-
gen, bei denen gewisse Annahmen über die Stabilität gemacht werden können. In
VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren 605

diesem Fall stellen xk die Werte der Zielvariablen zum ersten Messzeitpunkt und yk
die Werte der Zielvariablen zum zweiten Zeitpunkt dar.
Addition eines zufällig ausgewählten Residuums:
Um der Ersetzung auf Grund der deterministischen Regression eine zufällige Kom-
ponente hinzufügen, kann aus der Menge der Residuen ein Residuum zufällig ein
Residuum ausgewählt und auf den Funktionswert hinzuaddiert werden.
Ersetzung durch den nächsten Nachbarn (engl.: nearest neighbour imputation):
In diesem Fall wird ein fehlender Wert durch den Wert eines anderen Elements
ersetzt, das dem Element mit dem fehlenden Wert am ähnlichsten ist. Zur Messung
der Ähnlichkeit können Ähnlichkeits- oder Distanzmaße verwendet werden wie
sie in der Clusteranalyse üblich sind (vgl. z.B. Bacher, 2010). Für metrische Hilfsva-
riablen kann das Euklidische Distanzmaß verwendet werden:
J

∑( x − x kj ) ,
2
Dik = ij
j =1

wobei J die Anzahl der Hilfsvariablen ist.


Multiple Imputation:
Verfahren der multiplen Imputation sind solche, bei denen fehlende Werte nicht
durch einzelne Werte ersetzt werden, sondern bei denen für jeden fehlenden Wert
ein Vektor aus mehreren Werten erzeugt wird. Aus den ersten Elementen der Vek-
toren wird der erste vervollständige Datensatz erzeugt, aus den zweiten Elementen
wird der zweite vervollständigte Datensatz erzeugt, etc. (vgl. Rubin, 1987; Little &
Rubin, 2002, p. 85). Dabei wird D-mal ein Imputationsverfahren für eine einzelne
Ersetzung angewendet, was zu D vervollständigten Datensätzen führt. Für jeden
vervollständigten Datensatz kann eine Schätzung des gleichen Parameters, z.B.
Mittelwert, durchgeführt werden. Aus den Schätzungen der einzelnen imputierten
Datensätze wird dann eine einzige Schätzung konstruiert (vgl. Abbildung VII.16).
606 VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren

Abbildung VII.16: Funktionsweise der multiplen Imputation

Voraussetzung für die Anwendung der multiplen Imputation ist die Ignorierbarkeit
des Ausfallmechanismus (vgl. Abschnitt VII.10.7.3). Bei der multiplen Imputation
kann eine gepoolte Varianzschätzung als Grundlage für eine Intervallschätzung be-
rechnet werden. Die Variabilität zwischen den imputierten Datensätzen ist ein Maß
für die Unsicherheit der Schätzung, die mit der Imputation verbunden ist.
Imputation auf der Grundlage von Expertenurteilen:
Die Ersetzung von fehlenden Werten auf der Grundlage von Expertenurteilen er-
scheint vor allem dann gerechtfertigt, wenn einzelne fehlende Werte Element für
Element ohne eine Referenzgruppe von ähnlichen Fällen vorgenommen werden
müssen oder wenn das Element besondere einzigartige Züge aufweist. Hierbei
kann man sich durchaus die Anwendung formaler Verfahren zur Erlangung ei-
nes gemeinsamen Urteils mehrerer Experten vorstellen, wie den Einsatz der Del-
phi-Methode (vgl. Häder, 2002).
Alle Verfahren, die nicht auf der Grundlage von Expertenurteilen erfolgen, hei-
ßen auch statistische Imputationsverfahren. Unter den statistischen Imputationsver-
fahren zeichnen sich einige Verfahren wie z.B. das Nearest-Neighbour-Verfahren
dadurch aus, dass die Imputationswerte durch ein anderes Element (sog. Spen-
derelemente; engl.: donor) geliefert werden.
VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren 607

Statt der Verwendung von Imputationsverfahren wird oft auch die paarweise
und listenweise Löschung von fehlenden Werten angewendet. Voraussetzung für
diese Art von Umgang mit fehlenden Werte ist, dass die Werte MCAR-erzeugt
sind, d.h. die Verteilung der fehlenden Werte nicht von den beobachteten Daten,
sondern nur von den Verteilungsparametern abhängt. Außerdem sollten diese Ver-
fahren nur bei einer geringen Anzahl fehlender Werte angewendet werden, da mit
wachsender Anzahl fehlender Daten der Standardfehler der Schätzer für die Para-
meter zunimmt.

VII.11.2 Das Verhältnis von Gewichtung und Imputation

Gewichtungen und Imputation lassen sich in unterschiedlicher Weise miteinan-


der verbinden, wobei drei alternative Ansätze unterschieden werden können (vgl.
Särndal & Lundström 2005, pp.156):
• der volle Imputationsansatz (engl.: full imputation approach)
• der kombinierte Ansatz (Kalibrierung)
• der vollen Gewichtungsansatz (engl.: full weighting approach)

Der volle Imputationsansatz:


Beim vollen Imputationsansatz werden alle fehlenden Werte ersetzt, unabhängig
davon, ob sie auf Grund von Unit-Nonresponse oder Item-Nonresponse fehlen.
Es sollte nicht vergessen werden, dass auch Unit-Nonresponse auf der Basis von
Imputationsverfahren korrigiert werden kann. Für den vervollständigten Daten-
satz können alle deskriptiven Statistiken wie arithmetisches Mittel, Varianz, etc.
berechnet werden, die sich notwendigerweise von den Statistiken, die auf der Basis
des unvollständigen Datensatzes berechnet werden, unterscheiden. Nach Vervoll-
ständigung des Datensatzes, der nunmehr weder Unit- noch Item-Nonresponse
enthält, hat der Horvitz-Thompson-Schätzer für das Populationstotal Y bezogen
auf die vervollständigten Daten die folgende Form:

YˆHT ¦dy
s
k •k ¦ ri
d k y k  ¦ s  ri d k yˆ k ,

wobei s die Ausgangsstichprobe, ri die Menge der Elemente, die Item i beantwortet
haben, s  −  ri die Menge der Elemente, die auf Grund von Uni- oder Item-Non-
response bezüglich Item i fehlende Werte aufweisen, dk das Designgewicht (in-
verse Inklusionswahrscheinlichkeit), y·k Werte des vervollständigen Datensatzes
608 VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren

mit y·k  = yk, wenn keine Werte fehlen und y •k yˆ k , wenn der Wert fehlte. Eine ent-
sprechende Zerlegung gibt es auch für den GREG-Schätzer (vgl. Abschnitt VI.3).
Der kombinierte Ansatz:
Der Normalfall bei der Anwendung von Imputationsverfahren zur Korrektur von
Schätzungen unter Nonresponse besteht in der Kombination von Imputation und
Gewichtung: Zunächst wird der Datensatz in Bezug auf Item-Nonresponse mit
Hilfe der Imputation vervollständigt, anschließend wird der vervollständigte Da-
tensatz hinsichtlich Unit-Nonresponse gewichtet. Särndal und Lundström, 2005,
p. 158) zeigen, wie beim kombinierten Verfahren der Item-imputierte Kalibrie-
rungsschätzer (engl.: item imputed calibration estimator) YˆIW des Populationstotals
aussieht:.

YˆIW ¦dv
r
k k y •k ¦ ri
dk v k y  ¦ r  ri dkv k yˆ k ,

wobei r die Menge der Respondenten in der Ausgangsstichprobe s, r − ri die Menge
der Respondenten, die Item i nicht beantwortet haben. dkvk sind die Kalibrierungs-
gewichte (siehe Abschnitt 10.5.3). vk muss der Kalibrierungsbedingung

∑r d v x  = X,
k k k

genügen. xk ist hier wieder der Vektor der Werte der Hilfsvariablen für Element k
und X der Vektor der Populations-Totale für die J Hilfsvariablen.
Der volle Gewichtungsansatz:
Beim vollen Gewichtungsansatz wird auf die Imputation ganz verzichtet und nur
noch gewichtet. Dieser Gedanke liegt nahe, wenn die gleichen Hilfsvariablen für
Unit- und Item-Nonresponse verwendet werden. In diesem Fall müssen durch die
Gewichtung die Populationstotals der Hilfsvariablen reproduziert werden, d.h. es
muss gelten:

∑r  d v x  = X,
i
k ik k

xk ist hier auch wieder der Vektor der Werte der Hilfsvariablen für Element k und X
der Vektor der Populationstotals für die J Hilfsvariablen. vik sind Gewichte, welche
die obige Gleichung erfüllen. Für den vollen Gewichtsschätzer ergibt sich dann
YFW =  ∑r  d v y.
i
k ik
VII.12 Zusammenfassung 609

VII.12 Zusammenfassung

Eine der bittersten Pillen, die bei Umfragen in mehr oder weniger großem Aus-
maß geschluckt werden muss und die die Umfragequalität nachhaltig gefährden
können, ist das Auftreten von Nonresponse (vgl. Kreuter, 1913a). Zwar hilft uns
hier die Mathematik, indem sie Verfahren der Nonresponse-Gewichtung anbietet;
dies setzt aber nicht nur voraus, dass geeignete Hilfsvariablen vorhanden sind, son-
dern auch, dass diese Variablen mit den inhaltlich interessierenden Zielvariablen
zusammenhängen. Dieser Zusammenhang lässt sich nicht immer theoretisch und/
oder empirisch begründen und gilt sicherlich nicht durchgängig für alle Hilf- und
Zielvariablen. Um das Ausmaß an Nonresponse von vornhinein zu reduzieren
sollten Maßnahmen zur Erzeugung einer erhöhten Erreichbarkeit und Koopera-
tionsbereitschaft ergriffen werden. Geeignete Maßnahmen sind eine Umsetzung
der einschlägigen Erkenntnisse über die Determinanten der Teilnahmebereitschaft
sowie die Beachtung der Ergebnisse einschlägiger wissenschaftlicher Studien (sie-
he Abschnitt VII.7 und VII.8). Zusätzlich sollte versucht werden für eine spätere
Gewichtung und für die Charakterisierung der Merkmalsunterschiede zwischen
Respondenten und Nichtrespondenten möglichst viele Informationen über die
Nichtrespondenten zu sammeln. Auf Ebene der Item-Nonresponse sollten zur Kor-
rektur nach Möglichkeit Verfahren der multiplen Imputation verwendet werden.
In Panelstudien können die Einflussvariablen auf die Teilnahme/Nichtteilnahme in
späteren Wellen durch die Variablen der vorherigen Welle oder Wellen identifiziert
werden.
VIII. Epilog
Die Realisation von Umfragen basiert auf einigen Grundprinzipien des Menschen
und der Gesellschaft. Dazu gehören insbesondere:
• Motive bestimmter Akteure, zuverlässige Informationen über Menschen und
die menschliche Gesellschaft insgesamt zu erhalten;
• Eine Gesellschaft mit sehr vielen Mitgliedern, die nur mit einem sehr großen
Aufwand in ihrer Gesamtheit untersucht werden kann;
• Ein Sprachsystem, in dem Menschen Aspekte ihres Zustands sprachlich zum
Ausdruck bringen können und Zustandsäußerungen anderer in eigene Zu-
standsvermutungen über deren Zustände übersetzen zu können.
• Die Bereitschaft, mit bestimmten anderen über bestimmte Informationskanäle
zu einem bestimmten Zeitpunkt in eine Kommunikation über ein bestimmtes
Thema einzutreten.
Da Art und Weise der konkreten Ausgestaltung dieser Prinzipien von kulturellen,
gesellschaftlichen und menschlichen Kontexten abhängen kann, kann bei Planung,
Durchführung und Ergebnisinterpretation die Betrachtung von Kontextfaktoren
relevant werden.
Jeder der oben erwähnten Aspekte unterliegt inner- und interindividueller Va-
riation, deren Ursachen wir in der Regel nicht vollständig erfassen können und die
daher dem nicht weiter auflösbaren „Zufallsrest“ zugeschlagen wird. Insbesondere
hängt die Variation von Messungen und von Statistiken von Auffassungen darü-
ber ab, was wohl der „wahre“ Wert gewesen sein mag: der wahre Populationswert,
der wahre Wert der Gesamtstichprobe unter Einbeziehung der Nichtrespondenten
oder die wahre Messung bestimmter Eigenschaften. Die statistischen Verfahren zur
Minimierung der Abweichungen von den wahren Verhältnissen stellen Reparatur-
mechanismen mit einer unterschiedlichen „repairing efficiency“ dar. Diese Repa-
raturmechanismen beruhen in der Regel wiederum auf bestimmten theoretischen
Annahmen.
Das Vertrauen in die Ergebnisse von Umfragen hängt nicht zuletzt davon ab,
wie transparent die eingesetzten Methoden einschließlich der Reparaturmethoden
nach außen vermittelt werden, so dass offenbar wird, wo eventuelle Schwächen der
Erhebung lagen bzw. wo es noch Restschwächen gibt. Hier erweisen sich vor allem
Dokumentationen der einzelnen Schritte des Umfrageprozesses (vgl. Abschnitt I.2)
als sinnvoll und hilfreich. Es wurde mehrfach darauf hingewiesen, dass eine Dis-
krepanz zwischen Ideal und Wirklichkeit eher die Regel ist. Es wäre aber abwegig,

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 611
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_8
612

bei Planung und Durchführung von Umfragen bereits von einer Diskrepanz auszu-
gehen und so das Bemühen um eine besonders gute Umfragequalität zu bremsen.
Umfragen sind stets von Zugängen zu Geräten für die Kommunikation abhän-
gig. Gegenwärtig scheint noch nicht absehbar, welche Möglichkeiten der Kom-
munikation mit Befragten zukünftig zur Verfügung stehen werden und wie die
Abdeckung der Bevölkerung mit diesen Zugangsformen aussehen wird. So kann
durchaus nicht ausgeschlossen werden, dass andere Formen der gesellschaftlichen
Organisation von Zugängen zu Kommunikationsmedien irgendwann auch Total-
erhebungen der Gesamtpopulation ermöglichen könnten. Ähnliches gilt auch für
die interkulturelle Kommunikation.
Nahezu alle Schritte des Umfrageprozesses können nicht nur durch methodi-
sche und technologische Entwicklungen, sondern auch durch gesellschaftliche Ent-
wicklungen beeinflusst werden. In diesem Sinn konnte das vorliegende Buch nur
eine Momentaufnahme liefern.
Literatur
Aalen, O.O., Borgan, Ø. & Gjessing, H. (2008). Survival and event history analysis. New York:
Springer.
AAPOR (2011) Standard definitions. <www.aapor.org >.
Aellig, S. (2004). Flow. Über den Sinn des Unsinns: Flow-Erleben und Wohlbefinden als Anreize
für autotelische Tätigkeiten. Münster: Waxman.
Ahmavaara, Y. (1954a). The mathematical theory of factorial invariance under selection. Psy-
chometrika, 19, 27-38.
Ahmavaara, Y. (1954b). Transformational analysis of factorial data. Annales Academiae Scien-
tarum Fennicae, 88, 1-150.
Aijzen, I. (2005). Attitudes, personality and behavior (2nd edition). Maidenhead, UK:
McGraw-Hill International Open University Press.
Aijzen, I. & Krebs, D. (1994). Attitude theory and measurement. In I. Borg & P.P. Mohler
(Eds.), Trends and perspectives in empirical social research (pp. 250-265). New York: de
Gruyter.
Alonso, G. et al. (2004). Web services: Concepts, architecture, and applications. New York:
Springer.
Alwin, D.F. (2011). Evaluating the reliability and validity of survey interview data using The
MTMM approach. In J. Madans et al. (Eds.), Question evaluation methods (pp. 263-293)
Hoboken: John Wiley.
Alwin, D.F. (2014). Investigating response errors in survey data. Sociological Methods & Re-
search, 43, 3-14.
Alwin, D.F. (2007). Margins of error: A study of reliability in survey measurement. Hoboken
NJ: John Wiley
Alwin, D.F. & Jackson, D.J. (1980). Measurement models for response errors in surveys: Issu-
es and applications. In K. Schuessler (Ed.), Sociological Methodology 1980. San Francisco:
Jossey Bass.
Alwin, D.F. & Krosnick, J.A. (1991). The reliability of survey attitude measurement: The influ-
ence of question and respondent attributes. Sociological Methods & Research, 20, 139-181.
Amaya, A. et al. (2015). Where to start. An evaluation of primary data-collection modes in an
Address-based sampling design. Public Opinion Quarterly, 79, 420–442.
Andreß, H.-J., Golsch, K. & Schmidt, A.W. (2013). Applied panel data analysis for economic
and social surveys. New York: Springer.
Andrews, F.M. (1984). Construct validity and error components of survey measures: A struc-
tural equation approach. Public Opinion Quarterly, 48, 409-442.
Aquilino, W.S. (1992). Telephone vs. face-to-face interviewing for household drug use sur-
veys. International Journal of Addiction, 27, 71-91.
Aquilino, W.S. & LoSciuto, L.A. (1990). Effects of interview mode on self-reported drug use.
Public Opinion Quarterly, 54, 362-395.
Aquilino, W.S., Wright, D.L.& Supple, A.J. (2000). Response effects due to bystander presen-
ce in CASI and Paper-and-Pencil surveys of drug use and alcohol use. Substance Use &
Misuse 35, 845-867.

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 613
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1
614 Literatur

Arbeitsgruppe Regionale Standards (2013). Regionale Standards. Köln: GESIS-Leibniz- Ins-


titut für Sozialwissenschaften.
Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V. (2013). Stichprobenverfah-
ren in der Umfrageforschung (2. Auflage). Wiesbaden: Springer VS.
Arbuckle, J.L. (2011). Amos 20 reference guide. Amos development Corporation.
Arminger, G., Clogg, C.C. & Sobel, M.E. (1995). Handbook of statistical modeling for the social
and behavioral sciences. London: Plenum Press.
Arminger, G. & Stein, P. (1997). Finite mixures of covariance structure models with regres-
sors. Sociological Methods & Research, 26, 148-182.
Atkins, L. & Jarret, D. (1979). The significance of “significance tests”. In J. Irvine, I. Miles & J.
Evans (Eds.). Desmystifiying social statistics (pp. 87-109). London: Pluto.
Austin, J.L. (1962). How to do things with words. Oxford: Oxford University Press.
Ayidiya, S.A. & McClendon, M.J. (1990). Response effects in mail surveys. Public Opinion
Quarterly, 54, 229-247.
Bacher, J. (2002). Statistisches Matching: Anwendungsmöglichkeiten, Verfahren und Ihre
Umsetzung in SPSS. ZA-Informationen, 51, 38-66.
Backhaus, K. et al. (2006). Multivariate Analysemethoden (11. Auflage). New York: Springer.
Baio, G., Blangiardo, G.C. & Blangiardo, M. (2011). Centre sampling techniques for foreign
migration surveys: A methodological note. Journal of Official Statistics, 27, 451-465.
Baker, R.P., Bradburn, N.M. & Johnson, R.A. (1995). Computer-assisted personal interview-
ing: An experimental evaluation of data quality and costs. Journal of Official Statistics, 11,
413-431.
Bandilla, W. (1999). WWW-Umfragen - Eine alternative Erhebungstechnik für die empiri-
sche Sozialforschung? In B. Batinic et al. (Hrsg.), Online Research. Methoden, Anwendun-
gen und Ergebnisse (S. 9-19). Göttingen: Hogrefe.
Bandilla, W. & Bosnjak, M. (2000). Online-surveys als Herausforderung für die Umfragefor-
schung: Chancen und Probleme. In P. Mohler & P. Lüttinger (Hrsg.), Querschnitt: Fest-
schrift für Max Kaase (S. 9-28). Mannheim: ZUMA.
Bankier, M.D. (1986). Estimators based in several stratified samples with applications to ´to
multiple frame surveys. Journal of the American Statistical Association, 81, 1074-1079.
Barrios, M. et al. (2010). Response rates and data quality in web and mail surveys adminis-
tered to PhD Holders. Social Science Computer Review, 29, 208-220.
Bartels, L.M. (2002). Question order and declining faith in elections. Public Opinion Quar-
terly, 66,67-79.
Bassili, J.N. (1996) The “How” and “Why” of Response Latency Measurement in Survey Re-
search. In N. Schwarz & S. Sudman (Eds.), Answering questions: Methodology for determi-
ning cognitive and communicative processes in survey research (S. 319-346). San Francisco:
Jossey-Bass.
Batinic, B. & Bosnjak, M. (2000). Fragebogenuntersuchungen im Internet. In B. Batinic
(Hrsg.), Internet für Psychologen (S. 287-318). Göttingen: Hogrefe.
Baumeister, R.F., Masicampo, E.J. & Vohs, K.D. (2011). Doc conscious thoughts cause beha-
vior? Annual Review of Psychology, 62, 331-361.
Baumrind, D. (1983). Specious causal attributions in the social sciences: The reformulated
Steeping-stone theory of heroin drug use as exemplar. Journal of Personality and Social
Psychology, 45, 1289-1298.
Literatur 615

Bavdaž, M. (2010). The multidimensional integral business survey response model. Survey
Methodology, 36, 81-93.
Beatty, P. (1995). Understanding the standardized/non-standardized interviewing controver-
sy. Journal of Official Statistics, 11, 147–160.
Beebe, T.J. et al. (2007). Mixing web and mail methods in a survey of physicians. Health Ser-
vices Research, 42, 1219-1932.
Behr, D. et al. (2012). Asking probing questions in web surveys: Which factors have an impact
on the quality of responses. Social Science Computer Review, 30, 487-498.
Belli, R.F., Bilgen, I. & Al Baghal, T. (2013). Memory, communication, and data quality in
calendar interviews. Public Opinion Quarterly, 77, 194–219.
Belli, R.F., Shay, W.L. & Stafford, F.P. (2001). Event history calendars and question list surveys.
Public Opinion Quarterly, 65, 45–74.
Belson, W.A. (1966). The effects of reversing the presentation order of verbal rating scales.
Journal of Advertising Research, 6, 30-37.
Benford, F. (1938). The law of anomalous numbers. Proceedings of the American Philosophical
Society, 78, 551-572.
Bentler, P.M. (1988). Comparative fit indexes in structural models. Psychological Bulletin, 107,
238-246.
Bentler, P. M. (2006). EQS 6 structural equations program manual. Encino, CA: Multivariate
Software
Bentler, P.M. & Bonett, D.G. (1980). Significance tests and goodness of fit in the analysis of
covariance structures. Psychological Bulletin, 88, 588-606.
Bentler, P.M. & Chou, C.-P. (1987). Practical issues in structural equation modeling. Sociolo-
gical Methods & Research, 16, 78-117.
Bentler, P.M. & Weeks, D.G. (1980). Linear structural equations with latent variables. Psycho-
metrika, 45, 289-307.
Bentler, P.M. & Woodward, J.A. (1980). Inequalities among lower bounds to reliability: With
applications to test construction and factor analysis. Psychometrika, 45, 249–267.
Bergmann, L.R. et al. (1994). Decentralised CATI versus paper and pencil interviewing: Ef-
fects of the results in the Swedish labor force surveys. Journal of Official Statistics, 10,
181-195.
Bernstein, R., Chada, A. & Montjoy, R. (2001). Overreporting voting: Why it happens and
why it matters. Public Opinion Quarterly, 65, 22-44.
Bethlehem, J.G. (1999). The routing structures of questionnaires. In C. Christie & J. Francis
(Eds.), Compilation (pp. 405-418). London: Association of Survey Computing.
Bethlehem, J.G. (2000). The routing structure of questionnaires. International Journal of Mar-
ket Research, 42, 95-110.
Bethlehem, J.G. (2004). TADEQ: A tool for the documentation and analysis of electronic
questionnaires. Journal of Official Statistics, 20, 233-264.
Bethlehem, J.G. (2010). Selection bias in web surveys. International Statistical Review, 78,
161–188.
Bethlehem, J.G., Cobben, F. & Schouten, B. (2011). Handbook of nonresponse in household
surveys. Hoboken, NJ: John Wiley.
Biemer, P.P. & Berzofsky, M. (2011). Some issues in the application of latent class models for
questionnaire design. In J. Madans et al. (Eds.), Question evaluation methods (pp. 153-
185). Hoboken, NJ: John Wiley.
616 Literatur

Biemer, P.P. & Lyberg, L.E. (2003). Introduction to survey quality. New York: John Wiley.
Biemer, P.P. et al. (Eds.) (2017). Total Survey Error in Practice. Hoboken, NJ: Wiley.
Bien, W. & Marbach, J.W. (Hrsg.) (2008). Familiale Beziehungen, Familienalltag und soziale
Netzwerke. Wiesbaden. Springer VS.
Billiet, J. (2003). Cross-cultural equivalence with structural equation modeling. In J.A. Har-
kness, F.J.R. Van de Vijver, & P.Ph. Mohler, (Eds.) (2003). Cross-cultural survey methods
(pp. 247-263). Hoboken, NJ: John Wiley.
Birkett, N.J. (1986). Selecting the Number of Response Categories for a Likert-type scale. Pro-
ceedings of the American Statistical Association 1987 Annual Meetings, Section on Survey
Research Methods.
Birnbaum, M.H. (2000a). Decision making in the lab and on the web. In M.H. Birnbaum
(ed.), Psychological experiments in the internet (pp. 3-34). San Diego: Academic Press.
Birnbaum, M.H. (2000b). SurveyWiz and FactorWiz: JavaScript web pages that make HTML
forms for research in the internet. Behavior Research Methods. Instruments, and Compu-
ters, 32, 339-346.
Birnbaum, M.H. (2001). A web-based program of research on decision making. In U.-D.
Reips & M. Bosnjak (Eds.), Dimensions of internet science (pp. 32-55). Lengerich: Pabst.
Birnbaum, M.H. (2004). Human research and data collection via internet. Annual Review of
Psychology, 55, 803-832.
Birnholtz, J.P. et al. (2004). The effects of cash, electronic, and paper gift certificates as incen-
tives for a web-based survey of technologically sophisticated respondents. Social Science
Computer Review, 22, 355-362.
Bishop, G. (1990). Issue involvement and response effects in public opinion surveys. Public
Opinion Quarterly, 54, 209-218.
Bishop, G. F. Oldendick, R.W. & Tuchfarber, A.J. (1983). Effects of filter questions in public
opinion surveys. Public Opinion Quarterly, 47, 528–46.
Bishop, G., Oldendick, R. & Tuchfarber, A. (1986). Opinions on fictitious issues: The pressure
of answer survey questions. Public Opinion Quarterly, 50, 240-250.
Bishop, G. et al. (1988). A comparison of response effects in self-administered and telephone
surveys. In Groves, R.M. et al. (Eds.), Telephone survey methodology (pp. 321-340). New
York: John Wiley.
Blair, J. et al. (2006). The effect of sample size on cognitive interview findings. Paper presen-
ted at the Annual conference of the American Association of Public Opinion Research,
Montreal.
Blair, G., Imai, K. & Zhou, Y.-Y. (2015). Design and analysis of the randomized response
technique. Journal of the American Statistical Association, 110, 1304-
Blair, E. & Blair, J. (2006). Dual frame web-telephone sampling for rare groups. Journal of
Official Statistics, 22, 211-229.
Blair, J. & Conrad, F.G. (2011). Sample size for cognitive interview pretesting. Public Opinion
Quarterly, 75, 636–658.
Blair, J. & Czaja, R. (1982). Locating a special population using random digit dialing. Public
Opinion Quarterly, 46, 585-590.
Blank, T. & Wasmer, M. (1996). Gastarbeiter oder Ausländer? Ergebnisse des Splits mit den
reformulierten Gastarbeiterfragen im ALLBUS. ZUMA-Nachrichten, 38, 45-69.
Blau, P. (1964). Exchange and power in social life. New York: John Wiley.
Literatur 617

Blohm, M. & Koch, A. (2013). Der Einsatz von Befragten-Incentives in einer bundesweiten
face-to-face-Umfrage. mda, 7, 89-122.
Blohm, M., Hox, J. & Koch, A. (2006). The influence of interviewer’s contact behavior on the
Contact and cooperation rate in face-to-face household surveys. International Journal of
Public Opinion Research, 19, 97-111.
Blossfeld, H.P. & Rohwer, G. (2002). Techniques of event history modeling. Mawah, NJ: Erl-
baum
Blossfeld, H.P., Hamerle, A. & Mayer, K.U. (1988). Ereignisanalyse. Frankfurt am Main: Cam-
pus.
Blumer, H. (1956). Sociological analysis and the variable. American Sociological Review, 22,
689-690.
Blyth, B. (1997). Developing a speech recognition application for survey research. In L. Ly-
berg et al. (Eds.), Survey measurement and process quality (pp. 249-266). New York: John
Wiley.
Börkan, B. (2009). The mode effect in mixed mode surveys: Mail and web surveys. Social
Science Computer Review, 28, 371-380.
Börsch-Supan, A. et al. (2004). Correcting the participation bias in an online survey. (Report).
München: Universität München.
Bohrnstedt, G.W. & Knoke, D. (1988). Statistics for social data analysis. Itasca, Ill: Peacock.
Bohrnstedt, G.W., Mohler, P. Ph. & Müller, W. (Eds.) (1987). An empirical study of the reliabi-
lity and stability of survey research items. Sociological Methods & Research, 15.
Bollen, K.A. (1989). Structural equations with latent variables. New York: Wiley.
Borg, I. (2000). Explorative multidimensionale Skalierung (ZUMA How-to-Reihe Nr. 1).
Mannheim: ZUMA.
Borg, I. (2003). Führungsinstrument Mitarbeiterbefragung (3. überarbeitete Auflage). Göttin-
gen: Hogrefe.
Borg, I. & Groenen, P. (2010). Modern multidimensional scaling (2. Auflage). New York:
Springer.
Borg, I. & Shye, S. (1995). Facet theory: Form and content. Newbury Hill, CA: Sage.
Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation (4. Auflage). Berlin: Sprin-
ger.
Boruch, R.F. (1971). Assuring confidentiality of responses in social research: A note on stra-
tegies. American Sociologist, 6, 308-311.
Bosnjak, M. (1997). Internetbasierte, computervermittelte Fragebogenuntersuchungen. St. Au-
gustin: Gadez Verlag.
Bosnjak, M. (2002). (Non)Response bei Web-Befragungen. Aachen: Shaker.
Bosnjak, M., Metzger, G. & Gräf, L. (2010). Understanding the willingness to participate in
mobile surveys: Exploring the role of utilitarian, affective, hedonic, social, self-expressive
and trust-related factors. Social Science Computer Review, 28, 350-370.
Bosnjak, R., Tuten, T.L. & Bandilla, W. (2001). Participation in Web.surveys – A typology.
ZUMA-Nachrichten, 48, 7-17.
Bosnjak, M. et al. (2008). Prenotification in Web-based access panel surveys: The influence
of mobile text messaging versus e-Mail on response rates and sample composition. Social
Science Computer Review, 26, 213-223.
Boulianne, J. (2013). Examining the gender effects of differential incentive amounts in a web
survey. Field Methods, 25, 91-104.
618 Literatur

Boudon, R. (1979). Generating models as a research strategy. In R.K. Merton, J.S. Coleman
& P.H. Rossi (Eds.), Qualitative and quantitative research (pp. 51-64). New York: The Free
Press.
Boyle, T. et al. (2012). Response fraction: A study and meta-analysis. Field Methods, 24, 112-
132.
Braun, M. (2000). Evaluation der Äquivalenz eines gemeinsamen Satzes an Indikatoren in der
interkulturell vergleichenden Sozialforschung. (ZUMA How-to-Reihe Nr. 3). Mannheim:
ZUMA.
Braun, M. & Harkness, J. (2005). Text and context: Challenges to comparability in survey
Questions (ZUMA-Nachrichten Spezial Band 11, S. 95-107). Mannheim: ZUMA.
Bredenkamp. J. (1969). Experiment und Feldexperiment. In C.F. Graumann, (Hrsg.). Hand-
buch der Psychologie, 7. Band: Sozialpsychologie. 1. Halbband: Theorien und Methoden
(S.322-374). Göttingen: Hogrefe.
Brick, J.M. & Lepkowski, J.M. (2008). Multiple mode and frame telephone surveys. In J.M
Lepkowski et al. (Eds.), Advances in telephone survey methodology (pp. 149-169). Hobo-
ken, NJ: John Wiley.
Brick, J.M. et al. (2007). Cell phone survey feasibility in the U.S.: Sampling and calling cell
numbers versus landline numbers. Public Opinion Quarterly, 71, 23-39.
Brick, J.M. & Williams, D. & Montaquila, J.M. (2011). Address-based sampling of subgroups.
Public Opinion Quarterly, 75, 409-428.
Bundesministerium für Familie, Senioren, Frauen und Jugend (2012). Familienatlas 2012.
Berlin: Bundesministerium für Familie, Senioren, Frauen und Jugend.
Burger, C. et al. (2010). Reaching the mobile respondent. Determinants of high-level mobile
phone use among a high-coverage group. Social Science Computer Review, 28,336-349.
Burt, R.S. (1984). Network items and the General Social Survey. Social Networks, 6, 293-339.
Buskirk, T.D. & Andrus, C.H. (2014). Making mobile browser surveys smarter: Results from
a randomized experiment comparing online surveys completed via computer or smart-
phone. Field Methods, 26, 322-342.
Byrne, B.M. (1998). Structural equation modeling with LISREL, PRELIS, and SIMPLIS. New
York, NY: Routledge.
Byrne, B.M. (2006. Structural equation modeling with EQS (2nd edition). New York, NY:
Routledge.
Byrne, B.M. (2010). Structural equation modeling with AMOS. New York, NY: Routledge.
Byrne, B.M. (2012). Structural equation modeling with Mplus. Basic concepts, applications,
and programming. New York, NY: Routledge
Callegaro, M. et al. (2007). Fitting disposition codes to mobile phone surveys: Experiences
of studies in Finland, Slovenia and the USA. Journal of the Royal Statistical Association A,
170, 647-670.
Campanelli, P. & O’Muircheartaigh, C. (2002). The importance of experimental control in
testing the impact of interviewer continuity on panel survey nonresponse. Quality and
Quantity, 36, 129-144.
Campbell, D.T. & Fiske, D.W. (1959). Convergent and discriminant validation by the multi-
trait-multimethod matrix. Psychological Bulletin, 56, 81-105.
Campbell, D.T. & Stanley, J.C. (1963). Experimental and quasi-experimental designs for re-
search. Chicago: Rand MacNally.
Literatur 619

Cannell, C.F., Fowler, F.J. & Marquis, K.H. (1968). The influence of interviewer and respondent
psychological and behavioral variables in the reporting of household interviews. Vital and
Health Statistics, Series 2, No. 26.
Carley-Baxter, L.S., Peytchev, A. & Black, M.C. (2010). Comparison of cell phone and land-
line survey: A design perspective. Field Methods, 22, 3-15.
Carnap, R. (1956). The methodological character of theoretical concepts. In H. Feigl & M.
Scriven (Eds.), Minnesota Studies in the Philosophy of Science I (pp. 38-76). Minneapolis:
University of Minnesota Press.
Casady, R.J. & Lepkowski, J.M. (1991). Optimal allocation for stratified telephone survey de-
sign. Proceedings of the Section on Survey Research Methods (111-116). American Statisti-
cal Association.
Catlin, G. & Ingram, S. (1988). The effects of CATI on costs and data quality: A comparison
CATI and paper methods on centralized interviewing. In R.M. Groves et al. (Eds.), Tele-
phone survey methodology (pp. 437-450). New York: John Wiley.
Caviglia-Harris, J. et al. (2012). Improving household surveys through computer-assisted
data Collection: Use of touchscreen laptops in challenging environments. Field Methods,
24, 74-94.
Champney, H. & Marshall, H. (1939). Optimal refinement of rating scales. Journal of Applied
Psychology, 23, 323-331.
Chapman, D.W. & Weinstein, R.B. (1990). Sampling design for a monitoring plan for CATI
interviewing. Journal of Official Statistics, 6, 205-211.
Chaudhuri, A. (2010). Randomized response and indirect questioning techniques in surveys.
Boca Raton, FL: CRC Press.
Cherry, C. (1957). On human communication. A review, a survey and a criticism. London:
Chapman & Hall.
Christen, P. (2012). Data matching. New York: Springer.
Church, A. (1993). Estimating the effect of incentives on mail survey response rates: A me-
ta-analysis. Public Opinion Quarterly, 57. 62-79.
Cliff, N. (1959). Adverbs as multipliers. Psychological Review, 66, 27-44.
Cochran, W.G. (1977). Sampling techniques (3rd edition). New York: John Wiley.
Cochran, W.G. (1983). Planning and analysis of observational studies. New York: John Wiley.
Collins, A.M. & Quillian, M.R. (1970). Facilitating retrieval from semantic memory: The
effect of repeating part of an inference. Acta Psychologica, 33, 304-314.
Committee of Advances in Collecting and Utilizing Biological Indicators and Genetic Infor-
mation in Social Sciences Surveys, Weinstein, M., Vaupel, J.W. & Wachter, K.W. (Eds.).
Biosocial surveys. New York: The National Academies Press.
Conklin, E.S. (1923). The scale of values method for studies in genetic psychology. University of
Oregon Publications, 2, No. 1.
Connett, W.E. (1998). Automated management of survey data: An overview. In M.P. Cou-
per et al. (Eds.), Computer-assisted survey information collection (pp. 245-262). New York:
John Wiley.
Conrad, F.G. & Schober, M.F. (2000). Clarifying question meaning in a household telephone
survey. Public Opinion Quarterly, 64, 1-28.
Conrad, F.G., Schober, M.F. & Coiner, T. (2007). Bringing features of human dialogue to web
surveys. Applied Cognitive Psychology, 21, 165-187
620 Literatur

Conrad, F.G. et al. (2013). Interviewer speech and the success of survey invitations. Journal of
the Royal Statistical Society, 176, 191-210.
Converse, J.M. (1964). The nature of belief systems in mass publics. In D. Apter (ed.), Ideology
and discontent (S. 206-261). New York: Free Press.
Corkrey, R. & Parkinson, L. (2002). Interactive voice response: review of studies 1989-2000.
Behavior Research Methods. Instruments, & Computers, 36, 342-353.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika,
16, 297-334
Cronbach, L.J. & Gleser, G.C. (1965). Psychological tests and personal decisions. Urbana. Uni-
versity of Illinois Press.
Couper, M.P. (2008). Designing effective web surveys. New York: John Wiley.
Couper, M.P. & Groves, R.M. (1992). Interviewer reactions to alternative hardware for com-
puter-assisted personal interviewing. Journal of Official Statistics, 8, 201-210.
Couper, M.P. & Nicholls II, W.L. (1998). The history and development of computer-assisted
survey information collection methods. In M.P. Couper et al. (Eds.), Computer-assisted
survey information collection (pp. 1-21). New York: John Wiley.
Couper, M.P. & Rowe, B. (1996). Evaluation of a computer-assisted Self-interviewing (CASI)
component in a CAPI survey. Public Opinion Quarterly, 60, 89-105.
Couper, M.P. & Wagner, J. (2011). Using paradata and responsive design to manage survey
nonresponse. Proceedings of the World Statistics Congress of the International Statistical
Institute.
Couper, M.P., Mathiowetz, N.A. & Singer, E. (1995). Related households, mail handlings, and
returns to the 1990 census. International Journal of Public Opinion Research, 7, 172-177.
Couper, M.P., Singer, E. & Tourangeau, R. (2004). Does voice matter? An interactive voice
response (IVR) experiment. Journal of Official Statistics, 20, 551-570
Couper, M. P., Tourangeau, R., & Kenyon, K. (2004). Picture this! An analysis of visual effects
in web surveys. Public Opinion Quarterly, 68, 255-266.
Couper, M.P., Tourangeau, R. & Conrad, F.G. (2007). Evaluating the effectiveness of visual
analogue scales. Social Science Computer Review, 24, 227-245.
Couper, M.P., Traugott, M.W. & Lamias, M.J. (2001). Web survey design and administration.
Public Opinion Quarterly, 65, 235-253.
Coxon, A.P.M. (1999). Sorting data: Collection and analysis. Thousand Oakes: Sage.
Crites, S.L. et al. (1995). Bioelectrical echoes from evaluative categorization: II. A late positive
brain potential that varies as a function of attitude registration rather than attitude report.
Journal of Personality and Social Psychology, 68, 997-1013.
Crowne, D. & Marlowe, D. (1964). The approval motive. New York: John Wiley.
Curtin, R., Presser, S. & Singer, E. (2005). Changes in telephone survey nonresponse over the
the past quarter century. Public Opinion Quarterly, 69, 87-98.
Curtin, R., Singer, E. & Presser, S. (2007). Incentives in random digit dial telephone surveys:
A replication and extension. Journal of Official Statistics, 23, 91-105.
D’Agostino, R.B. Jr. (1998). Propensity score methods for bias reduction for the comparison
of a treatment to a non-randomized control group. Statistics in Medicine, 17, 2265-2281.
Dalton, D.R., Daily, C.M & Wimbush, J.C. (1997). Collecting ‘sensitive’ data in business
ethics research: A case for the Unmatched Count Technique (UCT). Journal of Business
Ethics,16, 1049–1057.
Literatur 621

Dalton, D.R., Wimbush, J.C. & Daily, C.M. (1994). Using the Unmatched Count Technique
(UCT) to estimate base rates for sensitive behavior. Personnel Psychology 47, 817–828.
Das, M. (2012). Innovation der Online-Datenerhebung für wissenschaftliche Forschungen:
Das niederländische MESS-Projekt. In Faulbaum, F., Stahl, M. & Wiegand, E. (Hrsg.),
Qualitätssicherung in der Umfrageforschung (S. 75-101). Wiesbaden: VS Verlag.
Das, M. & Couper, M.P. (2014). Optimizing opt-out consent for record linkage. Journal of
Official Statistics, 30, 479-497.
Davidov, E. et al. (2014). Measurement equivalence in cross-national research. Annual Re-
view of Sociology, 40, 55-75.
Davern, M. et al. (2003). Prepaid monetary incentives in data quality in face-to-face inter-
views. Public Opinion Quarterly, 67, 139-147.
de Bruijne, M. & Wijnant, A. (2013). Comparing survey results via mobile devices and com-
puters: An experiment with a mobile web survey on a heterogeneous group of mobile de-
vices versus a computer-assisted web survey. Social Science Computer Review, 31, 482-504.
De Heer, W. (1999). International response trends: Results of an international survey. Journal
of Official Statistics, 15, 129-142.
De Heer, W., De Leeuw, E.D, Van der Zouwen, J. (1999). Methodological issues in survey
research: A historical review. BMS Bulletin de Méthodologie Sociologique, 64, 25-48.
De Leeuw, E.D. (2005). To mix or not to mix data collection modes in surveys. Journal of
Official Statistics, 21, 233–255
De Leeuw, E.D. (2008). Choosing the method of data collection. In E.D. De Leeuw, J.J. Hox &
D.A. Dillman, (Eds.). International handbook of survey methodology (pp. 113-135). New
York: Erlbaum.
De Leeuw, E.D. & Collins, M. (1997). Data collection methods and survey quality: An over-
view (pp. 199-220). In L. Lyberg et al. (Eds.), Survey measurement and process quality. New
York: John Wiley.
De Leeuw, E.D. & De Heer, W. (2002). Trends in household survey nonresponse: A longi-
tudinal and international perspective. In R.M. Groves et al. (Eds.), Survey nonresponse
(pp. 41-54). New York: John Wiley.
De Leeuw, E.D., Hox, J.J. & Dillman, D. (2008). Mixed-mode surveys: When and why? in E.D.
De Leeuw, J.J. Hox & D.A. Dillman (Eds.). International handbook of survey methodology
(pp. 299-316). New York: Lawrence Erlbaum.
De Leeuw, E.D. & Nicholls II, W. (1996). Technological innovations in data collection: Accep-
tance, data quality and costs. Sociological Research Online, 1. <http://www.socresonline.
org.uk/1/4/leeuw.html>
De Leeuw, E.D. et al. (1998). Interviewer opinions, attitudes and strategies regarding survey
participation and their effect on response. In A. Koch & R. Porst (Eds.), Nonresponse in
survey research (ZUMA-Nachrichten Spezial Nr. 4, pp. 239-248). Mannheim: ZUMA.
De Leeuw, E.D. et al. (2007). The influence of advance letters on response in telephone sur-
veys. Public Opinion Quarterly, 71, 413-443.
De Pijper, W.M. & Saris, W.E. (1986). Computer assisted interviewing using home compu-
ters. European Research, 14, 144-150.
Dean, E. et al. (2005). Developing as low-cost technique for parallel cross-cultural instrument
development (pp. 31-40). In Hoffmeyer-Zlotnik, J.H.P. & J. Harkness (Eds.), Methodolo-
gical aspects in Cross-National research (ZUMA-Nachrichten Spezial Bd. 11). Mannheim:
GESIS-ZUMA.
622 Literatur

DesRoches, D. (2008). Establishment survey. In P.J. Lavrakas (ed.) (2008). Encyclopedia of


survey research methods (pp. 240-244). Thousand Oakes, CA: Sage.
DeRouvray, C., & Couper, M. P. (2002). Designing a strategy for reducing ‘‘no opinion’’ res-
ponses in web-based surveys. Social Science Computer Review, 20, 3–9.
De Waal, T. (2013). Selective editing: A quest for efficiency and data quality. Journal of Official
Statistics, 29, 473-488.
De Waal, T., Pannekoek, J. & Scholtus, S. (2011). Handbook of statistical editing and imputa-
tion. Hoboken, NJ: John Wiley.
Denk, C.E. & Hall, J.W. (2000). Respondent selection in RDD surveys: A randomized trial of
selection performance. Paper presented at the annual of the American Association of Public
Opinion Research, Portland, OR.
Denscombe, M. (2008). The length of responses to open-ended questions: A comparison
of online and paper questionnaires in terms of a mode effect. Social Science Computer
Review, 26, 389-368.
Deutschmann, M. & Faulbaum, F. (2001). The recruitment of online samples by CA-
TI-screening: Problems of Non-response. In Westlake, A. et al. (Eds.), The challenge of the
internet (pp. 69-77). Chesham, Bucks, UK: Association for Survey Computing.
Dickinson, T.L., & Zellinger, P.M. (1980). A comparison of the behaviorally anchored rating
and mixed standard scale formats. Journal of Applied Psychology, 65, 147-154.
Dijkstra, W. (1987). Interviewing style and respondent behavior: An experimental study of
the survey-interview. Sociological Methods and Research, 16, 309–334.
Dillman, D.A. (1978). Mail and telephone surveys: The total design method. New York: John
Wiley.
Dillman, D.A. (2007). Mail and internet surveys. Hoboken, NJ: John Wiley.
Dillman, D., Smyth, J.D. & Christian, L.M. (2014). Internet, phone, mail, and mixed-mode
surveys. Hoboken, NJ: John Wiley.
Dillman, D.A. et al. (1996). Effects of benefits, appeals, mandatory appeals, and variations in
statements of confidentiality on completion rates for census questionnaires. Public Opin-
ion Quarterly, 60, 376-389.
Dillman, D.A. et al. (2009). Response rate and measurement differences in mixed-mode
Surveys using mail, telephone, interactive voice response (IVR) and the Internet. Social
Science Research, 38, 1-18.
Droitcour, J. et al. (2001). The Item Count Technique as a method of indirect questioning: A
review of its development and a case study application. In P.B. Biemer et al. (Eds.), Mea-
surement errors in surveys (pp. 185–210). New York: Wiley.
Duffy, J.C. & Waterton, J.J. (1984). Under-reporting of alcohol consumption in sample sur-
veys: The effect of computer interviewing in field work. British Journal of Addiction, 79,
303-308.
Durrant, G.B. & Steele, F. (2007). Multi-level modeling of refusal and non-contact in House-
hold surveys: evidence from six UK Government surveys. Journal of the Royal Statistical
Society A, 172, 361-381.
Durrant, G.B. et al. (2010). Effects of interviewer attitudes and behaviors on refusal in house-
hold surveys, Public Opinion Quarterly, 74, 1-36.
Dykema, J. et al. (2012). ACASI gender-of-interviewer voice effects on reports to questions
about sensitive behaviors among young adults. Public Opinion Quarterly, 76, 311-325.
Literatur 623

Dykema, J. et al. (2017). Factors associated with participation in the collection of saliva
samples by mail in a survey of older adults. Public Opinion Quarterly, 81, 57-85.
Eckman, S. et al. (2014). Assessing the mechanisms of misreporting to filter questions in
surveys. Public Opinion Quarterly, 78, 721–733
Edwards, A.L. (1957). The social desirability variable in personality assessment and research.
New York: Dryden.
Edwards, T.P., Suresh, R. & Weeks, M.F. (1998). Automated call scheduling: Current systems
and practices. In M.P. Couper et al. (Eds.), Computer assisted survey information collection
(pp. 285-306). New York: John Wiley.
Edwards, W. (1955). The prediction of decisions among bets. Journal of Experimental Psycho-
logy, 50, 201-214.
Enders, C.K. (2010). Applied missing data analysis. New York: The Guilford Press.
Engel, U. (1998). Einführung in die Mehrebenenanalyse. Wiesbaden: Springer VS.
Engel, U. & Reinecke, J. (1994). Panelanalyse. Berlin: de Gruyter.
Engel, U. et al. (2013). Wissenschaftliche Umfragen. Methoden und Fehlerquellen. Frankfurt
am Main: Campus.
Engel, U. et al. (Eds.) (2015). Improving survey methods. New York: Routledge.
Epstein, J.F., Barker, P.R. & Kroutil L.A. (2001). Mode effects in self-reported mental health
data. Public Opinion Quarterly, 65, 529-549.
Esser, H. (1986). Können Befragte lügen? Kölner Zeitschrift für Soziologie und Sozialpsycho-
logie,38, 314-336.
European Social Survey (2014). ESS Round 7 Translation Guidelines. London: ESS ERIC
Headquarters, Centre for Comparative Social Surveys, City University London.
Evans, J.St.B.T. (2008). Dual-processing accounts of reasoning, judgment and social cogni-
tion. Annual Review of Psychology, 59, 255- 278.
Evans, R.L., Hansen, W.B. & Mittlemark, M.B. (1977). Increasing the validity of self-reports
of smoking behavior in children. Journal of Applied Psychology, 62, 521-523.
Fahrmeir, L. et al. (2004). Statistik (5. Auflage). Berlin-Heidelberg-New York: Springer.
Fahrmeier, L., Hamerle, A. & Tutz, G. (Hrsg.) (1996). Multivariate statistische Verfahren. Ber-
lin: de Gruyter.
Faulbaum, F. (1984a). Ergebnisse der Methodenstudie zur internationalen Vergleichbarkeit
von Einstellungsskalen in der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften
(ALLBUS) 1982 (ZUMA-Arbeitsbericht Nr. 04/84). Mannheim: ZUMA.
Faulbaum, F. (1984b). Zur Konstruktinvarianz numerischer und verbaler Kategorialskalen.
ZUMA-Nachrichten, 14, 46-59.
Faulbaum, F. (1986). Projektberatung in Jordanien: ein Erfahrungsbericht. ZUMA-Nachrich-
ten, 10, 58-63.
Faulbaum, F. (1987a). Panelanalyse im Überblick. ZUMA-Nachrichten, 23, 26-44.
Faulbaum, F. (1987b). Intergroup comparisons of latent means across waves. Sociological
Methods & Research, 15, 317-335.
Faulbaum, F. (1990). Der internationale Vergleich von Messmodellen unter verallgemeiner-
ten Verteilungsbedingungen. ZUMA-Nachrichten, 26, 56-71.
Faulbaum, F. (1991). Von der Variablenanalyse zur empirischen Evaluation von Handlungs-
paradigmen. In H. Esser & K.G. Troitzsch (Hrsg.), Modellierung sozialer Prozesse (S. 111-
138). Bonn: Informationszentrum Sozialwissenschaften.
624 Literatur

Faulbaum, F. (2004a). Computer Assisted Pretesting of CATI-Questionnaires. Bulletin de Me-


thodologie Sociologique, 83, 5-17.
Faulbaum, F. (2004b). Computer Assisted Pretesting of CATI-Quesionnaires. In P. Prüfer, M.
Rexroth, & F.J. Fowler (Eds.), Proceedings of the 4th International Conference on Question
Evaluation Standards (ZUMA-Nachrichten Spezial Nr.9, S. 129-141). Mannheim: ZUMA.
Faulbaum, F. (2014). Total survey error. In J. Blasius & N. Baur (Hrsg.), Handbuch der empi-
rischen Sozialforschung (S. 439-453). Wiesbaden: Springer VS.
Faulbaum, F. (2016). Ausbildungsqualität als Ergebnisoptimierung. In König, C., Stahl, M. &
Wiegand, E. (Hrsg.), Human Resources (S. 13-22). Wiesbaden: Springer VS.
Faulbaum, F. & Kaase, M. (1994). Wohlfahrtsansprüche und politische Legitimität. In R.
Hauser, U. Hochmuth & J. Schwarze (Hrsg.). Mikroanalytische Grundlagen der Gesell-
schaftspolitik. Band I (S. 59-91). Berlin: Akademie Verlag.
Faulbaum, F. & Stein, P. (2000). Wie homogen sind Einstellungen gegenüber Ausländern?
Zur Aufdeckung und Modellierung unbeobachteter Heterogenität in Umfragedaten. In R.
Alba, P. Schmidt, P. & M.Wasmer (Hrsg.), Deutsche und Ausländer: Freunde, Fremde oder
Feinde? (S. 485-518). Wiesbaden: Westdeutscher Verlag.
Faulbaum, F., Kelleter, K. & Stein, P. (2001). Die statistische Aufdeckung kausalstrukturell un-
terschiedener Gruppen am Beispiel des politischen Teilnahmeverhaltens. ZUMA-Nach-
richten 48, 28-48.
Faulbaum, F., Prüfer, P. & Rexroth, M. (2009). Was ist eine gute Frage? Wiesbaden: VS Verlag.
Fellegri, I.P. & Holt, D. (1976). A systematic approach to automatic edit and imputation. Jour-
nal of the American Statistical Association, 71, 17-35.
Fernee, H. & Scherpenzeel, A.C. (2013). The smartphone in survey research: Experiments for
time use data. The Survey Statistician, 67, 19-25.
Fisher, R.A. (1946). Statistical methods for research workers (10th edition). Edinburgh: Oliver
and Boyd.
Fillmore, C.J. (1968). The case for case. In E. Bach & R.T. Harms (Eds.), Universals in lLingu-
istic theory (1-25). New York: Holt, Rhinehart & Winston.
Finn, J.D. (1972). Expectations and the educational environment. Review of Educational Re-
search, 42, 387-410.
Fitzgerald, R. (2011). Identifying sources of error in cross-national questionnaires: Applica-
tion of an error source typology to cognitive interview data. Journal of Official Statistics,
27, 569–599.
Fleming, C.B. et al. (2013). Use of web and phone survey modes to gather data from adults
about their young adult children: An evaluation based on randomized design. Field Me-
thods,15, 388-404.
Forsyth, B. & Hubbard, M. (1992). A method for identifying cognitive properties of survey
items (pp. 470-475) In Proceedings of the Section on Survey Research Methods, American
Statistical Association. Alexandria: American Statistical Association.
Fowler, F.J. (1992). How unclear terms affect survey data. Public Opinion Quarterly, 56, 218-
231.
Fowler, F.J. (2001). Why it is easy to write bad questions? ZUMA-Nachrichten 48, 49-66.
Fowler, E.J. (2004). More on the value of split ballots. In P. Prüfer, M. Rexroth & F.J. Fowler
(Eds.). Proceedings of the 4th International conference on Question Evaluation Standards
(ZUMA-Nachrichten Spezial Nr. 9, S. 43-51). Mannheim: ZUMA.
Literatur 625

Fowler, F.J. (2011). Coding the behavior interviewer and respondents to evaluate survey ques-
tions. In J. Madans et al. (Eds.), Question evaluation methods (pp. 7-22. Hoboken, NJ: John
Wiley.
Fowler F.J., Roman, A.M. & Xiao Di, Z. (1998) Mode effects in a survey of medicare prostate
surgery patients. Public Opinion Quarterly, 62, 29-46.
Fox, J.A. & Tracy, P.E. (1986) Randomized response. A method for sensitive surveys (Sage
University Paper Series on Quantitative Applications in the Social Sciences Vol. 07-058).
Newbury Park, CA.: Sage.
Frege, G. (1892). Über Sinn und Bedeutung. Zeitschrift für Philosophie und philosophische
Kritik, NF 100, 25-50.
Freitag, M. & Bauer, C.P. (2013). Testing for measurement equivalence in surveys. Public
Opinion Quarterly, 77, 24-44.
Fricker, S. et al. (2005). An experimental comparison of web and telephone surveys. Public
Opinion Quarterly, 69, 370-392.
Fricker, S. & Tourangeau, R. (2010). Examining the relationship between nonresponse pro-
pensity and data quality in two national household surveys. Public Opinion Quarterly, 74,
934-955
Frietsch, R. & Wirth, H. (2001). Die Übertragung der Magnitude-Prestigeskala von Wegener
auf die Klassifizierung der Berufe. ZUMA-Nachrichten, 48, 139-163.
Fuchs, M. (2008). Mobile web survey: A preliminary discussion of methodological Implica-
tions. In M.F. Schober & F.G. Conrad (Eds.), Envisioning the survey interview of the future
(pp. 77-94). Hoboken, NJ: John Wiley.
Fuchs, M. (2009). Asking for numbers and quantities: Visual design effects in paper & pencil
surveys. International Journal of Public Opinion Research, 21, 65-84.
Fuchs, M. (2012). Der Einsatz von Mobiltelefonen in der Umfrageforschung, In F. Faulbaum,
M. Stahl, & E. Wiegand (Hrsg.), Qualitätssicherung in der Umfrageforschung (S. 51-73).
Wiesbaden: VS Verlag.
Fuchs, M. & Busse, B. (2009). The coverage bias of mobile web surveys across European
Countries. International Journal of Internet Science, 4, 21-33.
Gabler, S. & Häder, S. (1997). Überlegungen zu einem Stichprobendesign für Deutschland.
ZUMA-Nachrichten 41, 7-18
Gabler, S. & Häder, S. (1998). Probleme bei der Anwendung von RLD-Verfahren. S. 58-68
in: S. Gabler, S. Häder & J. Hoffmeyer-Zlotnik (Hrsg.), Telefonstichproben in Deutschland.
Opladen: Westdeutscher Verlag
Gabler, S. & Häder, S. (1999). Erfahrungen beim Aufbau eines Auswahlrahmens für Telefon-
stichproben in Deutschland. ZUMA-Nachrichten 44, 45-61.
Gabler, S., Hoffmeyer-Zlotnik, J. & Krebs, D. (Hrsg.) (1994). Gewichtung in der Umfragepra-
xis. Wiesbaden: Westdeutscher Verlag.
Gabler, S., Häder, S. & Lynn, P. (2006). Design effects for multiple design samples. Survey
Methodology, 32, 115-120.
Gabler, S. & Quatember, A. (2013). Repräsentativität von Subgruppen bei geschichteten Zu-
fallsstichproben. AStA Wirtschafts- und Sozialstatistisches Archiv, 7, 105–119.
Gadamer, H.-G. (1990). Wahrheit und Methode. Tübingen: J.C.B. Mohr.
Galesic, M. (2006). Dropouts on the web: Effects of interest and burden experience during an
online survey. Journal of Official Statistics, 22, 313–328.
626 Literatur

Galesic, M. et al. (2008). Eye-tracking data: New insights in response-order effects and other
cognitive shortcuts in survey responding. Public Opinion Quarterly, 72, 892-913.
Galvez, G. et al. (2009). Development of an iPod audio computer assisted self-interview to
increase the representation of low-literacy populations in survey research. Field Methods,
21, 407-415.
Ganter, B. & Wille, R. (1996). Formal concept analysis. New York: Springer.
Gaskell, G.D., O’Muircheartaigh, C.A. & Wright, D.B. (1994). Survey questions about the
frequency of vaguely defined events. Public Opinion Research, 58, 241-254.
Gaziano, C. (2005). Comparative analysis of within-household respondent selection
techniques. Public Opinion Quarterly, 69, 124-157.
Gfroerer, J. C.& Hughes, A.L. (1991). The feasibility of collecting drug abuse data by telepho-
ne. Public Health Reports, 106, 384-393.
Gigerenzer, G. (1991). From tools to theories: A heuristic of discovery in cognitive psycholo-
gy. Psychological Review, 98, 254-267.
Gilbert, N. & Troitzsch, K.G. (2005). Simulation for the social scientist (2n edition). Berkshire:
Open University Press.
Goeritz, A.S. (2006a). Incentives in web studies: Methodological issues and review. Internati-
onal Journal of Internet Science, 1, 58-70.
Goeritz, A.S. (2006b). Cash lotteries in online panels. Social Science Computer Review, 24,
445-459.
Goeritz, A.S. (2008). The long-term effect of material incentives on participation in online
panels. Field Methods, 20, 211-225.
Goeritz, A.S. & Luthe, S.C. (2013). Effects of lotteries on response behavior in online panels.
Field Methods, 25, 219-237.
Goeritz, A.S. & Wolff, H.-G. (2007). Lotteries as incentives in longitudinal web studies. Social
Science Computer Review, 25, 99-110.
Goldstein, K.M. & Jennings, M.K. (2002). The effect of advance letters on cooperation in a list
sample telephone survey. Public Opinion Quarterly, 66, 608-617.
Gordoni, G. & Schmidt, P. (2010). The decision to participate in social surveys: The case of
The Arab minority in Israel – An application of the theory of reasoned action. Internatio-
nal Journal of Public Opinion Research, 22, 364-391.
Gordoni, G., Schmidt, P. & Gordoni, Y. (2012). Measurement invariance across face-to-face
and telephone modes: The case of minority-status collectivistic oriented-groups. Interna-
tional Journal of Public Opinion Research, 24, 185-207.
Graesser, A.C., et al. (2006). Question understanding AID (QAID): A web facility that tests
question comprehensibility. Public Opinion Quarterly, 70, 3-22.
Granda, P., Wolf, Ch. & Hadorn, R. (2010). Harmonizing survey data. In Harkness, J. et al.
(Eds.) Survey methods in multinational, multiregional, and multicultural contexts (pp. 315-
322). New York: John Wiley.
Granquist, L. (1997). The new view on editing. International Statistical Review, 65, 381-387.
Granquist, L. & Kovar, J. (1997). Editing of survey data: How much is too much? In L. Lyberg
et al. (Eds.), Survey Measurement and Process Quality (pp.  425-435). New York: John
Wiley.
Gravlee, C.C. et al. (2013). Mode effects in free-list elicitation: Comparing oral, written, and
web-based data collection. Social Science Computer Review, 31, 119–132.
Literatur 627

Greenberg, B.G. et al. (1971). Application of the randomized response technique in obtaining
quantitative data. Journal of the American Statistical Association, 66, 243-250.
Gribble, H.P. et al. (2000). The impact of T-ACASI interviewing on reporting drug use among
men who have sex with men. Substance Use and Misuse, 80, 869-890.
Grice, H. (1975). Logic and conversation. In P. Cole & T. Morgan (Eds.), Syntax and semantics
(Vol 3, Speech acts, pp. 41-58). New York: Seminar Press.
Groeben, N. (1986). Handeln, Tun, Verhalten. Tübingen: Francke.
Groen, J.A. (2012). Sources of error in survey and administrative data: The importance of
reporting procedures. Journal of Official Statistics, 28, 173-198.
Groves, R.M. (1989) Survey errors and survey costs. New York: John Wiley.
Groves, R.M. (1991). Measurement error across discipline. In P.P. Biemer et al. (Eds.), Mea-
surement errors in surveys (pp. 1-25). New York: John Wiley.
Groves, R.M. (2006). Nonresponse rates and nonresponse bias in household surveys. Public
Opinion Quarterly 70, 646-675.
Groves, R.M., Cialdini, R.B. & Couper, M.P. (1992). Understanding the decision to participa-
te. in a survey. Public Opinion Quarterly, 56, 475-495.
Groves, R.M. & Couper, M.P. (1998). Nonresponse in Household interview surveys. New York:
John Wiley.
Groves, R.M. & Fultz, N.H. (1985). Gender effects among telephone interviewers in a survey
of economic attitudes. Sociological Methods & Research, 14, 31-52.
Groves, R.M. & Kahn, R.L. (1979). Surveys by telephone: A national comparison with personal
interviews. New York: Academic Press.
Groves, R.M. & Heeringa, S.G. (2006). Responsive design for household surveys: Tools for
actively controlling survey errors and costs. Journal of the Royal Statistical Society, Series
A, 169, 439-457
Groves, R.M. & Lyberg, L. (2010). Total survey error: Past, present, and future. Public Opinion
Quarterly, 74, 849.879.
Groves, R.M. & Magilavy, L.J. (1986). Measuring and explaining interviewer effects in cen-
tralized telephone surveys. Public Opinion Quarterly, 50, 251-266.
Groves, R.M. & McGonagle, K.A. (2001). A theory-guided interviewer training protocol re-
garding’ survey participation. Journal of Official Statistics, 17, 249–265.
Groves, R.M. & Nicholls II, W.L. (1986). The status of computer-assisted telephone interview-
ing: Part II-Data quality issues. Journal of Official Statistics, 2, 117-134.
Groves, R.M. & Peytcheva, E. (2008). The impact of nonresponse rates on nonresponse bias.
A meta-analysis. Public Opinion Quarterly, 72, 167-189.
Groves, R.M., Singer, E. & Corning, A. (2000). Leverage saliency theory of survey participa-
tion. Public Opinion Quarterly, 64, 299-308.
Groves, R.M. et al. (2009). Survey methodology (2nd edition). New York: John Wiley.
Guilford, J.P. (1954). Psychometric methods. New York: McGraw-Hill.
Gwartney, P.A. (2007). The telephone interviewer’s handbook: How to conduct standardized
Haas, H. (2009). Übersetzungsprobleme in der interkulturellen Befragung. Tagungsband
Probleme empirischer Kulturforschung. Interculture Journal, 8, 61-77.
Haberstroh, S. et al. (2002). Is the interdependent self more sensitive to question context
than The independent self? Self-construal and the observation of conversational norms.
Journal of Experimental Social Psychology, 38, 323–329.
628 Literatur

Häder, M. (2009). Der Datenschutz in den Sozialwissenschaften (Working Paper No. 90). Ber-
lin: Rat für Sozial- und Wirtschaftsdaten.
Häder (2014). Delphi-Befragungen. Wiesbaden: Springer VS.
Häder, S. (2000). Telefonstichproben (ZUMA How-to-Reihe Nr. 6). Mannheim: ZUMA.
Häder, S. & Gabler, S. (2003). Sampling and estimation. In J.A. Harkness, F.J.R., Van de Vijver
& P. Ph. Mohler (Eds.) (2003). Cross-cultural survey methods (pp. 117-134). Hoboken, NJ:
John Wiley.
Häder, M. & Häder, S. (Hrsg.) (2009). Telefonbefragungen über das Mobilfunknetz. Wiesba-
den: VS Verlag für Sozialwissenschaften
Häder, M., Häder, S. & Schmich, P. (Hrsg.) (2018). Telefonumfragen in Deutschland. Wiesba-
den: Springer VS.
Häder, S. & Lynn, P. (2007). How representative can a multi-nation survey be? In R. Jowell
et al. (Eds.), Measuring attitudes cross-nationally: Lessons from the European social survey.
(pp. 33-52). London: Sage.
Hagan, D.E. & Collier, C.M. (1983). Must respondent selection procedures for telephone sur-
veys be invasive? Public Opinion Quarterly, 47, 547-556.
Hagennars, J.A. & McCutcheon, A.L. (2002). Applied latent class analysis. Cambridge: Cam-
bridge University Press.
Hakel, M.D. (1968). How often is often? American Psychologist 23, 533-534
Hambleton, R.K., Merenda, P.F. & Spielberger, C.D. (Eds.) (2005). Adapting educational and
psychological tests for cross-cultural assessment. Mahwah: Lawrence Erlbaum.
Hammerton, M. (1976). How much is a large part? Applied Ergonomics, 10-12.
Han, S. et al. (2013) A cultural neural science approach to the biosocial nature of the brain.
Annual Review of Psychology, 64, 335-359.
Hank, K., Jürges, H. & Schaan, B. (2009). Die Erhebung biometrischer Daten im Survey of
Health, Aging and Retirement in Europe. Methoden-Daten-Analysen, 3, 97-108.
Hansen, M. (2006). The effects of incentive. Interview length, and interviewer characteristics
on response rates in a CATI study. International Journal of Public Opinion Research, 19,
112-121.
Hansen, S.E. & Couper, M.P. (2004). Usability testing to evaluate computer-assisted instru-
ments. In S. Presser et al. (2004). Methods of testing and evaluating survey questionnaires
(S. 357-384). Hoboken NJ: John Wiley.
Hansen, M., Hurwitz, W. & Bershad, M. (1961). Measurement errors in censuses and surveys.
Bulletin of the International Statistical Institute (32nd session 38, Part 2), 359-374.
Harkness, J.A., Van de Vijver, F.J.R. & Mohler, P.Ph. (Eds.) (2003). Cross-cultural survey me-
thods. Hoboken, NJ: John Wiley.
Harkness, J.A., Pennell, B.E. & Schoua-Glucksberg, A. (2004). Survey questionnaire transla-
tion and assessment. In S. Presser et al. (2004). Methods of testing and evaluating survey
questionnaires (pp. 453-473). Hoboken NJ: John Wiley.
Harkness, J. (2007). Round 3 Translation Guidelines. Online-Dokument: http://www.europe-
ansocialsurvey.org/index.php?option=com_docman&task=doc_download&gd=178&I-
temid=80.
Harkness, J.A. et al. (Eds.) (2010). Survey methods in multinational, multiregional, and Multi-
cultural contexts. Hoboken: John Wiley.
Literatur 629

Harkness, J.A., Villar, A. & Edwards, B. (2010). Translation, adaptation, and design. In J.A.
Harkness et al. (Eds.) (2010). Survey methods in multinational, multiregional, and multi-
cultural contexts (pp. 117-140). Hoboken: John Wiley.
Hartley, H.O. (1974). Multiple frame methodology and selected application. Sankhya, 36,
99-118.
Harris, L.E., Weinberger, M. & Tierney, W.M. (1997). Assessing inner-city patients’ hospital
experiences. A controlled trial of telephone interviews versus mailed surveys. Medical
Care, 35, 70–76.
Hartung, J., Elpelt, B. & Klösener, K.-H. (2009). Statistik (15. Auflage). München: Olden-
bourg.
Hartung, J. & Elpelt, B. (2007). Multivariate Statistik (6. Auflage). München: Oldenbourg.
Hatcher, L. (1998). A step-by-step approach to using the SAS-system for factor analysis and
structural equation modeling. Cary: SAS Institute.
Hatchett, S. & Schuman, H. (1975). White respondents and race-of-interviewer effects. Public
Opinion Quarterly, 39, 523-528.
Haunberger, S. (2011). Explaining Unit-Nonresponse in online panel surveys: An application
of the extended theory planned behavior. Journal of Applied Social Psychology, 41, 2999-
3025.
Hayes, A.F. (2013). Introduction to mediation, moderation, and conditional process analysis: A
regression-based approach. Ney York NY: The Guilford press.
Heberlein, T.A. & Baumgartner, R. (1978). Factors affecting nonresponse rates to mailed
questionnaires: A quantitative analysis of the published literature. American Sociological
Review, 43, 447-462.
Hedlin, D. (2003). Score functions to reduce business survey editing at the U.K. Office for
National Statistics. Journal of Official Statistics, 19, 177-199.
Heeringa, S.G. & O’Muircheartaigh, C. (2010). Sampling designs for cross-cultural and
cross-national survey programs. In J.A. Harkness et. al. (Eds.). Survey methods in mul-
tinational, multiregional and multicultural contexts (pp. 251-267). New York: John Wiley.
Heerwegh, D. (2009). Mode differences between face-to-face and web surveys: An experi-
mental investigation of data quality and social desirability effects. International Journal of
Public Opinion Research, 21, 111-121.
Heerwegh, D. & Loosveldt, G. (2002). An evaluation of the effect of response formats on data
quality in web surveys. Social Science Computer Review, 20, 471-484.
Heerwegh, D. & Loosfeldt, G. (2006). An experimental study on the effects of personalization
survey length statements, progress indicators and survey sponsor logos in web surveys.
Journal of Official Statistics, 22, 191-210.
Heckathorn, D.D. (1997). Respondent-driven sampling: A new approach to the study of hid-
den populations. Social Problems, 44, 174-199.
Heckel, C. (2002). Erstellung der ADM-Telefonauswahlgrundlage. In S. Gabler & S. Häder
(Hrsg.), Telefonstichproben (S. 11-31). Münster: Waxman.
Heckel, C. (2007). Weiterentwicklung der CATI-ADM-Auswahlgrundlagen. In S. Gabler &
S. Häder (Hrsg.), Mobilfunk-Technologie - Eine Herausforderung für die Umfrageforschung
(S. 25-37) (ZUMA- Nachrichten Spezial Band 13). Mannheim: GESIS-ZUMA.
Heerwegh, D. & Loosfeldt, G. (2011). Assessing mode effects in a national crime Victimiza-
tion survey using structural equation models: Social desirability bias and acquiescence.
Journal of Official Statistics, 27, 49-63.
630 Literatur

Heike, H.-D. & Sauerbier, Th. (1997): MISTRAL - a new object-based micro simulation lan-
guage. In Bandilla, W. and Faulbaum, F. (Eds.): SoftStat’97 - Advances in Statistical Soft-
ware 6 (pp. 403-410). Stuttgart: Lucius & Lucius.
Heise, D.R. (1969). Separating reliability and stability in test-retest correlation. American
Sociological Review, 34, 93-101.
Heise, D.R. (1975). Causal analysis. New York: John Wiley.
Hembroff, L.A. et al. (2005). The cost-effectiveness of alternative advance mailings in a tele-
phone survey. Public Opinion Quarterly, 69, 232-245.
Hempel, C.G. & Oppenheim, P. (1948). Studies in the logic of explanation. Philosophy of
Science, 15, 135-175.
Higgins, C.A., Dimnik, T.P. & Greenwood, H.P. (1987). The DiskQ survey method. Journal of
Market Research Society, 37, 437-445.
Himmelfarb, S. & Lickteig, C. (1982). Social desirability and the randomized response
technique. Journal of Personality and Social Psychology, 43, 710-717.
Hippler, H.-J. (1985). Schriftliche Befragung bei allgemeinen Bevölkerungsstichproben. Un-
tersuchungen zur Dillmanschen „Total Design Method“. ZUMA-Nachrichten, 16, 39-56.
Hippler, H.-J., Schwarz, N. & Sudman, S. (Eds.) (1987). Social information processing and
survey methodology. New York: Springer.
Hippler, H.-J. et al. (1991). Der Einfluss numerischer Werte auf die Bedeutung verbaler Ska-
lenendpunkte. ZUMA-Nachrichten, 28, 54-65.
Hoffmann, H. (2007). Kombinierte Stichproben für Telefonumfragen – Ansätze in Europa. In
S. Gabler & S. Häder (Hrsg.), Mobilfunktelefonie - Eine Herausforderung für die Umfra-
geforschung (S. 47-57) (ZUMA-Nachrichten Spezial Band 13). Mannheim: GESIS.
Hoffmeyer-Zlotnik, J. & Wolf, Ch. (Eds.) (2003). Advances in cross-national comparison. New
York: Kluwer.
Hoffmeyer-Zlotnik, J. & Warner, U. (2012). Harmonisierung demographischer und sozioöko-
nomischer Variablen. Wiesbaden: Springer VS.
Hoffmeyer-Zlotnik, J. & Warner, U. (2013). Harmonising demographic and socio-demographic
variables vor cross-national comparative research. New York: Springer.
Hoffmeyer-Zlotnik, J. & Warner, U. (2013). Soziodemographische Standards für Umfragen in
Europa. München und Mering: Rainer Hampp Verlag.
Hofmans, J. et al. (2007). Bias and changes in perceived intensity of verbal qualifiers effected
by scale orientation. Survey Research Methods, 1, 97-108
Hofstätter, P.R. (1957). Die amerikanische und die deutsche Einsamkeit – American and Eu-
ropean loneliness. Verhandlungen des 13. Deutschen Soziologentages in Bad Meinberg
(S. 87-106). Wiesbaden: Westdeutscher Verlag.
Hofstätter, P.R. (1963). Einführung in die Sozialpsychologie (3. Auflage). Stuttgart: Alfred Krö-
ner.
Hofstätter, P.R. & Lübbert, H. (1958). Die Untersuchung von Stereotypen mit Hilfe des Pola-
ritätsprofils. Zeitschrift für Markt- und Meinungsforschung, 3, 127-135.
Holbrook, P.R. & Krosnick, J.A. (2010). Social desirability bias in voter turnout. Public Opin-
ion Quarterly, 74, 37-67.
Holbrook, A.L. et al. (2007). Response order effects in dichotomous categorical questions
Presented orally. Public Opinion Quarterly, 71, 325-348.
Literatur 631

Holbrook, P.R., Green, M.C. & Krosnick, J.A. (2003). Telephone vs. face-to-face interviewing
of national probability samples with long questionnaires. Public Opinion Quarterly, 67,
79-125.
Holland, P.W. (1986). Statistics and causal inference. Journal of the American Statistical Asso-
ciation, 81, 945-970.
Homans, G. (1958). Social behavior as exchange. American Journal of Sociology, 62, 597-606.
Hormuth, S. (1986). The sampling of experiences in situ. Journal of Personality, 54, 262-293.
Horvitz, D.G. & Thompson, D.J. (1952). A generalization of sampling without replacement
from a finite universe. Journal of the American Statistical Association, 47, 663-685.
Houtkoop-Steenstra, H. & Van den Bergh, H. (2000). Effects of introductions in large-scale
telephone survey interviews. Sociological Methods & Research, 28, 281-300.
Howe, E.S. (1962). Probabilistic adverbial qualifications of adjectives. Journal of Verbal Learn-
ing and Verbal Behavior 1, 225-242.
Hox, J. (1994). Hierarchical regression models for interviewer and respondent effects. Socio-
logical Methods and Research, 22, 300-318.
Hox, J. (1997). From theoretical concepts to survey questions. In L. Lyberg et al. (Eds.), Sur-
vey measurement and process quality (pp. 47-69). New York: John Wiley.
Hox, J. (2010). Multilevel analysis: Techniques and applications (2nd edition). Mahwah, NJ:
Erlbaum
Hox, J. & De Leeuw, E.D. (2002). The influence of interviewer’s attitude on behavior in House-
hold survey nonresponse: An international comparison. In R.M. Groves et al. (Eds.), Sur-
vey nonresponse (pp. 103-120). New York: John Wiley.
Hox, J., De Leeuw, E. & Kreft, I.G.G. (1991). The effect of interviewer and respondent cha-
racteristics on the quality of survey data: A multilevel model. In P. Biemer et al. (Eds.),
Measurement errors in surveys. New York: John Wiley.
Hox, J., De Leuuw, E. & Vorst, H. (1995). Survey participation as reasoned action: A behav-
ioral paradigm for survey nonresponse? Bulletin de Méthodology Sociologique, 47, 52-67.
Hox, J., De Leeuw, E. & Zijlmans, A.O.E. (2016). Measurement equivalence in mixed mo-
de-surveys. Frontiers in Psychology, 6, 1-11.
Hsiao, C. (2003). Analysis of panel data (2n edition). Cambridge, UK: Cambridge University
Press.
Hume, D. (1981). Untersuchungen über den menschlichen Verstand (Original erschienen
1748: An inquiry concerning human understanding). Stuttgart: Reclam.
Humpert, A. (2004). Erfahrungen mit Personennamen zur Bildung von Stichproben für Be-
triebsbefragungen. ZUMA-Nachrichten, 54, 141-153.
Humpert, A. & Schneiderheinze, K. (2000). Stichprobenziehung für telefonische Zuwanderer-
umfragen. Einsatzmöglichkeiten der Namensforschung (Onomastik). ZUMA-Nachrich-
ten 47, 36-59.
Huttenlocher, J., Hedges, L., & Bradburn, N. (1990).  Reports of elapsed time:  Bounding and
rounding processes in estimation.  Journal of Experimental Psychology: Learning, Memory,
and Cognition, 16, 196-213.
Hyman, H. et al. (1954). Interviewing in social research. Chicago: University of Chicago Press.
Jäckle, A. (2008). Dependent interviewing: effects on respondent burden and efficiency of
data collection. Journal of Official Statistics, 24, 1–21.
Jäckle, A. (2009) Dependent interviewing: A framework and application to current research.
In P. Lynn (ed.), Methodology of longitudinal surveys (pp. 93–111). Chichester: John Wiley.
632 Literatur

Jänich, K. (2013). Lineare Algebra (11. Auflage). Berlin-Heidelberg: Springer.


Jagodzinski, W., Kühnel, S.M. & Schmidt, P. (1987). Is there a „Socratic Effect“ in nonexperi-
mental panel studies? Sociological Methods & Research, 15, 259-302.
Jahoda, M., Lazarsfeld, P.F. & Zeisel, H. (1975). Die Arbeitslosen von Marienthal. Frankfurt
am Main. (Original erschienen 1933). Suhrkamp.
Jakhu, S. & Sauer, M.E. (2002). New data collections using touchtone data entry. Proceedings
of the Section on Survey Research Methods (pp.  1600-1605). Alexandria, VA: American
Statistical Association.
James, J.M. & Bolstein, R. (1992). Large monetary incentives and their effect on mail survey
response rates. Public Opinion Quarterly, 56, 442-453.
Janetzko, D. (1999). Statistische Anwendungen im Internet. In Netzumgebungen Daten erhe-
ben, auswerten und präsentieren. München: Addison-Wesley.
Jann, B. (2005). Einführung in die Statistik (2. Auflage). München: Oldenbourg.
Jann, B., Jerke, J. & Krumpal, I. (2012). Asking sensitive questions using the crosswise model.
Public Opinion Quarterly, 76, 32-49.
Japek, L. et al. (2015). Big data in survey research. Public Opinion Quaterly, 79, 839-880.
Jenkins, C.R. & Dillman, D.A. (1997). Towards a theory of self-administered questionnaires.
In L. Lyberg et al. (Eds.), Survey measurement and process quality (pp.  165-196). New
York: John Wiley.
John, O.P., Naumann, L.P. & Soto, C.J. (2008). Paradigm shift to the integrative big five trait
Taxonomy. In O.P. John, R.W. Robins & L.W. Pervin (Eds.), Handbook of Personality: The-
ory and Research (3rd edition) (pp. 114-117). New York, NY: The Guilford Press.
Johnson, T.P. (2003). Approaches to equivalence in cross-cultural and cross-national survey
research. In J.A. Harkness (ed.), Cross-cultural survey equivalence. (ZUMA-Nachrichten
Spezial No. 3, S. 1-40). Mannheim: ZUMA
Jöreskog, K.G. & Sörbom, D. (2015). LISREL 9.20 for Windows. Skokie, IL: Scientific Soft-
ware International, Inc.
Jöreskog, K.G. (1971). Simultaneous factor analysis in several populations. Psychometrika,
57, 409-426.
Jöreskog, K.G. (1973). A general method for estimating a linear structural equation system.
In A.S. Goldberger & O.D. Duncan (Eds.), Structural equation models in the social Scien-
ces (pp. 83-112). New York: Plenar Press.
Jöreskog, K.G. (1994). On the estimation of polychoric correlations and their asymptotic co-
variance matrix. Psychometrika, 59, 381-389.
Jöreskog, K. G., & Sörbom, D. (2004). LISREL (version 8.7). Lincolnwood, IL: Scientific Soft-
ware International.
Joinson, A.N. & Reips, U.-D. (2007). Personalized salutation, power of sender, and response
rates to web-based surveys. Computers in Human Behavior, 23, 1372-1383.
Kaase, M. (Hrsg.) (1999). Qualitätskriterien in der Umfrageforschung. Berlin: Akademie Ver-
lag.
Kahnemann, D. & Frederick, S. (2002). Representativeness revisited: Attribute substitution
in intuitive judgment. In T. Gilovich, D. Griffin & D. Kahnemann (Eds.), Heuristics and
biases: The psychology of intuitive judgment (S. 267-294). Cambridge, UK: Cambridge Uni-
versity Press.
Kalton, G. (1983). Introduction to survey sampling. Thousand Oakes, CA: Sage.
Literatur 633

Kalton, G. (2009). Methods for oversampling rare populations in social surveys. Survey Me-
thodology, 35, 125-141.
Kalton, G. & Anderson, D.W. (1986). Sampling rare populations. Journal of the Royal Statisti-
cal Society (Series A), 149, 65-82.
Kalton, G. & Flores-Cervantes, I. (2003). Weighting methods. Journal of Official Statistics,
19, 81-97.
Kaminska, O., McCutcheon, A.L. & Billiet, J. (2010). Satisficing among reluctant respondents
in a cross-national context. Public Opinion Quarterly, 74, 956-984.
Kane, E. W., & Macaulay, L. J. (1993). Interviewer gender and gender attitudes. Public Opinion
Quarterly, 57, 1–28.
Kaplan, D. (2008). Structural equation modeling. Thousand Oaks: Sage.
Kaplowitz, M.D., Hadlock, T.D. & Levine, R. (2004). A comparison of web and mail survey
response rates. Public Opinion Quarterly 68, 94-101.
Keeter, S. et al. (2006). Gauging the impact of growing nonresponse on estimates from a Na-
tional RDD telephone survey. Public Opinion Quarterly, 70, 759-779.
Kendall, M. & Stuart, A. (1976). The advanced theory of statistics. Vol. 3 (3rd ed.). London:
Charles Griffin.
Kenny, D.A. (1979). Correlation and causality. New York: John Wiley.
Keuschnigg, M. & Wolbring, T. (Hrsg.) (2015). Experimente in den Sozialwissenschaften.
(Soziale Welt, Sonderband 22). Baden-Baden: Nomos.
Kieruj, N.D. & Moors, G. (2010). Variations in response style behaviour by scale format in
attitude Research. International Journal of Public Opinion Research, 22, 320-342.
Kim, J. M. & Warde, W. D., (2005). A mixed randomized response model. Journal of Statistical
Planning and Inference, 133, 211–221.
Kim, J.M. et al. (2010). Comparison between Self-administered questionnaire, and computer
assisted self-interview for supplementary survey nonresponse. Field Methods, 22, 57-69.
Kirk, R.E. (1995). Experimental design; Procedures for the social sciences (3rd edition). Paci-
ficGrove: Brooks/Cole.
Kish, L. (1949). A procedure for objective respondent selection within a household. Journal
of the American Statistical Association, 44, 380-387.
Kish, L. (1965). Survey sampling. New York: John Wiley.
Kish. L. (1987). Statistical design for research. New York: John Wiley.
Klausch, T., Hox, J.J. & Schouten, B. (2013). Measurement effects of survey mode on the equi-
valence of attitudinal rating scale questions. Sociological Methods & Research, 42, 227-263.
Klein, D.M. (1987). Causation in sociology today: A revised review. Sociological Theory, 5,
19-26.
Knobloch, S. et al. (2003). Imagery effects on the selective reading of internet newsmagazines.
Communication Research, 30, 3–29.
Knoke, D., Bohrnstedt, G.W. & Mee, A.P. (2002). Statistics for social data analysis (4th edi-
tion). Itasca, Ill: F.E. Peacock Publ.
Koch, A. (1998). Warum „mehr“ nicht gleichbedeutend mit „besser“ ist: Ausschöpfungsquo-
ten und Stichprobenverzerrungen in allgemeinen Bevölkerungsumfragen. ZUMA-Nach-
richten 42, 66-90.
König, C., Stahl, M. & Wiegand, E. (Hrsg.) (2011). Umfrageforschung. Entscheidungsgrundla-
ge für Politik und Wissenschaft (GESIS-Schriftenreihe Band 8). Bonn: GESIS-Leibniz-In-
stitut für Sozialwissenschaften.
634 Literatur

Kolenikov, S. & Kennedy, C. (2014). Evaluating three approaches to statistical adjust for mode
effects. Journal of Survey Statistics and Methodology, 2, 126–158.
Komorita, S.S. & Graham, W.K. (1965). Number of scale points and the reliability of scales.
Educational and Psychological Measurement, 25, 987-995.
Kooreman, F. & Scherpenzeel, A. (2014). Advanced body mass measurement, feedback and
health behaviors. Economics and Human Biology, 14, 141-153.
Kowalsky, H.-J. & Michler, G.O. (2003). Lineare Algebra (12. Auflage). Berlin: de Gruyter.
Krantz, D.H. et al. (1971). Foundations of measurement I. New York: Academic Press.
Krantz, D.H. et al. (1974). Foundations of measurement II. New York: Academic Press.
Kreuter, F. (2013a). Facing the nonresponse challenge. The ANNALS of the American Aca-
demy of Political and Social Science Vol. 645, 32-35.
Kreuter, F. (ed.) (2013b). Improving surveys with paradata: Analytic uses of process informa-
tion. Hoboken, NJ: John Wiley.
Kreuter, F., Presser, S. & Tourangeau, R. (2008). Social desirability bias in CATI, IVR, and
web surveys: The effects of mode and question sensitivity. Public Opinion Quarterly, 72,
847-865.
Kreuter, F. et al. (2011). The effects of asking filter questions in interleafed versus grouped
format. Sociological Methods & Research, 40, 80–104.
Kristof, W. (1966). Das Cliffsche Gesetz im Deutschen. Psychologische Forschung, 29, 22-31.
Krosnick, J.A. (1991). Response strategies for coping with the cognitive demands of attitude
measures in surveys. Applied Cognitive Psychology, 5, 213-236.
Krosnick, J.A. (1999). Survey research, Annual Review of Psychology, 50, 537-567.
Krosnick, J.A. (2011). Experiments for evaluating survey questions. In J. Madans et al. (Eds.),
Question evaluation methods (pp. 215-238. Hoboken, NJ: John Wiley.
Krosnick, J.A. & Alwin, D.F. (1987). An evaluation of a cognitive theory of response-order
effects in survey measurement. Public Opinion Quarterly, 51, 201-219.
Krosnick, J.A. & Berent, M.K. (1990). The impact of verbal labeling of response alternatives
and branching on attitude measurement reliability in surveys. Paper presented at the
American Association for Public Opinion Research, Annual Meeting, Lancaster, Pennsyl-
vania.
Krosnick, J.A. & Fabrigar, L.R. (Eds.) (2013). The handbook of questionnaire design. Oxford
University Press.
Krosnick, J.A. & Schuman, H. (1988). Attitude intensity, importance, and certainty and sus-
ceptibility to response effects. Journal of Personality and Social Psychology, 54, 940-952.
Krosnick, J.A. et al. (2002). The impact of „No Opinion“ response options on data quality.
Non-attitude reduction or an invitation to satisfice? Public Opinion Quarterly 66, 371-403
Krosnick, J.A. & Presser, S. (2010). Question and questionnaire design. In P.V. Marsden &
J.D. Wright (Eds.), Handbook of survey research (2nd edition) (pp. 263-313). Bingley, UK:
Emerald.
Kruskal, W. & Mosteller, F. (1979a). Representative sampling I: Non-scientific literature
excluding statistics. International Statistical Review, 47, 13-24.
Kruskal, W. & Mosteller, F. (1979b). Representative sampling II: Scientific literature excluding
statistics. International Statistical Review, 47, 111-123.
Kruskal, W. & Mosteller, F. (1979c). Representative sampling III: Current statistical literature.
International Statistical Review, 47, 245-265.
Literatur 635

Krueger, B.S. & West, B.T. (2014). Assessing the potential of paradata and other auxiliary data
for nonresponse adjustments. Public Opinion Quarterly, 78, 795-831.
Krysan, M. et al. (1994). Respose rates and response content in mail versus face-to-face sur-
veys. Public Opinion Quarterly, 58, 381-399.
Krysan, M., & Couper, M. P. (2003.) Race in the live and the virtual interview: Racial defer-
ence, social desirability, and activation effects in attitude surveys. Social Psychology Quar-
terly, 66, 364-383.
Krysan, M. & Couper, M.P. (2006). Race of interviewer effects: What happens on the web?
International Journal of Internet Science, 1, 17-28.
Kühnel, S.-M. & Krebs, D. (2012). Statistik für die Sozialwissenschaften (6. Auflage). Reinbeck:
Rowohlt.
Lakoff, G. (1971). On generative semantics. In D.D. Steinberg & L.A. Jacobovits (Eds.), Se-
mantics (pp. 232-296). New York: Cambridge University Press.
Lau, R., Sears, D.O. & Jessor, T. (1990). Fact or artifact revisited: Survey instrument effects
and pocket books politics. American Political Science Review, 83, 399-42
Lavrakas, P.J., Stasny, E.A. & Harpuder, B. (2000). A further investigation of the last-birthday
random selection method and within-unit coverage error. Proceedings of the Survey Re-
search Section Method, American Statistical Association (pp. 890-895).
Lazarsfeld, P.F. & Henry, N.W. (1968). Latent structure analysis. Boston: Houghton Mifflin.
Leary, M.R. (2007). Motivational and emotional aspects of the self. Annual Review of Psycho-
logy, 58, 317-344.
Le, K.T. et al. 2012). Within-household sampling conditioning on household size. Internatio-
nal Journal of Public Opinion Research, 25, 108-118.
Lee, S. (2006). Propensity score adjustment as a weighting scheme for volunteer panel web
surveys. Journal of Official Statistics, 22, 29-49.
Lee, G., Benoit-Bryan, J. & Johnson, T.P. (2011). Survey research in public administration:
Assessing mainstream journals with a total survey error framework. Public Administra-
tion Review, 72, 87-97.
Lee, S. & Hershberger, S. (1990). A simple rule for generating equivalent models in Covari-
ance structure modeling. Multivariate Behavioral Research, 25, 313-334.
Leim, I. (2008). Die Modellierung der Fertilitätsentwicklung als Folge individueller Entschei-
dungsprozesse mit Hilfe der Mikrosimulation. Marburg: Metropolis Verlag.
Lepkowski, J.M. (1988). Telephone sampling methods in the United States. In R.M. Groves et
al. (Eds.), Telephone survey methodology (pp. 73-98). New York: John Wiley.
Lessler, J. T. & Forsyth, B.H. (1996). A coding system for appraising questionnaires (pp. 259-
292). In N. Schwarz & S. Sudman (Eds.), Answering questions: Methodology for determin-
ing cognitive and communicative processes in survey research. San Francisco: Jossey-Bass
Publishers.
Lessler, J.T. & O’Reilly, J.M. (1995). Literacy limitations and solution for Self-administered
Questionnaires to enhance privacy. Statistical Policy Working Paper 23 (pp.  453-469).
Bethesda, MD: Council of Professional Associations for Federal Statistics.
Lewis, D. (1973). Counterfactuals. Cambridge: Harvard University Press.
Liebig, S., Sauer, C. & Friedhoff, S. (2015). Empirische Gerechtigkeitsforschung mit dem fak-
toriellen Survey. In M. Keuschnigg & T. Wolbring (Hrsg.), Experimente in den Sozialwis-
senschaften (S. 321 – 339). Soziale Welt Sonderband 22.
636 Literatur

Likert, R. (1932). A technique for the measurement of attitudes. Archives for Psychology, 22,
1-55.
Lillard, L.A. & Farmer, M.M. (1997). Linking Medicare and national survey data. Annals of
Internal Medicine, 127, 691-695.
Lilly, R.S. (1968a). Multiplying values of intensive probabilistic, and frequency adverbs when
combined with potency adjectives. Journal of Verbal Learning and Verbal Behavior 7, 854-
858.
Lilly, R.S. (1968b). The qualification of evaluative adjectives by frequency adverbs. Journal of
Verbal Learning and Verbal Behavior 7, 333-336.
Link, M.W. & Burks, A.T. (2013). Leveraging auxiliary data, differential incentives, and sur-
vey mode to target hard-to-reach groups in an address-based sample design. Public Opin-
ion Quarterly, 77, 696-713.
Link, M.W. & Mokdad, A. (2005). Advance letters as a means of improving respondent co-
operation in random digit dialing studies. Public Opinion Quarterly, 69, 572-587.
Link, M.W. et al. (2009). Measuring the quality of real-time telephone survey interpreters.
International Journal of Public Opinion Research, 21, 271-292.
Little, R.A. & Rubin, D.B. (2002). Statistical analysis of missing data (2nd edition). Hoboken,
NJ: John Wiley.
Liu, M. & Stainback, K. (2013). Interviewer gender effects on survey response responses to
marriage-related questions. Public Opinion Quarterly, 77, 606-618.
Lodge, M. (1981). Magnitude scaling, quantitative measurement of opinions. London: Sage.
Lohr, S.L. (2009). Multiple frame surveys. In D. Pfefferman & J.N.K. Rao (Eds.), Handbook
of Statistics Vol. 29A: Sample surveys: Design, methods and applications Burlington, MA:
Elsevier.
Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA:
Addison-Wesley.
Lütgepohl, H. (2006). New introduction to multiple time series analysis. New York: Springer.
Lugtig, P. & Lensvelt-Mulders, G.J.L.M. (2014). Evaluating the effect of dependent intervie-
wing on the quality of measures of change. Field Methods, 26, 172-190.
Lundquist, P. & Särndal, C.-E. (2013). Aspects of responsive design with applications to the
Swedish Living Conditions Survey. Journal of Official Statistics, 29, 557-582.
Lyberg, L. et al. (Eds.) (1997). Survey measurement and process quality. New York: John Wiley.
Lynch, J.P. (1993): The effects of survey design on reporting in victimization surveys – The
United States Experience. In W. Bilsky, C. Pfeiffer & P.Wetzels (Hrsg), Fear of crime and
criminal victimization (pp. 159-185). Stuttgart: Enke,
Lynch, P.J. & Horton, S. (2008). Web Style Guide. New Haven: Yale University Press
Lynn, P. (ed.) (2009). Longitudinal surveys. Hoboken, NJ: John Wiley.
Lynn, P. (2012). The impact of questioning method on measurement error in panel survey
Measures of benefit receipts: Evidence of a validation study. Journal of the Royal Statistical
Society A, 175, 289-308.
Lynn, P. et al. (2002). The effect of extended interviewer efforts on nonresponse bias. In
Groves, R.M. et al. (Eds.), Survey nonresponse (pp. 135-147). New York: John Wiley.
Lynn, P. et al. (2006). The effects of dependent interviewing on responses to questions on
income sources. Journal of Official Statistics, 22, 357-384.
Lynn, P. et al. (2007). Methods for achieving equivalence of samples in cross-national surveys:
The European Social Survey experience. Journal of Official Statistics, 23, 107-124.
Literatur 637

Madans, J. et al. (Eds.) (2011). Question evaluation methods. Hoboken, NJ: John Wiley.
Madden, J.M. & Bourdon, R.D. (1964). Effects of variations in scale format on judgment.
Journal of Applied Psychology, 48, 147-151.
Mair, P., Wu, E. & Bentler, P.M. (2010) EQS Goes R: Simulations for SEM Using the Package
REQS. Structural Equation Modeling, 17, 333-349
Manfreda, K.L., Vehovar, V. & Hlebec, V. (2004). Collecting ego-centered network data via
the web. Metodološki zvezki, 1, 295-321.
Manfreda, K.L., et al. (2008). Web surveys versus other survey modes: A meta-analysis com-
paring response rates. International Journal of Market Research, 50, 79-104.
Mangat, N. S. & Singh, R. (1990). An alternative randomized response procedure. Biometri-
ka, 77, 439-442.
Mann, C.B. (2005). Do advance letters improve preelection forecasts accuracy? Public Opin-
ion Quarterly, 69, 561-571.
Massey, J.T., O’Connor, D.J. & Krotki, K. (1997). Response rates in random digit dialing
(RDD) telephone surveys. Proceedings of the American Statistical Association, Section on
Survey Research Methods (pp. 202-712).
Masters, E.R. (1974). The relationship between type number of response categories and re-
liability of Likert-Type questionnaires. Journal of Educational Measurement, 11, 49-53.
Mathiowetz, N.A. & McGonagle, K.A. (2000). An assessment of the current state of depen-
dent interviewing in household surveys. Journal of Official Statistics, 16, 401-441.
Mayer, K.U. & Huinink, J. (1990). Alters-, Perioden- und Kohorteneffekte in der Analyse von
Lebensverläufen: oder: Lexis ade? in K.U. Mayer (Hrsg.), Lebensläufe und sozialer Wandel
(S. 442-459). Wiesbaden: Westdeutscher Verlag.
Mayerl, J. & Urban, D. (2008). Antwortreaktionszeiten in Survey-Analysen. Wiesbaden: Sprin-
ger VS.
McCallister, J.L. & Fischer, C.S. (1978). A procedure for surveying personal networks. Socio-
logical Methods & Research, 7, 131-148.
McCutcheon, A.L. (1987). Latent class analysis. Thousand Oaks, CA: Sage.
McDonald, M.P. & Thornburg, M.P. (2012). Interview mode effects. The case of exit polls and
early voting. Public Opion quarterly, 76, 326-349.
McFall, S.L., Conolly, A. & Burton, J. (2014). Collecting biomarkers and biological samples
using trained interviewers. Lessons from a pilot study. Survey Research Methods, 8, 57-66.
McHorney, C.A., Kosinski, M. & Ware, J.E. (1994). Comparisons of the costs and quality of
norms for the SF-36 Survey collected by mail versus telephone interview: Results from a
national survey. Medical Care, 32, 551-567.
McKelvie, S.J. (1978). Graphic rating scales - How many categories? British Journal of Psycho-
logy, 69, 185–202.
McLachlan, G. & Peel, D. (2000). Finite mixture models. Hoboken, NJ: John Wiley.
Mead, H. (1934). Mind, self, and society. Chicago: University of Chicago Press.
Medway, R.L. & Fulton, J. (2012). When more gets you less: A meta-analysis of the effect
of concurrent web options on Mail Survey response rates. Public Opinion Quarterly,76,
733–746.
Mercer, A. et al. (2015). How much gets you how much? Monetary incentives and response
rates in household surveys. Public Opinion Quarterly, 79, 105–129.
Meitinger, K. (2017). Necessary but insufficient Why measurement invariance tests need on-
line probing as a complementary tool. Public Opinion Quarterly, 8, 447-472.
638 Literatur

Merz, J. (1983). Die konsistente Hochrechnung von Mikrodaten nach dem Prinzip des mini-
malen Informationsverlustes. Allgemeines Statistisches Archiv, 67, 342-366
Metschke, R. & Wellbrock, R. (2002). Datenschutz in Wissenschaft und Forschung. Berlin:
Berliner Beauftragter für Datenschutz und Informationsfreiheit (Hrsg.). Materialien
zum Datenschutz Nr. 28. http://www.datenschutz- berlin/attachments/47/Materialien28.
pdf?1166527077.
Meyers, L.S., Gamst, G. & Guarino, A.J. (2013). Applied multivariate research. ThousandOaks
CA: Sage.
Millar, M.M. & Dillman, D. (2011). Improving response to web and mixed-mode surveys.
Public Opinion Quarterly, 75, 249-269.
Miller, G.A. (1956). The magical number seven, plus or minus two: Some limits on our capa-
city for processing information. Psychological Review, 63, 81–97.
Miller, K. (2011). Cognitive interviewing. In J. Madans et al. (Eds.), Question evaluation
methods (pp. 51-75). Hoboken, NJ: John Wiley.
Miller, K. et al. (2014). Cognitive interviewing methodology. Hoboken, NJ: John Wiley.
Mitchell, D.L. (1993). A multivariate analysis of the effects of gender and computer vs. Paper/
pencil modes of administration on survey results. Unpublished doctoral dissertation of the
College Administration and Business, Lousiana Technical University, Ruston. LA. ACM
Digital Library.
Mitofski, W. (1970). Sampling of telephone households (unpublished CBS memorandum.)
Mohorko, A., De Leeuw, E. & Hox, J. (2013). Internet coverage and coverage bias in Europe:
Developments across countries and over time. Journal of Official Statistics, 29, 609–622.
Morris, C.W. (1938). Foundations of the theory of signs. In O. Neurath (ed.). International
Encyclopedia of Unified Science (Vol. I). Chicago: Chicago University Press
Morrison, D.E. & Henkel, R.E. (1970). The significance test controversy: A reader. London:
Butterworth.
Morrison, R.L., Dillman, D.A. & Christian, L.M. (2010). Questionnaire design guidelines for
establishment surveys. Journal of Official Statistics, 26, 43-85.
Moxey, L.M. & Sanford, A.J. (2000). Communicating quantities: A review of psycholingu-
istic evidence of how expressions determine perspectives. Applied Cognitive Psychology,
14, 237-255.
Münz, S. & Nefzger, W. (2004). HTML und Web-Publishing Handbuch. Poing: Franzis Verlag.
Muthén, B.O. (1984). A general structural equation model with dichotomous, ordered cate-
gorical, and continuous latent variable indicators. Psychometrika, 49, 115-132.
Muthén, L. K., & Muthén, B. O. (2015). Mplus (version 7.4). Los Angeles, CA: Muthén &
Muthén.
Narayan, S. & Krosnick, J.A. (1996). Education moderates some response effects in attitude
Measurement. Public Opinion Quarterly, 60, 58-88.
Nauck, B. & Bertram, H. (1995). Kinder in Deutschland: Lebensverhältnisse von Kindern im
Regionalvergleich. Wiesbaden: VS Verlag für Sozialwissenschaften.
Namboodiri, K. (1984). Matrix algebra. An introduction. Newbury Park, CA.: Sage.
Neale, M.C. et al. (2016). OpenMx 2.0: Extended structural equation and statistical model-
ing. Psychometrika, 81, 535-549.
Neon (2003). Anforderungen an Online-Umfrage-Software. Berlin: BVM Berufsverband
Deutscher Markt und Sozialforscher e.V.
Literatur 639

Neter, J. & Waksberg, J. (1964). A study of response errors in expenditures data from house-
hold interviews. Journal of the American Statistical Association, 59, 17-55.
Oberski, D., Saris, W.E. & Hagenaars, J.A. (2010). Categorization errors and differences in
the quality of Questions in Comparative Surveys. In J.A. Harkness et al. (Eds.), Survey
methods in multinational, multiregional, and multicultural contexts (pp. 435-473). Hobo-
ken, NJ: John Wiley.
Oh, H.L. & Scheuren, F. (1983). Weithting adjustments for unit nonreponse. In W.G. Madow,
I. Olkin & D. Rubin (Eds.). Incomplete data. Volume 2: Theory and Bibliographies. New
York: Academic Press.
Olsson, U., Drasgow, F. & Dorans, N.J. (1982). The polyserial correlation coefficient. Psycho-
metrika, 47, 337-347.
Österreichisches Normungsinstitut (2010). ÖNORM ISO 26362: 2010: Access Panels in der
Markt-, Meinungs- und Sozialforschung. Austrian Standard Publ.
Oksenberg, L. & Cannell, C. (1988). Effects of vocal characteristics on nonresponse. In R.M.
Groves et al. (Eds.), Telephone survey methodology (pp. 257-273). New York: John Wiley.
Oksenberg, L., Coleman, L. & Cannell, C.F. (1986). Interviewer’s voices and refusal rates in
telephone surveys. Public Opinion Quarterly, 50, 97-111.
Olson, K. (2013). Do non-response follow-ups improve or reduce data quality? A review of
the existing literature, Journal of the Royal Statistical Society A, 176, 129 – 145.
Olson, K., Smyth, J. D., & Wood, H. (2012). Does giving people their preferred survey mode
actually increase survey participation? An experimental examination. Public Opinion
Quarterly, 76, 611–635.
Olsson, U., Drasgow, F. & Dorans, N.J. (1982). The polyserial correlation coefficient. Psycho-
metrika, 47, 337-347.
O’Muircheartaigh, C., Krosnick, J. A., & Helic, A. (1999). Middle alternatives, acquiescence,
and the quality of questionnaire data. Paper presented at the American Association for
Public Opinion Research annual meeting, St. Petersburg, FL
O’Reilly et al. (1994). Audio and Video computer assisted Self-interviewing: Preliminary test
of new technologies for data collection. Journal of Official Statistics, 10, 197-214.
O’Rourke, D. & Blair, J. (1983). Improving random respondent selection in telephone sur-
veys. Journal of Marketing Research, 20, 428-432.
Ongena, Y.P. & Dijkstra, W. (2006). Methods of behavior coding of survey interviews. Journal
of Official Statistics, 22, 419-451.
Orth, B. (1974). Einführung in die Theorie des Messens. Stuttgart: Kohlhammer.
Osgood, C.E., Suci, G.J, & Tannenbaum, P.H. (1957). The measurement of meaning Urbana:
University of Illinois Press.
Ostrom, T. & Gannan, K. (1996). Exemplar generation: Assessing how respondents give
meaning to rating scales. In N. Schwarz & S. Sudman (Eds.), Answering questions Meth-
odology for determining cognitive and communicative processes in survey research (pp. 293-
318). San Francisco: Jossey-Bass.
Oyserman, D. & Lee, S.W.S. (2008). Does culture influence what and how we think? Psycho-
logical Bulletin, 132, 311-342.
Pannekoek, J., Scholtus, S. & Van der Loo, M. (2013). Automated and manual data editing: A
view on process design and methodology. Journal of Official Statistics, 29, 511-537.
Parducci, A. (1965). Category judgment: A range-frequency model. Psychological Review, 72,
407-418.
640 Literatur

Parducci, A. (1983). Category ratings and the relational character of judgment. In H. G.


Geissler, H. F. J. M. Buffort, E. L. J. Leeuwenberg, & V. Sarris (Eds.), Modern issues in per-
ception (pp. 89-105). Berlin: VEB Deutscher Verlag der Wissenschaften.
Park, D. & Schwarz, N. (2000). Cognitive aging: A primer. Philadelphia: Psychology Press.
Paulhus, D. L. (1984). Two-component models of socially desirable responding. Journal of
Personality and Social Psychology, 46, 598-609.
Paulhus, D. L. (2002). Socially desirable responding: the evolution of a construct. In H. I
Braun, D. N. Jackson, & D. E. Wiley (Eds.), The role of constructs in psychological and
educational measurement (pp. 46-69). Mahwah NJ: Lawrence Erlbaum.
Payne, S.L. (1951). The art of asking questions. Princeton: Princeton University Press
Pearson, J. & Levine, R.A. (2003). Salutations and response rates to online surveys. Paper
Presented at the fourth international conference on the impact of technology on the survey
process. University of Warwick, UK.
Pepper, S., & Prytulak, L. S. (1974). Sometimes frequently means seldom: Context effects in
the interpretation of quantitative expressions. Journal of Research in Personality, 8, 95-101.
Peytchev, A. (2013). Consequences of survey nonresponse. The ANNALS of the American
Academy of Political and Social Science Vol. 645, 88-111.
Peytchev, A. & Hill, C.A. (2010). Experiments in mobile web survey design. Similarities to
other modes and unique considerations. Social Science Computer Review, 28, 319-335.
Peytchev, A., Baxter, R.K. & Carley-Baxter, L.R. (2009). Not all survey effort is equal – Reduc-
tion of nonresponse bias and nonresponse error. Public Opinion Quarterly, 73, 785-806.
Peytchev, A., Carley-Baxter, L.R. & Black, M.C. (2010). Coverage bias in variances, associ-
ations, and total error from exclusion of the cell phone-only population in the United
States. Social Science Computer Review, 28, 287-302.
Peytchev, A. Peytcheva, E. & Groves, R.M. (2010). Measurement error, unit noresponse, and
self-reports of abortion experiences. Public Opinion Quarterly, 74, 319-327.
Peytchev, A. et al. (2010). Increasing respondents’ use of definitions in web surveys. Journal
of Official Statistics, 26, 633-650.
Pfister, R., Nussbaum, P. & Schallberger, U. (1999). Konzeption und Durchführung der Daten-
erhebung, die Stichproben und das Commitment der Untersuchungspersonen (Arbeitsbe-
richt Nr. 3 aus dem Projekt „Qualität des Erlebens in Arbeit und Freizeit“). Zürich: Psy-
chologisches Institut.
Pickery, J. & Loosveldt, G. (1999). An evaluation of a typology of respondents with a multile-
vel-multinomial logit model. Bulletin de Méthodologie Sociologique, 63, 47-61.
Pickery, J. & Loosfeldt, G. (2001). An exploration of question characteristics that mediate
interviewer effects on item nonresponse. Journal of Official Statistics, 17, 337-350.
Pickery, J. & Loosfeldt, G. (2004). A simultaneous analysis of interviewer effects on various
Data quality indicators with identification of exceptional interviewers. Journal of Official
Statistics, 20, 77-89.
Pierzschala, M. (1990). A review of the state of the art in automated data editing and imputa-
tion. Journal of Official Statistics, 6, 355-377.
Plewis, I. (1985). Analyzing change. New York: John Wiley.
Poe, G.S. et al. (1988). “Don’t know”-boxes in factual questions in a mail questionnaire. Public
Opinion Quarterly, 52, 212-22
Popper, K. (1976). Logik der Forschung (6. verbesserte Auflage). Tübingen: J.C.B. Mohr.
Literatur 641

Porst, R. (1996). Ausschöpfungen bei sozialwissenschaftlichen Umfragen. Die Sicht der Institute
(ZUMA-Arbeitsbericht 96/07). Mannheim: ZUMA.
Porst, R. (1999). Thematik oder Incentives? Zur Erhöhung der Rücklaufquoten bei Postali-
schen Befragungen. ZUMA-Nachrichten, 23, 72-87.
Porst, R. (2001). Wie man die Rücklaufquote bei postalischen Befragten erhöht (ZUMA How-
to-Reihe Nr. 9). Mannheim: ZUMA.
Porst, R. (2011). Fragebogen: Ein Arbeitsbuch (3. Auflage). Wiesbaden: VS Verlag.
Porst, R. & Jers, C. (2007). Die ALLBUS-„Gastarbeiter-Frage“. Zur Geschichte eines Stan-
dard-Instruments in der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften
(ALLBUS)., Soziale Welt, 58 145-161.
Porst, R. Schmidt, P. & Zeifang, K. (1987). Comparisons of subgroups by models with multi-
ple indicators. Sociological Methods & Research, 15, 303-315.
Porter, S.R. & Withcomb, M.E. (2003). The impact of content type on web survey response
rates. Public Opinion Quarterly, 67, 579-588.
Presser, S. et al. (Eds.) (2004a). Methods for testing and evaluating survey questions. New York:
John Wiley.
Presser, S. et al. (2004b). Methods for testing and evaluating survey questions. Public Opinion
Quarterly, 68, 109-130.
Preston, M.G. & Baratta, Ph. (1948). An experimental study of the auction-value of an uncer-
tain outcome. American Journal of Psychology, 61, 183-193.
Prüfer, P. & Rexroth, M. (1996). Verfahren zur Evaluation von Survey-Fragen. Ein Überblick.
ZUMA-Nachrichten 39, 95-116
Prüfer, P. & Rexroth, M. (2005). Kognitive Interviews (ZUMA-How-to-Reihe, Nr. 15). Mann-
heim: ZUMA.
Prüfer, P. & Stiegler, A. (2002). Die Durchführung standardisierter Interviews: Ein Leitfaden
(ZUMA How-to-Reihe Nr. 11). Mannheim: ZUMA.
Przeworski, A. & Teune, H. (1968). Equivalence in cross-national research. Public Opinion
Quarterly 30, 33-43.
Przeworski, A. & Teune, H. (1970). The logic of comparative social inquiry. New York: Wiley.
Quillian, M.R. (1968). Semantic memory. In M. Minsky (Ed.), Semantic information proces-
sing. (pp. 227-270). Cambridge, Mass.: MIT Press.
Rässler, S. (2002). Statistical matching: A frequentist theory, practical applications, and Alter-
native Bayesian approaches (Lecture Notes in Statistics 168). New York: Springer.
Raento, M., Oulasvita, A. & Eagle, N. (2009). Smartphones: An emerging tool for the social
scientists. Sociological Methods & Research, 37, 426-454.
Raffalovich, L.E. & Bohrnstedt, G.W. (1987). Common, specific, and error variance Compo-
nents of factor models: Estimation with longitudinal data. Sociological Methods & Rese-
arch, 15,385-405.
Ramos, M., Sedivi, B.M. & Sweet, E.M. (1998). Computerized self-administered Questi-
onnaires (pp. 389-408). In M.P. Couper et al. (Eds.), Computer-assisted survey information
collection. New York: John Wiley.
Rammstedt, B. & John, P. (2007). Measuring personality in one minute or less: A 10-item
short version of the Big Five Inventory in English and German. Journal of Research in
Personality, 41, 203-212.
Rammstedt, B. et al. (2013). Eine kurze Skala zur Messung der fünf Dimensionen der Persön-
lichkeit. Mda, 7, 233-249.
642 Literatur

Rao, K., Kaminska, O. & McCutcheon, A.L. (2010). Recruiting probability samples for a mul-
ti-mode research panel with internet and mail components. Public Opinion Quarterly, 74,
68-84.
Redline, C. (2013). Clarifying categorical concepts in a web survey. Public Opinion Quarter-
ly,77, 89-105.
Reinecke, J. (2014). Strukturgleichungsmodelle in den Sozialwissenschaften (2. Auflage). Mün-
chen: Oldenbourg
Reips, U.-D. (1997). Das psychologische Experimentieren im Internet. In B. Batinic (ed.),
Internet für Psychologen (S. 245-265). Göttingen: Hogrefe.
Reips, U.-D. & Funke, F. (2008). Interval level measurement with visual analogue scales in
internet-based research: VAS generator. Behavior Research Methods, 40, 699-704.
Reuband, K.-H. (1990). Interviews, die keine sind. Kölner Zeitschrift für Soziologie und Sozi-
alpsychologie, 42,
Rhemtulla, M. Brosseau-Liard, P.É. & Savalei, V. (2012). When can categorical variables be
treated as continuous? A comparison of robust continuous and categorical SEM estima-
tion methods under suboptimal conditions. Psychological Methods, 17, 354-373.
Rizzo, L., Brick, J.M. & Park, I. (2004). A minimal intrusive method for sampling persons in
random digit dialing surveys. Public Opinion Quarterly, 68, 267-274.
Rodgers, W.L., Andrews, F.M. & Herzog, A.R. (1992): Quality of survey measures: A structu-
ral modeling approach. Journal of Official Statistics, 8, 251-275.
Roduner, K. et al. (2001). Anleitung zum Arbeiten mit der Experience Sampling Method (ESM)
(Arbeitsbericht Nr. 4 aus dem Projekt „Qualität des Erlebens in Arbeit und Freizeit“).
Zürich Psychologisches Institut.
Rogelberg, S.G. et al. (2001). Attitudes toward surveys: Development of a measure and its
relationship to respondent behavior. Organizational Research Methods, 4, 2-25.
Rohrmann, B. (1978). Empirische Studien zur Entwicklung von Antwortskalen für die psy-
chologische Forschung. Zeitschrift für Sozialpsychologie, 9, 222-245.
Rohrmann, B. (2007). Verbal qualifiers for rating scales: Sociolinguistic considerations and psy-
chometric data (Project Report). University of Melbourne.
Available at http://www.rohrmannresearch.net/pdfs/rohrmann-vqs-report.pdf.
Rosch, E. (1975). Cognitive reference points, Cognitive Psychology 7, 532-547.
Rosen, S. & Tesser, A. (1970). On reluctance to communicate undesirable information: The
Mum effect. Sociometry, 33, 253-263.
Rosenbaum, P.R. & Rubin, D.B. (1983). The central role of the propensity score of observa-
tional studies for causal effects. Biometrika, 70, 41-55.
Rosenbaum, P.R. & Rubin, D.B. (1984). Reducing bias in observational studies using sub-
classification on the propensity score. Journal of the American Statistical Association, 79,
516-524.
Ross, B.H. & Murphy, G.L. (1999). Food for Thought: Cross-classification and category orga-
nization in a complex real-world domain. Cognitive Psychology 38, 495-553
Rosseel, Y. (2012). lavaan: An R package for structural equation modeling. Journal of Statisti-
cal Software, 48, 1–36
Rossi, P.H. (1979). Vignette analysis. Uncovering the normative structure of complex judge-
ments. In R. K. Merton, J. S. Coleman und P. H. Rossi (Eds.), Qualitative and quantitative
social esearch. Papers in honour of Paul F. Lazarsfeld (pp. 176-186). New York: Free Pres
Literatur 643

Rossi, P. H. & Anderson, A.B. (1982). The factorial survey approach. An introduction. In P.
H. Rossi & S.L. Nock (Eds.), Measuring social judgments. The factorial survey approach
(pp. 15-67). Beverly Hills: Sage.
Rothgeb, J.M., Willis, G. & Forsyth, B. (2007). Questionnaire pretesting methods: Do differ-
ent techniques and different organizations produce similar results? Bulletin de méthodol-
ogie sociologique, 96, 1-16.
Rubin, D.B. (1974). Estimating causal effects of treatments in randomized and nonrandom-
ized studies. Journal of Educational Psychology, 66, 688-701.
Rubin, D.B. (1976). Inference and missing data. Biometrika, 63, 581-592-
Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: John Wiley.
Rubin, D.B. (1997). Estimating causal effects from large data sets using propensity scores.
Annals of Internal Medicine, 127, 757-763.
Särndal, C.-E. and Lundström, S. (2005). Estimations in Surveys with Nonresponse. New York:
Wiley.
Särndal, C.-E., Swensson, B. & Wretman, J. (1992). Model assisted survey sampling. New York:
Springer.
Sakshaug, J.W. et al. (2012). Linking survey and administrative records. Sociological Methods
&Research, 41, 535-569.
Sakshaug, J.W. & Kreuter, F. (2011). Using paradata and other auxiliary data to examine mode
switch nonresponse in a “Recruit and Switch” telephone survey. Journal of Official Statis-
tics, 27, 338-357.
Sakshaug, J.W. & Kreuter, F. (2014). The effect of benefit wording on consent to link survey
and administrative records in a web survey. Public Opinion Quarterly, 78, 166-177.
Sakshaug, J.W. et al. (2015). Characteristics of Physical Measurement Consent in a Popula-
tion-Based Survey of Older Adults. Medical Care, 48, 64–71.
Sala, E., Burton, J. & Knies, G. (2012). Correlates of obtaining informed consent to data link-
age: Respondent. Interview, and interviewer characteristics. Sociological Methods & Re-
search, 41, 414-439.
Salmon, C.T. & Nichols, J.S. (1983). The next-birthday method of respondent selection. Pub-
lic Opinion Quarterly, 47, 270-276.
Sand, M. (2014). Dual-Frame-Telefonstichproben - Entwicklung, Handhabung und Gewich-
tung. (GESIS - Technical Reports 2014, 2). Mannheim: GESIS.
Sand, M. (2016). Evaluierung von HLR-Lookup-Verfahren. Erste Ergebnisse aus dem Projekt
VermIn. In S. Eifler & F. Faulbaum (Hrsg.) Methodische Probleme von Mixed-Mode-Ansät-
zen in der Umfrageforschung (S. 203-229). Wiesbaden: Springer VS.
Saris, W.E. (1988). Variations in response functions: A source of measurement error in attitude
research. Amsterdam: Sociometric Research Foundation.
Saris, W.E. (2003a). Response function equality. In J.A. Harkness, F.J.R. Van de Vijver, & P.Ph.
Mohler, (Eds.) (2003). Cross-cultural survey methods (pp. 275-288). Hoboken, NJ: John
Wiley.
Saris, W.E. (2003b). Multitrait-Multimethod studies. In J.A. Harkness, F.J.R. Van de Vijver, &
P.Ph. Mohler, (Eds.) (2003). Cross-cultural survey methods (pp. 265-274). Hoboken, NJ:
John Wiley.
Saris, W. E. & Gallhofer, I.N. (2014). Design, evaluation and analysis of questionnaires for
survey research (2nd edition). Hoboken: John Wiley.
644 Literatur

Särndal, C.-E., Swensson, B. & Wretman, J. (1992). Model assisted survey sampling. New York:
Springer.
Särndal, C.-E. & Lundström, S. (2005). Estimation in surveys with nonresponse. Hoboken, NJ:
John Wiley.
Saunders, M.N.K. (2012). Web versus mail: The influence of survey distribution mode on
employees’ response. Field Methods, 24, 56-73.
Sauerbier, Th. (2002). UMDBS – A new tool for dynamic microsimulation. Journal of Artifi-
cial Societies, 5 (2).
Savage, L.J. (1954). The foundations of statistics. New York: John Wiley.
Schafer, J.L. (1997). Analysis of incomplete multivariate data. Boca Raton, FL: Chapman &
Hill.
Schaeffer, N.C. & Maynard, D.W. (2008). The contemporary standardized survey interview
for social research. In F.G. Conrad & M.F. Schober (Eds.), Envisioning the survey interview
of the future (pp. 31-57). Hoboken, NJ: John Wiley.
Scherpenzeel, A. (2016). Mixing online panel data collection with innovative methods. In
S. Eifler & F. Faulbaum (Hrsg.), Methodische Probleme von Mixed-Mode-Ansätzen in der
Umfrageforschung (S. 27-49). Wiesbaden: Springer VS.
Scherpenzeel, A. C. & Saris, W.E. (1997). The validity and reliability of survey questions: A
meta-analysis of MTMM studies. Sociological Methods & Research, 25, 341-383.
Scheuch, E.K. (1968). The cross-cultural use of sample surveys: Problems of comparability.
In S. Rokkan (Ed.) Comparative research across cultures and nations (pp. 176-179). The
Hague: Mouton.
Schlittgen, R. & Streitberg, B.H.J. (2001). Zeitreihenanalyse. München: Oldenbourg.
Shumway, R.H. & Stoffer, D.S. (2011). Time series analysis and its applications. New York:
Springer.
Schneekloth, U. & Leven, I. (2003). Woran bemisst sich eine „gute“ allgemeine Bevölkerungs-
umfrage? Analysen zu Ausmaß, Bedeutung und zu den Hintergründen von Nonresponse
in zufallsbasierten Stichprobenerhebungen am Beispiel des ALLBUS. ZUMA-Nachrichten
53, 16-57.
Schneid, M. (1995). Disk by Mail. Eine Alternative zur schriftlichen Befragung (ZUMA- Ar-
beitsbericht 95/02). ZUMA: Mannheim.
Schneid, M. (2004). Zum Einsatz stationärer Rechner, Notebooks und PDAs bei der Erhe-
bung im Feld. Zeitschrift für Sozialpsychologie, 35, 3-13.
Schnell, R. (1991). Der Einfluss gefälschter Interviews auf Survey-Ergebnisse. Zeitschrift für
Soziologie, 20, 25-35.
Schnell, R. (1997). Nonresponse in Bevölkerungsumfragen. Opladen: Leske und Budrich.
Schnell, R. (2009). Biometrische Daten. In C. König, M. Stahl und E. Wiegand (Hrsg.),
Nicht-reaktive Erhebungsverfahren (S.  45-60). Bonn: GESIS-Leibniz-Institut der Sozial-
wissenschaften.
Schnell, R. (2012). Survey-Interviews. Methoden standardisierter Befragungen. Wiesbaden:
Springer VS.
Schnell, R. (2013). Linking surveys and administrative data. German RCL Working Paper No.
wp-grcl-2013-03.
Schnell, R. & Kreuter, F. (2005). Separating interviewer and sampling-point effects. Journal of
Official Statistics, 21, 389-410.
Literatur 645

Schober, M.F. (1999). Making sense of questions: An interactional approach. In M.G. Sirken
et al. (Eds.), Cognition and survey research (pp. 77-93). New York: John Wiley & Sons.
Schober, M.F. & Conrad, F.G. (1997). Does conversational interviewing reduce survey mea-
surement error? Public Opinion Quarterly, 61, 576-602.
Schober, M.F. & Conrad, F.G. (2002). A collaborative view of standardized survey interviews.
In D. Maynard et al. (Eds.), Standardization and tacit knowledge: Interaction and practice
in the survey interview (pp. 67-94). Hoboken, NJ: John Wiley.
Schober, M.F. & Conrad, F.G. (2008). Survey interviews and new communication technolo-
gies. In M.F. Schober & F.G. Conrad (Eds.), Envisioning the survey interview of the future
(pp. 1-30). Hoboken, NJ: John Wiley.
Schober, M.F., Conrad, F.G. & Fricker, S.S. (2004). Misunterstanding standardized language
in research interviews. Applied Cognitive Psychology, 18, 169-188.
Schouten, B., Cobben, F. & Bethlehem, J.G. (2009). Indicators for the representativeness of
survey response. Survey Methodology, 35, 101-113.
Schreckenberg, D. & Schümer, R. (2010). The impact of acoustical, operational and non-au-
ditory factors on short-term annoyance due to aircraft noise. Proceedings of internoise
2010: Noise and Sustainability, Lisbon, Portugal, CDROM: Paper No. 333.
Schröter, J. (2007). Grundwissen Perl. München: Oldenbourg.
Schuman, H. & Kalton, G. (1985). Survey methods. In G. Lindzey & E. Aronson (Eds.), The
handbook of social psychology (3rd edition pp. 635-697). Reading, MA:Addison-Wesley.
Schuman, H. & Converse, J.M. (1968). The effects of black and white interviewers on white
respondents in 1968. Public Opinion Quarterly, 35, 44-68;
Schwarz, N. (1995). What respondents learn from questionnaires: the survey interview and
the logic of conversation. International Statistical Review, 63, 153-177.
Schwarz, N. (1996). Cognition and communication: Judgmental biases, research methods, and
the logic of conversation. Mahwah: Lawrence Erlbaum.
Schwarz, N. (1997). Questionnaire Design: The Rocky Root from Concepts to Answers. In L.
Lyberg et al. (Eds.), Survey measurement and process quality (pp. 29-46). New York: John
Wiley.
Schwarz, N. (2007). Cognitive aspects of survey methodology. Applied Cognitive Psychology,
21, 277-287.
Schwarz, N. & Lee, S.W.S. (2012). Metaphor in judgment and decision making. In M.J.
Landau, D. Robinson, & P. Meier (Eds.), Metaphorical thought in social life (pp. 85-108).
Washington D.C.: Psychological Association.
Schwarz, S. & Sudman, S. (1993). Autobiographical memory and the validity of retrospective
reports. New York: Springer.
Schwarz, N., Oyserman, D. & Peytcheva, E. (2010). Cognition, communication, and culture:
Implications for the survey response process. In J. Harkness et al. (Eds.), Survey methods
in multinational, multiregional, and multicultural contexts (pp. 177-301). Hoboken, NJ:
John Wiley.
Schwarz, N. et al. (1993). Rating scales: numeric values may change the meaning of scale
labels. Public Opinion Quarterly, 55, 570-582.
Shapiro, A. (1985). A note on the asymptotic distribution of the greatest lower bound to reli-
ability. Psychometrika, 50, 243–244.
Sheeran, P. (2002). Intention-behavior relations: A conceptual and empirical review. Europe-
an Journal of Social Psychology, 12, 1-36.
646 Literatur

Shih, X. & Fan, T. (2002). Response rates and mode preferences in web-mail mixed-mode
surveys: A meta-analysis. International Journal of Internet Science, 2, 59–82.
Shin, E., Johnson, J.P. & Rao, K. (2013). Survey mode effects on data quality: Comparison of
web and mail modes in a U.S. national panel survey. Social Science Computer Review, 30,
212-228.
Sihm, J.S., Chhabra, A. & Gupta, S.N. (2016). An optional unrelated question RRT model.
INVOLVE, 9, 195-209.
Silvia, P.J. et al. (2013). Missed beeps and missing data: Dispositional and situational predic-
tors of nonresponse in experience sampling research. Social Science Computer Review, 31,
471-481.
Singer, E. (2011). Toward a benefit-cost theory of survey participation: Evidence, further
tests, and implications. Journal of Official Statistics, 27, 379-392.
Singer, J.D. & Willett, J.B. (2003). Applied longitudinal data analysis. New York: Oxford Uni-
versity Press.
Singer, E., Groves, R.M. & Corning, A.D. (1999). Differential incentives. Public Opinion
Quarterly, 63, 251-260.
Singer, E., Hippler, H.-J. & Schwarz, N. (1992). Confidentiality assurances: Reassurance or
threat? International Journal of Public Opinion Research, 4, 256-268.
Singer, E., Van Hoewyk, J. & Maher, M.P. (1998). Does the payment of incentives create ex-
pectation effects? Public Opinion Quarterly, 62, 152-164.
Singer, E., Van Hoewyk, J. & Maher, M.P. (2000). Experiments with incentives in telephone
surveys. Public Opinion Quarterly, 64, 171-188.
Singer, E., Van Hoewyk, J. & Neugebauer, R.J. (2003). Attitudes and behavior. Public Opinion
Quarterly, 67, 386-384.
Singer, E., Von Thurn, D.R. & Miller, E.R. (1995). Confidentiality assurances and response.
Public Opinion Quarterly, 59, 66-77.
Sinibaldi, J., Durrant, G.B. & Kreuter, F. (2013). Evaluating measurement error of interviewer
observed paradata. Public Opinion Quarterly, 77, 173-193.
Skrondal, A. & Rabe-Hesketh, S. (2004). Generalized latent variable modeling: Multilevel, lon-
gitudinal, and structural equation Models. London: Chapman.
Sless, D. (1994). Public forums: Designing and evaluating forms in larger organizations. Pa-
per presented at the International Symposium on Public Graphics, Lunteren, Netherlands.
Smith, T.W. (2003). Developing comparable questions in cross-national surveys. In J.A.
Harkness, F.J.R. Van de Vijver & P.Ph. Mohler (Eds.) (2003). Cross-cultural survey methods
(pp. 69-91). Hoboken, New Jersey: John John Wiley
Smith, T.W. (2004). Developing and evaluating cross-national survey instruments. In S. Pres-
ser et al. (Eds.), Methods for testing and evaluating survey questionnaires (pp. 431-452).
New York: John Wiley.
Smith, T. W. (2011). Refining the total error perspective. International Journal of Public Opi-
nion Research, 23, 464-484.
Snijders, T.A.B. & Bosker, R.J. (2012). Multilevel analysis. London: Sage.
Singer, E. (2011). Toward a benefit-cost theory of survey participation: Evidence, further
tests, and implications. Journal of Official Statistics, 27, 379-392.
Singh, A.C. & Mecatti, F. (2011). Generalized multiplicity-adjusted Horvitz-Thompson Esti-
mation as a unified approach to multiple frame surveys. Journal of Official Statistics, 27,
633-650.
Literatur 647

Skinner, C.J. & Rao, J.N.K. (1996). Estimation in dual frame surveys with complex designs.
Journal of the American Statistical Association, 91, 349-435.
Skogan, W.G. (1986): Methodological issues in the study of victimization. In: E.A. Fattah & A.
Ezzat (Hrsg.): From crime policy to victim policy: Restoring the justice system. Basingstoke:
Palgrave Macmillan.
Snijkers, G. et al. (2013). Designing and conducting business surveys. Hoboken, NJ: John Wiley.
Stadtmüller, S. (2009). Rücklauf gut, alles gut? Zu erwünschten und unerwünschten Effekten
monetärer Anreize bei postalischen Befragungen. mda, 3, 167-185.
Stadtmüller, S. & Porst, R. (2005). Zum Einsatz von Incentives bei postalischen Befragungen.
(ZUMA How-to-Reihe Nr. 14). Mannheim: ZUMA.
Stanovich, K.E. (1999). Who is rational? Studies of individual differences in reasoning. Mah-
wah: Lawrence Erlbaum.
Statistisches Bundesamt, ADM & ASI (Hrsg.) (2013). Regionale Standards (2. Auflage). Wies-
baden: Statistisches Bundesamt.
Stegmüller, W. (1974). Theorie und Erfahrung (1. Halbband: Begriffsformen, Wissenschafts-
sprache, empirisch Signifikanz und theoretische Begriffe). Berlin-Heidelberg-New York:
Springer.
Steiger, J.W. (1994). SEPATH-A STATISTICA for Windows structural equations modeling
program. In Faulbaum, F. (Ed.), Softstat’93: Advances in statistical software 4. Stuttgart:
Gustav Fischer.
Stelzl, I. (1986). Changing a causal hypothesis without changing fit: Some rules for generating
equivalent path models. Multivariate Behavioral Research, 21, 309-331.
Stenger, H. (1994). Anforderungen an eine repräsentative Stichprobe. In S. Gabler & J. Hoff-
meyer-Zlotnik (Hrsg.), Gewichtung in der Umfragepraxis (S.  42-45). Wiesbaden: West-
deutscher Verlag.
Stern, M.J., Bilgen, I. & Dillman, D.A. (2014). The state of survey methodology: Challenges,
Dilemmas, and new frontiers in the era of tailored design. Field Methods, 26, 284-301.
Stern, M.J, Dillman, D.A. & Smyth, J.D. (2007). Visual design, order effects, and respondent
characteristics in a Self-administered survey. Survey Research Methods, 1, 121-138.
Stevens, S.S. (1946). On the theory of scales of measurement. Science, 103,677-680.
Stevens, S.S. (1957). On the psychophysical law. Psychological Review, 64, 153-181.
Stevens, S.S. (1959). Cross-modality validation of subjective scales for loudness, vibration,
and electric shock. Journal of Experimental Psychology, 57, 201-209.
Stevens, J.C. & Marks, L.E. (1965). Cross-modality matching of brightness and loudness.
Proc. Nat. Acad. Sci., 54, 407-411.
Stinchcombe, A.L. (1968). Constructing social theories. Chicago: University of Chicago Press.
Stocké, V. (2004). Entstehungsbedingungen von Antwortverzerrungen durch soziale Er-
wünschtheit Zeitschrift für Soziologie, 33, 303–320
Sudman, S. (1972). On sampling of very rare human populations. Journal of the American
Statistical Association, 67, 335-339.
Sudman, S. (1976). Applied survey sampling. New York: Academic Press.
Sudman, S. & Bradburn, N. (1982). Asking questions: A practical guide to questionnaire design.
San Francisco: Jossey Bass.
Suessbrick, A., Schober, M.F. & Conrad, F.G. (2000). Different respondents interpret Ordi-
nary questions quite differently. ? Proceedings of the Section on Survey Research Methods
(pp. 907-912). Alexandria, VA: American Statistical Association.
648 Literatur

Suessbrick, A., Schober, M.F. & Conrad, F.G. (2001). When Do Respondent Misconceptions
lead to Survey Response Error? Proceedings of the Section on Survey Research Methods
(pp. 3982-3887). Alexandria, VA: American Statistical Association.
Suppe, F. (Ed.) (1977). The structure of scientific theories. Urbana: University of Illinois Press.
Suppes, P. & Zinnes, J.L. (1963). Basic measurement theory. In R.D. Luce, R.R. Bush & E.
Galanter (Eds.). Handbook of mathematical psychology I (pp. 1-76). New York: John Wiley.
Survey Quality Predictor (2015). SQP Users’ Manual. Barcelona, Universitat Pompeu Fabra.
Sutcliffe, J.P. (1965). A probability model for errors of classification. I. General considerations.
Psychometrika, 30, 73-96.
Sykes, M. & Collins, M. (1988). Effects of mode of interview: Experiments in the UK. In R.M.
Groves, P.P. Biemer & L.E. Lyberg (Eds.), Telephone survey methodology (S. 301-320). New
York: John Wiley.
Szklo, M. & Nieto, F.J. (2013). Epidemilogy. Beyond the basics. Madison: Jones and Bartlett
Learning.
Tarnai, J. & Moore, D.L. (2004). Methods for testing and evaluating computer-assisted ques-
tionnaires. In S. Presser et al., Methods for testing and evaluating survey questions (pp. 319-
335). New York: John Wiley.
Theis, T. (2012). Einstieg in PHP 5.4 und MySQL (8. Auflage). Bonn: Galileo Press.
Thome, H. (2005). Zeitreihenanalyse. München: Oldenbourg.
Thompson, S.K. & Seber, G.A.F. (1996). Adaptive sampling. New York: John Wiley.
Toepol, V. & Couper, M.P. (2011). Can verbal instructions counteract visual context effects in
web surveys? Public Opinion Quarterly, 75, 1-18.
Toepol, V. & Lugtig, P. (2015). Online surveys are mixed-device surveys. Issues associated
with the use of different (mobile) devices in web surveys. mda, 9, 155-162.
Toepoel, V., Das & Van Soest (2009). Design of web questionnaires: The effects of the number
of items per screen. Field Methods, 21, 200-213.
Troitzsch, K.G. & Möhring, M. (1988). Simulationsverfahren in den Sozialwissenschaften.
In F. Faulbaum & H.-M. Uehlinger (Hrsg.) (1988). Fortschritte der Statistik-Software 1
(S. 433-447). Stuttgart: Gustav Fischer.
Tourangeau, R. (1984). Cognitive science survey methods: a cognitive perspective. In T. Ja-
bine, M. Straf, J.Tanur & R. Tourangeau (Eds.), Cognitive aspects of survey methodology:
Building a bridge between disciplines (S.  73-100). Washington, DC: National Academy
Press.
Tourangeau, R. (1987). Attitude measurement: A cognitive perspective. In H.-J. Hippler,
N. Schwarz & S. Sudman (Eds.), Social information processing and survey methodology
(S. 149-162). New York: Springer.
Tourangeau, R., Couper, M. P., & Conrad, F. (2004). Spacing, position, and order. Interpretive
heuristics for visual features of survey questions. Public Opinion Quarterly, 68, 368–393.
Tourangeau, R., Couper, M.P. & Steiger, D.B. (2003). Humanizing self-administered surveys:
Experiments in social presence in Web and IVR surveys. Computers in Human Behavior,
19, 1-24.
Tourangeau, R., Conrad, F. & Couper, M.P. (2013). The science of web surveys. Oxford: Oxford
University Press.
Tourangeau, R., Groves, R.M. & Redline, C.D. (2010). Sensitive topics and reluctant respon-
dents. Demonstrating a link between nonresponse bias and measurement error. Public
Opinion Quarterly, 74, 423-432.
Literatur 649

Tourangeau, R. & Smith, T.W. (1998). Collecting sensitive information with different modes
of data collection. In M.P. Couper et al. (Eds.), Computer assisted survey information col-
lection (pp. 431-454). New York: John Wiley.
Tourangeau, T. & Yan, T. (2007). Sensitive questions in surveys. Psychological Bulletin, 133,
859-883.
Tourangeau, R., Rips, L.J. & Rasinski, K. (2000). The psychology of survey response. Cam-
bridge, MA: Cambridge University Press.
Tourangeau, R., Steiger, D.M. & Wilson, D. (2002). Self-administered questions by telephone.
Public Opinion Quarterly, 66, 265-278.
Tourangeau, R. et al. (2006). Everyday concepts and classification errors: Judgments of Dis-
ability and residence. Journal of Official Statistics, 22, 385-418.
Tourangeau, R. et al. (Eds.) (2014). Hard-to-survey populations. Cambridge: Cambridge Uni-
versity Press.
Tracy, D. & Mangat, N. (1996). Some development in randomized response sampling during
the last decade - a follow up of review by Chaudhuri and Mukerjee. Journal of Applied
Statistical Sciences, 4, 533-544.
Triandis, H. 2004. Dimensions of culture beyond Hofstede. In H. Vinken, J. Soeters, & P. Ester
(Eds.), Comparing Cultures. Dimensions of Culture in a Comparative Perspective. (pp. 28-
42). Leiden: Brill Academic Publications.
Trohldahl, V. & Carter, R. (1964). Random selection of respondents within households in
telephone surveys. Journal of Marketing Research, 1, 71-76.
Tucker, C., Lepkowski, J.M. & Piekarski, L (2002). The current efficiency of list-assisted tele-
phone sampling designs. Public Opinion Quarterly, 66, 321-338.
Turner, C.F. et al. (1998). Automated self-interviewing and the survey measurement of sensi-
tive behaviors. In M.P. Couper et al. (Eds.), Computer-assisted survey information collec-
tion (pp. 457-474). New York: John Wiley.
Tuten, T.L., Galesic, M. & Bosnjak, M. (2004). Effects of immediate versus delayed notifica-
tion of prize draw results on response behavior in web surveys: An experiment. Social
Science Computer Review, 22, 377-384.
Tutz, G. (2000). Die Analyse kategorialer Daten: Anwendungsorientierte Einführung in die in
Logit-Modellierung und kategoriale Regression. München: Oldenbourg.
Tutz, G. & Berger, M. (2016). Response styles in rating scales: Simultaneous modeling of con-
tent-related effects and the tendency to middle or extreme Categories. Journal of Educati-
onal and Behavioral Statistics, 41, 239-268.
Uskul, A.K., Oyserman, D. & Schwarz, N. (2010). Cultural emphasis on honor, modesty,
or self-enhancement: Implications for the survey response process. In J. Harkness et
al. (Eds.), Survey methods in multinational, multiregional, and multicultural contexts
(pp. 191-201). Hoboken, NJ: John Wiley.
Vaerenbergh, Y.V. & Thomas, T.D. (2013). Response styles in survey research: A literature re-
view of antecedents, consequences, and remedies. International Journal of Public Opinion
Research, 25, 195-217.
Valliant, R., Dever, J.A. & Kreuter, F. (2013). Practical tools for designing and weighting sur-
vey samples. New York: Springer.
Van Buuren, S. (2012). Flexible imputation of missing data. Boca Raton, Fl.: Chapman & Hall.
650 Literatur

Van den Brakel, J.A., Vis-Visschers, R. & Schmeets, J.J.G. (2006). An experiment with data
collection modes and incentives in the Durch family and fertility survey for young Mo-
roccans and Turks. Field Methods, 18, 321-334.
Van de Heer, W., de Leeuw, E.D. & van der Zouwen, J. (1999). Methodological issues in Sur-
vey research: A historical review. Bulletin de Méthodologie Sociologique, 64, 25-48.
Van de Pol, F. & De Leeuw, J. (1986). A latent Markov model to correct for measurement
error. Sociological Methods & Research, 15, 118-141.
Vannieuwenhuyze, J.T.A. & Loosveldt, G, (2013). Evaluating relative mode effects in mixed-
mode surveys: Three methods to disentangle selection and measurement effects. Sociolo-
gical Methods and Research, 42, 82.104.
Vannieuwenhuyze, J. T. A., Loosveldt, G. & Molenberghs, G. (2010). A method for evaluating
mode effects in mixed mode surveys. Public Opinion Quarterly 74, 27-45.
Vigderhouse, G. (1981). Scheduling telephone interviews. Public Opinion Quarterly, 45, 250-
259.
Von der Heyde, C. (2002). Das ADM-Stichproben-Modell. In S. Gabler & S. Häder (Hrsg.),
Telefonstichproben (S. 32-45). Münster: Waxman.
Voogt, Robert J.J. & Saris, Willem E. (2005). Mixed mode designs: finding the balance be-
tween nonresponse bias and mode effects. Journal of Official Statistics, 21, 367-388.
Wänke, M. (2002). Conversational norms and the interpretation of vague quantifiers. Applied
Cognitive Psychology, 16, 301-307.
Wagner, S. et al. (2014). Does sequence matter in multimode surveys: Results from an exper-
iment. Field Methods, 26, 141-155.
Waksberg, J. (1978). Sampling methods for random digit dialing. Journal of the American
Statistical Association, 73, 40-46.
Warner, S.L. (1965). Randomized response: A survey technique for eliminating evasive elimi-
nating evasive answer bias. Journal of the American Statistical Association, 60, 63-69.
Warriner, K. et al. (1996). Charities, no; lotteries, no; cash, yes. Public Opinion Quarterly, 60,
542-562.
Wedell, D. H. (1990). Methods for determining the locus of context effects in judgment. In J.
P. Caverni, J. M. Fabre, & M. Gonzalez (Eds.), Cognitive biases (pp. 285-302). New York:
Elsevier Science.
Wedell, D.H. (1994). Contextual contrast in evaluative judgments: A test of pre- versus postin-
tegration models of contrast. Journal of Personality and Social Psychology,66,1007-1019.
Wedell, D.H. & Parducci, A. (1988). The category effect in social judgment: Experimental
ratings of happiness. Journal of Personality and Social Psychology, 58, 319-329.
Wedell, D.H., Parducci, A. & Geiselman, R.E. (1987). A formal analysis of ratings of physical
attractiveness: Successive contrast and simultaneous assimilation. Journal of Experimental
Social Psychology, 23, 230-249.
Weeks, M.F. (1988). Call scheduling with CATI: Current capabilities and methods. In R.M.
Groves et al. (Eds.), Telephone survey methodology (pp. 403-420). New York: John Wiley.
Weeks, M. F. et al. (1983). Personal versus telephone surveys for collecting household health
data at the local level. American Journal of Public Health, 73, 1389-1394.
Weeks, M.F., Kulka, R.A. & Pierson, S.A. (1987). Optimal call scheduling for al telephone
survey. Public Opinion Quarterly, 51, 540-549.
Wegener, B. (1978). Einstellungsmessung in Umfragen: Kategorische vs. Magnitude-Skalen.
ZUMA-Nachrichten, 3, 3-27.
Literatur 651

Wegener, B. (1982). Fitting category to magnitude scales for a dozen survey-assessed attri-
butes. In B. Wegener (Ed.), Social attitudes and psycho-physical measurement (S. 379-399.
Hilldale, NJ.: Lawrence Erlbaum.
Wegener, B. (1983). Category-rating and magnitude estimation scaling techniques. Sociologi-
cal Methods & Research, 12, 31-75.
Wegener, B., Faulbaum, F. & Maag, G. (1982a). Die Wirkung von Antwortvorgaben bei Kate-
gorialskalen. ZUMA-Nachrichten, 10, 3-20.
Wegener, B., Faulbaum, F. & Maag, G. (1982b). Die Wirkung adverbialer Antwortvorgaben.
Psychologische Beiträge 24, 343-345.
Weisberg, H. F. (2005). The total survey error apprach. Chicago: The University of Chicago
Press.
Weisberg, H.F. (2010). Bias and causation. Hoboken, N.J.: John Wiley.
West, B.T. & Groves, R.M. (2013). A propensity-adjusted interviewer performance indicator.
Public Opinion Quarterly, 77, 352-374.
Wheeler, L. & Reis, H.T. (1991). Self-recording of everyday life events: Origins, types and
uses. Journal of Personality, 59, 339-354.
Wiegand, E. (2012). Berufsnormen und Qualitätssicherung. In F. Faulbaum, M. Stahl & E.
Wiegand (Hrsg.), Qualitätssicherung in der Umfrageforschung (S.  161-221). Wiesbaden:
Springer VS.
Wiley, D.E. & Wiley, J.A. (1970). The estimation of measurement error in panel data. Ameri-
can Sociological Review, 35, 112-117.
Willis, G.B (2004). Cognitive interviewing revisited: A useful technique. In theory? In S.
Presser et al. (Eds.), Methods for testing and evaluating survey questionnaires (pp. 23-43).
Hoboken NJ: John Wiley.
Willis, G.B. (2005). Cognitive interviewing: A tool for improving questionnaire design. London:
Sage.
Willis, G. (2015). Analysis of the cognitive interview in questionnaire design. Oxford: Oxford
University Press.
Willis, G.B. & Lessler, J.T. (1999). Question Appraisal System. Research Triangle Institute.
Willis, G.B. & Miller, K. (2011). Cross-cultural cognitive interviewing: Seeking Comparabili-
ty and enhancing understanding. Field Methods, 23, 331-341.
Willis, G. et al. (2014). Overview of the special issue on surveying the hard-to-reach. Journal
of Official Statistics, 30, 71–176
Wilson, T.P. (1970). Normative and interpretive paradigms in sociology. In J.D. Douglas
(Ed.), Toward the reconstruction of sociological knowledge (pp. 57-79). Chicago: Aldine.
Winer, B.J., Brown, D.R. & Michels, K.M. (1991). Statistical principles in experimental design.
(3rd edition). New York: McGraw Hill.
Witte, J. C. et al. (2004). Instrument effects of images in web surveys. Social Science Computer
Review, 22, 363–369.
Wojcik, M.S. & Baker, R.P. (1992). Interviewer and respondent acceptance of CAPI. Proceed-
ings of the Annual Research conference (pp. 619-621). Washington, D.C.: U.S. Bureau of
the Census.
Wolf, C. & Best, H. (Hrsg.) (2010). Handbuch der sozialwissenschaftlichen Datenanalyse.
Wiesbaden: Springer VS.
Wolf, C. et al. (Eds.) (2016). The Sage handbook of survey methodology. London: Sage.
652 Literatur

Wolf, K.E. (1994). A first course in formal concept analysis. In F. Faulbaum (Hrsg.), Softstat’93:
Advances in statistical software 4 (S. 429-438). Stuttgart: Gustav Fischer.
Wolf, K.E., Gabler, S. & Borg, I. (1994). Formale Begriffsanalyse von Arbeitswelten in Ost-
und Westdeutschland. ZUMA-Nachrichten, 34, 69-82.
Wolter, F. & Preisendorfer, P. (2013). Asking sensitive questions: An evaluation of the ran-
domized response technique versus direct questioning using individual validation data.
Sociological Methods & Research, 42, 321-353.
Yamaguchi, K. (1999). Event history analysis (Nachdruck). Newbury Park, CA: Sage.
Yan, T. & Keusch, F. (2015). The effects of the direction of rating scales on survey responses
In a telephone survey. Public Opinion Quarterly, 79, 145–165
Yan, T., Kreuter, F. & Tourangeau, R. (2012). Evaluating survey questions: A comparison of
Methods. Journal of Official Statistics, 28, 503–529
Yan et. al. (2010). Should I stay or should I go: The effects of progress feedback, promised task
duration, and length of questionnaire on completing web surveys. International Journal of
Public Opinion Research, 23, 131-147.
Ye, C., Fulton, J. & Tourangeau, R. (2011). Research synthesis: More positive or more ex-
treme? A meta-analysis of mode differences in response choice. Public Opinion Quarterly,
75, 349-365.
Yeager, D.S. et al. (2011). Comparing the accuracy of RDD telephone surveys and internet
surveys conducted with probability and non-probability samples. Public Opinion Quar-
terly, 74, 709-747.
Yu, J.-W., Tian, G.-L. & Tang, M.-L. (2008). Two new models for survey sampling with Sensi-
tive characteristic: design and analysis. Metrika, 67, 251-263.
Zhang, C.J.Z. & Schwarz, N. (2014). Past on the left, future on the right: How metaphorical
time-space mapping influences consumer choice (Working Paper).
Zio, M.D. & Guarnera, U. (2013). A contamination model for selective editing. Journal of
Official Statistics, 29, 539-555.

También podría gustarte