Aufbereitung
Die Aufbereitung stellt der dritte Prozess einer Statistik dar, der nach der Datengewinnung abläuft. Wesentliches Ziel der Aufbereitung ist die Bereitstellung auswertbarer, (teil-)plausibler Datenbestände für die nachfolgende Analyse.Die Aufbereitung kann mit der Umwandlung der Angaben aus den Fragebogen in Rohdaten durch ein Einscannen von Fragebogen mit Texterkennungsverfahren oder durch eine Datenerfassung beginnen. Weitere wesentliche Aktivitäten der Aufbereitung stellen dar:
- die Codierung von offenen Angaben, wie z.B. Berufsbezeichnungen, in auswertbare Codierziffern,
- die Erkennung von Fehlern mit Hilfe von Plausibilitätsprüfungen in vorliegenden Rohdaten und ihre manuelle Beseitigung (Datenbereinigung, Korrekturen) oder computergestützte Beseitigung,
- ggf. das Ersetzen von fehlenden Angaben mit Hilfe von anspruchsvollen, mathematisch-statistischen Imputationsmethoden,
- ggf. das Zusammenfassen von Daten zu neuen Merkmalen/Variablen (Typisierungen, Merkmalszusammenfassungen), die häufig für nachfolgende Analysen benötigt werden (z.B. Erstellung der Variable "Familientyp" aus den Angaben über die Familienmitglieder) und
- die Berechnung von Hochrechnungsfaktoren (nur bei Strichproben-Erhebungen).
Die genannten Aktivitäten zeigen, dass die Aufbereitung im Wesentlichen die Genauigkeit statistischer Daten zu Lasten der Aktualität der Ergebnisse fördert (Trade-off zwischen Aktualität und Genauigkeit). Eine wesentliche Aufgabe des Statistikers ist daher die Klärung der Genauigkeits- und Aktualitätsanforderungen der Nutzer. Der Konflikt kann durch die Bereitstellung von vorläufigen Ergebnissen gelöst werden. Vorläufige Ergebnisse sind in der Regel aktueller aber dafür auch fehlerhafter. Plausibilitätsprüfungen und der Einsatz von Imputationsmethoden können entfallen, wenn die Angaben möglichst plausibel und mit Hilfe von elektronischen Fragebogen gewonnen werden können.
Nach der Aufbereitung folgt die Auswertung.
Weblinks
Methoden der Aufbereitung
Software für Imputationen