Reproduzierbarkeit bei der Datenanalyse

TAGS: python, R, single source, daten, Markdown, LaTeX, analyse, visualisierung

Art des Beitrags: Vortrag
Dauer: 30 Minuten

Inhalt


Worum geht es?

Reproduzierbarkeit in der Datenanalyse öffnet die Tür zur wiederholbaren und nachprüfbaren Vorgehensweise und ermöglicht damit die Verlässlichkeit von Datenanalysen. Leicht kann es auf Grund der Menge an verfügbaren Daten, Vielzahl der Datenquellen, sowie der zahlreichen zur Verfügung stehenden Analysealgorithmen zu Inkonsistenz oder Uneindeutigkeit kommen. Die Maxime der Reproduzierbarkeit, ursprünglich aus dem Bereich des wissenschaftlichen Arbeitens stammend, ist hilfreich, um diesen Problemen entgegen zu wirken.

Was wird im Vortrag behandelt?

Zunächst soll geklärt werden, warum Reproduzierbarkeit wichtig ist und wie typische Fehlerquellen aussehen. Anschließend gehe ich auf Knuths Idee des literate programming ein und zeige, wie sie mit einem single source-Ansatz hilft, das methodische Vorgehen zu strukturieren und dabei die Konsistenz von Ausgangsdaten, Vorgehensweise und Endergebnis sicherzustellen. Dazu stelle ich Möglichkeiten zum Aufbau einer Toolchain vor und demonstriere diese an entsprechenden Beispielen. Hierbei werde ich auch darauf eingehen, wie sich auf Grundlage derselben Datenbasis verschiedene Datenprodukte z. B. Präsentationen oder Berichte erzeugen lassen. Schließlich möchte ich diskutieren, wo das Verfahren an seine praktischen Grenzen stößt.

Für wen ist es interessant?

Jeder, der Daten auswertet, eine Statistik erstellt, Simulationen oder umfangreiche Berechnungen durchführt, kann von dem Vorgehen profitieren.

Was sollte man vorher wissen?

Erste Erfahrungen mit Auszeichnungssprachen, z.B. HTML, Markdown, LaTeX wären nützlich. Die gezeigten Datenanalyse/Statistik-Methoden werden ganz elementar sein und müssen niemanden abschrecken, alles andere wird im Vortrag selbst erklärt.

Redner


Als selbständige Beraterin für Statistik, Datenanalyse und Visualisierung lege ich großen Wert auf einen produktiven und automatisierungsfreudigen Workflow. Nur so kann ich konzentriert den eigentlichen Fragen nachgehen. Open Source Tools sind dabei das Mittel der Wahl, um Kontrolle über seinen Workflow zu behalten. Einen festen Platz in meinem Werkzeugkasten haben neben python (mit ipython), R und der Hadoop-Welt auch emacs, scribus, inkscape und LaTeX.