Seitenanfang

Vom Webscraping bis zum automatisierten Downloaden freier Daten mit R / Online / Data Science und Statistik

Die Menge frei zugänglicher Daten im Internet wächst ungebrochen. Die Transparenz- und Open-Data-Bewegung der letzten Jahre führt dabei zu einem Bestand an qualitativ hochwertigen strukturierten Daten von nationalen und internationalen Behörden und Organisationen.

Für die Marktforschung interessant sind auch Webdaten in Form wenig strukturierter Webseiten, Kundenrezensionen, Leserkommentaren, Social Media, Blogs, PDF-Berichten und RSS-Feeds. Mit Webscraping und Methoden des Textmining lassen sich hier informative Schätze heben.

"Data Is Useless Without the Skills to Analyze It" - so die Headline eines Harvard Business Review-Beitrags. Das Seminar vermittelt, wie sich diese freien Daten effizient und reproduzierbar für die Marktforschung nutzen lassen. Beispielhafte Daten, Zeitreihen und Geoinformationen nationaler, europäischer und internationaler Einrichtungen werden in dem Seminar mit der Open-Source-Software R erschlossen. Gearbeitet wird mit sogenannten Packages, aber auch eigenen Funktionen bis hin zum Webscraping und der automatisierten Umsetzung von Texten und Zahlen aus PDF-Dateien. Die Teilnehmer/innen arbeiten mit unterschiedlichen Datenformaten. Sie lernen, Daten aus verschiedenen Quellen zu fusionieren, die aufbereiteten Daten in Excel oder SQL-Datenbanken zu speichern und ihre Ergebnisse in interaktiven tabellarisch-grafischen Dashboards zu präsentieren.
 

Lernziele

  • Datenquellen im Internet finden und ihre Struktur auf maschinelle Nutzbarkeit beurteilen
  • Die Strukturen relevanter Datenformate verstehen und nutzen
  • Allgemeine, aber auch spezifische R-Packages für die Erschließung von webbasierten Daten anwenden
  • Eigene Funktionen für einen Workflow von den Rohdaten bis hin zur Präsentation schreiben
  • Grundzüge des Webscrapings verstehen und anwenden

Für wen gedacht?

Marktforscher/innen mit Grundkenntnissen in R, die automatisiert Daten aus webbasierten, frei zugänglichen Quellen in ihre Studien einbinden oder für weiterführende Analysen nutzen wollen.

Methoden

Kurze Vorträge des Referenten, selbständiges Arbeiten allein oder zu zweit in Breakout-Sessions anhand von ausgewählten Fallbeispielen, die repräsentativ für die thematische Bandbreite stehen.
 

Gearbeitet wird in der RStudio-Cloud mit teilnehmerindividuellen Workspaces. Dort liegen auch sogenannte RMarkdown-Dateien, in denen die Erstellungsprozesse mit Beschreibungen und ausführbarem Code enthalten sind. So lassen sich schnell die Arbeitsschritte nachvollziehen - der Erfolg ist garantiert. Für die Mitarbeit mit R ist daher nur ein Webbrowser erforderlich.
 

Programm

  • Einführung in R: Die thematisch relevanten Strukturen und Statements /li>

     

     

  • Überblick über strukturierte Daten im Internet:

     

    - Daten nationaler und internationaler statistischer Einrichtungen wie den statistischen Bundes- und Landesämtern, Eurostat (Europa), Insee (Frankreich), Daten globaler Organisationen wie der OECD, IWF,Weltbank,WHO, ILO

  • Spezialisierte R-Packages für den Zugriff auf Daten im Web nutzen
  • Grundlagen des Webscraping verstehen und anwenden
  • Daten aufbereiten und weiterverarbeiten u.a. durch:

     

    - die Umbenennung von Variablen

    - den Umgang mit fehlenden Werten

    - Typumwandlungen, Aggregationen und Berechnungen

    - die Zusammenführung von Daten

    - Visualisierungen



  •  
  • Texte und Tabellen aus PDF-Dateien extrahieren
  • Aufbereitete freie Daten in Office-Dokumente oder Datenbanken exportieren
  • Insights mit interaktiven HTML-Dateien kommunizieren

Modalitäten

Seminarmodalitäten

Anmeldung

Bitte melden Sie Ihre Teilnahme möglichst bis 6 Wochen vor Seminarbeginn über das jeweilige Anmeldeformular auf der BVM-Website an. Wenn Sie sich per Brief oder Fax anmelden möchten, wenden Sie sich bitte an die BVM-Geschäftsstelle. Nach der Anmeldung erhalten Sie eine Anmeldebestätigung.

Gebühren

Die Teilnahmegebühren beinhalten digitale Seminarunterlagen, Tagungsgetränke, Snacks und Mittagessen an allen Präsenz-Seminartagen. Die Gebühren der einzelnen Seminare entnehmen Sie bitte den Veranstaltungsbeschreibungen. Die Teilnahmegebühr wird sofort nach Rechnungsstellung ohne Abzüge fällig. Die Kosten für Anreise und Übernachtung tragen die Teilnehmer/innen selbst.

Veranstaltungsorte

Finden Seminare nicht online statt, werden sie entweder im NH Collection oder in der BVM-Geschäftsstelle durchgeführt.
Die entsprechenden Informationen dazu erhalten Sie mit der Anmeldebestätigung.

NH Collection Berlin-Mitte am Checkpoint Charlie
Leipziger Straße 106-111
10117 Berlin
Tel.: +49 30 203760
E-Mail: nhberlinmitte@nh-hotels.com

BVM-Bundesgeschäftsstelle
Friedrichstr. 187
10117 Berlin
Tel.: +49 30 9203128-34
E-Mail: seminar-anmeldung@bvm.org

Zimmerreservierung

Empfehlungen und Informationen zu Abrufkontingenten erhalten Sie mit der Bestätigung, dass das Seminar stattfindet. Das NH Collection Berlin-Mitte am Checkpoint Charlie und das MotelOne am Leipziger Platz sind fußläufig zu den Veranstaltungsorten erreichbar. Die Reservierung und Übernachtungskosten übernehmen die Teilnehmer/innen selbst.

Teilnehmer

Die Teilnehmeranzahl pro Seminar beträgt mindestens 6 Personen.

Rabatt für Frühbucher

Für Seminare, die bis zu den jeweiligen Stichtagen im Frühjahr und Herbst gebucht werden, wird folgender Rabatt gewährt:

a) 100,- Euro für Ein-Tagesseminare
b) 200,- Euro für Zwei- und Mehrtagesseminare

Rücktritt

Eine Stornierung der Seminarteilnahme ist schriftlich (per Post, Fax oder E-Mail) vorzunehmen. Bei Stornierung bis spätestens 31 Tage vor Beginn eines gebuchten Seminars, wird die Teilnahmegebühr in voller Höhe zurückerstattet. Bis 21 Tage vor Seminarbeginn wird eine Bearbeitungsgebühr in Höhe von 120 Euro erhoben. Danach werden die Teilnahmegebühren in voller Höhe fällig. Ohne zusätzliche Kosten kann ein/e Ersatzteilnehmer/in genannt werden. Ermäßigte Teilnahmegebühren können Ersatzteilnehmer/innen jedoch nur bei bestehender BVM-Mitgliedschaft in Anspruch nehmen.

Absage durch den BVM

Haben sich bis 10 Tage vor Beginn eines Präsenz-Seminars bzw. 7 Tage vor Beginn eines Online-Seminars weniger als 6 Teilnehmer angemeldet, kann der BVM die Veranstaltung absagen. Dies gilt auch für den Fall, dass durch die kurzfristige Absage der Seminarleitung ein Ersatz ohne Verlegung des Seminars nicht gefunden werden kann. In diesem Fall werden die Teilnahmegebühren in voller Höhe zurückerstattet. Stornogebühren des BVM fallen nicht an.

Stornierungskosten für vorgenommene Reisebuchungen bei Ausfall eines Seminars können vom BVM nicht übernommen werden. Der BVM behält sich vor, Änderungen im Seminarprogramm vorzunehmen und bei Absage der Seminarleitung für Ersatz zu sorgen.

Das aktuelle Seminarprogramm finden Sie stets auf der BVM-Website.

Allgemeine Datenschutzhinweise

Die für die Buchung von BVM-Seminaren elektronisch erfassten Daten werden nach der Veranstaltung nicht weiterverwendet, wenn Sie nicht eingewilligt haben, über das BVM-Seminarangebot oder Verbandsservices informiert zu werden. Weitere Informationen finden sie in der Datenschutzerklärung des BVM

Datenschutzhinweis zur technischen Durchführung von Online-Seminaren

Für die Durchführung von Videokonferenzen setzt der BVM Berufsverband Deutscher Markt- und Sozialforscher e.V. (Verantwortlicher) einen Dienst des Auftragsverarbeiters Zoom Video Communications, Inc. (55 Almaden Blvd, Suite 600, San Jose, Kalifornien (95113), USA - nachfolgend „Zoom“) ein. Die entsprechenden Verträge (Auftragsverarbeitungsvereinbarung und Standard-Datenschutz-Klauseln) wurden abgeschlossen. Zudem wurden die Datenschutzeinstellungen so gesetzt, dass die Meetingdaten grundsätzlich über europäische Server verarbeitet werden. Weitere Informationen zur Verarbeitung Ihrer Daten und Ihren Rechten finden auf der Website von Zoom. Werden Daten außerhalb der Europäischen Union und des europäischen Wirtschaftsraums und in ein Land, welches kein angemessenes Datenschutzniveau bietet übertragen, bestehen gewisse Risiken. Bei einer Übertragung der Daten in die USA (derzeit ein Land ohne angemessenes Datenschutzniveau) besteht die Gefahr, dass Ihre Daten von amerikanischen Behörden zu Kontroll- und Überwachungszwecken verarbeitet werden können, ohne dass Ihnen möglicherweise Rechtsbehelfsmöglichkeiten zustehen.

Urheberrechte/Nutzung der Seminarunterlagen

Jegliche Inhalte des Seminars dürfen nur für eigene und interne Markt- und Sozialforschungszwecke der Teilnehmenden und des Arbeitgebers der Seminarteilnehmer/innen genutzt werden. Sie dürfen nicht für Werbung verwendet und ohne Zustimmung des BVM nicht an Dritte – auch nicht in Form eigener Lehr- und Weiterbildungsveranstaltungen, an denen Dritte teilnehmen können – weitergegeben werden.

Die den Teilnehmenden überlassenen Seminarunterlagen, sei es in papierener oder elektronischer Form, dürfen nur für interne Zwecke des Arbeitgebers des Teilnehmenden (z.B. interne, auf die Mitarbeiter des Arbeitgebers beschränkte Weiterbildungs- und Lehrveranstaltungen) vervielfältigt und verbreitet werden. Ein Zugänglichmachen im Internet oder in und mit Hilfe anderer Medien ist nicht gestattet.

Gerichtsstand ist Berlin.

Stand: August 2020

Veranstaltung im Überblick

Schulungszeiten:05.12.2023: 09:30 Uhr - 18:00 Uhr
Veranstaltungsort: Online
Verfügbarkeit: keine Plätze mehr verfügbar
Gebühren:690,00 € (für Mitglieder)
890,00 € (für Nicht-Mitglieder)

Referent(en)

Michael Stanko

Michael Stanko studierte in Frankfurt/Main und Hamburg Philosophie und Sozialwissenschaften. Seit 1991 selbständig als geschäftsführender Gesellschafter der Stanko & Partner GmbH mit dem Branchenfokus…

Mehr lesen

Ähnliche Seminare

/ Data Science und Statistik

Nationale und internationale freie Daten im Internet finden und für das Desk-Research nutzen

Daten sind der Rohstoff unserer Zeit. Und dieser steht immer mehr in hochwertiger Form über das Internet zur freien Verfügung. Offene Daten für Marktforschungszwecke zu finden, ist jedoch eine Herausforderung. Dieses Seminar gibt Ihnen einen Überblick über offene Daten und ihre wesentlichen Fundstellen im Internet. Gemeinsam werden Wege erkundet,…

/ Data Science und Statistik

Effizienz im Reporting: MS-Office-Dokumente (Powerpoint, Word, Excel) automatisiert mit R erstellen

Office-Programme dominieren im Büroalltag. Auch in der Marktforschung führt an ihrer Nutzung kein Weg vorbei. Wer kennt nicht den Aufwand, eine größere PowerPoint-Präsentation fehlerfrei zu überarbeiten, weil die Ausgangsdaten nochmals kurzfristig aktualisiert wurden?
 

David Silverman schrieb schon vor mehr als einem Jahrzehnt in der Harvard…

/ Data Science und Statistik

Datenimputation und Datenfusion

In der Marktforschungspraxis werden häufig fusionierte Daten erzeugt und ausgewertet. In diesem Seminar werden die Grundbegriffe (z.B. Donor, Rezipient, gemeinsame Variablen, etc.) und der theoretische Hintergrund von Datenimputation und -fusion erläutert. Anhand praktischer Übungen mit R werden die Möglichkeiten und Limitationen dieser…