Zum Hauptinhalt springen

Maschinelles Lernen in R

Zielgruppe: Promovierende, Postdocs
Programmsprache: Englisch
Programmdauer: 2 Module á 3 Workshoptage

Das Programm startet im November 2024. Weitere Informationen zur Anmeldung und zu den Teilnahmebedingungen folgen in Kürze. Um nichts zu verpassen, tragen Sie sich gerne in unsere Interessent*innenliste unten auf dieser Seite ein.

Programmtexte im Hintergrund mit einem großen Buchstaben R im Vordergrund.
Foto: AdobeStock

Programmübersicht

Das Programm "Maschinelles Lernen in R" setzt sich aus zwei aufeinander aufbauenden Modulen zu je drei Workshoptagen zusammen. 
Das erste Modul „Datenanalyse mit R“ vermittelt Ihnen die Grundlagen von R, einschließlich einer technischen Einführung in die R-Syntax, Datenimport/-export und Datenvisualisierung mit ggplot2. Sie lernen die wichtigsten Konzepte und Begriffe der Statistik und Datenanalyse kennen und erfahren, wie Sie erste explorative und inferentielle statistische Analysen in R durchführen. Ideal für Einsteiger oder zur Auffrischung.
Das zweite Modul "Überwachtes Maschinelles Lernen in R" behandelt grundlegende Konzepte und fortgeschrittene Techniken des maschinellen Lernens. Sie lernen, überwachte Lernmodelle zu trainieren und zu bewerten, verschiedene überwachte ML-Algorithmen zu erforschen und praktische Fähigkeiten zur Interpretation komplexer maschineller Lernalgorithmen zu erwerben. Ideal für die Praxis mit realen Anwendungsfällen und Modelloptimierung.
Wenn Sie schon viel Erfahrung mit R haben, können Sie auch nur am Modul „Überwachtes Maschinelles Lernen“ teilnehmen.

Termine Modul 1: 04.11. und 05.11.24 (jeweils in Präsenz) & 11.11.24 (online)
Termine Modul 2: 21.11. und  22.11.24 (jeweils in Präsenz) & 29.11.24 (online)
 

Programminhalte

Modul 1: Datenanalyse mit R (3 Tage)
Dieses Modul eignet sich für Teilnehmende ohne R-Kenntnisse oder zur Auffrischung der Grundlagen in R.
Voraussetzungen sind Erfahrung oder Bereitschaft, mit Textbefehlen oder Programmiercode zu arbeiten. Grundkenntnisse in Datenanalyse und Statistik, z.B. erworben durch eine Grundvorlesung oder Selbststudium, sind von Vorteil. Vergewissern Sie sich, dass Sie auf Ihrem Computer über ausreichende Berechtigungen verfügen, um Software (R, Rstudio) und R-Erweiterungspakete zu installieren.

Tag 1: R Crashkurs

  • Arbeiten mit R und RStudio sowie Installieren und Verwenden von Erweiterungspaketen in R
  • Einführung in die Hilfeseiten und Tipps zur Selbsthilfe
  • Erläuterung der wichtigsten Datentypen, Operatoren (arithmetische & logische Operatoren) und Funktionen in R
  • Importieren und Exportieren von Daten
  • Arbeiten mit data frames und Vektoren (numerisch, logisch, Zeichen, Faktoren), z.B. Indizieren, Teilen und Konvertieren von Variablen oder Datensätzen.
  • Berechnung einfacher zusammenfassender Statistiken in R (z.B. Median, Mittelwert, Quantile, Varianz, etc.)

Tag 2: Grundlagen der Statistik, Datenanalyse und Datenvisualisierung mit ggplot2

  • Definition von Data Science und anderen Grundbegriffen
  • Einführung in ggplot2 zur Datenvisualisierung
  • Univariate deskriptive Statistik und Datenvisualisierung in R: Häufigkeitstabellen, Balkendiagramme, Histogramme, Kernel-Dichte-Schätzung, Box-Plots, Dichten und Verteilungen, QQ-Plots, etc.
  • Multivariate deskriptive Statistik und Datenvisualisierung in R: Kreuztabellen, Streudiagramme (scatter plots), Korrelation.

Tag 3: Statistische Modellierung in R

  • Einführung in das lineare Regressionsmodell.
  • Modellevaluation und Modelldiagnose: MSE, R-Quadrat, QQ-Plots und Residuenanalyse.
  • Ausblick: Verallgemeinerte lineare Modelle mit Schwerpunkt auf logistischer Regression.
  • Praktischer Anwendungsfall oder eine kurze Einführung in die statistische Inferenz und Hypothesentests

 

Modul 2: Überwachtes Maschinelles in Lernen in R (3 Tage)
Voraussetzungen sind der erfolgreiche Abschluss des Moduls 1 oder sehr gute R-Kenntnisse und Datenanalysefähigkeiten in R und allgemeines Verständnis von Datenanalyse/Statistik.

Tag 1: Einführung in maschinelles Lernen und Vorhersagemodelle

  • Allgemeine Aufgaben des maschinellen Lernens (Regression, Klassifikation, Clustering, etc.).
  • Einführung in grundlegende Begriffe (Verlustfunktion, Risikominimierung, Overfitting, Hyperparameter, Trainings- und Testdaten, usw.).
  • Lineare und logistische Regression aus ML-Perspektive und der K-NN-Algorithmus.
  • Wichtige Bewertungsmetriken für Regression und Klassifikation und ihre Eigenschaften.
  • Resampling-Methoden (Kreuzvalidierung, Bootstrap, etc.) und ihre Vor- und Nachteile.
  • Anwendungsfall: Trainieren eines ersten einfachen Modells, Erstellen von Vorhersagen, Leistungsmessung.
  • Anwendungsfall: Resampling und Benchmarking von ML-Algorithmen in R.

Tag 2: Praktisches maschinelles Lernen - Bewertung und Abstimmung

  • Funktionsweise einfacher Schlüsselalgorithmen des maschinellen Lernens: Regression und Klassifikationsbäume sowie Random Forests
  • Hyperparameter-Optimierung (zufällige Suche und Gittersuche)
  • Verschachtelte Kreuzvalidierung zur optimalen Modellauswahl.
  • Fallstricke und praktische Tipps bei der Modellevaluation und -auswahl.
  • Anwendungsfall: Training und Vergleich von Entscheidungsbäumen und Random Forests.
  • Anwendungsfall: Richtige Modellauswahl auf der Grundlage von verschachteltem Resampling

Tag 3 (optional): Fortgeschrittene Themen

  • Regularisierung in ML
  • Grundlagen des Deep Learning
  • Letzter Anwendungsfall

 

Interesse am Programm?

Sie wollen keine Infos verpassen? Dann tragen Sie sich gerne in unsere Mailingliste ein und Sie erhalten rechtzeitig alle Infos zum Programmstart im Herbst 2024.

captcha
*„Bitte tragen Sie das Ergebnis der Rechenaufgabe in das Eingabefeld ein.“
Porträt Dr. Maja Starke-Liebe

Kontakt: Dr. Maja Starke-Liebe

 

Potsdam Graduate School
4. Etage
Bildungsforum
Am Kanal 47
14467 Potsdam