class: center, middle, inverse, title-slide .title[ # Willkommen zum Projektkurs Data Science und Business Analytics ] .author[ ### Dr. Alexander Rieber
AlexRieber
AlexRieber
alexander.rieber@uni-ulm.de
] --- # Mit wem haben Sie es zu tun? ## Ihr Dozent und Übungsleiter .pull-left[ <br><br> **Dozent** Dr. Alexander Rieber <a href="mailto:alexander.rieber@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> alexander.rieber@uni-ulm.de</a><br> Büro: Helmholtzstraße 18, Raum 1.22 ] .pull-right[ <br><br> **Übungsleiter** Dennis Steinle <a href="mailto:dennis.steinle@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> dennis.steinle@uni-ulm.de</a> Büro: Helmholtzstraße 18, Raum 1.10 ] --- ## Ihre Tutoren .pull-left[ <br><br> **Tutorin** Judith Sulz <a href="mailto:judith.sulz@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> judith.sulz@uni-ulm.de</a> <br><br> **Tutor** Leonard Pöhls <a href="mailto:leonard.poehls@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> leonard.poehls@uni-ulm.de</a> ] .pull-right[ <br><br> **Tutor** Jonas Grüneberg <a href="mailto:jonas.grueneberg@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> jonas.grueneberg@uni-ulm.de</a> <br><br> **Tutor** Simon Hofer <a href="mailto:simon.hofer@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> simon.hofer@uni-ulm.de</a> ] --- class: inverse, center, middle # Vorlesungsdetails --- ## Aufbau der Veranstaltung - Interaktive Vorlesung mit Übungsaufgaben - `RTutor` Übungsaufgaben um Inhalte zu vertiefen - Ein gemeinsames Projekt mit dem Dozenten - Zwei selbstständige Projekte - Peer Review der Projekte --- ## Wo finden Sie die Kursmaterialien? .center[.instructions[Unserer Kommunikation mit Ihnen erfolgt über unsere Moodle und Github Seite]] Auf diesen Seiten finden Sie: -- - Veranstaltungsplanung in [Moodle](https://moodle.uni-ulm.de/course/view.php?id=55215) und als Wochenkalender 📆 -- - Vorlesungsfolien 🗒 -- - Lehrvideos 📺 -- - RTutor Problem Sets (Übungskurse zum erlernen von R) -> `RTutor` -- - Aufgabenstellungen für die einzelnen Projekte 📖 -- - Tutoriumszeiten und -räume für die Projektteams 👥 -- - Forum für Fragen 👨🎓 👩🎓 ⁉️ --- ## Interaktive Vorlesung Bis zum 13. November werden Vorlesungen in Form von **Präsenzveranstaltungen in H3** jeden **Mittwoch und Freitag von 10:15 - 11:45 Uhr** stattfinden. Weiterhin gibt es **Lehrvideos, Tutorials und RTutor Problem Sets**, welche die Vorlesung begleiten. Am Freitag den 15. November wird eine Projektarbeit innerhalb der Vorlesung mit ihnen gemeinsam erarbeitet. Diese macht 10% der Endnote aus. .center[.alert[Anschließend gibt es zwei selbstständige Projektarbeiten, welche in die Endnote einfließen werden.]] -- - Interaktive Vorlesung mit integrierten Übungsaufgaben - Geblockte Vorlesungseinheiten zu Beginn des Semesters - Vorlesungen dienen der praktischen Anwendung aus den Lehrvideos - Hier wird eine Case-Study systematisch behandelt - RTutor Problem Sets und Tutorials sollen zum "learning-by-doing" anregen - Alle Vorlesungs- und Übungsunterlagen werden auf Moodle bereitgestellt --- class: inverse, middle, center # Was Sie in dieser Vorlesung lernen --- ## Was Sie in dieser Vorlesung lernen -- - **Programmierung in R**: Sie werden wissen, wie Sie die Statistik-Software R dazu benutzen können um unterschiedlichste Fragestellungen zu beantworten -- - **Datenbearbeitung**: Sie werden mit unterschiedlichsten Datensätzen arbeiten können und verstehen, diese aufzuarbeiten und zu visualisieren -- - **Reproduzierbarkeit**: Sie können die Ergebnisse ihrer Arbeit so kummunizieren, dass Dritte sie nachvollziehen und reproduzieren können -- - **AI Literacy**: Sie wissen, wie Sie künstliche Intelligenz als persönlichen Tutor nutzen können -- - **Präsentationstechniken**: Sie können die Ergebnisse ihrer Arbeit anschaulich und kompakt präsentieren -- - **Statistik**: Sie können die Ergebnisse ihrer (Regressions-) Analysen interpretieren -- - **Kausalität**: Sie können kausale Zusammenhänge aus experimentellen Daten und Beobachtungsdaten ableiten --- ## Was Sie in dieser Vorlesung lernen - **Programmierung in R**: Sie werden wissen, wie Sie die Statistik-Software R dazu benutzen können um unterschiedlichste Fragestellungen zu beantworten (✔️) - **Datenbearbeitung**: Sie werden mit unterschiedlichsten Datensätzen arbeiten können und verstehen, diese aufzuarbeiten und zu visualisieren (✔️) - **Reproduzierbarkeit**: Sie können die Ergebnisse ihrer Arbeit so kummunizieren, dass Dritte sie nachvollziehen und reproduzieren können (✔️) - **AI Literacy**: Sie wissen, wie Sie künstliche Intelligenz als persönlichen Tutor nutzen können (✔️) - **Präsentationstechniken**: Sie können die Ergebnisse ihrer Arbeit anschaulich und kompakt präsentieren (✔️) - **Statistik**: Sie können die Ergebnisse ihrer (Regressions-) Analysen interpretieren (✅) - **Kausalität**: Sie können kausale Zusammenhänge aus experimentellen Daten und Beobachtungsdaten ableiten (✅) .center[.alert[Der Statistikteil wird im zweiten Teil des Kurses, d.h. im Sommersemester 2025, abgedeckt.]] --- class: inverse, center, middle # Übungsaufgaben mit `RTutor` --- ## Wie Sie die Vorlesungsinhalte vertiefen - Wöchentliche `RTutor` Problem Sets, welche die Unterrichtseinheit aufgreifen und vertiefen - Den Umgang mit R-Markdown erlernen als Vorbereitung für die späteren Projekte - _Individuelle_ Abgabe der `RTutor` Problem Sets als **Vorleistung** -- Die `RTutor` Problem Sets behandeln vorlesungsbegleitend folgende Inhalte: - Einführung in R - Datenaufbereitung - Visualisierung von Daten .instructions[Bearbeitung der RTutor Problem Sets **lokal oder** in der **Posit Cloud** möglich.] --- class: inverse, center, middle # Unterstützungsangebote --- ## Wo bekommen Sie Hilfe? - Auf Moodle gibt es ein Diskussionsforum, scheuen Sie sich nicht dort ihre Fragen zu stellen! - Bitte benutzen Sie dieses Forum, bevor Sie eine Mail an den Tutor, Übungsleiter oder Dozent stellen - Wir haben einige Beispiele aufgearbeitet, wie Sie Fragen stellen sollten, damit Sie schnell eine Antworten erhalten. Das Dokument finden Sie in Moodle unter [`Wie stelle ich Fragen im Forum?`](https://projektkurs-data-science-ulm2425.netlify.app/tutorials/fragen-im-forum) -- - Es finden parallel zu den Projektarbeiten Tutorien statt, wobei jede Gruppe einen festen Termin pro Woche erhält -- - Für Fragen zur Notengebung oder persönliche Fragen können Sie dem Dozenten eine E-Mail schicken --- ## Tutorium - Bereits ab der 1. Vorlesungswoche gibt es ein vorlesungsbegleitendes Tutorium. - Die Tutorien werden während der Projektphase wöchentlich **online** stattfinden (für jede/n Tutor*in gibt es eigene Zoom-Räume mit Break-out Räumen pro Gruppe) - Die Tutor*innen beantworten auch ihre Fragen auf Moodle - Bitte stellen Sie ihre Fragen im Forum, wenn ihr Problem allgemeiner Natur ist -- .instructions[Das Tutorium soll hauptsächlich dazu dienen Sie bei ihren individuellen Projektausarbeitungen zu unterstützen!] --- ## Tutorium Der **erste Tutoriumstermin** ist am **17.10.2024** von **14 - 18 Uhr** ( **online** ) - In diesem Tutorium werden technische Probleme geklärt - Bitte beachten Sie alle Hinweise in den Videos und die schriftlichen Ausführungen zur Installation von R und RStudio, Github Account erstellen etc. -- Die **erste Übung** ist am **18.10.2024** von **10:15 - 11:45 Uhr** ( in **H3** ) - Fokus: - Technische Fragen zu RStudio Cloud und dem 1. Übungsblatt werden hier beantwortet - Arbeiten mit Git und GitHub Desktop (Live-Session mit GitHub Desktop) - Falls noch technische Fragen aus dem Tutorium vom 17.10.2024 offen sind werden diese hier auch behandelt -- .instructions[Es ist sehr wichtig, dass jeder die [neueste Version von R (Version 4.4.1)](https://www.r-project.org/) und [RStudio (Version 2024.09.0-375)](https://posit.co/download/rstudio-desktop/) installiert hat und ein Konto bei [GitHub](https://github.com/) erstellt hat, da die späteren Projekte darüber durchgeführt werden.] .alert[Bitte schauen Sie sich die Videos zur Installation von R, RStudio und Github an!] --- ## LLMs in der Vorlesung und den Projekten .pull-left[ <img src="figs/bwgpt.png" width="70%" style="display: block; margin: auto;" /> ] .pull-right[ Wir nehmen dieses Semester an dem baden-württembergischen Pilotprojekt [bwGPT](https://www.zml.kit.edu/bwgpt.php) teil. **Vorteil für Sie:** Sie erhalten einen datenschutzrechtlich sicheren Zugriff auf ChatGPT (und andere LLMs) im Rahmen dieser Vorlesung - Integration von LLMs in den Lernprozess - Nutzung von LLMs in der Vorlesung und in den Projekten - Kennenlernen von LLMs im akademischen Kontext (Ethik und rechtliche Einschränkungen) Über [diesen Link](https://bwgpt.scc.kit.edu/login) können Sie sich bei bwGPT mit ihrem KIZ-Account anmelden. ] --- class: inverse, center, middle # Wie können Sie _uns_ unterstützen? --- ## Wie können Sie _uns_ unterstützen? Diese Veranstaltung ist seit dem Wintersemester 2020/2021 im Pflichtkatalog des Bachelor Wirtschaftswissenschaften. Wir haben auf Basis des Feedbacks der letzten Jahre einige Änderungen vorgenommen und möchten die Veranstaltung kontinuierlich weiterentwickeln und sind hierfür auf ihre Hilfe angewiesen. -- Daher haben wir zu dieser Veranstaltung eine wissenschaftliche Begleitstudie gestartet um den Projektkurs zu verbessern. - Analyse der Elemente im Projektkurs - Github Commits - Vorleistung und Prüfungsergebnisse - Subjektive Einschätzung zu den Projekten - Pseudonymisierung der Daten - Keine Rückschlüsse auf einzelne Personen möglich! .alert[Hierfür haben wir eine **Einverständniserklärung und Datenschutzerklärung vorbereitet** und bitten Sie diese anzuschauen. Falls wir ihre Daten für die Begleitstudie verwenden dürfen, so geben Sie dies bitte im Formular auf Moodle entsprechend an.] --- .instructions[Bitte lesen Sie die **Einverständniserklärung und Datenschutzerklärung** durch und geben Sie im Moodle Kurs an, ob Sie damit einverstanden sind, oder nicht.]
−
+
10
:
00
--- class: inverse, center, middle # Mit welchen Daten bekommen _Sie_ es zu tun? --- ### Case-Study: Verschuldung in Deutschland -- .pull-left[ <br><br> In der Case-Study widmen Sie sich der Frage: .alert[Gibt es einen Zusammenhang zwischen der Verschuldung eines Landkreises und dessen Arbeitslosenquote?] Zur Beantwortung dieser Frage werten Sie u.a. Informationen vom statistischen Bundesamt auf Landkreisebene aus. ] .pull-right[ <br><br> <img src="figs/verschuldung.png" width="90%" style="display: block; margin: auto;" /> ] --- ### Projekt 1: Betrugserkennung im Unternehmen -- .pull-left[ <br><br> In diesem Projekt widmen Sie sich der Frage: .alert[Wie kann ein/e Wirtschaftsprüfer/in mögliche Bilanzmanipulationen aufspüren?] Zur Beantwortung dieser Frage werten Sie Informationen von Journalbuchungen aus. ] .pull-right[ <br><br> <img src="figs/Buchungen_wochentag.png" width="110%" style="display: block; margin: auto;" /> ] --- ### Projekt 2: Social Capital und wirtschaftlicher Aufstieg -- .pull-left[ <br><br> In diesem Projekt widmen Sie sich der Frage: .alert[Ermöglichen ihre sozialen Verbindungen (Freunde, Verwandte etc) einen wirtschaftlichen Aufstieg?] Zur Beantwortung dieser Frage nutzen Sie Daten des Social Connectedness Index von Facebook. Sie werden untersuchen, ob dieser die Einkommensunterschiede der einzelner Counties in den USA erklären kann. ] .pull-right[ <br><br> <img src="figs/Opportunity_Atlas.png" width="110%" style="display: block; margin: auto;" /> <font size="1">Quelle: https://www.socialcapital.org/</font> ] --- ### Projekt 3: Mieten in Deutschland -- .pull-left[ <br><br> In diesem Projekt widmen Sie sich der Frage: .alert[Wie hoch sind die Mieten in einzelnen deutschen Städten / auf dem Land?] Zur Beantwortung dieser Fragen analysieren sie Daten des Zensus 2022, welche in sehr hoher Detailtiefe Einblick in die Wohnungsverhältnisse im Mieterland Deutschland geben. ] .pull-right[ <br><br> <img src="figs/Mieten.png" width="70%" style="display: block; margin: auto;" /> ] --- ## Was Sie in den Projekten lernen - Analysen auf **echten Daten** -- - Download und zusammenfügen eigener Datensätze -- - Deskriptive Analysen und Grafiken -- - Beschreibung der Analysen -- - **Im Sommersemester 2025**: Statistische Auswertungen --- ## Was Sie durch Review Reports lernen - Rekapitulation des Projekts -- - Kritische Auseinandersetzung mit der Arbeit von Mitstudierenden -- - Erkennen was die andere Gruppe gut/schlecht gemacht hat und daraus für seine eigene Arbeit Erkenntnisse gewinnen -- - Automatisch: Vorbereitung auf die Klausur -- .instructions[Die Review Reports für jedes Projekt sind _individuelle_ Abgaben!] --- class: inverse, center, middle # Wie setzt sich die Note zusammen? --- ## Notengebung Nach den Vorlesungseinheiten und der Einführung in R gibt es drei Projekte: - Erstes Projekt: Zusammen mit dem Dozenten: 10 Punkte = 10% der Note -- - Zweites Projekt: 30 Punkte = 30% der Note -- - Drittes Projekt: 30 Punkte = 30% der Note -- - Multiple-Choice Abschlussprüfung: 30 Punkte = 30% der Note -- Es werden immer **Gruppen von drei Personen** geformt, welche die **Projekte zusammen** abgeben. Natürlich dürfen alle Teilnehmer Projekte gerne miteinander diskutieren. **Jedoch** muss jede Gruppe eine _individuelle Ausarbeitung_ abgeben. Wenn sich die Lösung einzelner Abschnitte der Projektes (oder das komplette Projekt) zu stark ähnelt, wird dies mit 0 Punkten für das Projekt geahndet (für alle beteiligten Gruppen). --- ## Klausur **Vorleistung 1 a):** Die **RTutor Problem Sets** müssen **individuell** bearbeitet und eingereicht werden um für die Projekte und Klausur zugelassen zu werden - Letztes RTutor Problem Set ist am 04. November 2024 fällig - Mindestens **80% der Punkte pro Problem Set** müssen erreicht werden um für die Projekte zugelassen zu werden -- **Vorleistung 1 b):** Am 22.11.2024 findet eine (multiple-choice) **Probeklausur** statt um ihnen ein Gefühl für die Klausur am Ende des Semesters zu geben (30 Fragen). Es müssen **mind. 20% der Punkte** erreicht werden um die Vorleistung zu erhalten. Um die Klausurbedingungen zu simulieren sind keine Hilfsmittel erlaubt. -- **Vorleistung 2:** Die **Peer Reviews** müssen **individuell** bearbeitet und eingereicht werden um für die Klausur zugelassen zu werden - Studenten ranken die Review Reports nach Nützlichkeit: - Bei _mindestens_ einem Projekt muss der Review Report _mindestens_ auf Platz 2 gerankt werden. - Wenn alle Reports als "nützlich" eingestuft wurden, entscheidet der Dozent über die Zulassung zu Klausur -- .alert[Die Multiple-Choice-Abschlussprüfung beinhaltet Fragen zu den drei Teilprojekten, den Vorlesungsinhalten, der Case-Study und den `RTutor` Problem Sets.] --- ## Teilen von Code - Viel ist im Web verfügbar und darf auch gerne verwendet werden - Wenn Sie Code aus dem Internet verwenden, dann müssen Sie die Quelle entsprechend kennzeichnen! - Falls Sie die Quelle nicht zitieren wird dies als Plagiat gewertet und wird mit einer 5.0 für das gesamte Projekt geahndet - `RTutor` Problem Sets sind selbstständig auszuführen. Code darf nicht mit anderen geteilt werden! -- .instructions[Projekte dürfen innerhalb der Gruppe und auch gerne mit anderen Gruppen diskutiert werden, jedoch darf kein Code an andere Gruppen weitergegeben werden!] --- ## KI im Projektkurs - In diesem Semester nimmt diese Vorlesung am Projekt [`bwGPT`](https://www.zml.kit.edu/bwgpt.php) teil - Wir werden KI in der Vorlesung einsetzen - Für den Einsatz in den Projekten haben wir eine KI-Guideline erarbeitet, welche auch die Sichtweise der Uni Ulm widerspiegeln - Sie sollten die KI als Tool sehen: Eine Tutorin, welche 24/7 für Sie erreichbar ist und nicht müde wird ihre Fragen zu beantworten .alert[Die KI ersetzt nicht selbt zu denken! Gerade das kritische Denken ist wichtig bei der Arbeit mit LLMs. Sie sind immer verantwortlich für das, was Sie einreichen.] --- ## Notengebung der Projekte - Im zweiten Projekt muss neben der schriftlichen Ausarbeitung (70% der Note für das Projekt) auch ein Screencast (30% der Note für das Projekt) gehalten werden - Der Screencast sollte nicht länger als 5 Minuten gehen -- - Im dritten Projekt muss neben der schriftlichen Ausarbeitung (70% der Note für das Projekt) auch ein Screencast (30% der Note für das Projekt) gehalten werden - Der Screencast sollte nicht länger als 5 Minuten gehen -- .instructions[Bitte bereiten Sie den Screencast frühzeitig vor, er gibt 30% der Note!] --- ## Dokumentation und Coding Standard Sie sollten mit ihren Gruppenpartnern zusammenarbeiten, dafür gilt es einige Prinzipien zu beachten: - Benutzen Sie immer einfache Textdateien um miteinander zusammen zu arbeiten - Dateien, welche Sie miteinander bearbeiten sollten mit einem Texteditor zu lesen sein (Notepad ++ / vim / RStudio ...) - Hier eignet sich das in der Vorlesung vorgestellte RMarkdown bestens - Strukturieren Sie ihren Code (Kommentare) - Begrenzen Sie ihren Code (max. 80 Zeichen pro Zeile) - Rücken Sie einzelne Bausteine ein (Alles was zu einer Funktion gehört sollte mit vier Leerzeichen eingerückt werden) --- ## Zeitmanagement - Definieren Sie Meilensteine - Bis wann muss was von wem erstellt worden sein? -- - Bleiben Sie in Kontakt mit ihrem/ihrer Gruppenpartner*in, bspw. über Github/Whatsapp oder sonstige Kanäle, um über ihren Projektfortschritt zu sprechen -- - Stellen Sie unbedingt Fragen im Forum auf Moodle! - Hier können Fragen oft sehr schnell beantwortet werden und meist haben mehrere Gruppen die gleiche Frage - Wenn Sie die Antwort auf eine Frage wissen, dann scheuen Sie sich nicht diese in Moodle zu posten! -- - Nutzen Sie die Möglichkeit des Tutoriums und sprechen Sie dort Schwierigkeiten direkt an -- - Kommen Sie bei tiefergehenden Fragen frühzeitig auf den Übungsleiter und Dozenten zu -- - Planen Sie genügend Zeit für die Erstellung und das Halten des Screencast ein - Der Screencast gibt 30% der Projektnote -> Nicht auf die leichte Schulter nehmen! --- ## Vorbereitung bis zum Tutorium bzw. der Übung am Freitag .center[.alert[**Wir haben für alle diese Bereiche Lehrvideos erstellt**]] --- ## Vorbereitung bis zum Tutorium bzw. der Übung am Freitag - Laden Sie R und RStudio herunter - Nutzen Sie hierfür das Tutorial auf unserer Moodle Seite - _Bitte beachten Sie_: - Installieren Sie die [neueste Version von R (Version 4.4.1)](https://www.r-project.org/) und [RStudio (Version 2024.09.0-375)](https://posit.co/download/rstudio-desktop/) - Wenn Sie bereits R und R-Studio installiert haben stellen Sie sicher, dass diese auf dem neuesten Stand sind (hier hilft ihnen das Paket `installr` mit der Funktion `updateR()`) - Sie können die Version von R über die Eingabe des Befehls `version` prüfen - Sie können die Version von R-Studio über die Eingabe des Befehls `RStudio.Version()` prüfen - Installieren Sie die Pakete `tidyverse` und `RTutor` - Stellen Sie sicher, dass ihre Pakete unter der neuesten Version von R funktionieren (hier hilft der Befehl `update.packages()`) - Falls Sie eine niedrigere Hauptversion von R installiert haben (z.B. 3.5.1), dann müssen Sie per Hand die Version 4.4.1 installieren. Hier kann ihnen `installr` nicht weiterhelfen --- ## Erstellen eines Github Accounts .instructions[ Gehen Sie auf [github.com](https://github.com/) und erstellen Sie sich einen Account (falls Sie noch keinen haben). ] Tipps zum Nutzernamen:<sup>✦</sup> .midi[ - Nehmen Sie ihren richtigen Namen auf - Wählen Sie **keinen fiktiven Namen**, welcher schwer zu finden ist. - Kurz und prägnent - Keine Info über die aktuelle Uni o.ä. ] .footnote[ <sup>✦</sup> Source: [Happy git with R](http://happygitwithr.com/github-acct.html#username-advice) von Jenny Bryan ] --- ## Geben Sie ihren Github Namen in Moodle an Abfrage in Moodle: - Github Name - E-Mail Adresse ihres Github-Kontos (wir empfehlen hier die **Uni-Ulm E-Mail-Adresse zu verwenden**) - Wenn Sie die Uni Ulm Adresse verwenden können Sie [zusätzliche Vorteile beantragen](https://education.github.com/discount_requests/application) --- ## Erstellen Sie einen Account bei Posit Cloud .instructions[ Gehen Sie auf [Posit-Cloud](https://posit.cloud/) und loggen sich mit ihrem Github Account ein ] --- ## Erste Schritte mit der KI Loggen Sie sich auf [bwGPT](https://bwgpt.scc.kit.edu/login) ein und lesen Sie die Nutzungsbedingungen durch. Fragen Sie die KI (Sie können unterschiedliche LLMs auswählen, machen Sie das bitte mal): - 10 unterschiedliche, nicht miteinander zusammenhängende Fragen zu unterschiedlichen Themen in denen Sie sich auskennen - Bewerten Sie die Antworten des LLMs auf einer Skala von 1-10 (1 = nutzlos, 10 = perfekt) - Schauen Sie sich den Stil und die Form der Antworten an, die Sie erhalten haben. Fällt ihnen etwas auf? Sind Sie damit zufrieden?