10 Einstieg in R
Unterlagen für die Einführung in R, Proseminar-Level. (c) Clau Dermont, Institut für Politikwissenschaft, Universität Bern.
Basierend auf: Wickham, Hadley & Garrett Golemund. R for Data Science. O’Reilly. R for Data Science
Weitere Möglichkeiten, um sich selbständig in R einzuarbeiten:
- Try R, ein Tutorial für die Grundsätze der R-Sprache,
- Beginners’ Guide to R, einfache Einführung,
- Cookbook, verschiedene weiterführende Tutorials,
- RDDJ, Ressourcen für Datenjournalismus mit R,
- R Vis, weiterführender Kurs in Datenvisualisierungen.
10.1 Vorbereitung
Bitte die aktuellste Version von R (3.4.2) vorgänglich installieren, zusätzlich empfiehlt sich RStudio als Oberfläche zur Arbeit mit R. Diese Einführung geht davon aus, dass RStudio genutzt wird.
Um RStudio parat für die Arbeit zu haben, installieren wir zusätzlich die Package tidyverse
. Neben den Grundbefehlen von R vereinfacht das “Tidyverse” verschiedene Schritte der Datenaufbereitung, -säuberung, und -darstellung.
# Einmalig nach der Installation von R
install.packages("tidyverse")
Bei jeder Sitzung von R werden wir anschliessend die Arbeitsumgebung vorbereiten. Dafür laden wir die Package tidyverse
(jedesmal) und definieren, wo unsere Daten zu finden sind. Zur Vorbereitung ladet ihr die auf ILIAS zur Verfügung gestellten Unterlagen runter, und speichert die in einem Ordner. Diesen Ordner definiert ihr jetzt als Arbeitsumgebung mit setwd()
oder per Menü-Auswahl.
# Jedesmal beim Aufstarten von R
# Package laden
library(tidyverse)
# Pfad setzen
wd <- "~/Pfad/zu/eurem/Ordner/" # darauf achten, dass R keine \ versteht
setwd(wd)
In RStudio kann der Pfad auch per Menü ausgewählt werden: Session > Set Working Directory > Choose Directory. Oder per Shortcut: Ctrl+Shift+H
Die drei wichtigsten Packages im Tidyverse sind tidyr
und dplyr
für die Datensäuberung sowie ggplot2
für Visualisierungen. RStudio bietet auch Cheatsheets für diese Packages an, d.h., eine Übersicht der Befehle. Diese finden sich im Menü Help > Cheatsheets.
Alternativ kann man bei allen Befehlen von R in der Konsole direkt den Befehl ?ggplot2
reinschreiben, und R wird einem die Hilfeseite für diese Funktion oder Package öffnen.
Einer der Vorteile an RStudio ist, dass wir auf einem Bildschirm die verschiedenen Kacheln/Panes haben: Links oben “Source”, links unten die “Console”, rechts oben das “Environment”, und rechts unten meist die “Files” oder die “Plots”. Anders als in R ist die gesamte Arbeitsumgebung aufgeräumert. Die vier Panes können übrigens frei angeordnet werden, ich bevorzuge die Konsole auf der rechten Seite zu haben, sodass sich Source und Console nicht im Platz konkurrenzieren.
Vom Arbeitsprozedere ist es sinnvoll, seine Scripte immer in einem R-Scriptfile abzuspeichern (entspricht einem do-File in Stata). In diesem Script wird gearbeitet, und anschliessend werden die Codeabschnitte in der Konsole ausprobiert. Neben rüberkopieren gibt es übrigens auch die Möglichkeit, per Ctrl+Enter ausgewählten Code automatisch laufen zu lassen.
Alle weiteren Shortcuts sind per Alt+Shift+K zu finden.