In diesem Abschnitt finden Sie alles, was Sie zum Start über die Benutzeroberfläche von R und RStudio wissen müssen. Dabei gehe ich zu nächst auf die R-Konsole ein: Ein Tool, dass bereits beim Download von R mitgeliefert wird und in dem Sie die Sprache bereits ausführen können - wenngleich dies wenig komfortabel ist. Die R-Konsole ist aber auch ein Teil von RStudio. Im Anschluss gehe ich deshalb auf die IDE und ein paar ausgewählte Features genauer ein.
3.1 R Konsole
Wenn man sich R heruntergeladen und installiert hat, kann man die Sprache bereits ausführen.Nach einem Doppelklick auf das R-Icon öffnen sich die R-Konsole.In dem Fenster wird nach dem Öffnen direkt ein längerer in Schwarz formatierter Text angezeigt.Er enthält einige Informationen über R, wie z.B. die Versionsnummer, einen Warnhinweis und ein paar grundlegende Befehle.
Unter diesem schwarzem Text folgt ein lila-fabiges “>” hinter dem in Blau ein “|” blinkt.Dies bedeutet, dass R nun bereit ist für die Eingabe von Befehlen. Nachdem ein Befehl eingegeben wurde, kann man ihn mit Drücken der Eingabetaste (Enter) ausführen.
Der folgenden Screenshot zeigt, wie ich drei Befehle eingegeben und ausgeführt habe:
Der Befehl
print()
nimmt eine Zeichenfolge und gibt sie in der Konsole aus, in diesem Fall die Zeichenfolge"Hello world!"
.Dieser als “Hello World-Programm” bezeichnete Befehl ist ein häufig gewähltes erste Programmierbeispiel in der Einführungsliteratur für Programmiersprachen. Fun-Fact: Auch die Tradition des “Hello world!”-Programms stammt ursprünglich aus den Bell Laboratories.Im zweiten Befehl
2^8
habe ich R eine Berechnung durchführen lassen, nämlich 2 hoch 8.R liefert nach einem Druck auf Enter das Ergebnis 256 zurück.Im dritten Befehl sollte ebenfalls eine Berechnung durchgeführt werden
3+x
.Hier kommt jedoch kein Ergebnis zurück, sondern nur die Fehlermeldung “Objekt ‘x’ nicht gefunden.”R kann die Berechnung nicht durchführen, weil es den Wert für ´x´ nicht kennt.Ich habe es bisher nicht definiert.
Betrachtet man den Screenshot genauer, fallen einige Eigenschaften der Formatierung auf:
Der selbst geschriebene Text wird in Blau dargestellt. So ist er leichter von den in Schwarz dargestellten Ausgaben zu unterscheiden. Fehlermeldungen erscheinen in Rot und sind damit besonders auffällig.
Vor jeder Ausgabe eines Ergebnisses findet sich eine
[1]
. Diese markiert, um das wievielte Element einer Ausgabe es sich handelt.Im obigen Beispiel enthält jede Ausgabe nur ein Element, aber Ausgaben können durchaus auch mehrere Teile haben oder sogar ineinander verschachtelte Elemente aufweisen.
Beim Eingeben von Befehlen in die Konsole kann man mit den Cursortasten (↑
und ↓
) durch die bisher eingegebenen Befehle wechseln. Drückt man beispielsweise ↑
wird der letzte eingegebene Befehl erneut in die Konsole geschrieben.
Achtung
Manchmal erscheint nach dem Ausführen eines Befehls nicht das erwartete Ergebnis, sondern die Konsole zeigt nur ein +
an. In diesem Fall war der Befehl unvollständig. Tatsächlich kommt es bei der Arbeit mit R recht häufig zu unvollständigen Befehlen, etwa weil eine schließende )
oder ein "
vergessen wurde. Man kann in diesem Fall den fehlenden Teil entweder noch ergänzen oder die Ausführung mit der Esc-Taste abbrechen.
Das ist alles schon ganz nett, aber auch ziemlich unkomfortabel. Um richtig mit R zu arbeiten, bietet es sich an, auf eine integrierte Entwicklungsumgebung (Integrated Development Environment, kurz IDE) zurückzugreifen.So eine IDE kann beispielsweise bei der Organisation von Dateien unterstützen, sie bietet Hilfe-Funktionen beim Coden und gibt einen Überblick über die Objekte, die sich im Arbeitsspeicher befinden und vieles mehr.
3.2 RStudio: IDE für R
Statt der Konsole benutzen die meisten Entwickler einen Editor oder eine so genannte IDE (= Integrated Development Environment zu deutsch Entwicklungsumgebung), die eine grafische Oberfläche bietet und das Programmieren und das Datenmanagement erheblich erleichtert.
Die bekannteste und beliebteste IDE für R ist RStudio.Wie der Name schon vermuten lässt, wurde RStudio speziell für die Arbeit mit R entwickelt. Es ist genau auf die Bedürfnisse von R-Anwender:innen angepasst. Im folgenden Abschnitt stelle ich die Entwicklungsumgebung kurz vor, beschreibe einige Features und die Benutzeroberfläche.
Die IDE RStudio ist seit 2011 auf dem Markt und wird von RStudio PBC entwickelt und vertrieben.Das Programm ist sowohl für Desktop-Rechner als auch für Server verfügbar und wird sowohl kostenlos als auch in einer kommerziellen Pro-Version vertrieben.Die Pro-Versionen unterscheiden sich vor allem dadurch, dass den Anwender:innen ein Priority-Support geboten wird.Seit Beginn 2020 firmiert RStudio als Public Benefit Corporation und hat sich damit dem Gemeinwohl verpflichtet.
Das Unternehmen RStudio ist Teil des R Consotium, einem Zusammenschluss von Unternehmen, die R im großen Stil einsetzen oder für ihre Geschäftsmodelle nutzen (auch Microsoft, Google und Oracle gehören dazu).Gerade RStudio treibt sowohl die Verbreitung der Sprache R, als auch ihre Weiterentwicklung und Standardisierung enorm voran und prägt damit ihre Ausgestaltung zusehends.
Allen voran ist hier das tidyverse zu nennen. Es handelt sich dabei um eine Gruppe von Paketen, die von den RStudio-Programmierern um Hadley Wickham (Chief Scientist bei RStudio) entwickelt wurden und die dazu dienen, R einheitlicher und verständlicher zu gestalten sowie die Sprache noch besser auf die Bedürfnisse moderner Datenanalyse anzupassen. Auch in diesem Buch wird weitestgehend auf die Pakete und Funktionen des tidyverse zurückgegriffen.Obwohl die Entwicklung der Vereinheitlichung von R mit dem Tidyverse viele Anhänger gefunden hat und enorm zur Popularität der Sprache beigetragen haben dürfte, sei dennoch erwähnt, dass es auch Stimmen gibt, die diese Entwicklung kritisch betrachten (Matloff 2019; McChesney 2020).
3.2.1 RStudio-Cloud
Wie oben erwähnt gibt es sowohl eine Server- als auch eine Desktopversion von RStudio.Für den Zweck der Statistik-Ausbildung arbeiten wir hier am IJK mit einer Serverversion, nämlich der RStudio Cloud.Dies hat die Vorteile, dass die Studierenden zunächst nichts auf ihren Rechnern installieren müssen und dass die Entwicklungsumgebung mit allen Übungsskripten bereits vorliegt.Sie können sich sehr leicht selbst eine eigene Version der verwendeten Skripte erstellen und so an den Übungen teilnehmen.Der/die Dozierende kann sich Ihre Versionen ansehen und so bei Fehlern und Fragen leicht helfen.
3.2.2 Installation von RStudio
Obwohl die RStudio-Cloud im Rahmen der Statistikausbildung sehr praktisch sein wird, brauchen Sie (später) eine eigene Instanz von R und RStudio auf Ihrem persönlichen Rechner. Zum einen für den Zweck des Übens, zum Anderen weil Sie es später zur Arbeit an eigenen (Studien-)Projekten benötigen werden.Die Anleitung zur Installation finden Sie im nächsten Kapitel.Sie ist getrennt nach Windows und MacOS aufgeführt, da sich die Schritte die zur Installation nötig sind leicht unterscheiden.
3.2.3 RStudio Benutzeroberfläche
Die Benutzeroberfläche von RStudio gliedert sich in verschiedene Bereiche.Wenn Sie RStudio zum ersten Mal öffnen, sieht sie in etwa so aus:
3.2.3.1 Console
Links finden Sie die bereits bekannte K/Console, sie schreibt sich hier mit “C,” weil die Benutzeroberfläche von RStudio nur in Englisch verfügbar ist. Hier werden die Ergebnisse von Berechnungen ausgegeben und man kann auch, wie bereits im Abschnitt Konsole beschrieben, Befehle eingeben. Der linke Bereich enthält neben der Console noch weitere Tabs (Terminal und Jobs). Diese benötigen wir jedoch momentan nicht.
3.2.3.2 Environment
Der Bereich rechts ist zweigeteilt. Oben findet sich die Environment, zu deutsch Arbeitsumgebung.Hier werden die Objekte angezeigt, die während der aktuellen R-Session erzeugt wurden. Ein Objekt kann dabei alles Mögliche sein, z.B. ein Datensatz oder das Ergebnis einer Berechnung. Im Moment ist die Arbeitsumgebung natürlich noch leer. Auch dieser obere rechte Bereich hat mit History, Connections und Git oder auch Build weitere Tabs. Unter History werden alle Befehle der aktuellen R-Session protokolliert. Die anderen Bereiche sind zunächst nicht interessant für uns.
3.2.3.3 Files, Plots, Packages, Help & Viewer
Im unteren rechten Bereich finden sich ebenfalls verschiedene Tabs.
Der erste heißt Files. Wenig überraschend findet sich dort ein Dateibrowser, in dem Ihr Arbeitsverzeichnis und die sich darin befindlichen Dateien angezeigt werden.Mit den Icons im Bereich können Sie durch Ihr Filesystem navigieren.Sind im Arbeitsverzeichnis bereits Dateien abgelegt, können Sie diese durch Doppelklick auch direkt in RStudio öffnen.
Im zweiten Tab Plots werden Grafiken, die Sie mit R erzeugt haben angezeigt.Auch der letzte Tab im Viewer dient zur Anzeige von in R erzeugten Inhalten.
Im Tab Packages sehen sie die R-Pakete, die auf Ihrem Rechner bereits installiert sind.Über den Button Install können Sie CRAN nach weiteren Paketen durchsuchen und diese installieren.Um ein Paket in einer Session benutzen zu können, muss es aber nicht nur installiert sein, es muss auch “aktiviert” beziehungsweise geladen werden. Wie das genau geht, behandeln wir später noch einmal im Detail.Im Tab Packages kann man an dem Kästchen vor den einzelnen Paketen sehen, ob ein Paket in der aktuellen Arbeitssession bereits geladen wurde (dann würde hier ein Häkchen angezeigt werden).
Der Tab Help beinhaltet die Hilfe und Anleitungen für die einzelnen Funktionen von R.Man kann die Hilfe aufrufen, indem man ein Suchwort in das Suchfeld ganz links eingibt. Alternativ kann man auch innerhalb des Quelltextes den Cursor auf eine Funktion setzen und dann die Funktionstaste F1 drücken.Außerdem kann man die Hilfe einer Funktion auch über den Befehl ?name_der_funktion()
aufrufen. Gibt man diesen Befehl ein, öffnet sich automatisch der Help-Tab mit dem gesuchten Inhalt.
3.2.4 R-Skripte
Mit RStudio kann man natürlich nicht nur Befehle in der Konsole ausführen, sondern seine Arbeit auch in Dateien speichern. Das Basis-Dateiformat von R hat die Dateiendung .R. Es gibt drei Möglichkeiten eine neue R-Datei anzulegen:- Über das Menü “File > New File > R Skript”- Über das kleine Icon mit dem weißen Rechteck und dem grünen Pluszeichen links oben unter dem Menü.- Über das Tastenkürzel Strg/Cmd + Shift + N
Sobald die erste R-Datei angelegt oder geöffnet wurde, öffnet sich in RStudio auch ein neuer Bereich, der die R-Datei enthält. Dieser Bereich kann in unterschiedlichen Tabs auch verschiedene R-Skripte beinhalten. Er sieht in etwa so aus:
Wenn Sie ein neues R-Skript angelegt haben, empfiehlt es sich, dieses zunächst einmal unter einem sinnvollen Namen zu speichern. Das geht ebenfalls entweder über das Menü, das Speicher-Icon oder die übliche Tastenkombination Strg/Cmd + S
. Der Name eines gespeicherten Skripts wird im Tab oben übrigens in Schwarz dargestellt. Skripte, die Änderungen enthalten, welche noch nicht abgespeichert wurden, werden in Rot angezeigt.
Genau wie in der Konsole können Sie im R-Skript Befehle eintippen. Allerdings werden sie nicht ausgeführt, wenn man Eingabe/Enter
drückt - dann springt der Cursor lediglich in die nächste Zeile (genau wie in jeder anderen Textverarbeitungssoftware). Zum Ausführen des R-Skriptes können Sie entweder oben den Button Run benutzen oder den Shortcut Strg/Cmd + Eingabe/Enter
. R führt dann die Zeile aus, in der sich der Curser befindet oder auch mehrere Code-Teile, die Sie zuvor gemeinsam markiert haben.
Tipp!
Am besten Sie gewöhnen sich die Tastenkombi Strg/Cmd + Eingabe/Enter
zum Ausführen von Befehlen direkt an. Das spart sehr viel Zeit!
3.2.5 Features von RStudio
RStudio ist eine umfangreiche IDE, die die Anwender:innen mit umfangreichen Funktionen unterstützt. Ein paar davon möchte ich an dieser Stelle explizit hervorheben.
Autovervollständigen
Während man in RStudio Text schreibt, macht die IDE Vorschläge, wie sich das bisher Geschriebene sinnvoll vervollständigen lässt. Dieses Feature ist besonders hilfreich, wenn man von einem Befehl nur den Anfang kennt und nicht genau weiß, wie er geschrieben wird und welche Elemente er beinhaltet.
Der Screenshot zeigt, wie nach Tippen der Buchstaben prin
Funktionen angezeigt werden, die mit diesen Buchstaben beginnen. Aus den Vorschlägen kann man mit der Maus oder über die Pfeiltasten und Drücken der Entertaste den Richtigen auswählen, ohne dass man den Befehl selbst zu Ende schreiben müsste. Das spart viel Zeit und ist außerdem gerade dann hilfreich, wenn man die Befehle noch nicht auswendig kennt. Neben dem Autocomplete wird außerdem in Gelb ein Hinweis zur Syntax und der Beginn der entsprechenden Hilfe-Datei angezeigt. Zu beachten ist, dass über das Autocomplete nur Funktionen aus Paketen angezeigt werden, welche während der aktuellen Session bereits geladen wurden.
Aufrufen der Hilfe-Funktion
Der Tab “Help,” der weiter oben bereits vorgestellt wurde, ist bei RStudio direkt in die Entwicklungsumgebung integriert.Dieser Umstand ist erwähnenswert, denn bei anderen IDEs öffnet sich bei Aufruf der Hilfefunktion häufig ein externer Browser.Dass die Hilfe bei RStudio direkt integriert ist, nimmt zwar etwas Platz auf dem Bildschirm weg, ist jedoch auch sehr anwenderfreundlich, gerade für Programmiereinsteiger:innen.
Automatisches Einrücken
Wenn Codes länger werden und über mehrere Zeilen gehen, bietet es sich an, diesen durch Einrückungen übersichtlich zu formatieren. Es kann so leicht kenntlich gemacht werden, welche Teile einer längeren Kette von Befehlen unmittelbar zusammengehören.Bei einigen Programmiersprachen gehören solche Einrückungen sogar unmittelbar zur Syntax dazu (z.B. bei Python). Aber selbst wenn sie nicht unmittelbar Bestandteil einer Sprache sind (wie bei R), sind Einrückungen für die menschlichen Anwender:innen nützlich, um den Überblick zu behalten.RStudio schlägt während des Programmierens selbst sinnvolle Einrückungen vor, sodass die Anwender:innen damit meist keine Arbeit haben.
Syntaxhighlighting
Syntaxhighlighting bedeutet, dass unterschiedliche Bestandteile des Codes in unterschiedlichen Farben dargestellt werden. Der folgende Screenshot demonstriert dies:
Auch Syntaxhighlighting dient der Übersichtlichkeit für die menschlichen Anwender:in.
3.2.6 RStudio anpassen
Über das Menü Tools > Global Options können Sie RStudio Ihren Vorlieben entsprechend anpassen.
An dieser Stelle kann ich nicht auf alle Möglichkeiten eingehen (ich kenne auch gar nicht alle), aber ich möchte auf ein paar sinnvolle Anpassungen hinweisen:
Im Bereich General unter Workspace: Entfernen Sie bitte das Häckchen bei Restore .RData into workspace at startup und stellen Sie die Option Save workspace to .RData on exit auf Never. Diese Optionen sorgen dafür, dass die Arbeitsumgebung von R bei jedem Schließen gespeichert wird und beim neuen Öffnen wieder geladen wird. Das betrifft zum Beispiel alle Objekte, die Sie in einer R-Session erstellt haben. Es hört sich zwar erstmal nach einer tollen und zeitsparenden Idee an, die ganzen Objekte nicht erneut erstellen zu müssen und direkt an der Stelle weitermachen zu können, an der man aufgehört hat. In der Praxis ist das aber eine ganz furchtbare Idee! Zwischen zwei R-Sessions hat man sehr wahrscheinlich vergessen, wo genau man aufgehört hat, welche Transformationen mit einem R-Objekt bereits durchgeführt wurden und welche noch folgen sollen. Das kann in totalem Chaos enden! Es ist daher besser mit einem frischen, leeren Workspace zu starten und ggf. das Skript – welches man natürlich abspeichern sollte – von oben nach unten erneut auszuführen.
Unter Appearance können Sie das Farbschema für das Syntaxhighlighting anpassen. Sie können zwischen sehr vielen unterschiedlichen Varianten wählen. Einige davon haben einen dunklen Hintergrund. So ein Dark Mode hilft beim Energiesparen und ist vielleicht auch angenehmer für die Augen. Probieren Sie es ruhig aus!
Ich habe über Code > Display > General > Show margin noch eine senkrechte Linie bei 80-Zeichen eingeblendet. Sie erinnert mich daran, nicht zu lange Codezeilen zu produzieren und lieber den Code an sinnvollen Stellen umzubrechen oder ihn ggf. umzuschreiben. Das dient der Übersichtlichkeit.
Literaturverzeichnis
Matloff, Norm. 2019. “TidyverseSkeptic.” https://github.com/matloff/TidyverseSkeptic.
McChesney, Jasper. 2020. “A Thousand Gadgets: My Thoughts on the r Tidyverse.” Towards Data Science. https://towardsdatascience.com/a-thousand-gadgets-my-thoughts-on-the-r-tidyverse-2441d8504433.