Tag r-programmierung
Wer mit ggplot2 ansprechende Grafiken erstellen will, findet mit den vier fortgeschrittenen Schichten flexible Möglichkeiten dafür.
The post ggplot2: Die vier fortgeschrittenen Schichten first appeared on Statistik Dresden.... mehr auf statistik-dresden.de
Am 18.5.2021 wurde R Version 4.1.0 veröffentlicht, und sie brachte (fast) eine Revolution: Einen Pipe Operator, nativ in Base R eingebaut! Pipe Operator in R seit 2014: magrittr / dplyr Mit dem magrittr-Paket wurde 2014 der Pipe-Operator %>% in R zur Verfügung gestellt. Er hat sich rasch durchgesetzt und erfreut sich sehr großer Beliebtheit.... mehr auf statistik-dresden.de
Vor kurzem erhielt ich eine Anfrage von Joachim Schork, ob ich mir eine Zusammenarbeit zwischen unseren Youtube-Kanälen Statistics Globe und StatistikinDD vorstellen kann. Darüber freute ich mich sehr – es wurde die erste Collab im Kontext meines Youtube-Kanals. In meinem Beitrag auf Statistics Globe geht es um die Erstellung eigener R-Pak... mehr auf statistik-dresden.de
Seit 2021 gibt es GitHub Copilot: KI-gestützte Programmier-Hilfe für Entwickler. Hinter dem Dienst stehen GitHub selbst sowie OpenAI und Microsoft. Seit Herbst 2023 wird GitHub Copilot von der dominierenden Entwicklungsumgebung für R, RStudio, unterstützt. GitHub Copilot in RStudio ist einsatzbereit! GitHub Copilot in RStudio: Voraussetzungen Vo... mehr auf statistik-dresden.de
Vor gut 30 Jahren wurde die Programmiersprache R veröffentlicht. Geschichte im Überblick: Meilensteine wie CRAN, UseR, ggplot2, ROpenSci, dplyr, R-Ladies, Shiny, tidyverse, Tidy Tuesday, Quarto, Posit, WebR, Positron, ...
The post 30 Jahre: Meilensteine de... mehr auf statistik-dresden.de
Zeitreihenanalyse ist ein Spezialthema, das in R von spezialisierten Paketen abgedeckt wurde und wird. So entstand eine Nische, die sich weitgehend unabhängig von neueren R-Paketen zur Datenanalyse entwickelte. tidyquant von Matt Dancho und Davis Vaughan baut eine Brücke zwischen zeitreihen-spezifischen Paketen wie quantmod, xts, zoo, Performan... mehr auf statistik-dresden.de
Fehlwerte können große Herausforderungen in der Datenanalyse darstellen. Warum fehlen Datenpunkte? Welche Eigenschaften weisen diese Fälle auf im Vergleich zu Fällen, deren Daten vollständig vorliegen? Gibt es Muster, oder fehlen Daten „zufällig“? Visualisierung kann die Beantwortung solcher Fragen sehr vereinfachen. Das naniar-Paket... mehr auf statistik-dresden.de
R Version 4.4.0 enthält einige Neuerungen: elegante NULL-Abfragen mit %||% aus rlang, speichereffiziente rekursive Funktionen, Sicherheitspatch beim RDS-Format, und mehr. Fast zeitgleich erschien RStudio 2024.04.0.
The post R 4.4.0: Was ist neu? first appeared on ... mehr auf statistik-dresden.de
parallel::detectCores() zur Parallelisierung von R-Code ist populär, kann aber Probleme verursachen. Besser: parallelly::availableCores().
The post Warum Du parallel::detectCores() in R NICHT verwenden solltest first appeared on Statistik Dresden... mehr auf statistik-dresden.de
Heute will ich zwei Fliegen mit einer Klappe schlagen: Einen Fortschrittsbalken in R implementieren R-Code parallel ausführen (d. h. auf mehreren Prozessorkernen gleichzeitig) R-Pakete: progressr und future Für die Umsetzung des Fortschrittsbalkens habe ich mich für progressr von Henrik Bengtsson entschieden. Es bietet eine leistungsfähige API (... mehr auf statistik-dresden.de
In den Biowissenschaften und der Pharmaindustrie spielen Datenverarbeitung und insbesondere statistische Datenanalysen eine fundamentale Rolle. Seit Jahrzehnten dominierte dabei die kommerzielle Software SAS (Statistical Analysis System). Nun sind starke Initiativen auf mehreren Ebenen hin zum Einsatz von R in der Pharmaindustrie zu beobachten -... mehr auf statistik-dresden.de
Mit dem R-Paket ggstatsplot kann man sehr leicht Gruppenvergleiche mit statistischen Kennzahlen grafisch darstellen. Unterstützt werden Tests für abhängige und unabhängige Stichproben, parametrische und nichtparametrische Tests, robuste Tests sowie Bayes-Verfahren.
The post Statistische G... mehr auf statistik-dresden.de
Der Erfolg von Datenanalysen beruht nicht nur auf den Ergebnissen selbst, sondern zunehmend auch darauf, wie sie präsentiert und anderen zugänglich gemacht werden. R bietet mit Shiny ein großartiges Werkzeug, um interaktive Webapplikationen zu erstellen. Dazu sind weder HTML- noch CSS- oder Javascript-Kenntnisse erforderlich. Shiny: Umdenken von... mehr auf statistik-dresden.de
Was spricht gegen Powerpoint, wenn es darum geht, Ergebnisse von Datenanalysen zu präsentieren? Hier geht es mir um drei Aspekte: Automatisierung und Reproduzierbarkeit, Dateiformate, Dateigrößen. Powerpoint ist nicht schlecht! Es geht mir überhaupt nicht darum, Powerpoint schlecht zu machen. Ich halte es für ein großartiges Werkzeug. Es ist ein... mehr auf statistik-dresden.de
ggplot2 ist der de-facto-Standard, um professionelle, ansprechende Grafiken in R zu erstellen. Heute sehen wir uns die drei Basisschichten an, die für jede ggplot2-Grafik erforderlich sind. ggplot2 basiert auf der Grammatik der grafischen Darstellung (Grammar of Graphics), die auf Leland Wilkinson zurückgeht. Er beschrieb das Konzept unabhängig ... mehr auf statistik-dresden.de
Einfache Codebeispiele für Balkendiagramme in Base R und mit ggplot2, inkl. horizontaler Balken, Legende, gestapelte und gruppierte Balken. Beitrag basiert auf Gastvideo von Joachim Schork von Statistics Globe - Dank an Joachim!
The post Balkendiagramme erstellen in Base R und mit ggplot2... mehr auf statistik-dresden.de
Schleifen haben einen schlechten Ruf in R: Sie gelten nicht zu unrecht als langsam. Oft ist es möglich, Schleifen zu vermeiden, etwa durch vektorisierte Funktionen, mit Funktionen aus der apply-Familie (wie lapply) oder mit map-Funktionen aus dem purrr-Paket. Manchmal wäre es jedoch recht aufwändig, R-Code so umzuschreiben, dass Schleifen elimin... mehr auf statistik-dresden.de
Bei einer R-Schulung wurde ich als Wessi entlarvt in einer Situation, in der ich das absolut nicht erwartet hätte. Es ging ums Runden. Hättet Ihr das gewusst? Habt Ihr ähnliche Überraschungen mit interkulturellen Unterschieden in vermeintlich unverdächtigen Situationen erlebt? Kaufmännisches vs. mathematisches Runden Zu der Zeit hatte ich mich n... mehr auf statistik-dresden.de
Eine Farbskala für eine Datenvisualisierung auszuwählen ist keine triviale Aufgabe. Diese Shiny App von Martijn Tennekes kann eine große, bequeme Hilfe sein. Farbskalen auswählen: Die App starten Die App zur Auswahl von Farbskalen ist im R-Paket tmaptools enthalten. Der Anwender kann entscheiden, ob er das Paket laden oder die App direkt starten... mehr auf statistik-dresden.de
parallel::detectCores() zur Parallelisierung von R-Code ist populär, kann aber Probleme verursachen. Besser: parallelly::availableCores().
The post Warum Du parallel::detectCores() in R NICHT verwenden solltest first appeared on ... mehr auf statistik-dresden.de
Nach meinem Eindruck erhalten verdeckte Korrelationen weniger Aufmerksamkeit als ihre bekannteren Kollegen, die Scheinkorrelationen. Dabei stellen beide Phänomene ähnliche Herausforderungen für die Datenanalyse dar. Eine verdeckte Korrelation liegt vor, wenn ein Zusammenhang zwischen zwei Variablen besteht, aber nicht direkt sichtbar wird, weil ... mehr auf statistik-dresden.de
Bis vor kurzem habe ich das plotly-Paket von Carson Sievert fast nur mit der ggploty()-Funktion genutzt. Doch plotly kann so viel mehr! Hier verknüpfen wir zwei interaktive Diagramme, sodass man aus einem Übersichtsdiagramm Gruppen auswählen kann, die dann in einem detaillierteren Diagramm automatisch hervorgehoben werden. Präsentation per Dashb... mehr auf statistik-dresden.de
Diagramme zu erstellen und zu speichern kann viel Zeit in Anspruch nehmen, vor allem bei großen Datenmengen oder wenn sehr viele Diagramme automatisiert zu generieren sind. Wie kann man den Vorgang für Diagramme mit dem beliebten ggplot2-Paket beschleunigen? Das ragg-Paket von Thomas Lin Pedersen Das ragg-Paket von Thomas Lin Pedersen ist eine R... mehr auf statistik-dresden.de
2019 legte Claus O. Wilke mit Fundamentals of Data Visualization ein sehr lesenswertes Buch über Datenvisualisierung vor, das einige Vorzüge gegenüber vergleichbaren Werken bietet: Wer es gerne physisch in Papierform in der Hand hält, kann es selbstverständlich käuflich erwerben. Es steht jedoch auch kostenlos online im Volltext zur Verfügung. D... mehr auf statistik-dresden.de
R bietet mehrere Möglichkeiten, mit Datenbanken zu kommunizieren. Dieser Artikel richtet sich sowohl an R-Anwender, die noch nicht von R aus mit Datenbanken gearbeitet haben, als auch an solche, die dies bereits tun, aber bisher nur eine Möglichkeit genutzt haben. So kann jedeR den Ansatz auswählen, der für den jeweiligen Anwendungsfall am beste... mehr auf statistik-dresden.de
Wusstest Du, dass Du keine Shiny App programmieren musst, um Diagramme mit Checkboxen, Drop-Down-Feldern und Schiebereglern zu versehen für bequeme visuelle Daten-Exploration? Shiny ist zweifellos ein großartiges Werkzeug – hat jedoch den Nachteil, dass R laufen muss, um die Shiny App zu bedienen – sei es auf einem Webserver oder auf... mehr auf statistik-dresden.de
Boxplots geben einen schnellen Überblick über Verteilungen. Wie kann man sie informativer gestalten als das Standard-Boxplot? Hier geht es um Ideen mit ggplot2 sowie einigen Erweiterungspaketen. Das folgende Video ist mein erstes, das auf einem Storyboard basiert – umgesetzt mit dem flexdashboard-Paket, das eine Erweiterung des R Markdown-... mehr auf statistik-dresden.de
Zugegeben: Der Titel ist ein wenig provokativ. Wer über etablierte Projekte verfügt, in denen Markdown-Dokumente erstellt werden, muss nicht sofort alles über Bord werfen – der Code wird weiterhin funktionieren. Doch es gibt mehrere sehr gute Gründe, zu Quarto zu wechseln – besser jetzt als später. Doch zunächst etwas Hintergrund: Wa... mehr auf statistik-dresden.de
RStudio, die vielleicht bekannteste Firma im R-Umfeld, hat sich in Posit umbenannt. Posit ist ein real existierendes Wort: es bedeutet, eine Idee zur Diskussion zu stellen. Das ist ein charakteristischer Bestandteil der Arbeit von Data Scientists (Hypothesen aufstellen und testen!) und reflektiert damit die Arbeit der datengetriebenen Open-Sourc... mehr auf statistik-dresden.de
Zugegeben: Der Titel ist ein wenig provokativ. Wer über etablierte Projekte verfügt, in denen Markdown-Dokumente erstellt werden, muss nicht sofort alles über Bord werfen – der Code wird weiterhin funktionieren. Doch es gibt mehrere sehr gute Gründe, zu Quarto zu wechseln – besser jetzt als später. Doch zunächst etwas Hintergrund: Wa... mehr auf statistik-dresden.de
2019 legte Claus O. Wilke mit Fundamentals of Data Visualization ein sehr lesenswertes Buch über Datenvisualisierung vor, das einige Vorzüge gegenüber vergleichbaren Werken bietet: Wer es gerne physisch in Papierform in der Hand hält, kann es selbstverständlich käuflich erwerben. Es steht jedoch auch kostenlos online im Volltext zur Verfügung. D... mehr auf statistik-dresden.de
Storytelling gilt als Schlüsselqualifikation. Mit Quarto und Closeread gibt es nun eine elegante Möglichkeit, Scrollytelling in R umzusetzen: Storytelling mit Scrollen.
Die berühmte Karte von Minard, die als eine der besten Infografiken überhaupt gilt, dient als faszinierendes Beispiel.
The post ... mehr auf statistik-dresden.de
Wer neu mit Datenanalysen in R beginnt oder von anderen Statistik-Programmen kommt, mag es als Hürde empfinden, dass man nun Befehle kennen und eintippen muss. Doch es gibt Abhilfe in Form von grafischen Oberflächen. Eine davon ist der R Commander, mit dem man sich statistische Tests „zusammenklicken“ kann. Man erhält R-Code, mit dem... mehr auf statistik-dresden.de
ggplot2 ist ein mächtiges Werkzeug, um professionelle Diagramme zu erstellen. Für Einsteiger ist die Syntax nicht immer intuitiv. Abhilfe schafft eine grafische Oberfläche, mit der man Variablen mit der Maus auswählen und in Felder schieben kann („drag and drop“): esquisse. So erhält man schnell aussagekräftige Diagramme und kann Dat... mehr auf statistik-dresden.de
Störche bringen Babies – das wohl bekannteste Beispiel der Statistik für eine klassische Scheinkorrelation. Der Zusammenhang ist tatsächlich statistisch nachweisbar – es handelt sich jedoch (nach heutigem Wissen) nicht um einen Kausalzusammenhang. Auch wenn uns das inhaltlich bekannt ist – wie können wir das statistisch belegen... mehr auf statistik-dresden.de
Wenn R-Code zu langsam läuft, sind es oft nur ganz bestimmte Stellen, die optimiert werden müssen. Nicht immer ist sofort klar, welche Codezeilen das sind. Daher ist es sinnvoll zu wissen, wie man solche Flaschenhälse (oder „Bremsklötze“) effizient und elegant finden kann. Ein hilfreiches Werkzeug dafür ist das sogenannte Profiling: ... mehr auf statistik-dresden.de
R bietet mehrere Möglichkeiten, mit Datenbanken zu kommunizieren. Dieser Artikel richtet sich sowohl an R-Anwender, die noch nicht von R aus mit Datenbanken gearbeitet haben, als auch an solche, die dies bereits tun, aber bisher nur eine Möglichkeit genutzt haben. So kann jedeR den Ansatz auswählen, der für den jeweiligen Anwendungsfall am beste... mehr auf statistik-dresden.de
Fehlwerte können große Herausforderungen in der Datenanalyse darstellen. Warum fehlen Datenpunkte? Welche Eigenschaften weisen diese Fälle auf im Vergleich zu Fällen, deren Daten vollständig vorliegen? Gibt es Muster, oder fehlen Daten „zufällig“? Visualisierung kann die Beantwortung solcher Fragen sehr vereinfachen. Das naniar-Paket... mehr auf statistik-dresden.de
RStudio, die vielleicht bekannteste Firma im R-Umfeld, hat sich in Posit umbenannt. Posit ist ein real existierendes Wort: es bedeutet, eine Idee zur Diskussion zu stellen. Das ist ein charakteristischer Bestandteil der Arbeit von Data Scientists (Hypothesen aufstellen und testen!) und reflektiert damit die Arbeit der datengetriebenen Open-Sourc... mehr auf statistik-dresden.de
Der Erfolg von Datenanalysen beruht nicht nur auf den Ergebnissen selbst, sondern zunehmend auch darauf, wie sie präsentiert und anderen zugänglich gemacht werden. R bietet mit Shiny ein großartiges Werkzeug, um interaktive Webapplikationen zu erstellen. Dazu sind weder HTML- noch CSS- oder Javascript-Kenntnisse erforderlich. Shiny: Umdenken von... mehr auf statistik-dresden.de