Tag r-programmierung
Wer mit ggplot2 ansprechende Grafiken erstellen will, findet mit den vier fortgeschrittenen Schichten flexible Möglichkeiten dafür.
The post ggplot2: Die vier fortgeschrittenen Schichten first appeared on Statistik Dresden.... mehr auf statistik-dresden.de
Am 18.5.2021 wurde R Version 4.1.0 veröffentlicht, und sie brachte (fast) eine Revolution: Einen Pipe Operator, nativ in Base R eingebaut! Pipe Operator in R seit 2014: magrittr / dplyr Mit dem magrittr-Paket wurde 2014 der Pipe-Operator %>% in R zur Verfügung gestellt. Er hat sich rasch durchgesetzt und erfreut sich sehr großer Beliebtheit.... mehr auf statistik-dresden.de
Vor kurzem erhielt ich eine Anfrage von Joachim Schork, ob ich mir eine Zusammenarbeit zwischen unseren Youtube-Kanälen Statistics Globe und StatistikinDD vorstellen kann. Darüber freute ich mich sehr – es wurde die erste Collab im Kontext meines Youtube-Kanals. In meinem Beitrag auf Statistics Globe geht es um die Erstellung eigener R-Pak... mehr auf statistik-dresden.de
Zeitreihenanalyse ist ein Spezialthema, das in R von spezialisierten Paketen abgedeckt wurde und wird. So entstand eine Nische, die sich weitgehend unabhängig von neueren R-Paketen zur Datenanalyse entwickelte. tidyquant von Matt Dancho und Davis Vaughan baut eine Brücke zwischen zeitreihen-spezifischen Paketen wie quantmod, xts, zoo, Performan... mehr auf statistik-dresden.de
Fehlwerte können große Herausforderungen in der Datenanalyse darstellen. Warum fehlen Datenpunkte? Welche Eigenschaften weisen diese Fälle auf im Vergleich zu Fällen, deren Daten vollständig vorliegen? Gibt es Muster, oder fehlen Daten „zufällig“? Visualisierung kann die Beantwortung solcher Fragen sehr vereinfachen. Das naniar-Paket... mehr auf statistik-dresden.de
Heute will ich zwei Fliegen mit einer Klappe schlagen: Einen Fortschrittsbalken in R implementieren R-Code parallel ausführen (d. h. auf mehreren Prozessorkernen gleichzeitig) R-Pakete: progressr und future Für die Umsetzung des Fortschrittsbalkens habe ich mich für progressr von Henrik Bengtsson entschieden. Es bietet eine leistungsfähige API (... mehr auf statistik-dresden.de
parallel::detectCores() zur Parallelisierung von R-Code ist populär, kann aber Probleme verursachen. Besser: parallelly::availableCores().
The post Warum Du parallel::detectCores() in R NICHT verwenden solltest first appeared on Statistik Dresden... mehr auf statistik-dresden.de
Mit dem R-Paket ggstatsplot kann man sehr leicht Gruppenvergleiche mit statistischen Kennzahlen grafisch darstellen. Unterstützt werden Tests für abhängige und unabhängige Stichproben, parametrische und nichtparametrische Tests, robuste Tests sowie Bayes-Verfahren.
The post Statistische G... mehr auf statistik-dresden.de
Der Erfolg von Datenanalysen beruht nicht nur auf den Ergebnissen selbst, sondern zunehmend auch darauf, wie sie präsentiert und anderen zugänglich gemacht werden. R bietet mit Shiny ein großartiges Werkzeug, um interaktive Webapplikationen zu erstellen. Dazu sind weder HTML- noch CSS- oder Javascript-Kenntnisse erforderlich. Shiny: Umdenken von... mehr auf statistik-dresden.de
Was spricht gegen Powerpoint, wenn es darum geht, Ergebnisse von Datenanalysen zu präsentieren? Hier geht es mir um drei Aspekte: Automatisierung und Reproduzierbarkeit, Dateiformate, Dateigrößen. Powerpoint ist nicht schlecht! Es geht mir überhaupt nicht darum, Powerpoint schlecht zu machen. Ich halte es für ein großartiges Werkzeug. Es ist ein... mehr auf statistik-dresden.de
ggplot2 ist der de-facto-Standard, um professionelle, ansprechende Grafiken in R zu erstellen. Heute sehen wir uns die drei Basisschichten an, die für jede ggplot2-Grafik erforderlich sind. ggplot2 basiert auf der Grammatik der grafischen Darstellung (Grammar of Graphics), die auf Leland Wilkinson zurückgeht. Er beschrieb das Konzept unabhängig ... mehr auf statistik-dresden.de
Einfache Codebeispiele für Balkendiagramme in Base R und mit ggplot2, inkl. horizontaler Balken, Legende, gestapelte und gruppierte Balken. Beitrag basiert auf Gastvideo von Joachim Schork von Statistics Globe - Dank an Joachim!
The post Balkendiagramme erstellen in Base R und mit ggplot2... mehr auf statistik-dresden.de
Schleifen haben einen schlechten Ruf in R: Sie gelten nicht zu unrecht als langsam. Oft ist es möglich, Schleifen zu vermeiden, etwa durch vektorisierte Funktionen, mit Funktionen aus der apply-Familie (wie lapply) oder mit map-Funktionen aus dem purrr-Paket. Manchmal wäre es jedoch recht aufwändig, R-Code so umzuschreiben, dass Schleifen elimin... mehr auf statistik-dresden.de
Bei einer R-Schulung wurde ich als Wessi entlarvt in einer Situation, in der ich das absolut nicht erwartet hätte. Es ging ums Runden. Hättet Ihr das gewusst? Habt Ihr ähnliche Überraschungen mit interkulturellen Unterschieden in vermeintlich unverdächtigen Situationen erlebt? Kaufmännisches vs. mathematisches Runden Zu der Zeit hatte ich mich n... mehr auf statistik-dresden.de
Eine Farbskala für eine Datenvisualisierung auszuwählen ist keine triviale Aufgabe. Diese Shiny App von Martijn Tennekes kann eine große, bequeme Hilfe sein. Farbskalen auswählen: Die App starten Die App zur Auswahl von Farbskalen ist im R-Paket tmaptools enthalten. Der Anwender kann entscheiden, ob er das Paket laden oder die App direkt starten... mehr auf statistik-dresden.de
parallel::detectCores() zur Parallelisierung von R-Code ist populär, kann aber Probleme verursachen. Besser: parallelly::availableCores().
The post Warum Du parallel::detectCores() in R NICHT verwenden solltest first appeared on ... mehr auf statistik-dresden.de
Nach meinem Eindruck erhalten verdeckte Korrelationen weniger Aufmerksamkeit als ihre bekannteren Kollegen, die Scheinkorrelationen. Dabei stellen beide Phänomene ähnliche Herausforderungen für die Datenanalyse dar. Eine verdeckte Korrelation liegt vor, wenn ein Zusammenhang zwischen zwei Variablen besteht, aber nicht direkt sichtbar wird, weil ... mehr auf statistik-dresden.de
Bis vor kurzem habe ich das plotly-Paket von Carson Sievert fast nur mit der ggploty()-Funktion genutzt. Doch plotly kann so viel mehr! Hier verknüpfen wir zwei interaktive Diagramme, sodass man aus einem Übersichtsdiagramm Gruppen auswählen kann, die dann in einem detaillierteren Diagramm automatisch hervorgehoben werden. Präsentation per Dashb... mehr auf statistik-dresden.de
Diagramme zu erstellen und zu speichern kann viel Zeit in Anspruch nehmen, vor allem bei großen Datenmengen oder wenn sehr viele Diagramme automatisiert zu generieren sind. Wie kann man den Vorgang für Diagramme mit dem beliebten ggplot2-Paket beschleunigen? Das ragg-Paket von Thomas Lin Pedersen Das ragg-Paket von Thomas Lin Pedersen ist eine R... mehr auf statistik-dresden.de
2019 legte Claus O. Wilke mit Fundamentals of Data Visualization ein sehr lesenswertes Buch über Datenvisualisierung vor, das einige Vorzüge gegenüber vergleichbaren Werken bietet: Wer es gerne physisch in Papierform in der Hand hält, kann es selbstverständlich käuflich erwerben. Es steht jedoch auch kostenlos online im Volltext zur Verfügung. D... mehr auf statistik-dresden.de
R bietet mehrere Möglichkeiten, mit Datenbanken zu kommunizieren. Dieser Artikel richtet sich sowohl an R-Anwender, die noch nicht von R aus mit Datenbanken gearbeitet haben, als auch an solche, die dies bereits tun, aber bisher nur eine Möglichkeit genutzt haben. So kann jedeR den Ansatz auswählen, der für den jeweiligen Anwendungsfall am beste... mehr auf statistik-dresden.de
In den Biowissenschaften und der Pharmaindustrie spielen Datenverarbeitung und insbesondere statistische Datenanalysen eine fundamentale Rolle. Seit Jahrzehnten dominierte dabei die kommerzielle Software SAS (Statistical Analysis System). Nun sind starke Initiativen auf mehreren Ebenen hin zum Einsatz von R in der Pharmaindustrie zu beobachten -... mehr auf statistik-dresden.de
Wusstest Du, dass Du keine Shiny App programmieren musst, um Diagramme mit Checkboxen, Drop-Down-Feldern und Schiebereglern zu versehen für bequeme visuelle Daten-Exploration? Shiny ist zweifellos ein großartiges Werkzeug – hat jedoch den Nachteil, dass R laufen muss, um die Shiny App zu bedienen – sei es auf einem Webserver oder auf... mehr auf statistik-dresden.de
Boxplots geben einen schnellen Überblick über Verteilungen. Wie kann man sie informativer gestalten als das Standard-Boxplot? Hier geht es um Ideen mit ggplot2 sowie einigen Erweiterungspaketen. Das folgende Video ist mein erstes, das auf einem Storyboard basiert – umgesetzt mit dem flexdashboard-Paket, das eine Erweiterung des R Markdown-... mehr auf statistik-dresden.de
Zugegeben: Der Titel ist ein wenig provokativ. Wer über etablierte Projekte verfügt, in denen Markdown-Dokumente erstellt werden, muss nicht sofort alles über Bord werfen – der Code wird weiterhin funktionieren. Doch es gibt mehrere sehr gute Gründe, zu Quarto zu wechseln – besser jetzt als später. Doch zunächst etwas Hintergrund: Wa... mehr auf statistik-dresden.de
RStudio, die vielleicht bekannteste Firma im R-Umfeld, hat sich in Posit umbenannt. Posit ist ein real existierendes Wort: es bedeutet, eine Idee zur Diskussion zu stellen. Das ist ein charakteristischer Bestandteil der Arbeit von Data Scientists (Hypothesen aufstellen und testen!) und reflektiert damit die Arbeit der datengetriebenen Open-Sourc... mehr auf statistik-dresden.de
2019 legte Claus O. Wilke mit Fundamentals of Data Visualization ein sehr lesenswertes Buch über Datenvisualisierung vor, das einige Vorzüge gegenüber vergleichbaren Werken bietet: Wer es gerne physisch in Papierform in der Hand hält, kann es selbstverständlich käuflich erwerben. Es steht jedoch auch kostenlos online im Volltext zur Verfügung. D... mehr auf statistik-dresden.de
Zugegeben: Der Titel ist ein wenig provokativ. Wer über etablierte Projekte verfügt, in denen Markdown-Dokumente erstellt werden, muss nicht sofort alles über Bord werfen – der Code wird weiterhin funktionieren. Doch es gibt mehrere sehr gute Gründe, zu Quarto zu wechseln – besser jetzt als später. Doch zunächst etwas Hintergrund: Wa... mehr auf statistik-dresden.de
Wer neu mit Datenanalysen in R beginnt oder von anderen Statistik-Programmen kommt, mag es als Hürde empfinden, dass man nun Befehle kennen und eintippen muss. Doch es gibt Abhilfe in Form von grafischen Oberflächen. Eine davon ist der R Commander, mit dem man sich statistische Tests „zusammenklicken“ kann. Man erhält R-Code, mit dem... mehr auf statistik-dresden.de
ggplot2 ist ein mächtiges Werkzeug, um professionelle Diagramme zu erstellen. Für Einsteiger ist die Syntax nicht immer intuitiv. Abhilfe schafft eine grafische Oberfläche, mit der man Variablen mit der Maus auswählen und in Felder schieben kann („drag and drop“): esquisse. So erhält man schnell aussagekräftige Diagramme und kann Dat... mehr auf statistik-dresden.de
Störche bringen Babies – das wohl bekannteste Beispiel der Statistik für eine klassische Scheinkorrelation. Der Zusammenhang ist tatsächlich statistisch nachweisbar – es handelt sich jedoch (nach heutigem Wissen) nicht um einen Kausalzusammenhang. Auch wenn uns das inhaltlich bekannt ist – wie können wir das statistisch belegen... mehr auf statistik-dresden.de
Wenn R-Code zu langsam läuft, sind es oft nur ganz bestimmte Stellen, die optimiert werden müssen. Nicht immer ist sofort klar, welche Codezeilen das sind. Daher ist es sinnvoll zu wissen, wie man solche Flaschenhälse (oder „Bremsklötze“) effizient und elegant finden kann. Ein hilfreiches Werkzeug dafür ist das sogenannte Profiling: ... mehr auf statistik-dresden.de
R bietet mehrere Möglichkeiten, mit Datenbanken zu kommunizieren. Dieser Artikel richtet sich sowohl an R-Anwender, die noch nicht von R aus mit Datenbanken gearbeitet haben, als auch an solche, die dies bereits tun, aber bisher nur eine Möglichkeit genutzt haben. So kann jedeR den Ansatz auswählen, der für den jeweiligen Anwendungsfall am beste... mehr auf statistik-dresden.de
Fehlwerte können große Herausforderungen in der Datenanalyse darstellen. Warum fehlen Datenpunkte? Welche Eigenschaften weisen diese Fälle auf im Vergleich zu Fällen, deren Daten vollständig vorliegen? Gibt es Muster, oder fehlen Daten „zufällig“? Visualisierung kann die Beantwortung solcher Fragen sehr vereinfachen. Das naniar-Paket... mehr auf statistik-dresden.de
RStudio, die vielleicht bekannteste Firma im R-Umfeld, hat sich in Posit umbenannt. Posit ist ein real existierendes Wort: es bedeutet, eine Idee zur Diskussion zu stellen. Das ist ein charakteristischer Bestandteil der Arbeit von Data Scientists (Hypothesen aufstellen und testen!) und reflektiert damit die Arbeit der datengetriebenen Open-Sourc... mehr auf statistik-dresden.de
Der Erfolg von Datenanalysen beruht nicht nur auf den Ergebnissen selbst, sondern zunehmend auch darauf, wie sie präsentiert und anderen zugänglich gemacht werden. R bietet mit Shiny ein großartiges Werkzeug, um interaktive Webapplikationen zu erstellen. Dazu sind weder HTML- noch CSS- oder Javascript-Kenntnisse erforderlich. Shiny: Umdenken von... mehr auf statistik-dresden.de
Seit etwa 6 Jahren liegt mein beruflicher Fokus auf der Entwicklung und Durchführung von R-Workshops / R-Seminaren / R-Kursen. Zeit, über einige Erfahrungen zu reflektieren. R-Seminare: Wie kam es dazu? Nach dem Soziologie-Studium und einer kurz befristeten Stelle an der Medizinischen Fakultät der Universität Leipzig, wo ich Zusammenhänge von Le... mehr auf statistik-dresden.de
Diagrammerstellung mit großen Datenmengen aus Datenbanken kann herausfordernd sein. Wie geht das möglichst effizient? Ad-hoc-Datenbank im Arbeitsspeicher Wir nutzen Daten über weltweite Chart-Erfolge von Songs und Alben und packen sie in eine Ad-hoc-Datenbank im Arbeitsspeicher. Das genügt, um die Ideen zu demonstrieren, und erspart Aufwand mit ... mehr auf statistik-dresden.de
„Never change a running system!“„Ändere nie ein System, das funktioniert!“ In aller Regel ist es eine gute Idee, Software aktuell zu halten: also etwa bei R, RStudio und Erweiterungspaketen Updates mitzunehmen. Manchmal haben Updates jedoch die unangenehme Nebenwirkung, bisher funktionierenden Code zu „brechen“... mehr auf statistik-dresden.de
Seit etwa 6 Jahren liegt mein beruflicher Fokus auf der Entwicklung und Durchführung von R-Workshops / R-Seminaren / R-Kursen. Zeit, über einige Erfahrungen zu reflektieren. R-Seminare: Wie kam es dazu? Nach dem Soziologie-Studium und einer kurz befristeten Stelle an der Medizinischen Fakultät der Universität Leipzig, wo ich Zusammenhänge von Le... mehr auf statistik-dresden.de