Tag praxisbeispiel
Wer mit ggplot2 ansprechende Grafiken erstellen will, findet mit den vier fortgeschrittenen Schichten flexible Möglichkeiten dafür.
The post ggplot2: Die vier fortgeschrittenen Schichten first appeared on Statistik Dresden.... mehr auf statistik-dresden.de
Am 18.5.2021 wurde R Version 4.1.0 veröffentlicht, und sie brachte (fast) eine Revolution: Einen Pipe Operator, nativ in Base R eingebaut! Pipe Operator in R seit 2014: magrittr / dplyr Mit dem magrittr-Paket wurde 2014 der Pipe-Operator %>% in R zur Verfügung gestellt. Er hat sich rasch durchgesetzt und erfreut sich sehr großer Beliebtheit.... mehr auf statistik-dresden.de
Vor kurzem erhielt ich eine Anfrage von Joachim Schork, ob ich mir eine Zusammenarbeit zwischen unseren Youtube-Kanälen Statistics Globe und StatistikinDD vorstellen kann. Darüber freute ich mich sehr – es wurde die erste Collab im Kontext meines Youtube-Kanals. In meinem Beitrag auf Statistics Globe geht es um die Erstellung eigener R-Pak... mehr auf statistik-dresden.de
Seit 2021 gibt es GitHub Copilot: KI-gestützte Programmier-Hilfe für Entwickler. Hinter dem Dienst stehen GitHub selbst sowie OpenAI und Microsoft. Seit Herbst 2023 wird GitHub Copilot von der dominierenden Entwicklungsumgebung für R, RStudio, unterstützt. GitHub Copilot in RStudio ist einsatzbereit! GitHub Copilot in RStudio: Voraussetzungen Vo... mehr auf statistik-dresden.de
Zeitreihenanalyse ist ein Spezialthema, das in R von spezialisierten Paketen abgedeckt wurde und wird. So entstand eine Nische, die sich weitgehend unabhängig von neueren R-Paketen zur Datenanalyse entwickelte. tidyquant von Matt Dancho und Davis Vaughan baut eine Brücke zwischen zeitreihen-spezifischen Paketen wie quantmod, xts, zoo, Performan... mehr auf statistik-dresden.de
Bist du auf der Suche nach kreativen und ... Vollständigen Beitrag lesen... mehr auf lehrerlinks.net
0% - Dieser Wert steht in der Nachbetrachtung einer Versuchsreihe dafür, dass ein Ereignis nicht eingetreten ist. So weit, so gut. Prognostiziert man jedoch für ein zukünftiges Ereignis eine Auftretenswahrscheinlichkeit von 0%, würde man dieses Ereignis schlicht unmöglich klassifizieren. Das ist jedoch ein Trugschluss. Denn geht nicht, gibt’s ni... mehr auf statistik-dresden.de
Fehlwerte können große Herausforderungen in der Datenanalyse darstellen. Warum fehlen Datenpunkte? Welche Eigenschaften weisen diese Fälle auf im Vergleich zu Fällen, deren Daten vollständig vorliegen? Gibt es Muster, oder fehlen Daten „zufällig“? Visualisierung kann die Beantwortung solcher Fragen sehr vereinfachen. Das naniar-Paket... mehr auf statistik-dresden.de
R Version 4.4.0 enthält einige Neuerungen: elegante NULL-Abfragen mit %||% aus rlang, speichereffiziente rekursive Funktionen, Sicherheitspatch beim RDS-Format, und mehr. Fast zeitgleich erschien RStudio 2024.04.0.
The post R 4.4.0: Was ist neu? first appeared on ... mehr auf statistik-dresden.de
Machine Learning-Algorithmen zu verstehen ist eine Herausforderung. Mit dem folgenden Text möchte ich einen Beitrag dazu leisten, indem ich ein Spezialthema betrachte: Wie gehen verschiedene Machine Learning-Algorithmen mit Interaktionseffekten um? Folgende Machine-Learning-Algorithmen werden betrachtet: Lineare Regression GAM = Generalized Additiv... mehr auf statistik-dresden.de
parallel::detectCores() zur Parallelisierung von R-Code ist populär, kann aber Probleme verursachen. Besser: parallelly::availableCores().
The post Warum Du parallel::detectCores() in R NICHT verwenden solltest first appeared on Statistik Dresden... mehr auf statistik-dresden.de
Heute will ich zwei Fliegen mit einer Klappe schlagen: Einen Fortschrittsbalken in R implementieren R-Code parallel ausführen (d. h. auf mehreren Prozessorkernen gleichzeitig) R-Pakete: progressr und future Für die Umsetzung des Fortschrittsbalkens habe ich mich für progressr von Henrik Bengtsson entschieden. Es bietet eine leistungsfähige API (... mehr auf statistik-dresden.de
Mit dem R-Paket ggstatsplot kann man sehr leicht Gruppenvergleiche mit statistischen Kennzahlen grafisch darstellen. Unterstützt werden Tests für abhängige und unabhängige Stichproben, parametrische und nichtparametrische Tests, robuste Tests sowie Bayes-Verfahren.
The post Statistische G... mehr auf statistik-dresden.de
Der Erfolg von Datenanalysen beruht nicht nur auf den Ergebnissen selbst, sondern zunehmend auch darauf, wie sie präsentiert und anderen zugänglich gemacht werden. R bietet mit Shiny ein großartiges Werkzeug, um interaktive Webapplikationen zu erstellen. Dazu sind weder HTML- noch CSS- oder Javascript-Kenntnisse erforderlich. Shiny: Umdenken von... mehr auf statistik-dresden.de
Pünktlich zur Olympia-Zeit, zum Beginn der olympischen Spiele freue ich mich, wieder einen Gastbeitrag von Tim Scheffczyk präsentieren zu können. Dabei geht es um eine alternative Methode, die Rangliste der Nationen anhand des Medaillenspiegels zu berechnen, wobei Silber- und Bronzemedaillen stärker berücksichtigt werden als bisher üblich. Die o... mehr auf statistik-dresden.de
Hallo liebe Leser im folgenden möchte ich euch eine Methode zeigen wie man diese hässlichen unkreativen Phasen überwindet und wieder voll motiviert und kreativ ans…
Der Beitrag Wie bleibt man kreativ?! Gar nicht so schwer! erschien zuerst a... mehr auf pixel-und-spaetzle.de
Storytelling mit Daten zählt zu den bekanntesten Werken in seinem Bereich. Nachdem ich mehrmals auf Empfehlungen gestoßen war, unter anderem in Claus Wilkes Fundamentals of Data Visualization, las ich vor einiger Zeit Cole Nussbaumer Knaflics Werk endlich selbst (auf Englisch). Es hat sich definitiv gelohnt! Zur Person: Cole Nussbaumer Knaflic B... mehr auf statistik-dresden.de
Was spricht gegen Powerpoint, wenn es darum geht, Ergebnisse von Datenanalysen zu präsentieren? Hier geht es mir um drei Aspekte: Automatisierung und Reproduzierbarkeit, Dateiformate, Dateigrößen. Powerpoint ist nicht schlecht! Es geht mir überhaupt nicht darum, Powerpoint schlecht zu machen. Ich halte es für ein großartiges Werkzeug. Es ist ein... mehr auf statistik-dresden.de
ggplot2 ist der de-facto-Standard, um professionelle, ansprechende Grafiken in R zu erstellen. Heute sehen wir uns die drei Basisschichten an, die für jede ggplot2-Grafik erforderlich sind. ggplot2 basiert auf der Grammatik der grafischen Darstellung (Grammar of Graphics), die auf Leland Wilkinson zurückgeht. Er beschrieb das Konzept unabhängig ... mehr auf statistik-dresden.de
Einfache Codebeispiele für Balkendiagramme in Base R und mit ggplot2, inkl. horizontaler Balken, Legende, gestapelte und gruppierte Balken. Beitrag basiert auf Gastvideo von Joachim Schork von Statistics Globe - Dank an Joachim!
The post Balkendiagramme erstellen in Base R und mit ggplot2... mehr auf statistik-dresden.de
Gastbeitrag von Tim Scheffczyk Zusammenfassung Digitale Marktplätze dienen ebenso wie klassische Handelsplätze dazu, Angebot und Nachfrage zu koordinieren. Charakteristisch für beide Marktformen ist das Vorliegen asymmetrischer Informationsverteilung zwischen den Verkäufern und potentiellen Käufern von Produkten. Der Verkäufer besitzt gegenüber ... mehr auf statistik-dresden.de
Wie kann man große Datenmengen in R so darstellen, dass sie gut lesbar sind und viele Informationen preisgeben? „Große Datenmengen“ verstehen wir hier im Sinne von „viele Untergruppen“, nicht unbedingt im Sinne von vielen Gigabyte. Wer versiert ist, denkt vielleicht an eine Shiny App, die große Flexibilität und viele Nutz... mehr auf statistik-dresden.de
Wie kann man Textantworten automatisch in R codieren, wenn es viele ähnliche, aber nicht exakt gleiche Einträge gibt?
Mit dem R-Paket tidystringdist!
The post Textantworten (offene Nennungen) automatisch zuordnen in R nach Ähnlichkeit first appeared on ... mehr auf statistik-dresden.de
Regressionsmodelle sind nach wie vor sehr populär in der Statistik, dem Data Mining, Data Science und Machine Learning – das belegen aktuelle Zahlen, die KDNuggets kürzlich via Twitter präsentierte: Heute geht es um Möglichkeiten, solche Modelle mit der frei erhältlichen Software R / RStudio zu visualisieren. Wir nutzen den weit verbreiteten ... mehr auf statistik-dresden.de
Datensätze mit mehr Variablen als Fällen sind eine besondere Herausforderung für die Datenanalyse: p > n, p für predictors, Prädiktoren; n für die Stichprobengröße. Klassische Verfahren wie die lineare Regression sind unter diesen Bedingungen rechnerisch nicht lösbar. Die Daten: p > n Hier ein Beispiel: biomarker.Rda enthält 90 Fälle (Beoba... mehr auf statistik-dresden.de
Schleifen haben einen schlechten Ruf in R: Sie gelten nicht zu unrecht als langsam. Oft ist es möglich, Schleifen zu vermeiden, etwa durch vektorisierte Funktionen, mit Funktionen aus der apply-Familie (wie lapply) oder mit map-Funktionen aus dem purrr-Paket. Manchmal wäre es jedoch recht aufwändig, R-Code so umzuschreiben, dass Schleifen elimin... mehr auf statistik-dresden.de
Bei einer R-Schulung wurde ich als Wessi entlarvt in einer Situation, in der ich das absolut nicht erwartet hätte. Es ging ums Runden. Hättet Ihr das gewusst? Habt Ihr ähnliche Überraschungen mit interkulturellen Unterschieden in vermeintlich unverdächtigen Situationen erlebt? Kaufmännisches vs. mathematisches Runden Zu der Zeit hatte ich mich n... mehr auf statistik-dresden.de
Differenzierungsstufe 1: Schneemänner aus Großbuchstaben und Lautgebärden zusammensetzen ... Vollständigen Beitrag lesen... mehr auf lehrerlinks.net
parallel::detectCores() zur Parallelisierung von R-Code ist populär, kann aber Probleme verursachen. Besser: parallelly::availableCores().
The post Warum Du parallel::detectCores() in R NICHT verwenden solltest first appeared on ... mehr auf statistik-dresden.de
Heute gibt’s mal wieder einen Gastbeitrag von Tim Scheffczyk. Schön doppeldeutig erscheint auf dieser Dresdner Seite das Stichwort Blaues Wunder – hier allerdings bezogen auf die Vereinsfarben des Fußballvereins VfL Bochum, nicht auf die gleichnamige Elbbrücke in Dresden. Der VfL Bochum setzt sich in der Relegation für die Bundesliga... mehr auf statistik-dresden.de
Der Beitrag Kurzfilm mit der Blackmagic Pocket 4K drehen erschien zuerst auf DIE LICHTFÄNGER.
... mehr auf dielichtfaenger.com
Nachdem wir in früheren Beiträgen gesehen haben, warum und wann es überhaupt sinnvoll ist, eigene R-Pakete zu erstellen und wie man ein erstes Paket in zwei Minuten erstellen kann, wollen wir uns heute mit einem wesentlichen Aspekt von R-Paketen näher beschäftigen: Der Dokumentation. Erst mit einer guten Dokumentation wird unser Paket für andere... mehr auf statistik-dresden.de
Zwei der populärsten Pakete zur Datenaufbereitung in R sind data.table (Matt Dowle, Arun Srinivasan, viele Mitarbeiter) und dplyr (Hadley Wickham, viele Mitarbeiter). Während data.table zu Recht den Ruf hat, sehr schnell zu sein, hat dplyr vielen den Einstieg in R enorm erleichtert. Geschwindigkeitsvergleiche: data.table vs. dplyr – beacht... mehr auf statistik-dresden.de
2016 machte Hadley Wickham eine Idee populär, von der er zunächst selbst nicht sicher war, ob sie gut ist: genistete Datensätze (nested data frames). Das Prinzip ist einfach: Eine Spalte eines Datensatzes kann selbst ein Datensatz sein. Was zunächst umständlich oder verwirrend klingt, kann zum mächtigen Werkzeug werden – vor allem, wenn man v... mehr auf statistik-dresden.de
Wie kann man die Beträge, die die Bundesländer im Rahmen des Länderfinanzausgleichs zahlten oder erhielten, in einer Grafik darstellen, sodass Veränderungen im Zeitverlauf deutlich werden? Hier eine animierte Grafik, die den Zeitraum von 1988, also kurz vor der Wende, bis 2018 abbildet: Länderfinanzausgleich: Entwicklungen 1988 bis 2018 In diesen 3... mehr auf statistik-dresden.de
Beim Verarbeiten großen Datenmengen mit R kann man an Grenzen des Arbeitsspeichers stoßen. In R kann das früher geschehen, als man meinen möchte. Wer beispielsweise über 16 GB RAM verfügt und einen 10 GB-Datensatz analysieren möchte, wird feststellen, dass R bei bestimmten Operationen langsam und ineffizient wird. Laut R-Handbuch kann das bereit... mehr auf statistik-dresden.de
Nach meinem Eindruck erhalten verdeckte Korrelationen weniger Aufmerksamkeit als ihre bekannteren Kollegen, die Scheinkorrelationen. Dabei stellen beide Phänomene ähnliche Herausforderungen für die Datenanalyse dar. Eine verdeckte Korrelation liegt vor, wenn ein Zusammenhang zwischen zwei Variablen besteht, aber nicht direkt sichtbar wird, weil ... mehr auf statistik-dresden.de
Bis vor kurzem habe ich das plotly-Paket von Carson Sievert fast nur mit der ggploty()-Funktion genutzt. Doch plotly kann so viel mehr! Hier verknüpfen wir zwei interaktive Diagramme, sodass man aus einem Übersichtsdiagramm Gruppen auswählen kann, die dann in einem detaillierteren Diagramm automatisch hervorgehoben werden. Präsentation per Dashb... mehr auf statistik-dresden.de
Diagramme zu erstellen und zu speichern kann viel Zeit in Anspruch nehmen, vor allem bei großen Datenmengen oder wenn sehr viele Diagramme automatisiert zu generieren sind. Wie kann man den Vorgang für Diagramme mit dem beliebten ggplot2-Paket beschleunigen? Das ragg-Paket von Thomas Lin Pedersen Das ragg-Paket von Thomas Lin Pedersen ist eine R... mehr auf statistik-dresden.de
Berlin, die pulsierende Hauptstadt Deutschlands, steht an der Schwelle einer grünen Revolution, angeführt von der zunehmenden Verbreitung der Elektromobilität. Diese Entwicklung ist nicht nur ein Zeichen für technologischen Fortschritt, sondern auch für ein wachsendes Umweltbewusstsein in der urbanen Gesellschaft. Die Elektromobilität in Berlin ... mehr auf blog.inberlin.de