Introduction a l'analyse de données et au tidyverse
Dans cette cinquième partie de ce livre, nous allons voir les principes de bases de l'analyse de données. Il ne s'agit pas de faire de vous un data scientiste accomplit, mais de vous permettre de vous débrouiller seul avec vos données pour faire des choses simples et pouvoir commencer à travailler.
L'analyse de données comporte plusieurs étapes importantes, dont nous allons voir les bases dans cette partie du cours.
- La première étape est l'importation des données. Nous allons y voir comment R peut lire différents formats de données et les transformer en data frame.
- La seconde étape consiste à "tidyfier" les données. "Tidyfier" est un néologisme qui vient de l'anglais "tidy", qui veut dire "rangé, ordonné". Cela consiste à transformer notre base de données pour faire apparaitre les données dans un format qui rend les analyses et les représentations graphiques plus simples.
- La troisiéme étape consiste à transformer nos données brutes : ajouter de nouvelles variables calculée à partir de celles existantes, modifier des variables, changer les noms des colonnes, etc.
- La quatrième étape consiste à visualiser les données. Cette étape mériterai un livre à elle seule ! Aussi nous n'allons que survoler très rapidement les différents graphiques de bases ici.
- Enfin la dernière étape et l'analyse proprement dites des données. Nous ne présenterons dans ce chapitre que quelques méthodes de bases, comme les regression linéaires, logistiques, et les tests statistiques.
On peut représenter ce workflow en un graphique :
Dans ce livre, nous ne traiterons pas de la partie modélisation et communication.
Le tidyverse
Pour nous aider dans toutes ces taches, nous allons faire appel au tidyverse. Le tidyverse est un ensemble de packages qui sont conçu spécialement pour l'analyse de données et pour travailler ensemble. La plupart des personnes qui travaillent avec R utilisent les packages du tidyverse, c'est pourquoi il est important de vous familiariser rapidement avec.
Le tidyverse est très vaste, et comprend de nombreux packages, chacun ayant un objectif préçis. Nous n'allons présenter ici que les principaux packages du tidyverse, et leurs fonctions principales. A savoir :
- Le package readr pour lire les données.
- Le package tidyr pour ordonner les données.
- Le package dplyr pour modifier les données.
- Le package ggplot2 pour faire des représentations graphiques.
- Faire des analystes statistiques basiques à l'aide des fonctions déjà implémentées dans R.
Les autres packages du tidyverse
Le tidyverse est vaste, et comprends de nombreux autres packages. Nous vous encourageons à explorer le site internet du tidyverve pour voir les différents packages principaux qui existent, et voir comment ils pourraient vous être utile. Parmis les plus utilisés, on peut citer :
- Forcats qui vise à travailler de façon plus efficace et pratique avec les facteurs.
- Stringr qui lui facilite le travaille avec les chaines de caractères.
- Lubridate qui nous facilite la vie pour manipuler les dates.
- Rvest qui est dédié au web scraping.
- Et plein d'autres packages !
Le site du tidyverse est très bien fait, il vous fournira une bonne introduction aux fonctions principales de chaque packages, leur utilité, et une documentation de qualité. Si au début il va falloir un peu de temps pour apprivoiser les différents outils du tidyverse, vous serez rapidement à l'aise et vous pourrez travailler de façon productive.
Installation
Installons les packages principaux du tidyverse :
install.packages("tidyverse")
Cette commande installera uniquement les packages suivants : readr , tidyr, dplyr, ggplot2, Forcats, Stringr ainsi que purr et tibble. Purr est un package utilisé pour la programmation fonctionnelle, que nous n'utiliseront pas pour le moment. Tibble est un package qui remplace les dataframe par des "tibble", qui sont des sortes de dataframe "plus pratique" pour l'analyse de données. Nous revienderons sur les tibbles dans les prochains chapitres.
Une fois les packages installés, on les charge pour pouvoir les utiliser directement :
library("tidyverse")
Maintenant que nous avons installé nos outils, commencons à travailler !