R
Définition
R est un langage de programmation et un environnement gratuits et open-source pour le calcul statistique et la graphie. Créé par Ross Ihaka et Robert Gentleman à l’Université d’Auckland en 1993, c’est le langage dominant en statistique, bioinformatique et data science.
Caractéristiques principales
- Paradigme : Multi-paradigme (fonctionnel, orienté objet, impératif)
- Licence : GPL-2/GPL-3 (logiciel libre)
- Exécution : Interpréteur R (écrit principalement en C et R)
- Écosystème de packages : CRAN (Comprehensive R Archive Network) — plus de 20 000 packages
- Graphiques : Moteur de graphiques intégré ; ggplot2 pour la visualisation avancée
Fonctionnalités du langage
- Opérations vectorisées : Opérations sur des tableaux entiers sans boucles explicites
- Systèmes d’objets S3 et S4 : Multiples paradigmes OOP
- Programmation fonctionnelle : Fonctions de première classe, lapply, sapply, map
- Recherche reproductible : Intégration avec R Markdown, Sweave
- Modèles statistiques : Fonctions intégrées pour la régression, la classification, les séries temporelles
Packages clés
| Package | Objectif |
|---|---|
| ggplot2 | Visualisation de données (grammaire des graphiques) |
| dplyr | Manipulation de données (tidyverse) |
| tidyr | Nettoyage et réorganisation de données |
| caret | Machine learning |
| shiny | Applications web interactives |
| bioconductor | Bioinformatique |
| data.table | Data frames haute performance |
Comparaison avec les alternatives
- **vs Python bibliothèques
- vs sql : R gère les analyses statistiques complexes ; SQL excelle dans la récupération de données structurées
- vs matlab : R est gratuit et open-source ; MATLAB dispose de boîtes à outils propriétaires et d’outils de simulation
Cas d’utilisation
- Analyse statistique et tests d’hypothèses
- Visualisation de données et rapports
- Bioinformatique et génomique
- Recherche académique et publications
- Modélisation financière et analyse des risques