Eléments de statistiques pour les data sciences
EE-209
Media
Pour les informations d'horaires et de salles de cours et d'exercices voir la Page EPFL du cours
Enseignants
- Seeing Theory: a Visual Introduction to Probability and Statistics
- The Art and Science of learning from Data: Web Apps
- Foundations of Statistics for Data Scientists: With R and Python. Agresti, A., & Kateri, M. (2021). Si vous souhaitez aller au delà des contenus des cours en ligne proposés ci-dessus, ce livre qui offre une présentation assez pédagogique, couvre le matériau du cours à un niveau assez approfondi, et va au-delà. Un bon ouvrage de référence pour mieux comprendre et ou aller plus loin si vous êtes motivés. 5 copies papiers sont disponibles à la bibliothèque et 3 copies sont accessibles en ligne simultanément.
17 Février
I. Introduction et historique
- objectifs du cours
- la notion de probabilité et la logique inductive
- inférence statistique versus les probabilités
- deux grandes écoles de la statistiques, 1. fréquentistes, 2. bayésiens
- contenu du cours
- survol historique
- questions clés
exercices de la Série 1
- manipulation de la calculatrice en mode statistique et fonctions clés
- lectures des tables
- interpolation dans les tables
Calculatrice pour le semestre autorisée
Toute calculatrice scientifique:
- non graphique
- non programmable
- avec mode statistique à 2 variables X et Y
- sans distribution du chi2
- sans distribution de Student
Modèles conseillés (mais toute autre calculatrice ayant les propriétés listées ci-dessus convient):
TI-30X Pro, Casio fx-85ES PLUS, Casio fx-991EX, SHARP EL-531TH
- Diapositives - slides 1 - Introduction, organisation et survol historique - 2025 (File)
- Série 1 - 2025 (File)
- Série 1 - corrigé - 2025 (File)
- Tables statistiques 2025 (File)
25 Février
II. Probabilités discrètes
- terminologie, axiomes et propriétés
- comptage, dénombrement, combinatoire
- expérience de Bernouilli
- distribution géométrique
- distribution binomiale (tirages de deux catégories avec remise)
- distribution multinomiale (tirages de plusieurs catégories avec remise)
- disribution hypergéométrique (tirages de deux catégories sans remise)
- distribution de Poisson
- espérance mathématique (moyenne, variance)
- trucs et astuces
- Diapositives - slides 2 - probabilités discrètes - 2025 (File)
- Enregistrement de la leçon 2 - probabilités discrètes - 2025 (URL)
- Diapositives - slides 2 - Probabilités discrètes - avec annotations - 2025 (File)
- Série 2 - énoncé - 2025 (File)
- Série 2 - corrigé - 2025 (File)
4 Mars
III. Probabilités continues
- distribution continue
- densité de probabilité (p.d.f.)
- fonction de répartition (c.d.f.)
- distribution normale (de Laplace-Gauss, gaussienne)
- moyenne et variance
- distribution Gamma
- deux variables aléatoires
- fonction de répartition jointe (j.c.d.f.)
- densité de probabilité jointe (j.p.d.f.)
- densité de probabilité marginale (m.p.d.f.)
- fonction de répartition marginale (m.c.d.f.)
- somme de variables aléatoires
- produit de convolution
- fonction génératrice
- Diapositives - Slides 3 - probabilités continues - 2025 (File)
- Enregistrement de la leçon 3 - probabilités continues (URL)
- Diapositives - Slides - 3 - probabilités continues - version annotée - 2025 (File)
- Série 3 - probabilités continues - 2025 (File)
- Série 3 - probabilités continues - 2025 - corrigé (File)
- Série 4 - probabilités continues - 2025 (File)
- Série 4 - probabilités continues - 2025 - corrigé (File)
18 mars
IV. Distribution du chi 2 de Pearson
- adéquation statistique
- statistique associée
- concept de degré de liberté
- la distribution associée de Pearson
- le concept de signification et les seuils associés
- lecture de la table
- Diapositives - slides 4 - chi 2 de Pearson - 2025 (File)
- Enregistrement de la leçon 4 - adéquation statistique, seuil de signification, chi 2 - 2025 (URL)
- Série 5 - adéquation statistique, Pearson - 2025 (File)
- Série 5 - adéquation statistique, Pearson - 2025 - corrigé (File)
25 Mars
V. Statistique T et la loi de Student
- test du départ de la moyenne de zéro à variance inconnue
- une seule série de mesures (échantillons à une dimension)
- table à deux entrées (échantillons à deux dimensions)
- somme de variances
- degrés de liberté
- calculatrice et calcul de T
- lecture de la table à une queue et à deux queues
- intervalles de confiance, test de signification et seuil
- taille d'un échantillon
- Diapositives - Slides 5 - la distribution de Student - 2025 (File)
- Enregistrement de la leçon 5 - la distribution de Student - 2025 (URL)
- Série 6 - la distribution de Student - 2025 (File)
- Série 6 - la distribution de Student - corrigé - 2025 (File)
1 Avril
VI. Vraisemblance
- vraisemblance vs. probabilité
- logarithme de la vraisemblance
- vraisemblance relative
- maximum de vraisemblance
- score
- information
- Diapositives - slides 6 - vraisemblance - 2025 (File)
- Enregistrement de la leçon 6 - vraisemblance - 2025 (URL)
- Diapositives - slides 6 - 2025 - vraisemblance - annoté (File)
- Série 7 - vraisemblance - 2025 (File)
- Série 7 - vraisemblance - 2005 - corrigé (File)
8 Avril
VII. Estimation
- statistique suffisante
- famille exponentielle
- théorème de Blackwell-Rao
- inégalité de Cramer-Rao
- information de Fisher
- Diapositives - slides 7 - statistique suffisante - 2025 (File)
- Enregistrement leçon 7 - statistique suffisante - Cramér-Rao - 2025 (URL)
- Diapositives annotées - slides 7 - statistique suffisante - 2025 (File)
- Série 8 - statistique suffisante - Cramér-Rao - 2025 (File)
- Série 8 - statistique suffisance - Cramér - Rao - corrigé - 2025 (File)
15 Avril
VIII. Régression linéaire
- modèles gaussiens
- modèle linéaire simple
- modèle à un échantillon
- modèle à deux échantillons
- la droite: régression linéaire
- degré de liberté
- statistiques associées au modèle linéaire gaussien
- théorème central limite
- Diapositives - slides 8 - modèle gaussien - régression linéaire - 2025 (File)
- Enregistrement de la leçon 8 - modèle linéaire gaussien - régression linéaire - 2025 (URL)
- Série 9 - modèle linéaire gaussien - 2025 (File)
- Série 9 - modèle linéaire gaussien - corrigé - 2025 (File)
15 Avril
22 Avril
Vacances de Pâques
29 Avril
IX. Tests d'hypothèses et théorie de Neyman-Pearson
- rappel: les tests de signification
- rappel: la vraisemblance
- tests statistiques d'une hypothèse versus une alternative
- l'hypothèse alternative H1 et l'hypothèse de base H0
- erreur de type I et erreur de type II
- théorie de Neyman-Pearon
- test statistique du rapport de vraisemblance
- Diapositives - Slides 9 - tests - théorie de Neyman-Pearson - 2025 (File)
- Enregistrement de la leçon 9 - tests - théorie de Neyman-Pearson - 2025 (URL)
- Diapositives - slides 9 - tests - Neyman-Pearson - 2025 - annotées (File)
- Série 10 - tests - lemme de Neyman-Pearson - 2025 (File)
- Série 10 - tests, lemme de Neyman-Pearson - corrigé - 2025 (File)
6 Mai
X. tests (2ème partie), intervalles de confiance
- test composite et rapport de vraisemblance
- estimateur d'intervalle
- inversion d'une statistique de test
- ensemble d'acceptation et ensemble de confiance
- inversion d'un test de rapport de vraisemblance
- quantité pivot
- Diapositives - Slides 10 - tests 2 - intervalles de confiance - 2025 (File)
- Enregistrement - leçon 10 - tests 2, intervalle de confiance - 2025 (URL)
- Diapositives - slides 10 - tests 2, intervalle de confiance (annoté) - 2025 (File)
- Série 11 - intervalles de confiance - 2025 (File)
- Série 11 - intervalles de confiance - corrigé - 2025 (File)
14 Mai
XI. inférence bayésienne
- probabilité conditionnelle
- degré de croyance
- principe de l'inférence bayésienne
- décisions bayésiennes
- exemples divers (a priori, a posteriori)
- distributions gaussiennes multidimensionnelle
- Diapositives - slides 11 - inférence bayésienne - 2025 (File)
- Enregistrement - leçon 11 - inférence bayésienne - 2025 (URL)
- Diapositives annotées - slides 11 - inférence bayésienne - 2025 (File)
- Série 12 - inférence bayésienne - 2025 (File)
- Série 12 - inférence bayésienne - corrigé - 2025 (File)
20 Mai
XII. tests non paramétriques. test de Wilcoxon
- rappel sur les tests paramétriques de centrage et d'étalement
- statistique d'ordre de rang (statistique d'ordre, statistique de rang)
- propriétés des statistiques d'ordre
- test de Wilcoxon
- Diapositives - slides 12 - inférence non-paramétrique, test de Wilcoxon - 2025 (File)
- Enregistrement de la leçon 12 - inférence non paramétrique - test de Wilcoxon - 2025 (URL)
- Série 13 - tests non paramétriques - test de Wilcoxon - 2025 (File)
- Série 13 - test non paramétrique - test de Wilcoxon - corrigé - 2025 (File)
27 Mai
XIII. Révision
passage en revue des exercices importants pour le semestre.
Formulaire
- Dernière version du formulaire (en français) (File)
- Ancienne version du formulaire (anglais) (File)
- Tables statistiques (File)
- Fonctions génératrices, fonctions génératrices des moments (File)
- Répartition pour l'examen du 20 juin 2025 (Folder)