Eléments de statistiques pour les data sciences

EE-209

Media

This file is part of the content downloaded from Eléments de statistiques pour les data sciences.

Pour les informations d'horaires et de salles de cours et d'exercices voir la Page EPFL du cours

Enseignants

Site interactifs
Deux sites très bien faits et sympa à explorer:

Livres disponibles à la bibliothèque de l'EPFL
  • Foundations of Statistics for Data Scientists: With R and Python. Agresti, A., & Kateri, M. (2021). Si vous souhaitez aller au delà des contenus des cours en ligne proposés ci-dessus, ce livre qui offre une présentation assez pédagogique, couvre le matériau du cours à un niveau assez approfondi, et va au-delà. Un bon ouvrage de référence pour mieux comprendre et ou aller plus loin si vous êtes motivés. 5 copies papiers sont disponibles à la bibliothèque et 3 copies sont accessibles en ligne simultanément.

Assistants du cours






17 Février

I. Introduction et historique

  • objectifs du cours
  • la notion de probabilité et la logique inductive
  • inférence statistique versus les probabilités
  • deux grandes écoles de la statistiques, 1. fréquentistes, 2. bayésiens
  • contenu du cours
  • survol historique
  • questions clés


exercices de la Série 1

  • manipulation de la calculatrice en mode statistique et fonctions clés
  • lectures des tables
  • interpolation dans les tables


Calculatrice pour le semestre autorisée

Toute calculatrice scientifique:

  • non graphique
  • non programmable
  • avec mode statistique à 2 variables X et Y
  • sans  distribution du chi2
  • sans distribution de Student

Modèles conseillés (mais toute autre calculatrice ayant les propriétés listées ci-dessus convient): 

TI-30X Pro, Casio fx-85ES PLUS, Casio fx-991EX, SHARP EL-531TH


25 Février

II. Probabilités discrètes

  • terminologie, axiomes et propriétés
  • comptage, dénombrement, combinatoire
  • expérience de Bernouilli
  • distribution géométrique
  • distribution binomiale (tirages de deux catégories avec remise)
  • distribution multinomiale (tirages de plusieurs catégories avec remise)
  • disribution hypergéométrique (tirages de deux catégories sans remise)
  • distribution de Poisson
  • espérance mathématique (moyenne, variance)
  • trucs et astuces

4 Mars

III. Probabilités continues

  • distribution continue
  • densité de probabilité (p.d.f.)
  • fonction de répartition (c.d.f.)
  • distribution normale (de Laplace-Gauss, gaussienne)
  • moyenne et variance
  • distribution Gamma
  • deux variables aléatoires
  • fonction de répartition jointe (j.c.d.f.)
  • densité de probabilité jointe (j.p.d.f.)
  • densité de probabilité marginale (m.p.d.f.)
  • fonction de répartition marginale (m.c.d.f.)
  • somme de variables aléatoires
  • produit de convolution
  • fonction génératrice



18 mars

IV. Distribution du chi 2 de Pearson

  • adéquation statistique
  • statistique associée
  • concept de degré de liberté
  • la distribution associée de Pearson
  • le concept de signification et les seuils associés
  • lecture de la table


25 Mars

V. Statistique T et la loi de Student

  • test du départ de la moyenne de zéro à variance inconnue
  • une seule série de mesures (échantillons à une dimension)
  • table à deux entrées (échantillons à deux dimensions)
  • somme de variances
  • degrés de liberté
  • calculatrice et calcul de T
  • lecture de la table à une queue et à deux queues
  • intervalles de confiance, test de signification et seuil
  • taille d'un échantillon


1 Avril

VI. Vraisemblance

  • vraisemblance vs. probabilité
  • logarithme de la vraisemblance
  • vraisemblance relative
  • maximum de vraisemblance
  • score
  • information


8 Avril

VII. Estimation

  • statistique suffisante
  • famille exponentielle
  • théorème de Blackwell-Rao
  • inégalité de Cramer-Rao
  • information de Fisher



15 Avril

VIII. Régression linéaire

  • modèles gaussiens
  • modèle linéaire simple
  • modèle à un échantillon
  • modèle  à deux échantillons
  • la droite: régression linéaire
  • degré de liberté
  • statistiques associées au modèle linéaire gaussien
  • théorème central limite


15 Avril


22 Avril

Vacances de Pâques


29 Avril

IX. Tests d'hypothèses et théorie de Neyman-Pearson

  • rappel: les tests de signification
  • rappel: la vraisemblance
  • tests statistiques d'une hypothèse versus une alternative
  • l'hypothèse alternative H1 et l'hypothèse de base H0
  • erreur de type I et erreur de type II
  • théorie de Neyman-Pearon
  • test statistique du rapport de vraisemblance

6 Mai

X. tests (2ème partie), intervalles de confiance

  • test composite et rapport de vraisemblance
  • estimateur d'intervalle
  • inversion d'une statistique de test
  • ensemble d'acceptation et ensemble de confiance
  • inversion d'un test de rapport de vraisemblance
  • quantité pivot

14 Mai

XI. inférence bayésienne

  • probabilité conditionnelle
  • degré de croyance
  • principe de l'inférence bayésienne
  • décisions bayésiennes
  • exemples divers (a priori, a posteriori)
  • distributions gaussiennes multidimensionnelle

20 Mai

XII. tests non paramétriques. test de Wilcoxon

  • rappel sur les tests paramétriques de centrage et d'étalement
  • statistique d'ordre de rang (statistique d'ordre, statistique de rang)
  • propriétés des statistiques d'ordre
  • test de Wilcoxon


27 Mai

XIII. Révision

passage en revue des exercices importants pour le semestre.



Formulaire