La statistique est le domaine des mathématiques appliquées qui s’occupe des données quantitatives ; elle s’intéresse à des individus au sens statistique, c’est-à-dire des unités d’observation ou de mesure de base. L’ensemble des individus étudiés s’appelle une population.
Une variable statistique est une caractéristique commune à tous les individus de la population, qui peut prendre une valeur différente suivant les individus. On distingue généralement les variables qualitatives, dont les valeurs sont des modalités discrètes (« bleu », « très satisfait », « oui »…), des variables quantitatives, dont les valeurs sont des quantités, discrètes ou continues.
La statistique descriptive vise à présenter les valeurs prises par des variables au sein d’une population donnée sous une forme synthétique, grâce à des graphiques ou des indicateurs adaptés. Parmi les indicateurs statistiques les plus courants il existe :
• Pour les variables qualitatives : les effectifs, les fréquences (en pourcentage) de chaque modalité au sein de la population ;
• Pour les variables quantitatives : la moyenne et la médiane sont des indicateurs de position de la série statistique. L’étendue, la variance ou l’écart-type sont des indicateurs de dispersion d’une série statistique.
Un peu de vocabulaire…
La moyenne d’une série statistique est égale à la somme des données divisée par leur nombre. En notant x la variable et x1 à xn ses n valeurs possibles, la moyenne m est telle que
La médiane d’une série statistique est la valeur qui partage cette série, ordonnée de la plus petite à la plus grande valeur, en deux parties d’effectifs égaux.
La variance d’une série statistique est la moyenne du carré des écarts à la moyenne. Autrement dit :
L’écart-type d’une série statistique est la racine carrée de la variance. Elle s’exprime dans la même unité que la variable.
Le domaine de la statistique inférentielle
La statistique inférentielle utilise la notion d’échantillon aléatoire : elle vise à inférer la connaissance d’une variable sur la population toute entière à partir de la connaissance des valeurs prises par cette variable sur un échantillon. C’est le domaine des sondages, des estimations, mais aussi des tests d’hypothèse.
La modélisation statistique utilise des données connues pour essayer de construire un modèle mathématique, c’est-à-dire une fonction qui exprime les valeurs prises par une variable (dite variable cible, ou variable à expliquer) à l’aide des valeurs prises par d’autres variables (les variables sources, ou explicatives) sur les mêmes individus. Une fois le modèle statistique explicité, on peut s’en servir pour faire des prévisions à partir de nouvelles valeurs prises par les variables explicatives.
Un test d’hypothèse intervient quand on souhaite vérifier si les résultats obtenus sur un échantillon aléatoire sont compatibles avec une hypothèse posée sur la distribution statistique d’une variable dans une population (dite hypothèse nulle ou H0). On calcule la probabilité d’obtenir le résultat observé (par exemple la moyenne observée, dans le cadre d’un test de conformité de moyenne) si l’hypothèse H0 est vraie. Si cette probabilité est considérée comme « trop faible », on rejette l’hypothèse initiale H0.