La régression

  • Konbuyu başlatan badem
  • Başlangıç tarihi
B

badem

Guest
La régression

Plan du cours
1. Objectifs de la régression
2. Estimation de la pente et de l'ordonnée à l’origine (intercept) de la droite de régression
3. Estimation de l'erreur-type des résiduelles
4. La relation entre la régression dans un échantillonnage et la régression dans la population
5. La distribution d'échantillonnage de notre estimation de la pente
6. Les tests de signification de la pente
7. L'intervalle de confiance de la pente
8. La distribution d'échantillonnage de notre estimation de la pente
9. Les tests de signification de l'ordonnée à l’origine
10. L'intervalle de confiance de l'ordonnée à l’origine
11. La distribution d'échantillonnage de nos prévisions de Y
12. L'intervalle de confiance de nos prévisions de Y
13. L'analyse de la variance (régression de type I)
Exemple
Devoir

La régression linéaire simple
Objectif 1: Prévision
On vous présente un graphique montrant une droite qui décrit la relation entre la température ambiante et les dépenses énergétiques de mouflons choisis de façon aléatoire entre janvier et juillet.
Comment savoir si ces résultats sont dus aux effets d'échantillonnage ou s'ils démontrent une tendance réelle?
Comment prédire la dépense énergétique typique d'un mouflon à 5°C?
Voici donc le premier objectif d'une analyse de régression: trouver une formule mathématique qui nous permette de prévoir les valeurs typiques (moyennes) d'une variable à partir des connaissances d'une autre variable.

Objectif 2: tester une hypothèse d'indépendance dans une expérience contrôlée.
On vous présente un graphique montrant une droite qui décrit la relation entre la température ambiante et les dépenses énergétiques de mouflons. Ces mouflons ont été placés, de façon aléatoire, dans des chambres contrôlées à 0, 5, 10 ou 15°C pendant 1 heure.
Comment savoir si les résultats sont dûs aux effets d'échantillonnage ou s'ils démontrent une tendance réelle?
Voici donc le deuxième objectif d'une analyse de régression: tester l'hypothèse d'indépendance entre une variable aléatoire et une variable fixe (non aléatoire).

Objectif 3: tester les hypothèses concernant la pente ou l'ordonnée à l’origine d'une droite de régression.
Maintenant, imaginons que nous savons déjà que la température ambiante affecte les dépenses énergétiques des mouflons, mais qu'il existe deux théories alternatives qui tentent d'expliquer cet effet. Une théorie prédit que chaque degré d'augmentation de température cause une augmentation de 10 Watts d'énergie.
L'autre théorie prédit que chaque degré d'augmentation de température cause une augmentation de 20 Watts d'énergie.
Comment tester ces deux hypothèse alternatives ?
H1: pente = 10
H2: pente = 20

Procédure pour déterminer la droite de régression.
Vous voulez présenter un graphique montrant une droite qui décrit la relation entre deux variables. Quelle ligne sera la meilleure description de cette tendance ?
Rappel de la formule pour une ligne droite:
y = ax + b
x = variable indépendante
y = variable dépendante
a = constante qui donne la pente de la droite (le montant par lequel la variable x change en changeant la variable y par une unité)
b = constante qui donne l'ordonnée à l’origine de la ligne (la valeur de y quand x égale à zéro)

Notez qu'il est généralement impossible de tracer une ligne droite qui touche à tous les points sur un graphique, car la variable Y est souvent influencée par d’autres variables que X. En plus, il est possible que chaque point soit influencé par des causes différentes, mais on suppose que chacun est influencé X.
Alors:
yi = axi + b + ei
Ici, on représente par "e" tous les autres facteurs qui font varier Y; "e" voulant dire "erreurs". On suppose que tous ces autres facteurs ne sont pas contrôlés et qu’ils varient, de façon aléatoire, par rapport à notre variable indépendante (x). Donc, on peut décrire la partie systématique, ou "prédite" de la variation des yi (i.e. la valeur moyenne de y pour une valeur de x) par: axi+b
On peut décrire la partie aléatoire de la variation des yi (i.e. la valeur autour de la moyenne de y pour une valeur de x par:

Ceci s'appelle la variation résiduelle, ou l'erreur.
Alors, retournons au premier objectif d'une analyse de régression: de trouver une formule mathématique qui nous permet de prévoir les valeurs typiques (moyennes) d'une variable à partir des connaissances d'une autre variable.
Autrement dit: trouver la ligne qui maximise la variation prédite des yi et qui minimise la variation résiduelle des yi.
Puisque l'erreur peut être positive (la valeur de yi est plus que la valeur prédite) ou négative (la valeur de yi est moins que la valeur prédite) on veut minimiser les erreurs, qu'elles soient positives ou négatives. Donc, on veut minimiser:

i.e. trouver les valeurs de "a" (la pente) et de "b" (l'ordonnée à l’origine) qui minimisent:
(yi-(axi+b))2

Solution:

La droite de régression passe toujours à travers les moyennes des "x" et des "y", i.e. la ligne traverse le point ( ). Donc, on peut trouver l'ordonnée à l’origine.

Maintenant, nous avons les valeurs de la pente (a) et de l'ordonnée à l’origine (b) de la ligne qui donne la meilleure prévision des valeurs des yi en connaissant les valeurs des xi. Cette ligne réduit au minimum la variation résiduelle autour de la ligne. Cette variation résiduelle représente l'erreur qu'on fait en prédisant les yi. Quelle est cette erreur?
Notre ligne minimise:
Ceci est la somme des carrés entre les valeurs observées (yi) et les valeurs prédites. L'erreur totale est donc:
(Notez que j’ai écrit et non puisqu’il s’agit de la valeur moyenne – prédite- de yi et non le moyen des y)
L’équation totale pour la régression est : yi = axi+b+ei. L’équation totale théorique pour la population statistique est : et ei suit une distribution normale dont la moyenne théorique (m) est 0 et l’écart type théorique (sY.X) égale à l’erreur type des erreurs.
L'erreur moyenne, qui est la variance des résiduelles, est:
.
Notez bien que ceci n’est pas la même chose que la covariance entre y et x (SYX). La notation Y,X veut dire « les valeurs prédites de y, étant donné les valeurs de x »
Finalement, l'erreur type des erreurs de la régression est:
. L’écart type des observations de y mesure la distance moyenne entre ces observations et la moyenne. L’écart type d’une estimation (une moyenne, une valeur prédite, une pente etc) fait à partir des observations s’appelle aussi une erreur type. Tests de signification d'une régression
Il y a trois types de tests que l'on fait dans le contexte des analyses de régression.
1. Les valeurs de y sont-elles indépendantes des valeurs de x dans la population statistique? (Est-ce que y varie en fonction de x dans la population statistique?)
2. La pente est-elle égale à celle de la populations statistique?
3. L'ordonnée à l’origine est-elle égale à celle de la population statistique?

De l'échantillon vers la population
Les formules précédentes nous donnent la meilleure estimation de la droite de régression dans notre échantillon. Mais, en science, on prend des échantillons dans le but de généraliser nos résultats. Par exemple, ce qui nous intéresse dans l'étude de l'effet de la température ambiante sur les dépenses énergétiques des mouflons n'est pas les réponses des X mouflons dans l'expérience mais plutôt les réponses des mouflons en général.
Puisque les échantillons sont aléatoires, les valeurs de la pente, de l'ordonnée à l’origine et de l'erreur résiduelle vont varier de façon aléatoire d'un échantillon à l'autre. Si nous connaissons les distributions d'échantillonnage de ces valeurs, nous pouvons calculer la probabilité d'avoir observé une telle valeur.
Retournons à notre équation pour la régression faite à partir de notre échantillon:
yi = axi+b+eI (échantillon)
Les valeurs de "a", "b" et "e" sont des valeurs estimées à partir de notre échantillon; ces valeurs vont varier de façon aléatoire. Si nous supposons que la distribution des valeurs de yi suivent une distribution normale, alors on peut dire que la vraie valeur de "a" dans la population statistique est "a" , que la vraie valeur de "b" dans la population statistique est "b" est que les valeurs résiduelles (e) suivent une distribution normale dont la moyenne est zéro et l'écart type est égal à l'écart type des erreurs:
(la population)

Qu'est-ce qui varie de façon aléatoire dans une régression simple?
En prenant des répétitions aléatoires d'observations de cette population, il y a 3 estimations qui varient: la pente ("a"), l'ordonnée à l’origine ("b") et les valeurs de " " elles-mêmes. Chacune possède une distribution d'échantillonnage avec une moyenne et un écart type.

La distribution d'échantillonnage de la pente "a"
Puisque la pente "a" est une estimation, à partir de l'échantillon de nos "n" observations, de la valeur de la pente dans la population (a), cette estimation "a" va varier d'un échantillonnage à l'autre. Si la distribution des "y" est normale, la distribution des "a" sera aussi normale. La variance des "a" dans une populations dont la variance résiduelle est égale à:

Notre meilleure estimation de cette variance est:

qui est le ratio entre la variance résiduelle et la variance des "x", le tout divisé par les degrés de liberté de notre estimation de "a", qui est (n-1).

Test de signification de la pente:
Si nous posons, comme hypothèse nulle, que la vraie valeur de la pente dans la population statistique est a, alors la statistique suivante suit une distribution de "t" de Student avec (n-2) degrés de liberté:

Questions:
1. La régression de y sur x est-elle significative? Le comportement des y est-il indépendant du comportement des x? La vraie pente est-elle zéro?
Donc,
2. La vraie pente est-elle 0.65?
Donc, (bilatéral)
3. La vraie pente est-elle plus basse que 0.65?
Donc, (unilatéral)
Intervalles de confiance de la pente
Maintenant que nous avons l'estimation de l'erreur type de la pente, nous pouvons établir les intervalles de confiance de notre estimation de la pente. Puisque la distribution d'échantillonnage de la pente suit une distribution de "t", nous n'avons qu'à fixer un seuil de signification. Disons que nous voulons l'intervalle dans laquelle notre estimation de la pente se trouve avec une probabilité de 95%. La formule générale pour l’intervalle de confiance d’une estimation « x », que ce soit une moyenne, une pente, une intercepte, est . Donc, l’intervalle de confiance de la pente (a) est
1. On regarde dans la table VII (p.773) et on trouve la valeur critique de "t" . Par exemple, si nous avons une pente de 0.12, estimée à partir de 12 observations, et que nous voulons avoir l'intervalle de confiance de 95%, on trouve la valeur de "t" au seuil de 0.05 (1-0.95) avec 12-2=10 ddl (tc=2.229)
2. On multiplie la valeur critique de "t" par l'écart type de la pente.
Interprétation: Notre meilleure estimation de la vraie pente est "a". La valeur de la vraie pente se trouve quelque part dans l'intervalle de confiance avec une probabilité donnée par le seuil de signification.
Exemple: On obtient une estimation de la pente égale à 1.2 avec une échantillon de 20 observations indépendantes. La variance des résiduelles ( ) est 0.9. La variance des "x" ( ) est 1.3. Notre théorie prédit que la vraie pente est 1.0. Quelle est la probabilité que notre théorie soit vraie?
Var(a)=
. nous avons (20-2) ddl.
D'après la table VII, la probabilité d'avoir observé une pente qui est au moins 0.2 unités différentes de la pente prédite par notre théorie est entre 0.01 et 0.001. Il est très improbable que la différence que nous avons observée soit due simplement aux fluctuations aléatoires d'échantillonnage. Il est très probable que notre théorie soit fausse.
Quel est l'intervalle dans lequel la vraie pente se trouve avec une probabilité de 95%?
La valeur de "t" avec (20-2) ddl et un seuil de 0.05 (95%) est 2.101
Intervalle de confiance:
Il y a une probabilité de 95% que la vraie pente soit entre 1.33 et 1.07.

La distribution d'échantillonnage de l'ordonnée à l’origine ("b")
Si nos observations de "y" suivent une distribution normale, alors la distribution d'échantillonnage de notre estimation de l'ordonnée à l’origine de la droite de régression suit une distribution de "t" de Student. La variance de nos estimations de "b" est:
Var(b)=
Donc, la différence entre notre estimation de l'ordonnée à l’origine ("b") et la vraie ordonnée à l’origine (b) suit une distribution de "t" de Student avec la variance donnée ci-haut et avec n-2 degrés de liberté:

On peut former es intervalles de confiance de la même manière que nous avons formé des intervalles de confiance de la pente.

La distribution d'échantillonnage des valeurs prédites de y ( )
Si nos observations de "y" suivent une distribution normale, alors la distribution d'échantillonnage de notre estimation des valeurs prédites de y ( ) de la droite de régression suivent une distribution de "t" de Student. La variance de nos estimations de est:

(Notez que ces formules s'appliquent uniquement dans le cas où nous avons une seule valeur de yi pour chaque valeur de xi. Si nous avions plus d'une observation de y pour la même valeur de x, on utilise une autre formule (p.661).
La variance des valeurs prédites de y est utilisée surtout pour fixer des intervalles de confiance autour de notre droite de régression. Ceci se fait exactement de la même façon que pour les deux autres paramètres. Pour chaque valeur de xi, nous pouvons calculer un intervalle de confiance autour de notre estimation de . Une fois que cet intervalle est calculé pour chacune des valeurs de x, nous avons une enveloppe de confiance autour de notre régression.

Analyse de la variance pour une régression linéaire simple
Question: les valeurs des y (la variable dépendante) sont-elles indépendantes des valeurs des x (la variable indépendante)?
Il y a deux types de régression simple: type I et type II
Type II: les observations des x et des y sont aléatoires et indépendantes. Donc, les variations des x et les variations des y sont aléatoires et les distributions des deux variables suivent une loi normale.
Puisque les deux variables suivent une loi normale, si l'hypothèse nulle d'indépendance est vraie, nous pouvons faire un test de corrélation pour tester l'hypothèse.
Type I: les observations des y sont aléatoires et indépendantes, mais les valeurs des x sont fixées par le chercheur.
- Les observations des x ne sont pas aléatoires.
- Donc elles ne suivent pas une distribution normale.
- Donc on ne peut pas utiliser le test de corrélation pour tester l'hypothèse.
Exemple:
Vous faites une expérience pour étudier la relation entre la température ambiante et les dépenses énergétiques des mouflons. X mouflons ont été placés dans des chambres contrôlées de 0,5,10 ou 15°C de façon aléatoire pendant 1 heure.
Il y a 2 variables: les dépenses énergétiques de chaque animal et la température ambiante dans laquelle les animaux se trouvent.
Dépenses énergétiques: aléatoires puisque la nature (i.e. causes variées inconnues et hors de notre contrôle) détermine leurs valeurs, et ces causes varient de façon inconnue.
Température ambiante: fixée puisque vous avez choisi les températures. Vous n'avez pas choisi ces températures au hasard.
Quoi faire? Une analyse de la variance (ANOVA)
Logique
1. Seulement les valeurs des "y" (i.e. les dépenses énergétiques) varient de façon aléatoire.
2. Donc, il faut comparer seulement la variation des "y" avec une distribution d'échantillonnage connue pour tirer nos conclusions.
3. On sait que yi= (axi+b) + ei (i.e. ). La valeur de yi est divisée en deux parties: une partie systématique qui donne la valeur prédite de yi et une partie résiduelle (ei).
4. Si les yi (variable dépendante) varient en fonction des xi (variable indépendante) la partie systématique (prévisible) sera plus grande que la partie résiduelle.
5. Si les yi (variable dépendante) ne varient pas en fonction des xi (variable indépendante) la partie systématique (prévisible) sera plus petite que la partie résiduelle.
6. Donc, on peut savoir si les yi sont indépendants des xi en comparant la variation des prévisions des yi avec la variations des résiduelles autour des prévisions.
Ceci s'appelle une décomposition de la variance des yi
Variation totale des yi:
Variation due à la régression:
Variation résiduelle:

La distribution de "F" de Fisher
Si les yi sont indépendants des valeurs des xi, le ratio de la variance due à la régression sur la variance résiduelle suit une distribution de "F" de Fisher. Les valeurs de "F" varient en fonction des degrés de liberté de ces deux variances.
Les valeurs de "F" se trouvent à la table VI (page 768).
Une table ANOVA

Source de variation Somme des carrés ddl Variance
Totale n-1 SCET/ddl
Régression

1 SCER/ddl
résiduelle
n-2 SCEE/ddl
Notez: SCET=SCER+SCEE et ddl (totale)=ddl(régression)+ddl(résiduelle)
= variance due à la régression sur la variance résiduelle
Exemple
La décomposition de la matière végétale dans le sol se fait en partie par l'action des bactéries. Vous savez que le taux métabolique des bactéries est sensible à la température. Vous voulez savoir si le taux de décomposition de la matière végétale dans le sol varie en fonction de la température et, si oui, comment on peut prédire ce taux en connaissant la température du sol. Pour répondre à cette question, vous prenez 10 échantillons du sol et vous les placez de façon aléatoire dans 10 chambres de croissance différentes, où la température de chaque chambre est contrôlée à une température différente. 10 g de feuilles mortes sont ajoutés à chaque sol. Ensuite, vous mesurez le taux de décomposition de ces feuilles (mg de feuilles décomposées par jour).
Voici les données

observation température taux
1 1 -0.50
2 3 10.94
3 5 6.90
4 7 8.40
5 9 17.66
6 11 25.05
7 13 20.03
8 15 18.77
9 17 32.96
10 19 34.25
Calculs :
Cov(x,y)=63.17
Var(x)= 36.67
a=Cov(x,y)/Var(x)=1.73
b=17.45-(1.73)(10)=0.15
Régression: yi=1.73xi+0.15 + ei
Prévision des yI : = 1.73xI+0.15
Variation résiduelle
Erreur type des prévisions:
H0: la pente égale à 1 (d'après une théorie sur la physiologie des bactéries)
H0 : a=1
Variance de a: 0.063
avec n-2=8 ddl.
prob(/t/>2.91)=0.02
Donc, nous pouvons dire que la probabilité d'avoir mesuré une pente de 1.73 dans un échantillon de 10, si la vraie pente est égale à 1, est seulement de 2 sur 100.
Quelle est la vraie valeur de la pente dans la population statistique?
Intervalles de confiance à 95% de la pente:
t0.05 pour 8 ddl = 2.307
erreur type de a =
a=1.73±2.307(0.252)=1.73±0.58
Donc, nous pouvons dire avec une probabilité de 95% que le taux de décomposition des feuilles par les bactéries en général (i.e. dans la population statistique) augmente de quelque chose entre 2.31 et 1.15 avec chaque degré de température.
H0: l'ordonnée à l’origine est zéro (les bactéries entrent en dormance à 0°C et les bactéries sont les seules à décomposer la matière organique dans le sol)
H0 : b=0
Var(b)=8.43

prob(/t/>0.05)>0.90
Alors il n’a pas de raisons de rejeter l'hypothèse nulle.

Quelles sont les limites des intervalles de confiance des valeurs prédites des yi?
1. pour chaque valeur de X, on calcule la variance de notre valeur prédite de Y:
La première observation était: x1=1, y1=-0.5
Valeur prédite du taux de décomposition ( ) à x=1:
=1.73(1)+0.15=1.88
Var( )=
intervalle de confiance: 1.88±2.307(Ö7.23)=1.88±6.20

La deuxième observation était: x2=3, y2= 10.94
Donc, valeur prédite est : 1.73(3)+0.15=5.34
Var( )=
Intervalle de confiance: 5.34±2.307(Ö5.20)=5.30±3.65
etc. pour chacune des 10 valeurs de x.
Voici donc la droite qui donne notre meilleure estimation de la pente et de l'ordonnée à l’origine (i.e., la droite de régression), ainsi que les intervalles de confiance à 95% pour la régression.

Devoir
Voici les résultats d'une étude sur les effets des différentes concentrations d'une enzyme sur le cycle cellulaire du foie. Chaque donnée vient d'un rat choisi au hasard et dont une concentration connue de l'enzyme a été injectée dans le sang.
Questions:
1. Quelles sont les meilleures estimations de la pente et de l'ordonnée à l’origine?
2. Donnez l'équation pour la régression.
3. Quel sera le cycle cellulaire moyen d'un rat si nous lui injectons 50 microgrammes d'enzyme?
4. Calculez les variances d'échantillonnage de la pente, de l'ordonnée à l’origine, et la valeur prédite du cycle cellulaire à une concentration de 25 microgrammes.
5. On propose que le cycle cellulaire sera zéro quand la concentration de l'enzyme est zéro. Testez cette hypothèse.
6. Donnez l'intervalle de confiance à 95% pour la pente.
X= concentration de l'enzyme (microgrammes)
Y= cycle cellulaire (heures)

X Y
25 -0.8
50 31.6
75 11.7
100 31.3
125 62.4
150 55.3
175 54.1
200 59.2
 
Üst