Homogénéité des variances : la variance dans la distribution de la variable dépendante doit être constante pour toutes les valeurs de la variable indépendante. Carré moyen résiduel : => estimateur sans biais de la variance des erreurs qu’on appelle variation résiduelle notée aussi Sr². 0000013208 00000 n Par exemple, si la relation semble rassembler les points autour d’une ligne droite dans le nuage de points, nous pouvons résumer cette relation par l’équation qui résout le mieux cette droite. Cette somme s’appelle somme des carrés RÉSIDUELS (SCR). La valeur de la pente ne dépend pas seulement de la force de la relation entre deux variables, mais aussi des unités de mesure des variables. Pour le carré moyen du modèle (CMM), on divise le SCM par le nombre de variable dans le modèle (ici 1) et pour le carré moyen résiduel (CMR), on divise la SCR  par le nombre de sujets moins le nombre de paramètres « b » estimés (ici b0 et b1). 0000080183 00000 n Le carré moyen du terme est la division de la somme des carrés des termes par les degrés de liberté. De même, il est possible de modéliser mathématiquement d’autres types de relation (quadratique, cubique, exponentielle, etc.). 0000006213 00000 n Nous allons également voir comment nous pouvons modéliser cette relation linéaire, c'est-à-dire comment représenter le mieux possible la relation linéaire entre deux variables à l’aide d’une équation mathématique. Allons-y en suggérant trois droites pouvant représenter le mieux la relation linéaire entre ces deux variables…. Un coefficient de corrélation de 0 (ou très près de 0) signifie qu’il n’y a pas de relation linéaire entre les deux variables. Cette prémisse peut être vérifiée par le nuage de points du croisement entre ces deux variables. Revenons à notre équation. Les fonctions de trait et de redirection de courbe DROITEREG peuvent calculer la meilleure ligne droite ou courbe exponentielle qui correspond à vos données. La valeur F Le modèle de régression avec un prédicteur : la variable X. En d’autres termes, un modèle de régression construit avec le taux de natalité comme variable indépendante expliquerait toutes les différences (variation ou variabilité) observées au plan de l’espérance de vie des femmes. Nous tentons donc d, L’équation ci-haut nous indique que la pente (, Étape 1 : Évaluer la qualité d’ajustement du modèle de régression avec prédicteur : R, Elle représente la différence entre le modèle sans prédicteur et celui avec un prédicteur et s’appelle, La manière de représenter cette amélioration est de faire le rapport entre la somme des carrés du modèle avec prédicteur (SC, Nous verrons plus loin que la racine carrée de, La régression est basée sur le rapport entre le carré moyen de l’amélioration due au modèle (SC, Si un modèle est bon, l’amélioration de la prédiction due au modèle devrait être grande (CM, La droite de régression des moindres carrés est la ligne qui résume le mieux les données dans le sens où elle possède la plus petite somme des carrés des résiduels. 0000136796 00000 n Ce graphique peut être réalisé à partir du bouton Plots de la boite de dialogue principale de la régression. Nous cherchons donc une mesure absolue qui ne dépend pas des échelles de mesure des variables et qui est facilement interprétable. En fait, le modèle le plus simple pour représenter ou expliquer la variabilité de la variable dépendante (y) est sa propre moyenne. La variabilité non expliquée par le modèle (SCR) : C’est la partie de la variance qui n’est pas expliquée par le modèle et qui reste donc à expliquer avec d’autres variables indépendantes. Ce graphique peut être réalisé à partir du bouton, Distribution normale et aléatoire des résiduels.   Distribution normale : les valeurs de la variable dépendante sont normalement distribuées. Le calcul de la qualité d’un modèle sans prédicteur se fait en trouvant la somme des carrés de la différence entre les observations et la moyenne.   Il est très important de comprendre que pour être valable, un modèle avec prédicteur doit expliquer significativement plus de variance qu'un modèle sans prédicteur ! À terme, on peut comparer ces résultats recalculés avec ce qui est obtenu par une simple fonction de R, soi lm(). Elle est mesurée par la somme des distances au carré entre chaque observation et la droite de régression (autrement dit, la valeur prédite). 0000070226 00000 n En effet, le modèle de régression linéaire est représenté graphiquement par la droite de régression qu'il est possible de tracer entre les points du graphique. Particulièrement pour les résidus: 306.3 4 = 76.575 ≈ 76.57 306.3 4 = 76.575 ≈ 76.57 Donc, 76,57 est le carré moyen des résidus, c’est-à-dire la quantité de variation résiduelle (après application du modèle) de votre variable de réponse. De combien les ventes d’une compagnie peuvent augmenter lorsque le budget de publicité est doublé ? 0000137010 00000 n Le graphique nous montre cela clairement. De combien le taux de cholestérol augmente-t-il en fonction de l’augmentation du pourcentage de gras ? 0000009131 00000 n SPSS rapporte cette valeur dans le tableau ANOVA sur la ligne « Régression ». A l'aide d'arbres reconstitués, des simulations ont été utilisées pour comparer cinq techniques d'échantillonnage en termes de biais, de carré moyen résiduel … Après l’interprétation de la pente, il faut faire attention à l’interprétation de l’ordonnée à l’origine. 0000014233 00000 n Dans un bon modèle, la valeur de F devrait être minimalement plus grande que 1, mais la magnitude exacte du rapport F se calcule avec les tables des valeurs critiques de F, tout comme nous l’avons fait précédemment avec l’ANOVA. 0000016118 00000 n Donc, avant d’utiliser la droite de régression pour prédire ou décrire la relation entre deux variables, on doit donc vérifier la qualité d’ajustement de la droite avec les données avec la valeur de, Nous cherchons donc une mesure absolue qui ne dépend pas des échelles de mesure des variables et qui est facilement interprétable. Dans le modèle (a), il n'y a qu'un groupe : la somme des carrés est SCT La valeur de la pente ne dépend pas seulement de la force de la relation entre deux variables, mais aussi des unités de mesure des variables. On doit l’interpréter seulement dans les situations où la valeur x = 0 fait du sens. Le but d'un modèle est d'expliquer le mieux possible la variabilité de la variable dépendante (y) à l'aide d'une ou plusieurs variables indépendantes (x). 5. L'hypothèse alternative est qu'il est possible de prédire la variable dépendante à partir de la variable indépendante. 6. ***** Le coefficient de corrélation pour la relation linéaire du graphique A est de 0,96 tandis que le coefficient de corrélation du graphique B est de 0,77. On remarque que la France a un taux de natalité de 13 par 1 000 habitants et une espérance de vie pour les femmes de 82 ans, tandis que la Mongolie a un taux de natalité de 34 et une espérance de vie de 68 ans. SPSS rapporte cette valeur dans le tableau ANOVA sur la ligne « Total ». Plus la proportion est élevée, plus le modèle est puissant. Pourtant, on voit clairement que ces deux droites sont ajustées différemment aux données. Revenons à la relation entre le taux de natalité et l'espérance de vie. Revenons à la relation entre le taux de natalité et l'espérance de vie. De ces éléments, on tire deux informations fondamentales en régression, soit : 1) La proportion de variance expliquée par le modèle. Cependant, ceci ne veut pas dire qu’il n’existe pas de relation entre les deux variables. Le dernier exemple montre dans le détail le calcul d'un coefficient de régression, de la constante, du r, du R carré, du R carré ajusté, puis des résidus, et de l'erreur résiduelle standard. Il est important de comprendre que cette amélioration du modèle est exactement ce qui est calculé en premier lieu par SPSS et ce qui est convoité par le chercheur ! La statistique la plus utilisée pour ce travail est le, Pour illustrer notre propos, examinons maintenant les prochains graphiques. La droite de régression des moindres carrés (least-square regression line) est la ligne offrant la plus petite somme des distances au carré. Cependant, ceci ne veut pas dire qu’il n’existe pas de relation entre les deux variables. La première chose à faire dans l'interprétation des résultats sera donc de vérifier si le modèle de régression avec prédicteur (notre variable x) sera significativement plus intéressant qu'un modèle sans prédicteur (la moyenne de y). La somme résiduelle des carrés. Nous allons maintenant voir comment prédire une variable continue à partir d'une autre. Nous allons maintenant voir comment prédire une variable continue à partir d'une autre. Variabilité résiduelle (liée à l'individu) : reflète l'importance des variations individuelles dans chaque échantillon. Sinon, on est encore mieux avec seulement la moyenne. Si on veut prédire le revenu en dollars avec le nombre d’années de scolarité, la pente sera (on le souhaite) très importante. 0000001441 00000 n Si la droite est peu ajustée aux données, les conclusions basées sur celle-ci seront imprécises voire invalides. Cependant, les points ne tombent jamais, Nous voyons que la moyenne de l’espérance de vie est bel et bien au centre de la distribution et que la moitié des observations se trouvent sous la moyenne et le reste, au-dessus. Distribution normale et aléatoire des résiduels : cette prémisse signifie que la différence entre le modèle et les valeurs observées sont près de zéro. Si nous remplaçons les termes de l’équation de la droite par les variables de notre graphique : Donc, avant d’utiliser la droite de régression pour prédire ou décrire la relation entre deux variables, on doit donc vérifier la qualité d’ajustement de la droite avec les données avec la valeur de R, soit le coefficient de corrélation. 2 Méthodes des moindres carrés Chapitre 6 du polycopié La méthode des moindres carrés permet de comparer des données expérimentales, généralement entachées d’erreurs de mesure à un modèle mathématique censé décrire ces données. Le prédicteur (la variable indépendante) doit présenter une certaine variance dans les données (pas de variance nulle). Elle se mesure par la somme des distances au carré entre chaque observation et la moyenne de la condition à la quelle elle appartient. Elle peut être vérifiée par l'examen du nuage de points qui a servi à vérifier la prémisse d'homoscédasticité. 0000001348 00000 n Avec l’augmentation d’une unité de x (natalité) de 10 à 11, on voit bien que l’espérance de vie passe de 83 à 82,3 ans soit une diminution de 0,70 ans, ce qui est bel et bien la valeur de la pente. Le graphique nous montre cela clairement. 0000007206 00000 n Lorsque nous prenons l'exemple de la relation entre l'espérance de vie et le taux de natalité, nous savons que les pays n’ont pas tous la même espérance de vie. Comme ceci est impossible, l’ordonnée à l’origine n’est pas une donnée intéressante et sert uniquement de point de repère pour tracer la droite adéquatement. L'inverse est aussi vrai. : les valeurs de la variable dépendante sont normalement distribuées. 0000012057 00000 n On remarque que la France a un taux de natalité de 13 par 1 000 habitants et une espérance de vie pour les femmes de 82 ans, tandis que la Mongolie a un taux de natalité de 34 et une espérance de vie de 68 ans. Nous avons vu précédemment que R est tout simplement la racine carrée de R2. 8. Donc, avant d’utiliser la droite de régression pour prédire ou décrire la relation entre deux variables, on doit donc vérifier la qualité d’ajustement de la droite avec les données avec la valeur de R, soit le coefficient de corrélation. La pente (b1) ne nous donne pas déjà cette information ? Cette valeur se trouve dans un des tableaux de résultats de la régression simple.   On remarque bien la relation linéaire: les points semblent se concentrer autour d’une ligne imaginaire. 0000014994 00000 n La valeur résiduelle, bien qu’elle n’entre tangiblement en ligne de compte qu’à la fin de votre contrat de location, aura une incidence directe sur le montant de votre paiement mensuel puisqu’une valeur résiduelle plus élevée signifie que la portion du véhicule que … Dans notre exemple, la variable dépendante est l’espérance de vie des femmes et la variable indépendante est le taux de natalité. Le résultat de ce rapport est appelé R2 et sert à exprimer en pourcentage (lorsque multiplié par 100) la proportion de variance de y qui est expliquée par le modèle (SCM) par rapport à la quantité de variance qu’il y avait à expliquer au départ (SCT). Le modèle expliquerait parfaitement chaque valeur y sans résiduel. 1 2 i. Analyse de la variance à un facteur TEST DE FISHER: (H0) : (H1) : Les ne sont pas tous égaux. Est-ce que la variable que je mets en relation avec la variable dépendante permet de mieux expliquer sa variabilité, donc de diminuer de manière significative les résiduels calculés dans un modèle sans prédicteur ? La droite B est plus dans l’axe de la relation que la droite précédente, mais elle est trop au-dessus des points, ce qui laisse encore trop de distance entre la droite et les points du graphique. DDL associés : N-k. 2. : la variance dans la distribution de la variable dépendante doit être constante pour toutes les valeurs de la variable indépendante. C’est la droite de régression des moindres carrés. Quand tous les points ne tombent pas parfaitement sur la droite, il est possible de calculer la proportion de la variabilité de la variable dépendante expliquée par le modèle de régression. Si la pente est positive, vous saurez que lorsque la variable indépendante augmente, la variable dépendante en fera autant (et inversement).   Le nombre d’heures d’étude est-il associé au rendement scolaire ? Ce résultat s’appelle la, La droite C n’est pas n’importe quelle droite dessinée au hasard: elle est, En mettant au carré chacune de ces distances et en les additionnant toutes, on arrive à la somme des distances au carré entre les points et la droite de régression. R-carré = Variation expliquée / Variation totale. La droite C est celle qui colle le mieux à la dispersion des points, c’est celle qui passe le plus près de tous les points du nuage. Comme ci-dessus, l' erreur résiduelle moyenne est égale à zéro, de sorte que l' écart type des erreurs résiduelles ou l'erreur résiduelle standard est identique à l' erreur standard et qu'il en est de même de l' erreur résiduelle racine-carré-carré. Dans le graphique A, les points sont agglomérés très près de la droite, tandis que dans le graphique B, ils sont beaucoup plus dispersés autour de la droite. Il y a une variabilité substantielle de cette variable dans l’échantillon représentée par la somme des carrés totale (SCT). Sinon, on est encore mieux avec seulement la moyenne. Revenons à notre équation. Par contre, la plupart du temps, les points ne tombent jamais directement sur la droite… et ça devient un peu plus complexe de trouver la meilleure droite. Si nous remplaçons les termes de l’équation de la droite par les variables de notre graphique : Ce graphique est un agrandissement (un détail) de notre graphique de départ, soit la section entre 5 et 15 naissances par 1 000 habitants et entre 80 et 90 ans d’espérance de vie. Ceci nous permet de mieux saisir visuellement la notion de pente. 0000013187 00000 n 0000017232 00000 n Divisez par n - 1, où n est le nombre de données. Le coefficient de corrélation 100% indique que le modèle explique toute la variabilité des données de réponse autour de sa moyenne. Dans le cas de la régression, l'hypothèse nulle est qu'il n'y a pas de relation entre la variable dépendante et la variable indépendante, donc que la variable indépendante ne permet pas de prédire la variable dépendante. En dernier lieu, il faut évaluer la proportion de la variabilité totale qui est expliquée par le modèle de régression. Cette somme s’appelle somme des carrés RÉSIDUELS (SCR). 0000003476 00000 n Le graphique ci-dessous illustre la relation dont nous parlons, mais pour un échantillon de 15 pays tirés de la base originale. En effet, si la moyenne représente très bien les valeurs qui lui sont proches, elle laisse beaucoup d’erreur aux valeurs qui en sont plus éloignées. Cependant, il est évident qu’un meilleur modèle que la moyenne doit exister ! Dans le cas de la régression linéaire simple, le modèle ne contient qu'une seule variable indépendante. Ceci dit, cela ne signifie pas nécessairement que cette droite est bien ajustée aux données. La nouvelle méthode présente un carré moyen résiduel relatif de 41% du volume moyen comparativement à 58% pour le krigeage global et à 45% pour le krigeage stratifié. La variabilité expliquée par le modèle (SCM) : C’est la partie de la variance totale qui est expliquée par l’ajout d’un prédicteur, c'est-à-dire la construction d’un modèle.   Ceci dit, cela ne signifie pas nécessairement que cette droite est bien ajustée aux données. Les valeurs de la variable dépendante sont indépendantes : chaque valeur de la variable dépendante vient d'une observation distincte. En effet, si la moyenne représente très bien les valeurs qui lui sont proches, elle laisse beaucoup d’erreur aux valeurs qui en sont plus éloignées. La moyenne d’une variable est en fait sa valeur la plus probable, car toutes les valeurs de l’échantillon tendent vers le centre de la distribution. N'hésitez donc pas à consulter les analyses qui vous intéressent sur notre site si vous utilisez une version plus récente de SPSS ! 0000120619 00000 n En effet, le graphique ci-haut représente bien une absence de relation linéaire (r = 0), mais aussi une très forte relation quadratique entre les deux variables.   6. Homoscédasticité : pour toutes les valeurs du prédicteur, la variance des résiduels (erreur de mesure) est homogène. Graphique montrant une très forte relation quadratique (pente = 0 et r = 0). 0000014000 00000 n Le prédicteur n'est pas corrélé à des variables externes (qui n'ont pas été intégrées au modèle) qui influencent la variable dépendante. Étape 1 : Évaluer la qualité d’ajustement du modèle de régression avec prédicteur : R2 et R Nous avons vu dans la section sur la corrélation comment mesurer la relation entre deux variables continues. 63 0 obj << /Linearized 1 /O 65 /H [ 1441 530 ] /L 929561 /E 159382 /N 11 /T 928183 >> endobj xref 63 50 0000000016 00000 n Toute autre droite aura une somme des carrés plus élevée. Si y est la variable placée sur l’axe vertical (ordonnée) et x, la variable placée sur l’axe horizontal (abscisse), l’équation est : Le coefficient b0 est appelée l’ordonnée à l’origine (intercept ou constante). : pour toutes les valeurs du prédicteur, la variance des résiduels (erreur de mesure) est homogène. Ceci nous permet de mieux saisir visuellement la notion de pente. Si les points de données sont normalement distribués avec une moyenne de 0 et une variance , alors la somme résiduelle des carrés a une distribution chi-carré mise à l'échelle (mise à l'échelle par le facteur ), avec n - 1 degrés de liberté. Ceux-ci  présentent deux modèles de régression qui possèdent les mêmes pentes (b1) et les mêmes ordonnées à l’origine (b0). En effet, x = 0 représenterait un pays qui a un taux de natalité nul. La somme des carrés. La pente (b1) ne nous donne pas déjà cette information ? En anglais, on la nomme souvent SSR pour “Sum of Squares of Residuals”. Elle peut être vérifiée par l'examen du nuage de points qui a servi à vérifier la prémisse d'homoscédasticité. - Les protons accélérés dans un synchrotron subissent tout au long de leur parcours dans la chambre à vide de nombreuses collisions contre des molécules de gaz 0000001971 00000 n • La valeur estime la valeur moyenne de Y lorsque X=xi (E(Y/X=xi)) . Aspect algébrique du modèle de régression: Équation de la droite de régression linéaire simple Elle représente la différence entre le modèle sans prédicteur et celui avec un prédicteur et s’appelle somme des carrés du MODÈLE (SCM). Ici, ce n’est pas le cas. 0000012079 00000 n Est-ce que la variable que je mets en relation avec la variable dépendante permet de mieux expliquer sa variabilité, donc de diminuer de manière significative les résiduels calculés dans un modèle sans prédicteur ? Cette prémisse peut être vérifiée par l'examen du nuage de points du croisement entre les valeurs prédites standardisées et les résiduels standardisés. Le R-carré est toujours compris entre 0 et 100%: 0 % indique que le modèle n’explique aucune de la variabilité des données de réponse autour de sa moyenne. La statistique la plus utilisée pour ce travail est le coefficient de corrélation de Pearson (R dans les tableaux SPSS de régression ou r dans les textes). Pour ce faire, on utilise les valeurs des sommes des carrés rapportées par SPSS. Le coefficient b1 est appelé la pente. 0000070547 00000 n Nous allons également voir comment nous pouvons modéliser cette relation linéaire, c'est-à-dire comment représenter le mieux possible la relation linéaire entre deux variables à l’aide d’une équation mathématique. Plus la valeur de la pente est grande, plus la droite est abrupte (et inversement), ce qui indique qu’un petit changement dans la variable indépendante (x) induit un grand changement dans la variable dépendante (y). Nous avons récemment mis en ligne un site portant sur les notions de base en psychométrie: Psychométrie à l'UdeS. 0000002737 00000 n Comme le premier coefficient est plus élevé (en valeur absolue) que le second, nous pouvons affirmer sans même regarder le graphique que les points du graphique A sont agglomérés beaucoup plus près de la droite que ceux du graphique B. Un coefficient de corrélation de 0 (ou très près de 0) signifie qu’il n’y a pas de relation linéaire entre les deux variables. PDF Publiée 2018-03-26 Numéro Vol. Cependant, il est évident qu’un meilleur modèle que la moyenne doit exister ! Le coefficient b1 est appelé la pente. Le modèle de régression avec un prédicteur : la variable X sans l'autorisation du concepteur. De ces éléments, on tire deux informations fondamentales en régression, soit : Somme résiduelle des carrés - Residual sum of squares Un article de Wikipédia, l'encyclopédie libre En statistique , la somme des carrés résiduels ( RSS ), également appelée somme des carrés des résidus ( SSR ) ou somme des carrés des estimations des erreurs ( SSE ), est la somme des carrés des résidus (écarts prévus à partir des valeurs empiriques réelles de données). La droite A possède environ le même nombre de points sous et au-dessus de la ligne, mais laisse beaucoup trop de distance non nécessaire entre les points et la droite. Le prédicteur (la variable indépendante) doit présenter une certaine variance dans les données (pas de variance nulle). 76.57− −−−√ 76.57 Par exemple, si la relation semble rassembler les points autour d’une ligne droite dans le nuage de points, nous pouvons résumer cette relation par l’équation qui résout le mieux cette droite. Dans le cas d’une relation linéaire parfaite, le coefficient de corrélation et son carré (R2) seraient tous deux de 1. En statistique, la régression linéaire multiple est une méthode de régression mathématique étendant la régression linéaire simple pour décrire les variations d'une variable endogène associée aux variations de plusieurs variables exogènes.. Nous avons vu dans la section sur la corrélation comment mesurer la relation entre deux variables continues. 0000007185 00000 n Avec CM R carré moyen résiduel de l’analyse de variance, n i effectif observé pour la modalité Ai, n i’ effectif observé pour la modalité Ai’ Le test est significatif si t. obs > t (dlR, 1- ’/2) L’ensemble des comparaisons est ensuite synthétisé graphiquement. Le nombre d’heures d’étude est-il associé au rendement scolaire ? La variabilité non expliquée par le modèle (SCR) : C’est la partie de la variance qui n’est pas expliquée par le modèle et qui reste donc à expliquer avec d’autres variables indépendantes.