Tema 4. Modelo de regresión múltiple

Kathy Simmons | Download | HTML Embed
  • Dec 18, 2008
  • Views: 32
  • Page(s): 39
  • Size: 1.20 MB
  • Report

Share

Transcript

1 Tema 4. Modelo de regresion multiple Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 1

2 Objetivos del tema Construir un modelo que represente la dependencia lineal de una variable respuesta cuantitativa Y simultaneamente respecto de varias variables explicativas cuantitativas X1 , . . . , XK . Determinar la funcion de regresion lineal optima. Partiendo de un conjunto de regresores X1 , . . . , XK , estudiar cuales son significativos para explicar la respuesta. Estimar el valor esperado de la respuesta y predecir un valor futuro de esta para unos valores prefijados de las variables explicativas. Determinar la precision de la estimacion y la prediccion. Analizando los residuos, estudiar si se verifican las hipotesis basicas del modelo. Proponer alternativas si no es as. Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 2

3 Ejemplo 4.1: Variable respuesta Y = Temperatura (en o F) maxima promedio durante el mes de enero en la estacion meteorologica de un condado de Texas. Variables explicativas: X1 = Latitud, X2 = Altitud (en pies) y X3 = Longitud de la estacion. Condado Temperatura Latitud Altitud Longitud Harris 56 29.767 41 95.367 Dallas 48 32.85 440 96.85 Kennedy 60 26.933 25 97.8 Midland 46 31.95 2851 102.183 Deaf Smith 38 34.8 3840 102.467 Knox 46 33.45 1461 99.633 Maverick 53 28.7 815 100.483 Nolan 46 32.45 2380 100.533 El Paso 44 31.8 3918 106.4 Collington 41 34.85 2040 100.217 Pecos 47 30.867 3000 102.9 Sherman 36 36.35 3693 102.083 Travis 52 30.3 597 97.7 Zapata 60 26.9 315 99.283 Lasalle 56 28.45 459 99.217 Cameron 62 25.9 19 97.433 Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 3

4 Ejemplo 4.1 (cont.): Temperaturas mximas promedio en enero (Texas) 60 Temperatura 50 40 20 Latitud 30 4000 3000 2000 1000 Altitud 40 Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 4

5 Ejemplo 4.2: Se estudia Y = la tasa de respiracion (no moles O2 /(gmin)) del liquen Parmelia saxatilis bajo puntos de goteo con un recubrimiento galvanizado. El agua que cae sobre el liquen contiene zinc y potasio, que utilizamos como variables explicativas. (Fuente de datos: Wainwright (1993), J. Biol. Educ..) Tasa de respiracion Potasio (ppm) Zinc (ppm) 71 388 2414 53 258 10693 55 292 11682 48 205 12560 69 449 2464 84 331 2607 21 114 16205 68 580 2005 68 622 1825 Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 5

6 Ejemplo 4.2 (cont.): 80 Tasa respiracin 60 40 20 15000 600 10000 400 5000 200 Zinc Potasio Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 6

7 El modelo de regresion lineal multiple En la regresion lineal multiple de Y sobre X1 , . . . , XK se supone que la funcion de regresion tiene la expresion E (Y |X1 = x1 , . . . , XK = xK ) = 0 + 1 x1 + . . . + K xK . Cuando K = 2 la funcion de regresion es un plano E(Y|X1=x1,X2=x2) = 2+x10.5x2 6 4 y 2 0 3 2 3 2 1 1 x2 0 0 x1 Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 7

8 Tenemos una muestra de n individuos en los que observamos las variables Y y X = (X1 , . . . , XK )0 obteniendo (xi , yi ), i = 1, . . . , n, donde xi = (xi1 , xi2 , . . . , xiK )0 . El modelo de regresion lineal multiple supone que Yi = 0 + 1 xi1 + . . . + K xiK + Ui , i = 1, . . . , n, donde las perturbaciones Ui verifican las hipotesis a) E (Ui ) = 0, para cada i = 1, . . . , n. b) Var(Ui ) = 2 , para cada i = 1, . . . , n. c) E (Ui Uj ) = 0 , para todo i 6= j. d) Ui Normal, para todo i. e) n K + 2 f) Las variables Xi son linealmente independientes entre s (no hay colinealidad). Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 8

9 Las hipotesis (a)-(d) se pueden reexpresar as: los individuos de la muestra son independientes entre s con Yi Normal(0 + 1 xi1 + . . . + K xiK , 2 ). El modelo admite una expresion equivalente en forma matricial: Y1 1 x11 . . . x1K 0 U1 Y2 1 x21 . . . x2K 1 U2 .. = .. + .. .. .. . . . . . Yn 1 xn1 . . . xnK K Un o Y = X + U, donde X es la matriz del diseno. Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 9

10 Cada coeficiente i (i 1) mide el efecto marginal que, sobre la variable respuesta Y , tiene un aumento de una unidad de la variable explicativa xi cuando el resto de las variables xj , con j 6= i, permanece constante. Ejemplo 4.1 (cont.): Ejemplo 4.2 (cont.): Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 10

11 Estimacion de los parametros del modelo Parametros desconocidos: 0 , 1 , . . . , K , 2 . Estimamos 0 , 1 , . . . , K por el metodo de mnimos cuadrados: minimizamos la suma de los residuos al cuadrado VNE = ni=1 ei2 , P donde ei = yi yi e yi = 0 + 1 xi1 + . . . + K xiK . Para K = 2, cada residuo ei es la distancia en vertical entre el (xi , yi ) observado y (xi , yi ). (xi1,xi2,yi) y ei x2 x1 Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 11

12 Al derivar la VNE respecto a 0 , 1 , . . . , K e igualar las derivadas a 0 obtenemos K + 1 ecuaciones de restriccion sobre los residuos: n X n X n X ei = 0, ei xi1 = 0, ..., ei xiK = 0. i=1 i=1 i=1 Los residuos tienen n K 1 grados de libertad. A partir de estas ecuaciones despejamos los estimadores mnimo-cuadraticos de 0 , 1 , . . . , K : 0 1 = . = (X0 X)1 X0 y. .. K Podemos asegurar que la matriz X0 X es invertible si se cumplen las hipotesis basicas (e) y (f). Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 12

13 Ejemplo 4.2 (cont.): Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 13

14 Ejemplo 4.2: Plano de regresin 80 Tasa respiracin 60 40 20 15000 10000 600 5000 400 200 Zinc Potasio Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 14

15 Tasa de respiracin Potasio (ppm) Zinc (ppm) 71 388 2414 Resumen 53 258 10693 55 292 11682 Estadsticas de la regresin 48 205 12560 Coeficiente de correlacin mltiple 0,921112779 69 449 2464 Coeficiente de determinacin R^2 0,848448752 84 331 2607 R^2 ajustado 0,79793167 21 114 16205 Error tpico 8,172122313 68 580 2005 Observaciones 9 68 622 1825 ANLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadradosF Valor crtico de F Regresin 2 2243,2985 1121,64925 16,7952841 0,0034808 Residuos 6 400,701499 66,7835831 Total 8 2644 Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0% Intercepcin 101,0883957 18,8660471 5,35821813 0,00173104 54,9248076 147,251984 54,9248076 147,251984 Variable X 1 -0,04034212 0,03423824 -1,17827673 0,28329567 -0,12412013 0,04343589 -0,12412013 0,04343589 Variable X 2 -0,00387683 0,00100248 -3,86725087 0,00829226 -0,00632981 -0,00142386 -0,00632981 -0,00142386 Anlisis de los residuales Observacin Pronstico para Y ResiduosResiduos estndares 1 76,07698485 -5,07698485 -0,71736532 2 49,22518266 3,77481734 0,53337229 3 44,01936545 10,9806346 1,55153633 4 44,12527292 3,87472708 0,54748929 5 73,42227401 -4,42227401 -0,62485631 6 77,62825745 6,37174255 0,90031136 7 33,66535951 -12,6653595 -1,78958377 8 69,91692137 -1,91692137 -0,27085622 9 68,92038178 -0,92038178 -0,13004765 Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 15

16 Ejemplo 4.1 (cont.): Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 16

17 Un estimador insesgado de 2 es la varianza residual n 1 X sR2 = ei2 . nK 1 i=1 Ejemplo 4.1 (cont.): Ejemplo 4.2 (cont.): Observacion: Se cumple que y = 0 + 1 x1 + . . . + K xK , siendo n n n 1X 1X 1X y = yi , x1 = xi1 , ..., xK = xiK . n n n i=1 i=1 i=1 Por tanto, si K = 2, el plano de regresion pasa por el punto de medias muestrales (x1 , x2 , y ). Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 17

18 Inferencia sobre los parametros del modelo Propiedades de los estimadores de los parametros Para j = 0, 1, . . . , K , j j tnK 1 , error tpico de j donde (error tpico de j )2 = sR2 qjj y qjj es el elemento j + 1 de la diagonal de (X0 X)1 . Ejemplo 4.2 (cont.): Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 18

19 Por tanto, para cualquier j = 0, 1, . . . , K , IC1 (j ) = j tnK 1;/2 sR qjj . Ejemplo 4.1 (cont.): Sabiendo que 996.1542 4.1945 0.0215 9.0039 4.1945 0.0293 0.0001 0.0345 (X0 X)1 = , 0.0215 0.0001 0.0000 0.0002 9.0039 0.0345 0.0002 0.0824 calcular intervalos de confianza para los parametros j de la funcion de regresion. Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 19

20 Contrastes de hipotesis individuales sobre los coeficientes Suponiendo que E (Y |X = x) = 0 + 1 x1 + . . . + K xK (se cumple el modelo de regresion lineal multiple), estamos interesados en determinar que variables Xj son significativas para explicar Y . H0 : j = 0 (Xj no influye sobre Y ) H1 : j 6= 0 (Xj influye sobre Y ) La region de rechazo de H0 al nivel de significacion es Rj = {|t(j )| > tnK 1;/2 }, siendo t(j ) = j /error tpico de j . Ejemplo 4.2. (cont.): Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 20

21 O tambien Rj = {0 / IC1 (j )} Ejemplo 4.1. (cont.): Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 21

22 El contraste de la regresion Suponiendo que se cumple el modelo de regresion lineal multiple, queremos contrastar H0 : 1 = . . . = K = 0 (el modelo no es explicativo: ninguna de las variables explicativas influye en la respuesta) H1 : j 6= 0 para algun j = 1, . . . , K (el modelo es explicativo: al menos una de las variables Xj influye en la respuesta) Hacemos un analisis de la varianza: examinamos que proporcion de Xn la variabilidad total VT = (yi y )2 es explicada por el modelo i=1 regresion Y = 0 + 1 x1 + . . . + K xK + U. Se verifica que Xn VT = VE + VNE, donde VE = (yi y )2 . i=1 Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 22

23 Tabla ANOVA para el contraste de la regresion: FV SC gl CM F VE se2 Explicada VE K se2 = F = K sR2 Residual VNE nK 1 sR2 Total VT n1 Bajo H0 : 1 = . . . = K = 0 el estadstico F sigue una distribucion FK ,nK 1 . Por tanto, la region de rechazo de H0 a nivel de significacion sera R = {F > FK ,nK 1, }. Ejemplo 4.1. (cont.): ANLISIS DE VARIANZA SC gl CM F p-valor Regresin 934,328006 3 311,442669 491,138015 8,1236E-13 Residuos 7,60949449 12 0,63412454 Total 941,9375 15 Ejemplo 4.2. (cont.): Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 23

24 Interpretacion de los contrastes Contraste Contrastes Conclusion global (F ) individuales (t) Modelo Todas las Xi explicativas Nos quedamos explicativo con todas las Xi Modelo Algunas Xi explicativas Nos quedamos con explicativo las Xi explicativas Modelo Ninguna Xi explicativa Colinealidad explicativo Modelo no Todas las Xi explicativas Colinealidad explicativo Modelo no Algunas Xi explicativas Colinealidad explicativo Modelo no adecuado Modelo no Ninguna Xi explicativa para describir la explicativo relacion entre Y y X1 , . . . , XK . Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 24

25 El coeficiente de determinacion Es una medida de la bondad del ajuste en el modelo de regresion multiple VE R2 = . VT A R se le denomina coeficiente de correlacion multiple. Propiedades: (i) 0 R 2 1. Cuando R 2 = 1 existe una relacion lineal exacta entre la respuesta y las variables predictivas. Cuando R 2 = 0, sucede que 0 = y y 1 = . . . = K = 0 y no existe relacion lineal aparente entre Y y las Xi . (ii) El coeficiente de regresion multiple es el coeficiente de regresion simple entre la respuesta Y y el valor previsto Y . R2 n K 1 (iii) Se verifica que F = . 1 R2 K Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 25

26 No conviene utilizar el coeficiente de determinacion para comparar distintos modelos de regresion entre s: siempre que introduzcamos un nuevo regresor en el modelo, R 2 aumentara, aunque el efecto del regresor sobre la respuesta no sea significativo. Por ello se define el coeficiente de determinacion ajustado o corregido por grados de libertad sR2 R 2 = 1 , sy2 siendo sy2 = VT/(n 1). R 2 solo disminuye al introducir una nueva variable explicativa en el modelo, si la varianza residual disminuye. K Se cumple que R 2 = R 2 (1 R 2 ) . Por tanto, nK 1 R 2 R 2 . Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 26

27 Contrastes de grupos de coeficientes Queremos contrastar que un subconjunto (1 , . . . , i ), con i < K , del total de coeficientes 1 , . . . , K son cero: H0 : 1 = . . . = i = 0 H1 : Alguno de los j 6= 0, j = 1, . . . , i. Primero efectuamos la regresion con todos los regresores y = 0 + 1 x1 + . . . + K xK . Denotamos por VE(K ) y VNE(K ) la variabilidad explicada y residual con este modelo. Luego planteamos el modelo de regresion bajo H0 y = 00 + i+1 0 xi+1 + . . . + K0 xK y llamamos VE(K i) a la variabilidad explicada por este modelo. Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 27

28 Definiremos la variabilidad incremental explicada por las variables X1 , . . . , Xi como VE(i) = VE(K ) VE(K i) > 0 Rechazaremos H0 , al nivel de significacion , cuando VE(i)/i F = > Fi,nK 1, . sR2 Ejemplo 4.1. (cont.): Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 28

29 Estimacion y prediccion Supongamos que queremos estimar E (Y0 ) o predecir Y0 , siendo Y0 = (Y |X = x0 ) = 0 + 1 x10 + . . . + K xK 0 + U. Entonces una estimacion/prediccion puntual es y0 = 0 + 1 x10 + . . . + K xK 0 . Ejemplo 4.2. (cont.): Estimar la tasa media de respiracion del Parmelia saxatilis cuando el agua que cae sobre el liquen tiene una concentracion de Potasio de 300 p.p.m. y una concentracion de Zinc de 10000 p.p.m. Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 29

30 Colinealidad La estimacion de los parametros en regresion multiple requiere invertir la matriz X0 X. Cuando una de las Xj es combinacion lineal de los restantes regresores, X1 , . . . , Xj1 , Xj+1 , . . . , XK , entonces |X0 X| = 0. Entonces diremos que las variables explicativas son colineales. En la practica esto nunca se dara de manera exacta, aunque s es posible que en un conjunto de datos algunas de las variables se puedan describir muy bien como funcion lineal de las restantes variables. En ese caso, |X0 X| es casi cero. Este problema, llamado multicolinealidad, hace que los estimadores de los parametros i tengan alta variabilidad y sean muy dependientes entre s. Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 30

31 Para identificar las variables colineales primero se examina la matriz de correlacion R entre las variables explicativas. Si existen correlaciones altas entre parejas de regresores, tenemos una situacion clara de multicolinealidad. Sin embargo, es posible que una de las variables explicativas Xi se pueda expresar como combinacion lineal de las restantes y que su correlacion con cada una de estas otras sea baja (ver Pena 2002). Ejemplo 4.1. (cont.): 1 0.731 0.431 R = 0.731 1 0.889 0.431 0.889 1 Ejemplo 4.2. (cont.): Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 31

32 Diagnosis del modelo Se realiza igual que en regresion simple: mediante el analisis de los ei residuos estandarizados ei = , donde hi = x0i (X0 X)1 xi . sR 1 hi Bajo las hipotesis del modelo de regresion multiple, los ei siguen aproximadamente una N(0,1). Ejemplo 4.1. (cont.): Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 32

33 Las hipotesis de linealidad y homocedasticidad se comprueban con un grafico de residuos estandarizados ei frente a valores previstos yi . Este grafico tambien sirve para detectar datos atpicos. Ejemplo 4.1. (cont.): Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 33

34 Transformacion de los datos Ejemplo 4.3: Harrison y Rubinfeld (1978), Hedonic Housing Prices and the Demand for Clean Air, Journal of Environmental Economics and Management, observaron las siguientes variables para n = 506 secciones censales del area metropolitana de Boston. Su objetivo era estudiar si los precios de las casas dependan de la contaminacion en la zona (regresion hedonica). MEDV Mediana del precio de las casas (en miles de $) DIS Media ponderada de distancias a 5 centros de trabajo RAD Accesibilidad a autopistas radiales INDUS Proporcion de superficie de la zona dedicada a empresas e industria CHAS 1 junto al ro Charles, 0 si no NOX Concentracion de oxido ntrico (p.p.109 ) RM Numero medio de habitaciones en las casas AGE proporcion de casas construidas antes de 1940 CRIM Tasa de delincuencia per capita ZN Proporcion de superficie residencial dividida en parcelas de mas de 25000 pies2 TAX Tasa de impuestos de las propiedades por cada $10,000 PT No de estudiantes por profesor B 1000(pB 0.63)2 , siendo pB la proporcion de habitantes de raza negra LSTAT Porcentaje de poblacion con bajo nivel adquisitivo Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 34

35 Los datos estan disponibles en http://lib.stat.cmu.edu/datasets/boston. Estudiemos MEDV en funcion de NOX, RM y LSTAT. Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 35

36 Regresion lineal de MEDV en funcion de NOX, RM y LSTAT: Resumen del modelob R cuadrado Error tp. de la Modelo R R cuadrado corregida estimacin 1 ,799 a ,639 ,637 5,54310 a. Variables predictoras: (Constante), RM, NOX, LSTAT b. Variable dependiente: MEDV ANOVAb Suma de Media Modelo cuadrados gl cuadrtica F Sig. 1 Regresin 27291,884 3 9097,295 296,079 ,000a Residual 15424,411 502 30,726 Total 42716,295 505 a. Variables predictoras: (Constante), LSTAT, NOX, RM b. Variable dependiente: MEDV Coeficientesa Coeficientes Coeficientes no estandarizado estandarizados s Modelo B Error tp. Beta t Sig. 1 (Constante) -,767 3,286 -,233 ,816 RM 5,124 ,447 ,391 11,471 ,000 NOX -1,846 2,651 -,023 -,696 ,487 LSTAT -,623 ,052 -,484 -11,994 ,000 a. Variable dependiente: MEDV Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 36

37 Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 37

38 Ahora estudiemos log(MEDV) en funcion de NOX2 , RM2 y Resumen del modelob R cuadrado Error tp. de la Modelo R R cuadrado corregida estimacin 1 ,835a ,698 ,696 ,22536 a. Variables predictoras: (Constante), LOG_LSTAT, NOX2, RM2 b. Variable dependiente: LOG_MEDV log(LSTAT). ANOVAb Suma de Media Modelo cuadrados gl cuadrtica F Sig. 1 Regresin 58,882 3 19,627 386,467 ,000a Residual 25,495 502 ,051 Total 84,376 505 a. Variables predictoras: (Constante), LOG_LSTAT, NOX2, RM2 b. Variable dependiente: LOG_MEDV Coeficientesa Coeficientes Coeficientes no estandarizado estandarizados s Modelo B Error tp. Beta t Sig. 1 (Constante) 3,841 ,104 37,054 ,000 NOX2 -,243 ,087 -,083 -2,776 ,006 RM2 ,008 ,001 ,183 5,493 ,000 LOG_LSTAT -,446 ,026 -,656 -17,116 ,000 a. Variable dependiente: LOG_MEDV Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 38

39 Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 4: Regresion multiple 39

Load More