Prácticas y problemas de regresión lineal simple.

Rita Edwards | Download | HTML Embed
  • Mar 7, 2006
  • Views: 10
  • Page(s): 21
  • Size: 159.78 kB
  • Report

Share

Transcript

1 Captulo 1 Prcticas y problemas de regresin lineal simple. 1.1. Problemas de regresin lineal simple con ordenador. Problema 4.1. Los datos de la tabla adjunta proporcionan la distancia en lnea recta (LR) y por carretera (DC) entre veinte pares de puntos geogrcos (localidades) de She eld. 1. Existe una relacin lineal entre las dos variables? 2. Es sucientemente bueno el modelo de regresin lineal que explica la variable de inters DC en funcin de la variable regresora LR?. Estimar el modelo de regresin lineal. Calcular intervalos de conanza al 90 % para los parmetros del modelo. 3. Calcular la tabla ANOVA del modelo. Conclusiones que se obtienen. 4. Predecir la distancia por carretera entre dos ciudades cuya distancia en lnea recta es 25. Calcular un intervalo de prediccin al 90 %. Repetir el apartado si la distancia (LR) es 50. 5. Existe un modelo linealizable mejor? DC LR DC LR DC LR 100 7 90 5 160 6 120 1 280 8 210 6 60 5 50 0 290 0 220 0 310 2 260 5 290 4 230 0 400 5 280 2 60 5 40 8 170 2 150 2 140 2 120 1 250 7 210 7 180 4 110 4 110 7 90 8 260 5 180 0 190 7 110 8 250 6 190 0 330 1 280 0 160 3 140 6 90 5 80 3 1

2 2 Modelos estadsticos aplicados. Juan Vilar Desarrollo del Problema 4.1. En primer lugar se representa la grca de dispersin de la nube de puntos que permite tener una primera idea acerca de la forma del modelo de regresin. Se utiliza el siguiente mdulo de Statgraphics graficos > graficos de dispersion > grafico x-y Un estudio detallado del modelo lineal simple ajustado se obtiene en dependencia > regresion simple Dentro de este mdulo, en el apartado resumen del procedimiento, se obtiene la recta de regresin estimada (estimacin de los coecientes de 0 y 1 ; desviaciones tpicas, lo que permite calcular intervalos de conanza de los mismos y test de la t). Este apartado tambin proporciona la tabla ANOVA y los coecientes de determinacin. En este problema el coeciente de correlacin es r = 00 969, y se concluye que el ajuste lineal es bueno. El apartado predicciones permite calcular predicciones e intervalos de conanza de la media condicionada y de prediccin para una observacin determinada. Si la recta de regresin se quiere comparar con otros modelos linealizables se puede hacer en el apartado comparacion de modelos alternativos Este mdulo proporciona la correlacin de doce ajustes. Con los datos de este problema los ajustes doble recproco y multiplicativo mejoran ligeramente (en correlacin) a la regresin lineal y habra que evaluar la conveniencia de trabajar con ellos. Para calcular el ajuste de alguno de estos modelos linealizablesse utiliza el apartado de opciones en resumen del procedimiento. Este mdulo tambin proporciona las observaciones con residuos grandes (residuos atipicos), las observaciones inuyentes (puntos influyentes) y diferentes grcos que permiten evaluar la bondad del ajuste y el cumplimiento de las hiptesis bsicas. Problema 4.2. (Datos simulados) Este problema consta de dos partes. En un primer apartado se simula un conjunto de datos bidimensionales (xi ; yi ) que siguen un modelo de regresin lineal simple con diseo jo. En el segundo apartado se estudia el modelo de regresin que mejor se ajusta a los datos simulados en el apartado anterior. La variable regresora X toma los valores 5; 8; 12; 15; 20; 22; 25; 27; 30 y 33: Para cada valor de X se tienen 15 observaciones de la variable respuesta Y; en total, 150 observaciones. Los valores se generan a partir del modelo matemtico Y = 40 + 10 5X + "; donde " sigue una distribucin N 0; 102 : Se seguirn los siguientes pasos:

3 Prcticas y problemas de regresin lineal simple. 3 1. Generacin de la muestra. 2. Hacer un estudio estadstico bsico de la variable condicionada Y =X: 3. Calcular la recta de regresin ajustada a las observaciones simuladas: estimacin de los parmetros, tabla ANOVA, contraste de regresin y de linealidad, intervalos de conanza. Se obtienen resultados congruentes, la recta de regresin ajustada est prxima a la recta generadora de las observaciones? 4. Contrastar las hiptesis estructurales del modelo. Existen datos atpicos? 5. Hacer predicciones para X = 10; 20; 30; 40; 50; 100: Calcular intervalos de conanza y de prediccin. 6. Estudiar otros modelos linealizables. Desarrollo del Problema 4.2. Para generar la muestra por simulacin se siguen los siguientes pasos: - Crear la variable valor_x = 5; 8; 12; 15; 20; 22; 25; 27; 30; 33: - Generar la variable x = rep(15; valor_x): - Generar la variable recta = 40 + 1; 5 x: - Generar la variable error = rnormal(150; 0; 10): - Obtener la variable respuesta y = recta + error . La muestra (simulada) se representa en un grco bidimensional segn el anlisis graficos > graficos de dispersion > grafico x-y Como se dispone de varias observaciones de la respuesta para cada valor de X se debe hacer un anlisis estadstico de la variable condicionada Y =X: Para ello se utiliza el mdulo descripcion > datos numericos > analisis de subgrupo Introducir codes = x. Igual que en el problema anterior el anlisis de regresin se realiza en dependencia > regresion simple En este problema se puede hacer una tabla ANOVA ms completa y el contraste de linealidad en la opcin contraste de falta de ajuste. El desarrollo del resto del problema es anlogo al anterior y como se dispone de un nmero relativamente grande de observaciones se puede hacer un estudio ms completo acerca del cumplimiento de las hiptesis del modelo.

4 4 Modelos estadsticos aplicados. Juan Vilar 1.2. Problema resuelto de regresin lineal simple. Problema 4.3. Los datos de la tabla adjunta muestran el tiempo de impresin (Y ) de trabajos que se han imprimido en impresoras de la marca PR. Se est interesado en estudiar la relacin existente entre la variable de inters tiempo de impresin de un trabajo y la variable explicativa (X) nmero de pginas del trabajo. Utilizando estos datos ajustar un modelo de regresin. Datos de las impresoras x y x y x y 29 0 92 170 14 280 86 300 01 240 56 170 33 170 81 370 25 310 90 440 73 440 43 1 280 07 230 16 190 41 2 3 310 80 410 72 410 32 340 16 220 53 140 70 240 59 280 79 520 55 690 50 650 39 570 48 290 03 450 00 530 52 550 61 520 98 620 85 690 09 4 540 38 470 63 300 11 5 6 650 70 400 11 710 44 570 29 440 34 480 95 450 21 460 63 500 42 830 82 750 38 850 33 660 73 680 17 820 90 1050 73 690 40 840 42 7 780 94 610 07 760 71 8 9 1020 13 1190 82 800 68 600 79 780 34 880 25 640 84 930 93 1020 30 1000 08 740 79 790 82 900 83 0 89 00 10 830 81 710 79 760 20 760 30 Solucin Problema 4.3. Se calculan los estadsticos bsicos de las variables X e Y; Pn n = 75 i=1 xi = 408 x = 50 44 Pn 2 i=1 xi = 2;818 x2 = 370 5733 s2x = 70 9797 sx = 20 82484 Pn i=1 yi = 4;3210 7 y = 570 6227 Pn 2 i=1 yi = 296;397 y 2 = 3;9510 96 s2y = 6310 586 sy = 250 1313 Pn i=1 xi yi = 28;3620 5 xy = 3780 167 sxy = 640 6995 Las estimaciones de los parmetros de la recta de regresin son sxy 640 6995 ^1 = 2 = 0 = 80 108: sx 7 9797

5 Prcticas y problemas de regresin lineal simple. 5 ^0 = y ^ 1 x = 570 6227 80 108 50 44 = 130 515 Se calculan las predicciones y^i Predicciones xi y^i xi y^i xi y^i xi y^i xi y^i 1 210 623 3 370 839 5 540 055 7 700 271 9 860 487 2 290 731 4 450 947 6 620 163 8 780 379 10 940 595 La suma de cuadrados de los residuos (scR) se obtiene como 75 X 75 X 75 X 2 2 e2i = (yi y^i ) = yi 130 515 + 80 108xi = 80250 61: i=1 i=1 i=1 Una forma alternativa, ms sencilla, de calcular scR es 75 75 75 75 ! X X X X e2i = yi2 ^0 yi + ^ 1 xi yi = 80250 61: i=1 i=1 i=1 i=1 La varianza residual es 75 X 1 80250 61 s^2R = e2i = = 1090 94 ) s^R = 100 485: n 2 73 i=1 Las varianzas de los parmetros son s^2R 1090 94 V ar(^ 1 ) = = = 00 1837 ) (^ 1 ) = 00 4286: ns2x 75 70 9797 s^2R x2 1090 94 50 442 V ar(^ 0 ) = 1+ = 1+ = 60 9022 ) (^ 0 ) = 20 6272 n s2x 75 70 9797 Intervalos de conanza (al 90 %) y contrastes de hiptesis sobre los parmetros del modelo son: Intervalo de conanza para 2 (n 2) s^2R 2 2 73 1090 94 2 n 2 ) 73 00 05 2 2 73 00 95 ) 80250 62 540 3245 2 940 0592 ) 80250 62 80250 62 850 325 = 2 = 1470 735: 940 0592 540 3245 Intervalo de conanza para ^ 1 ^1 1 80 108 1 tn 2 ) t73 00 05 t73 00 95 ) (^ 1 ) 00 4286 80 108 1 10 6664 10 6664 ) 00 4286 1 2 80 108 00 4286 10 6664 = 80 108 00 7142 = 70 3938; 80 8222 :

6 6 Modelos estadsticos aplicados. Juan Vilar Intervalo de conanza para ^ 0 ^0 0 130 515 0 tn 2 ) t73 00 05 t73 00 95 ) (^ 0 ) 20 6272 130 515 0 10 6664 0 10 6664 ) 2 6272 0 2 130 515 20 6272 10 6664 = 130 515 40 378 = 90 137; 170 893 : Contraste de hiptesis para ^ 1 (H0 : 1 =0 f rente H0 : 1 6= 0) ^1 ^1 1 80 108 d1 = jH0 = = 0 = 180 917 tn 2 (^ 1 ) (^ 1 ) 0 4286 ) p valor = P jt73 j > 180 917 = 00 0000 ) Se rechaza H0 : Contraste de hiptesis para ^ 0 (H0 : 0 =0 f rente H0 : 0 6= 0) ^0 ^0 0 130 515 d0 = jH0 = = 0 = 50 144 tn 2 (^ 0 ) (^ 0 ) 2 6272 ) p valor = P jt73 j > 50 144 = 00 0000 ) Se rechaza H0 : El coeciente de correlacin es sxy 640 6995 r= = 0 = 00 9113: sx sy 2 82484 250 1313 En el siguiente grco se representa la nube de puntos y la recta ajustada Figura 4.1. Nube de observaciones y recta ajustada.

7 Prcticas y problemas de regresin lineal simple. 7 El grco de residuos frente a las predicciones se observa en el siguiente grco, Figura 4.2. Grco de residuos. Clculo de la tabla ANOVA del modelo. 75 X scR = e2i = 8;0250 61; i=1 75 X scG = (yi y)2 = 75 s2y = 75 6310 586 = 47;3680 95; i=1 X75 scE = (^ yi y)2 = scG scR = 47;3680 95 8;0250 61 = 39;3430 34; i=1 de donde Tabla ANOVA Fuentes de Suma de Grados Varianzas F test p value variacin cuadrados libertad scE (modelo) 39;3430 34 1 s^2e = 39;3430 34 F = 3570 86 00 0000 scR (Residual) 80250 61 73 s^2R = 1090 94 s^R = 100 48 scG (Global) 47;3680 95 74 s^2y = 6400 12 s^y = 250 30 Contraste de regresin. H0;reg : el modelo de regresin lineal ajustado no es inuyente H1 : el modelo ajustado es inuyente

8 8 Modelos estadsticos aplicados. Juan Vilar Si H0;reg es correcto s^2e 0: El estadstico del contraste es d^reg s^2e 39;3430 34 d^reg = = = 3570 86 F1;73 s^2R 1090 94 ) p valorreg = P (F1;73 > 3570 86) = 00 0000: Se rechaza H0;reg y se asume que el modelo ajustado es signicativo. Contraste de linealidad. Dado que para cada valor de x se dispone de varias obser- vaciones de Y; se puede hacer el contraste H0;lin : el modelo lineal es adecuado H1 : el modelo de regresin no es lineal Se descompone scR en dos trminos: 75 X 75 X 75 X 75 X scR = e2i = (yi y^i )2 = (yi: y^i )2 + (yi yi )2 : i=1 i=1 i=1 i=1 75 X scR1 = (yi: y^i )2 = 2;7650 84: i=1 75 X scR2 = (yi yi )2 = 5;2590 77: i=1 X75 75 X scR = e2i = (yi y^i )2 = 2;7650 84 + 52590 77 = 8;0250 61: i=1 i=1 La nueva tabla ANOVA, ms completa, es Tabla ANOVA Fuentes de Suma de Grados Varianzas F test p value variacin cuadrados libertad scE (modelo) 39;3430 34 1 s^2e = 39;3430 34 Freg = 3570 86 00 0000 scR1 2;7650 84 8 s^2R;1 = 3450 731 scR2 5;2590 77 65 s^2R;2 = 800 919 Flin = 40 27 00 0004 scR (Residual) 80250 61 73 s^2R = 1090 94 s^R = 100 48 scG (Global) 47;3680 95 74 s^2y = 6400 12 s^y = 250 30 Si H0;lin es correcto s^2R;1 0: El estadstico del contraste es d^lin s^2R;1 3450 731 d^lin = = = 40 27 F8;65 s^2R;2 800 919 ) p valorlineal = P (F8;65 > 40 27) = 00 0004

9 Prcticas y problemas de regresin lineal simple. 9 Se rechaza H0;lin y se deduce que el modelo lineal no es el que mejor se ajusta a la nube de observaciones. Predicciones. Calcular intervalos de conanza al 90 % para el tiempo medio de impresin de los trabajos que tienen 6 y 12 hojas respectivamente. Calcular intervalos de prediccin al 90 % para el tiempo de impresin de un trabajo que tiene 6 hojas. Calcular el intervalo de prediccin para el tiempo de impresin de un trabajo de 12 hojas. Para xt = 6; el estimador de mt = E(Y =X = 6) es ^ t = 130 515 + 80 108 xt = 130 515 + 80 108 6 = 620 163: m El valor de inuencia (leverage) es ! ! 2 2 1 xt x 1 6 50 44 ht = 1+ = 1+ n sX 75 20 82484 1 = 1 + 00 19822 = 00 013857: 75 1 ) nt = = 720 1651 (nmero de observaciones equivalente): ht La varianza del estimador m ^t s^2R 1090 94 V ar (m ^ t) = = 0 = 10 5235: nt 72 1651 ) (m^ t ) = 10 2343: Un intervalo de conanza al 90 % para mt es mt 620 163 t73 ) 10 2343 mt 2 620 163 t73 00 95 10 2343 ) mt 2 620 163 10 6664 10 2343 = 620 163 20 0568 = 600 106; 640 219 : La prediccin para Y =X = 6 es y^t = 130 515 + 80 108 xt = 130 515 + 80 108 6 = 620 163: La varianza de prediccin es s^2R 1090 94 V ar (^ yt ) = + s^2R = 0 + 1090 94 = 1110 4635 ) nh 72 1651 yt ) = 100 5576: (^

10 10 Modelos estadsticos aplicados. Juan Vilar Un intervalo de prediccin al 90 % para yt es yt 2 620 163 t73 00 95 100 5576 ) yt 2 620 163 10 6664 100 5576 = 620 163 170 593 = 440 569; 790 756 : Anlogamente, se realizan los clculos para xq = 12: El estimador de mt = E (Y =X = 12) es ^ q = 130 515 + 80 108 12 = 1100 811: m Su valor de inuencia es ! ! 2 2 1 xq x 1 12 50 44 hq = 1+ = 1+ n sR 75 20 82484 1 = 1 + 20 32222 = 00 08523 75 1 ) nq = = 110 7323 (nmero de observaciones equivalente): hq La varianza de m ^ q es s^2R 1090 94 V ar (m ^ q) = = 0 = 90 3707: nq 11 7323 ) (m^ q ) = 30 0612: Un intervalo de conanza al 90 % para mq es mq 2 1100 811 t73 00 95 30 0612 ) mq 2 1100 811 10 6664 30 0612 = 1100 811 50 1011 = 1050 709; 1150 912 : La prediccin de Y =X = 12 es y^q = 130 515 + 80 108 12 = 1100 811: s^2R 1 V ar (^ yq ) = + s^2R = 1090 94 +1 = 1190 31: nq 110 7323 ) (^yq ) = 100 923: Un intervalo de prediccin al 90 % para yq es yq 2 1100 811 t73 00 95 100 923 ) yq 2 1100 811 10 6664 100 923 = 1100 811 180 202 = 920 609; 1290 013 :

11 Prcticas y problemas de regresin lineal simple. 11 En la tabla adjunta se pueden comparar las longitudes de los intervalos calculados Longitudes de los intervalos calculados Int. Conanza Int. Prediccin nm. equivalente de (E (Y =x)) de (Y =x) de observaciones xt = 6 0 2 0568 0 17 593 720 1651 xq = 12 50 1011 180 202 110 7323

12 12 Modelos estadsticos aplicados. Juan Vilar 1.3. Problemas propuestos de regresin lineal simple. Problema 4.4. (este problema se puede resolver utilizando calculadora) En la tabla adjunta se presentan el nmero de pginas y el precio de doce libros tcnicos: pginas precio pginas precio pginas precio 310 30 50 400 80 00 420 20 50 300 30 50 170 10 80 610 50 00 280 30 50 430 70 00 420 50 40 310 70 30 230 30 20 450 30 70 Con estos datos se obtiene: (X el nmero de pginas e Y el precio): P12 P12 2 i=1 Xi = 4;330; i=1 Xi = 1;714;700; P12 P12 P12 i=1 Yi = 540 4; i=1 Yi 2 = 2900 62; i=1 Xi Yi = 20;663: 1. Ajustar una recta de regresin que explique el precio en funcin del nmero de pginas e interpretar los resultados. 2. Construir la tabla ANOVA asociada. Es el ajuste adecuado? 3. Calcular intervalos de conanza al 90 % para los parmetros del modelo. 4. Calcular un intervalo de conanza al 90 % para el precio de un libro de 500 pginas. Problema 4.5. La resistencia del cemento (r) depende, entre otras cosas, del tiempo de secado del cemento (t). En un experimento se obtuvo la resistencia de bloques de cemento con diferente tiempo de secado los resultados fueron los siguientes (Hald, A. (1952) Statistical theory with engneering applications. Wiley & Sons). En base a esta muestra, Tiempo (das) Resistencia (kg=cm2 ) 1 130 0 130 3 110 8 2 210 9 240 5 240 7 3 290 8 280 0 240 1 240 2 260 2 7 320 4 300 4 340 5 330 1 350 7 28 410 8 420 6 400 3 350 7 370 3 1. Analizar la posible existencia de una relacin entre estas dos variables. 2. Qu conclusiones se deducen del contraste de regresin y del contraste de linealidad? 3. Si se utilizase un ajuste cuadrtico se obtienen mejores resultados?

13 Prcticas y problemas de regresin lineal simple. 13 4. Estudiar el modelo paramtrico propuesto por A. Hald que estudiba la relacin del logaritmo de la resistencia del cemento sobre la inversa del tiempo de secado. Problema 4.6. La variable (Y ) representa, en miles, el nmero de asnos en Espaa y la (X) el tanto por ciento del presupuesto del Estado dedicado a Educacin. ao Y X ao Y X ao Y X 1920 1;006 50 5 1945 747 90 7 1970 476 120 7 1925 1;162 40 8 1950 732 90 6 1975 386 110 5 1930 1;479 70 8 1955 683 80 9 1980 368 110 4 1935 805 80 2 1960 686 110 4 1940 795 80 6 1965 493 100 6 1. Representar gracamente estos datos. 2. Construir la recta de regresin que explique el comportamiento de la variable tanto por ciento del presupuesto del Estado dedicado a Educacin en funcin de la variable el nmero de asnos en Espaa e interpretar los resultados 3. Es signicativo el coeciente de correlacin entre estas dos variables? 4. Los residuos asociados al ajuste de la regresin lineal son independientes? 5. Representar las variables X e Y frente al tiempo. Calcular los coecientes de cor- relacin y rectas de regresin de las variables X e Y respecto al tiempo. Nota: Estos datos son recogidos del texto de Daniel Pea Estadstica modelos y mtodos. Vol. 2. Modelos lineales y series temporales. Alianza Universidad Textos. Es un claro ejemplo de variables entre las que existe una alta correlacin estadstica pero no existe relacin entre las mismas (correlaciones espreas), su relacin estadstica es debida a la relacin que ambas tienen con una tercera (el tiempo) y que no se tiene en cuenta en el estudio. Problema 4.7. Se llev a cabo un estudio para determinar la relacin entre el nmero de aos de experiencia (X) y el salario mensual, en miles de pesetas, (Y ) entre los informticos de una regin espaola. Se tom una muestra aleatoria de 17 informticos y se obtuvieron los siguientes datos Exper. Salario Exper. Salario Exper. Salario 13 260 1 31 360 4 27 360 0 16 330 2 19 330 8 25 360 5 30 360 1 20 360 5 7 210 4 2 160 5 1 160 9 15 310 0 8 260 4 4 190 8 13 310 4 6 190 1 10 240 6

14 14 Modelos estadsticos aplicados. Juan Vilar 1. Calcular la regresin lineal de la variable salario frente a aos de experiencia. Calcular intervalos de conanza al 95 % para los coecientes de este modelo. 2. Calcular el coeciente de correlacin lineal y el coeciente de determinacin. Con = 00 05 se puede rechazar la hiptesis de que el coeciente de determinacin es cero? 3. Calcular intervalos de conanza al 90 % y 95 % para la prediccin del salario de un informtico que tiene 8 aos de experiencia. 4. Se observa alguna anomala en el grco de los residuos frente a la regresora. Problema 4.8. El siguiente conjunto de datos era tomado sobre grupos de tra- bajadoras de Inglaterra y Gals en el perodo de 1970-72. Cada grupo est formado por trabajadores de la misma profesin (mdicos, trabajadores textiles, decoradores,...etc,) y en cada uno de los veinticinco grupos muestrados se han observado dos variables: el ndice estandarizado de consumo de cigarrillos y el ndice de muertes por cncer de pulmn. (Occupational mortality: the registar generals decennial supplement for England and Wales, 1970-72, series Ds, n.1, London:HMSO,149). x y x y x y 77 84 102 88 133 146 137 116 91 104 115 128 117 123 104 129 105 115 94 128 107 86 87 79 116 155 112 96 91 85 102 101 113 144 100 120 111 118 110 139 76 60 93 113 125 113 66 51 88 104 1. Estudiar la regresin lineal del ndice de mortalidad frente al ndice de fumadores. 2. Calcular la tabla ANOVA. Conclusiones. 3. Comprobar si se verican las hiptesis del modelo. Problema 4.9. Anscombe utiliz el siguiente conjunto de datos para demostrar la importancia de los grcos en el anlisis de regresin y correlacin. Hay cuatro conjuntos de datos bidimensionales (X; Y ), el vector X es el mismo para los tres primeros conjuntos. 1. Para cada uno de los cuatro conjuntos de datos, calcular la recta de regresin de Y frente a X y el coeciente de correlacin. 2. Para cada uno de los cuatro casos, dibujar la grca de Y frente a X y la grca de los residuos frente a las predicciones. Qu conclusiones se deducen?

15 Prcticas y problemas de regresin lineal simple. 15 X1 = X2 = X3 Y1 Y2 Y3 X4 Y4 10 80 04 90 14 70 46 8 60 58 8 60 95 80 14 60 77 8 50 76 13 70 58 80 74 120 74 8 70 71 9 80 81 80 77 70 11 8 80 84 11 80 33 90 26 70 81 8 80 47 14 90 96 80 10 80 84 8 70 04 6 70 24 60 13 60 08 8 50 25 4 40 26 30 10 50 39 8 50 56 12 100 84 90 13 80 15 8 70 91 7 40 82 70 26 60 42 8 60 89 5 50 68 40 74 50 73 19 120 50 Problema 4.10. Los datos de la tabla adjunta muestran la cantidad de ozono reg- istrada (Y ) y su presin parcial (X) para cada capa de altitud. Cada capa tiene aprox- imadamente un kilmetro de altura. Por conveniencia las capas se han escalado a un intervalo de -7 a +7. 1. Hacer una grca de estos datos, es razonable un ajuste lineal? 2. Ajustar una funcin de regresin lineal del ozono frente a la capa. Calcular la tabla ANOVA y los contrastes de regresin y de linealidad. Conclusiones. 3. Analizar detenidamente los residuos. Se verican las hiptesis estructurales del modelo? Son los datos homocedsticos? 4. Existe un modelo no lineal que mejore el ajuste lineal?. Capa Ozono Capa Ozono 530 8 540 8 530 7 550 7 7 7 440 7 380 5 530 3 540 6 550 2 540 1 630 8 640 2 660 9 6 6 600 2 540 9 500 8 670 2 650 4 670 3 5 710 8 730 2 750 6 760 2 720 7 5 730 6 650 4 670 1 790 4 810 1 840 1 4 4 740 8 820 3 760 9 810 2 850 2 830 0 820 8 3 900 3 840 2 880 3 860 0 3 930 6 860 2 870 9 890 5 2 930 2 970 4 980 3 2 920 3 960 6 980 5 1 1020 8 960 9 980 2 1 1010 1 940 6 950 9 0 980 9 960 1 990 6 910 4 Problema 4.11. El chero problema-4-11 contiene once variables de 200 datos. La primera variable se corresponde con el vector de prediccin de un ajuste lineal sim- ple y las restantes diez variables se correponden con diferentes vectores de residuos del

16 16 Modelos estadsticos aplicados. Juan Vilar ajuste. Utilizando bsicamente mtodos grcos (grco de residuos frente a predicciones, histograma, grco de normalidad, grco de residuos frente al ndice, correlograma,....) contratar si se verican las hiptesis bsicas estructurales del modelo de regresin lineal o indagar la existencia de posibles problemas en el ajuste. Problema 4.12. En 34 lotes de 120 libras de cacahuetes se observ el nivel medio de aatoxin (partes por billn) (X) y el porcentaje de cacahuetes no contaminados (Y ) : X Y X Y X Y X Y X Y 30 0 990 971 180 8 990 942 460 8 990 863 120 3 990 956 250 8 990 858 40 7 990 979 180 9 990 932 460 8 990 811 710 3 990 821 180 8 990 975 80 3 990 982 210 7 990 908 580 1 990 877 120 5 990 972 300 6 990 987 90 3 990 971 210 9 990 970 620 3 990 798 120 6 990 889 360 2 990 958 90 9 990 957 220 8 990 985 700 6 990 855 150 9 990 961 390 8 990 909 110 0 990 961 240 2 990 933 710 1 990 788 160 7 990 982 440 3 990 859 830 2 990 830 830 6 990 718 990 5 990 642 1110 2 990 658 1. Analizar estos datos e investigar la relacin entre estas dos variables para predecir Y en funcin de X. Es adecuado el ajuste lineal? 2. Verican los residuos las hiptesis estructurales? 3. Intentar encontrar un ajuste paramtrico que mejore al lineal. Problema 4.13. En quince casas de la ciudad de Milton Keynes se observ durante un perodo de tiempo la diferencia de temperatura promedio (en grados centgrados) entre la temperatura en la calle y la temperatura en casa, y el consumo de gas diario en kWh. Dif. temp Consumo Dif. temp Consumo Dif. temp Consumo 100 3 690 81 130 4 750 32 150 6 860 35 110 4 820 75 130 6 690 81 160 4 1100 23 110 5 810 75 150 0 780 54 160 5 1060 55 120 5 800 38 150 2 810 29 170 0 850 50 130 1 850 89 150 3 990 20 170 1 900 02 1. Hacer una grca de los datos. Existe relacin entre estas dos variables? 2. Se puede explicar el consumo de gas por una relacin lineal con la diferencia de temperatura?. 3. Ajustando un polinomio de mayor grado, se obtiene un mayor coeciente de deter- minacin?, qu modelo es preferible?. Problema 4.14. Se midi la altura (en centmetros) y el peso (en kilogramos) de treinta chicas de once aos del Heaton Meiddle School de Bradford. Estudiar estos datos y la relacin entre ambas variables.

17 Prcticas y problemas de regresin lineal simple. 17 Altura Peso Altura Peso Altura Peso Altura Peso Altura Peso 135 26 141 28 149 46 148 32 149 32 146 33 136 28 147 36 149 34 141 32 153 55 154 36 152 47 141 29 154 50 151 48 140 33 164 47 139 32 155 36 143 42 146 37 131 25 137 31 146 35 137 34 149 44 143 36 133 31 135 30 1. Dibujar la grca de estas observaciones y calcular la recta de regresin de peso frente a altura y la de altura frente a peso. 2. En la regresin lineal de peso frente a altura, se observa alguna observacin atpica?. 3. Existen observaciones inuyentes? 4. Contrastar las hiptesis estructurales del modelo. Problema 4.15. El contenido en hierro de las escorias de los altos hornos puede ser determinada por una prueba qumica en laboratorio o, de forma ms barata y rpida, por un test magntico. Se est interesado en estudiar la relacin entre los resultados del test qumico y del test magntico. En particular, se desea saber si a partir de los resultados del test magntico (X) se pueden estimar los resultados del test qumico (Y ) sobre el contenido del hierro. Para ello, se han realizado los dos test a un conjunto de lotes recogidos secuencialmente en el tiempo. Los resultados obtenidos son los de la tabla adjunta. Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag 24 25 18 19 17 12 21 18 20 21 25 16 16 22 20 10 19 15 24 22 24 18 15 16 24 17 21 23 16 15 15 20 24 20 16 26 18 21 20 20 15 15 20 21 23 25 27 28 18 20 21 19 15 15 20 21 29 20 27 28 10 13 15 15 13 17 25 25 27 18 30 30 14 16 16 16 24 18 27 22 23 19 29 32 16 14 15 16 22 16 22 18 19 16 26 28 25 28 25 36 32 40 28 33 25 33 1. Analizar estos datos. Hacer un estudio descriptivo y grco de los mismos. 2. Estudiar la relacin entre los tests, es adecuado el ajuste lineal? 3. Chequear las hiptesis del modelo. 4. Existe un ajuste linealizable o polinmico que mejore al ajuste lineal?

18 18 Modelos estadsticos aplicados. Juan Vilar Problema 4.16. Utilizando los datos del chero problema-4-16 que contiene datos de variables de coches. 1. Estudiar la regresin lineal entre la variable mpg (miles per galon: inversa del con- sumo) y la regresora accel (aceleracin). Existe un ajuste mejor que el lineal? 2. Estudiar la regresin lineal entre mpg y la regresora weight (peso). 3. Estudiar la regresin lineal entre mpg y la regresora price (precio). 4. Estudiar la regresin lineal entre mpg y la regresora displace. 5. Estudiar la regresin lineal entre price y la regresora accel (aceleracin). 6. Utilizando un ajuste linealizable se mejoran los ajustes lineales estudiados? 7. Estudiar la existencia de datos atpicos y datos inuyentes en los ajustes lineales o linealizables obtenidos. Problema 4.17. Los siguientes datos representan el Producto Nacional Bruto de USA (X) y los gastos de consumo (Y ) en miles de millones de dlares de 1972, entre los aos 1960-1980 Ao 1960 1961 1962 1963 1964 1965 1966 PNB 7370 2 7560 6 8000 3 8320 5 8760 4 9290 3 9840 8 GC 4520 0 4610 4 4820 0 5000 5 5280 0 5570 5 5850 7 Ao 1967 1968 1969 1970 1971 1972 1973 PNB 1;0110 4 1;0580 1 1;0870 6 1;0850 6 1;1220 4 1;1850 9 1;2550 0 GC 6020 7 6340 4 6570 9 6720 1 6960 8 7370 1 7680 5 Ao 1974 1975 1976 1977 1978 1979 1980 PNB 1;2480 0 1;2330 9 1;3000 4 1;3710 7 1;4360 9 1;4830 0 1;4800 7 GC 7630 6 7800 2 8230 7 8630 9 9040 8 9300 9 9350 1 1. Ajustar un modelo lineal e interpretar los coecientes de regresin estimados. 2. Hacer la grca de los residuos frente al tiempo. Estudiar la hiptesis de indepen- dencia. 3. Si existe una autocorrelacin positiva, transformar los datos y ajustar el modelo de regresin lineal a los datos (mnimos cuadrados generalizados). Problema 4.18. Para las compaas de seguros de hogar tiene inters estimar el coste de reemplazar algunos objetos. Una de estas compaas estaba interesada en estimar el coste de reemplazar una coleccin de 1554 libros a partir de una muestra de 100 libros. El coste de los cien libros muestrales se obtena de los catlogos de las editoriales y si algn libro estaba descatalogado su valor se calculaba utilizando el precio de un libro de similares caractersticas. Los precios estn en peniques.

19 Prcticas y problemas de regresin lineal simple. 19 Dado que el valor de los libros era muy variable, en un intento de conseguir una mayor exactitud, se utiliz como regresora para explicar el precio de un libro el ancho del lomo del mismo (medido en milmetros). El ancho total de los 1.554 libros era de 25.182 mm. Los datos de los cien libros se encuentran en el chero problema-4-18. En base a estos datos, se pide: 1. Analizar estadsticamente las variables precio y ancho del libro. 2. Existe una relacin entre ambas variables? 3. Estimar el coste de toda la coleccin. En una primera aproximacin sin tener en cuenta la variable ancho de los libros y, en segundo lugar, teniendo en cuenta esta variable. Problema 4.19. El chero problema-4-19 contiene datos de dos nubes de pun- tos bidimensionales ((x; Y1 ) y (x; Y2 )). Estos datos son debidos a Wampler y los gener por simulacin para comprobar cuando un determinado programa estadstico realiza con exactitud el ajuste por mnimos cuadrados. 1. Ajustar a estas dos nubes de puntos un polinomio. 2. Qu grado de polinomio se debe ajustar?, es el ajuste bueno? exacto?. Problema 4.20. Los datos de la tabla adjunta son el conjunto clsico de datos del test psicolgico de Strong sobre retencin de memoria. Los datos se tomaban de la siguiente manera: un conjunto de individuos memorizaban una lista de objetos inconexos y pasado un tiempo la recordaba. La variable p indica el porcentage de retencin de memoria en promedio y la variable t es el tiempo transcurrido. El objetivo del estudio era explicar la variable p en funcin de t: t p t p t p t p 1 00 84 60 00 54 720 00 36 10080 00 08 5 00 71 120 00 47 1440 00 26 15 00 61 240 00 45 2880 00 20 30 00 56 480 00 38 5760 00 16 1. Analizar este conjunto de datos y estudiar la relacin de la variable p respecto a t: 2. Estudiar analtica y gracmente un modelo del tipo p = exp( t) que sugiere una prdida geomtrica de la memoria. 3. Estudiar analtica y gracmente un modelo del tipo log p = 0 + 1 t: Qu inter- pretacin tiene este modelo?, Qu ajuste es mejor?.

20 20 Modelos estadsticos aplicados. Juan Vilar Problema 4.21. El chero problema-4-21 contiene datos de 78 ciervos de Escocia en los que se estudia el crecimiento de los dientes. Para todos los ciervos de un rebao se supone que el crecimiento de los dientes naliza a la misma edad y despus la velocidad de desgaste es la misma para todos los animales y constante en el tiempo. La aleatoriedad en los resultados es debida al peso de la corona en la madurez que sigue una distribucin normal y la edad de la madurez no es conocida con exactitud. A los ciervos de la muestra se les tomo la edad y el peso en gramos del primer molar. En base a estos datos: 1. Estudiar la relacin del peso respecto a la edad. 2. Hacer los contrastes de regresin y de linealidad. 3. Analizar los residuos, se verican las hiptesis bsicas?. Problema 4.22. En los sitemas productivos de ovejas tiene un gran inters controlar las necesidades energticas de cada animal ya que inuyen en la prediccin de la produccin de carne. Por ello, se ha tomado una muestra de 64 ovejas australianas y, a cada una de ellas, se le control su peso x (en kilogramos), y sus necesidades energticas diarias Y medidas en Mcal/da. Los resultados de la muestra se presentan en el chero problema- 4-22. En base a estos datos muestrales: 1. Estudiar la relacin lineal de Y respecto a x: 2. Estimar la media de consumo energtico de las ovejas que pesan 30, 40, 50 y 60 Kgr. Calcular intervalos de conanza al 90 % para estos valores. Hacer el mismo clculo pero considerando la prediccin del consumo energtico de una oveja de ese peso. Calcular intervalos de prediccin. Problema 4.23. El chero problema-4-23 contiene dos conjuntos de datos bidi- mensionales en los que no existe una relacin lineal pero si es fcil encontrar la relacin existente entre las dos variables. El primer conjunto tiene 25 observaciones de molinos de viento para la produccin de energa elctrica, la variable X1 mide la velocidad del viento y la variable Y 1 mide la corriente elctrica obtenida. El segundo conjunto tiene 19 observaciones relativas a la produccin del papel, la variable X2 mide la resistencia del papel fabricado y la variable Y 2 mide la proporcin de madera en la pulpa a partir de la cual se obtiene el papel. 1. En ambos casos, dibujar la grca de la nube de puntos. 2. Obtener el modelo de regresin que mejor se ajusta a la nube de observaciones. Existe ajustes que mejoran al lineal?, el ajuste realizado es sucientemente bueno? 3. Analizar los residuos de los modelos ajustados.

21 Prcticas y problemas de regresin lineal simple. 21 Problema 4.24. El chero problema-4-24 contiene datos relativos al peso del cuer- po (X; en kilogramos) y el peso del cerebro (Y; en gramos) de 28 especies de animales. En base a estos datos: 1. Se observa en esta nube algn dato atpico? 2. Transformar los datos para que se pueda hacer una grca de los mismos. Realizar la grca de los datos transformados. 3. Ajustar un modelo de regresin lineal a los datos transformados. Es el ajuste adecuado? Interpretarlo. 4. En el modelo transformado Existen datos atpicos?. Problema 4.25. La dureza de los rboles es difcil de medir directamente, sin em- bargo la densidad si es relativamente fcil de medir. Por ello es de gran inters disponer de un modelo que permita predecir la dureza de un rbol a partir de su densidad. Por este motivo se ha tomado una muestra de 36 eucaliptos australianos y se les midi su densidad (X) y su dureza (Y ). Los resultados obtenidos son los de la tabla adjunta. Densidad Dureza Densidad Dureza Densidad Dureza 240 7 484 390 4 1210 530 4 1880 240 8 427 390 9 989 560 0 1980 270 3 413 400 3 1160 560 5 1820 280 4 517 400 6 1010 570 3 2020 280 4 549 400 7 1100 570 6 1980 290 0 648 400 7 1130 590 2 2310 300 3 587 420 9 1270 590 8 1940 320 7 704 450 8 1180 660 0 3260 350 6 979 460 9 1400 670 4 2700 380 5 914 480 2 1760 680 8 2890 380 8 1070 510 5 1710 690 1 2740 390 3 1020 510 5 2010 690 1 3140 En base a estos datos: 1. Estudiar el modelo de regresin lineal de Y respecto a X: 2. Ajustar a estos datos un polinomio de grado a determinar. Se mejora de forma apreciable el ajuste lineal? 3. Con el mejor ajuste predecir la dureza de un rbol de densidad 20, 40, 60 y 80. 4. Calcular intervalos de conanza y de prediccin al 90 % para las estimaciones del apartado anterior. 5. Analizar los residuos del modelo ajustado. 6. Considerar una transformacin de los datos de la dureza (Y ) y ajustar un modelo de regresin. El modelo ajustado con los datos transformados mejora al ajuste polinmico?

Load More