Métodos Estad´ısticos de la Ingenier´ıa Tema 4: Correlación y

Catherine Obrien | Download | HTML Embed
  • Feb 10, 2010
  • Views: 16
  • Page(s): 19
  • Size: 193.71 kB
  • Report

Share

Transcript

1 Metodos Estadsticos de la Ingeniera Tema 4: Correlacion y Regresion Grupo B Area de Estadstica e Investigacion Operativa Licesio J. Rodrguez-Aragon Febrero 2010 Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Variables Bidimensionales 3 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Variables Bidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Frecuencias y Frecuencias Marginales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Distribucion Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Variables Bidimensionales con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Variables Bidimensionales con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Representaciones Graficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Representaciones Graficas con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Representaciones Graficas con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Analisis de la Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Coeficiente de Correlacion de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Correlacion con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Regresion 18 Regresion y Correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Modelo de Regresion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Suma de Cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Regresion Lineal Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Coeficiente de Determinacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Regresion con R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Regresion con R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 summary(Regresion) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Regresion Lineal X sobre Y. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Regresion Exponencial, Potencial e Hiperbolica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Regresion Polinomica y Multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1

2 Contenidos Variables Bidimensionales Frecuencias, Frecuencias Marginales, Distribucion Condicionada, Representaciones Graficas. Frequencies, Marginal Frequencies, Conditional Distributions, Graphs. Correlacion, Correlation. Covarianza y Coeficiente de Correlacion de Pearson. Covariance and Correlation Coefficient. Regresion, Regression. Modelo de Regresion, Regresion Lineal Simple, Coeficiente de Determinacion. Linear Regression, Determination Coefficient. La Regresion tiene como objetivo buscar una funcion que permita explicar una Variable en funcion de otra. A method for fitting a curve (not necessarily a straight line) through a set of points using some goodness-of-fit criterion. The most common type of regression is linear regression. Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 2 / 29 Variables Bidimensionales 3 / 29 Introduccion Hasta ahora, para cada Unidad Estadstica de nuestra muestra, solo hemos observado un determinado Caracter. En la realidad, la mayora de las ocasiones que tomamos una muestra observaremos mas de un Caracter por Unidad Estadstica. Como ya vimos los Caracteres podan ser: Cuantitativos o Cualitativos. El valor que adoptaba un Caracter entre sus distintas Modalidades posibles era una Variable Estadstica. Cuantitativas Discretas o Continuas. Cualitativas Nominales u Ordinales. Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 4 / 29 2

3 Variables Bidimensionales El caso mas sencillo es cuando para cada Unidad Estadstica se observan dos Caracteres distintos. Siendo X e Y dos Variables Estadsticas. La ordenacion de datos bidimensionales se puede efectuar mediante tablas de doble entrada, segun sean: Variables cualitativas o no agrupadas. Variables cuantitativas agrupadas. Se tendra: Para Variables cualitativas o no agrupadas, X \Y y1 ... yj ... yl Totales x1 n11 ... n1j ... n1l n1 .. .. .. .. .. . . . . . xi ni1 ... nij ... nil ni .. .. .. .. .. . . . . . xm nm1 ... nmj ... nml nm Totales n1 ... nj ... nl n Para Variables cuantitativas agrupadas, X \Y [b1 , b2 ) ... [bj , bj+1 ) ... [bl , bl+1 ] Totales d1 ... dj ... dl [a1 , a2 ) c1 n11 ... n1j ... n1l n1 .. .. .. .. .. .. . . . . . . [ai , ai+1 ) ci ni1 ... nij ... nil ni .. .. .. .. .. .. . . . . . . [am , am+1 ) cm nm1 ... nmj ... nml nm Totales n1 ... nj ... nl n Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 5 / 29 Frecuencias y Frecuencias Marginales Se definen entonces las Frecuencias Absolutas y las Frecuencias Relativas: Frecuencia Absoluta de (xi , yj ) es nij . nij Frecuencia Relativa de (xi , yj ) es fij = n . Ademas podemos definir Frecuencias Marginales: Frecuencia Marginal Absoluta ni o ni , suma por columnas o por filas respectivamente. Frecuencia Marginal Relativa fi o fi , suma de las fij por columnas o filas respectivamente. The total row and total column report the marginal frequencies or marginal distribution, while the body of the table reports the joint frequencies. Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 6 / 29 3

4 Distribucion Condicionada Se define la Distribucion Condicionada como la distribucion de una de las variables respecto de un valor concreto de la otra variable. nij fij f (yi |xj ) = = nj fj nij fij f (xi |yj ) = = nj fj Given two jointly distributed random variables X and Y , the conditional probability distribution of Y given X (written Y |X) is the probability distribution of Y when X is known to be a particular value. Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 7 / 29 Ejemplo Pedidos recibidos hoy en nuestra empresa de transporte logstico. En primer lugar observaremos el caracter Cualitativo de la Delegacion Comercial que ha recibido el pedido y en segundo lugar el Producto Solicitado. Resinas Aceites Aditivos Ciudad Real 5 21 28 Puertollano 12 35 19 Completamos la tabla de frecuencias con las Frecuencias Marginales: Resinas Aceites Aditivos Totales Ciudad Real 5 21 28 Puertollano 12 35 19 Totales Frecuencias condicionadas por Delegacion Comercial: Resinas Aceites Aditivos Totales Ciudad Real 1 Puertollano 1 Frecuencias Condicionadas por Producto Solicitado: Resinas Aceites Aditivos Ciudad Real Puertollano Totales 1 1 1 Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 8 / 29 4

5 Variables Bidimensionales con R > Producto Delegacion addmargins(table(Producto,Delegacion)) Delegacion Producto CR P Sum a 4 1 5 o 2 1 3 r 0 2 2 Sum 6 4 10 > margin.table(table(Producto,Delegacion),1) Producto a o r 5 3 2 Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 9 / 29 Variables Bidimensionales con R > Producto Delegacion prop.table(table(Producto,Delegacion),1) Delegacion Producto CR P a 0.8000000 0.2000000 o 0.6666667 0.3333333 r 0.0000000 1.0000000 > prop.table(table(Producto,Delegacion),2) Delegacion Producto CR P a 0.6666667 0.2500000 o 0.3333333 0.2500000 r 0.0000000 0.5000000 Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 10 / 29 5

6 Representaciones Graficas Las representaciones graficas mas usadas son los Diagramas de Rectangulos para Caracteres Cualitativos y diagramas de Barras e Histogramas, para datos Caracteres Cuantitativos. Pedidos Pedidos 35 Puertollano Ciudad Real Ciudad Real Puertollano 50 30 40 25 20 30 15 20 10 10 5 0 0 Resinas Aceites Aditivos Resinas Aceites Aditivos Zona Comercial Zona Comercial Ahora bien, en el caso de parejas de Variables Estadsticas las representaciones mas sencillas son los diagramas de dispersion. 1.5 1.0 0.5 0.0 Y 0.5 1.0 1.5 2 1 0 1 2 X Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 11 / 29 6

7 Representaciones Graficas con R > Producto Delegacion barplot(table(Producto,Delegacion),legend.text=TRUE) > barplot(table(Producto,Delegacion),legend.text=TRUE, + beside=TRUE) 6 4 r a o o 5 a r 3 4 3 2 2 1 1 0 0 CR P CR P Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 12 / 29 7

8 Representaciones Graficas con R > library(UsingR) > Ingresos Ahorros plot(Ingresos,Ahorros) 15000 10000 Ahorros 5000 0 10000 30000 50000 70000 Ingresos Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 13 / 29 8

9 Momentos Se definen los Momentos de orden (r, s) respecto de (v, w): r s P i,j nij (xi v) (yj w) M(r,s) (v, w) = , n teniendo especial interes para (v, w) = (0, 0) y (v, w) = (x, y) Raw Moments, (v, w) = (0, 0). Central Moments, (v, w) = (x, y). Momentos respecto al origen, (v, w) = (0, 0): 1X a0,0 = nij = 1 n ij 1X 1X a1,0 = nij xi = ni xi = x n n ij i 1X 1X a0,1 = nij yj = nj yj = y n n ij j 1X a1,1 = nij xi yj = xy n ij 1X 1X a2,0 = nij x2i = ni x2i = x2 n n ij i 1X 1 nij yj2 = nj yj2 = y 2 X a0,2 = n n ij j Momentos centrales, (v, w) = (x, y): m0,0 = 1, m0,1 = m1,0 = 0 1X m1,1 = nij (xi x)(yj y) = a1,1 a1,0 a0,1 = n i,j = xy x y = sxy = syx = Covarianza 1X 1X m2,0 = nij (xi x)2 = ni (xi x)2 = s2x n n i,j i 1 X 1 X m0,2 = nij (yj y)2 = nj (yi y)2 = s2y n n i,j j Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 14 / 29 9

10 Analisis de la Covarianza 1X sxy = nij (xi x)(yj y) = a1,1 a1,0 a0,1 = xy x y. n i,j 11.0 10.8 10.6 Var2 10.4 10.2 10.0 9.8 1.0 1.2 1.4 1.6 1.8 2.0 Var1 sxy = 0 2.2 2.0 1.8 1.6 Var3 1.4 1.2 1.0 1.0 1.2 1.4 1.6 1.8 2.0 Var1 sxy > 0 8.0 Var4 7.5 7.0 1.0 1.2 1.4 1.6 1.8 2.0 Var1 sxy < 0 Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 15 / 29 10

11 Coeficiente de Correlacion de Pearson La Covarianza posee unidades, las unidades de la Unidad Estadstica al cuadrado. Para conseguir un dato adimensional que nos permita comparar la correlacion entre parejas de variables, se define el Coeficiente de Correlacion de Pearson: sxy r= sx sy 1 < r < 1 Este coeficiente determina el grado de correlacion lineal, pudiendo existir otro tipo de relaciones. Correlation is the degree to which two or more quantities are linearly associated. In a two-dimensional plot, the degree of correlation between the values on the two axes is quantified by the so-called correlation coefficient. Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 16 / 29 11

12 Correlacion con R > Diesel Viscosidad cor(Diesel,Viscosidad) [1] -0.9950753 > plot(Diesel,Viscosidad) 70 65 Viscosidad 60 55 50 45 0 2 4 6 8 10 12 Diesel Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 17 / 29 Regresion 18 / 29 Regresion y Correlacion La Regresion trata de buscar una funcion que permita explicar los valores de una variable en funcion de otra. La Correlacion cuantifica el grado de dependencia o asociacion que liga ambas variables. La regresion persigue: Determinar el tipo de relacion que une a las variables. Ecuacion funcional matematica que representa al modelo. Estimar los parametros del modelo y determinar la bondad del ajuste. Realizar predicciones de la variable respuesta, dentro del rango de valores. Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 19 / 29 12

13 Modelo de Regresion Siendo X la variable explicativa o independiente e Y la variable respuesta o dependiente, tendremos la Regresion Simple: Y = f (X) Si la variable respuesta, Y , depende de varias variables explicativas, X1 , X2 , . . . , Xn , tendremos la Regresion Multiple: Y = f (X1 , X2 , . . . , Xn ) In statistics, regression analysis includes any techniques for modeling and analyzing several variables, when the focus is on the relationship between a dependent variable, Y , and one or more independent variables, X. Segun la naturaleza de la funcion f podemos tener distintos tipos de Modelos de Regresion: Regresion Lineal Simple: Y = a+bX Regresion Polinomica Simple: Y = a + b X + c X2 + d X3 + . . . Regresion Lineal Multiple: Y = a + b1 X1 + b2 X2 + + bn Xn Tambien hay Regresion: Logartmica, Exponencial, Potencial, Hiperbolica, Trigonometrica, etc. Los valores desconocidos que caracterizan la funcion f se denominan Parametros de Regresion, Regression Parameters. Que criterio utilizar para escoger unos valores adecuados para los parametros. Regresin Y=f(X) 1.0 0.5 0.0 Y 0.5 1.0 1.5 3 2 1 0 1 2 X Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 20 / 29 13

14 Suma de Cuadrados Para una observacion dada (xi , yj ) con una frecuencia nij , definimos el error cometido por el modelo de regresion: ij = (yj f (xi )), yj = f (xi ) + ij . El objetivo es minimizar el error cometido por el modelo al explicar la variable respuesta Y en funcion de la variable independiente X: X X SCE = nij 2ij = nij (yj f (xi ))2 . i,j i,j Los parametros del Modelo que minimizan la Suma del Cuadrado de los Errores, definen al Modelo de Regresion. En el caso del Modelo Lineal Simple tendremos: ij = (yj f (xi )), yj = a + b xi + ij . El objetivo es entonces minimizar la Suma del Cuadrado de los Errores: X X SCE = nij 2ij = nij [yj (a + b xi )]2 = G(a, b). i,j i,j The linear least squares fitting technique is the simplest and most commonly applied form of linear regression and provides a solution to the problem of finding the best fitting straight line through a set of points. Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 21 / 29 14

15 Regresion Lineal Simple La recta que explique la dependencia de Y respecto a X, tendra parametros a y b que minimizen la SCE: nij [yj (a + b xi )]2 . X G(a, b) = i,j Para obtener a y b: G(a,b) a =0 G(a,b) b =0 P P P ij nij yj ij nij a ij nij b xi =0 nij b x2i = 0 P P P ij nij yj xi ij nij a xi ij Las ecuaciones normales que resultan de minimizar G(a, b), son: y =a+bx yx = a x + b x2 Resolviendo el sistema, tenemos los valores a y b: a =ybx yxxy sxy b = = s2x x2 x2 Con lo que la recta de regresion de Y sobre X es: sxy y = f (x) = y + (x x) s2x Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 22 / 29 Coeficiente de Determinacion El Coeficiente de Correlacion de Pearson determina el grado de correlacion lineal entre las variables. 1 < r < 1 Se demuestra que para r 2 = 1, la Suma de los Cuadrados de los Errores, SCE= 0. SCE = Gmin = n s2y (1 r 2 ) El Coeficiente de Determinacion, R2 , en este caso de Regresion Lineal Simple coincide con r 2 , expresa el porcentaje de Variabilidad Explicada por el modelo. The overall quality of the fit is then parameterized in terms of a quantity known P as the 2 2 Coefficient of Determination, defined by r , which gives the proportion of (yi y) which is accounted for by the regression. Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 23 / 29 15

16 Regresion con R > Diesel Viscosidad Regresion Regresion Call: lm(formula = Viscosidad ~ Diesel) Coefficients: (Intercept) Diesel 70.425 -2.246 > plot(Diesel,Viscosidad) > abline(Regresion) Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 24 / 29 Regresion con R 70 65 Viscosidad 60 55 50 45 0 2 4 6 8 10 12 Diesel Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 25 / 29 16

17 summary(Regresion) Call: lm(formula = Viscosidad ~ Diesel) Residuals: Min 1Q Median 3Q Max -0.9598 -0.7098 -0.3724 0.9007 1.5250 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 70.42500 0.37018 190.25

18 Regresion Lineal X sobre Y En el caso en que busquemos explicar la dependencia de X respecto de Y , mediante regresion lineal simple: X =a+bY ij = (xi f (yj )), xi = f (yj ) + ij . Regresin X=f(Y) 1.0 0.5 0.0 Y 0.5 1.0 2 1 0 1 2 X nij [xi (a + b yj )]2 . P La SCE a minimizar sera, G(a, b) = i,j G(a,b) a =0 G(a,b) b =0 Resolviendo el sistema, tenemos los valores a y b: a =xby yxxy sxy b = = s2y y 2 y 2 Con lo que la recta de regresion de Y sobre X es: sxy x = f (y) = x + (y y) s2y Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 27 / 29 18

19 Regresion Exponencial, Potencial e Hiperbolica Para los casos de modelos Exponenciales, Potenciales e Hiperbolicos, una transformacion de las variables permite adaptar lo visto para la Regresion Lineal Simple: Exponencial: Y = a bX log(Y ) = log(a) + log(b) X Potencial: Y = a Xb log(Y ) = log(a) + b log(X) Hiperbolica: 1 1 Y = =a+bX a+bX Y Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 28 / 29 Regresion Polinomica y Multiple De forma generica se obtienen los parametros de regresion para ecuaciones Polinomicas o para el caso de Regresion Multiple: Y = f (X; ), = (a, b, c, . . . ). ij = (xi f (yj )), xi = f (yj ) + ij . La Suma de Cuadrados a minimizar sera, X G() = nij [xi f (xi )]2 . i,j G(a, b) =0 Licesio J. Rodrguez-Aragon Tema 4, M.E.I. 29 / 29 19

Load More