Guionestadmodulo4 PDF

Guión del Módulo 4 de Estadı́stica Descriptiva
1. I NTRODUCCI ÓN A LA ESTAD ÍSTICA BIDIMENSIONAL Y LA REGRESI ÓN LINEAL
Consideremos dos variables estadı́sticas X e Y definidas sobre una misma muestra, esto es, para cada individuo de la
muestra obtenemos dos datos, correspondientes a cada una de las variables estadı́sticas.
Ya sabemos como estudiar por separado cada una de las variables estadı́sticas, sin embargo, de lo que se trata ahora
es de ver que relación existe entre dichas variables estadı́sticas e incluso, si el valor de una de ellas permite realizar una
predicción de cuánto valdrı́a la otra.
Un primer paso para enteder la relación entre las dos variables estadı́stica serı́a reprentar gráficamente cada uno de los
puntos correspondientes a los datos de cada uno de los individuos. A dicha gráfica se le conoce como nube de puntos.
2. C OVARIANZA Y REGRESI ÓN LINEAL
Consideremos dos variables estadı́sticas X e Y definidas sobre una misma muestra, y cuyos datos son
(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN ),
donde podrı́an haber repeticiones. De forma aislada, ya sabemos obtener parámetros de centralización y dispersión para
cada una de las variables. De lo que se trata ahora es de obtener parámetro asociadas a la relación y dependencia que existe
entre estas dos variables.
En este apartado introduciremos la covarianza y el coeficiente de correlación, y para el cálculo de estas, utilizaremos
una tabla. Para empezar, calcularemos la media, varianza y desviaciones tı́picas de X e Y , a partir de las expresiones que
ya conocemos:
x2i
P P
xi 2
x̄ = , σX = − x̄2 ,
N N
yi2
P P
yi
ȳ = , σY2 = − ȳ 2 .
N N
Observa que no incluimos las frecuencias absolutas fi dado que añadimos cada dato tantas veces como aparece.
Ası́, las primeras columnas corresponderı́an a los datos xi e yi , la suma de cada columna no servirı́a para calcular x̄ e
ȳ. Después añadiremos dos nuevas columnas para x2i e yi2 , utilizaremos las sumas de estas para calcular las varianzas y
desviaciones tı́picas.
La covarianza es un valor que nos da información acerca de la relación entre X e Y , cuyo valor es:
P
xi · yi
σXY = − x̄ · ȳ.
N
Para el cálculo de esta, añadiremos una nueva columna a la tabla con los productos de datos correspondiente xi · yi ,
cuya suma sustituiremos en la expresión de la covarianza.
Mientras mayor es el valor absoluto de la covarianza (esto es, mayor sea la covarianza ignorando el signo), mayor es
la dependencia entre las variables, y si la covarianza es próxima a 0, las variables son prácticamente independientes, no
existe relación entre ellas. Por otra parte, valores positivos de la covarianza indica un comportamiento similar en cuanto a
que si una crece, la otra lo hace y recı́procamente, mientras que una covarianza negativa indicamente un comportamiento
inverso.
Uno de los mayores problemas de la covarianza es que le afectan los cambios de escala.
Como ya hemos dicho, uno de los objetivos principales de la estadı́stica bidimensional es generar a partir de algunos
datos, un método para predecir el valor de una variable, a partir de un valor de la otra. Lo ideal serı́a encontrar una
función, o más concretamente, una expresión que relacionara a ambas variables. Nosotros nos restringiremos a la regresión
lineal, esto es, buscar expresiones polinómicas de grado 1. Ası́, pensando en la representación gráfica, buscamos rectas que
“aproximen”la nube de datos.
En primer lugar, deberı́amos indicar con que criterio deseamos obtener esa aproximación. Lo haremos utilizando el
método de mı́nimos cuadrados, no entraremos en ello aquı́, simplemente presentaremos las expresiones resultantes.
Aı́, obtendremos dos rectas que reciben el nombre de rectas de regresión, con expresiones que depende de si queremos
obtener un estimación de y a partir de un valor de x, esta serı́a la recta de regresión de y sobre x, y tiene por expresión
σXY
y − ȳ = 2 (x − x̄)
σX
y aquella que permite obtener estimaciones de x a partir de valores de y, que serı́a la recta de regresión de x sobre y, y tiene
por expresión
σXY
x − x̄ = 2 (y − ȳ).
σY
Observa que ambas rectas pasan por el punto cuyas coordenadas son las medias de X e Y.
Finalmente, el último de los parámetros que introducimos es el coeficiente de correlación, cuya expresión es
σXY
r= .
σX · σY
Este valor nos da información acerca de la relación lineal entre X e Y , en cuanto a lo buenas que son las estimaciones que
se obtienen mediante las rectas de regresión. Ası́ se tiene que valores próximos a 0 indican independencia, y próximos a 1
o −1, relación fuerte. Al igual que la covarianza, valores positivos indican comportamiento similar en cuanto a crecimiento
o decrecimiento y valores negativo significan comportamiento inverso.
A diferencia de la covarianza, al coeficiente de correlación no le afectan los cambios de escala.

Guionestadmodulo4 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guionestadmodulo4 PDF

Cargado por

Copyright:

Formatos disponibles

Guión del Módulo 4 de Estadı́stica Descriptiva

1. I NTRODUCCI ÓN A LA ESTAD ÍSTICA BIDIMENSIONAL Y LA REGRESI ÓN LINEAL

2. C OVARIANZA Y REGRESI ÓN LINEAL

(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN ),

También podría gustarte