Está en la página 1de 39

ESTADSITICA I

Econ. Guillermo Ortiz Choez, Mgs.


Gustavo.ortizc@ug.edu.ec
UNIDAD N° 3
 Objetivo de la unidad: Diferenciar entre los grupos participantes alguna
característica en estudio, datos bivariados a aquellos que provienen
de dos variables medidas al mismo tiempo sobre cada individuo.

Temas:

3.4 Coeficiente de correlación lineal muestral.


3.5 Matriz de varianza y covarianza.
3.6 Matriz de correlación.
Coeficientes de correlación
Un coeficiente de correlación ofrece otra forma de realizar análisis bivariados. El
tipo más común de coeficiente de correlación es el coeficiente de correlación
de Pearson , que es una medida de la asociación lineal entre dos variables. Tiene
un valor entre -1 y 1 donde:

•-1 indica una correlación lineal perfectamente negativa entre


dos variables
•0 indica que no hay correlación lineal entre dos variables
•1 indica una correlación lineal perfectamente positiva entre
dos variables
Esta simple métrica nos da una buena idea de cómo se relacionan dos variables. En
la práctica, a menudo usamos diagramas de dispersión y coeficientes de correlación
para comprender la relación entre dos variables y poder visualizar y cuantificar su
relación.
Coeficientes de correlación
Covarianza

La covarianza es el valor que refleja en qué cuantía dos variables aleatorias


varían de forma conjunta respecto a sus medias.

Nos permite saber cómo se comporta una variable en función de lo que hace
otra variable. Es decir, cuando X sube ¿Cómo se comporta Y? Así pues, la
covarianza puede tomar los siguiente valores:

Covarianza (X,Y) es menor que cero cuando “X” sube e “Y” baja. Hay una
relación negativa.

Covarianza (X,Y) es mayor que cero cuando “X” sube e “Y” sube. Hay una
relación positiva.

Covarianza (X,Y) es igual que cero cuando no hay relación existente entre las
variables “X” e “Y”.
Cálculo de la covarianza

La fórmula de la covarianza se expresa como sigue:

Dónde la y con el acento es la media de la variable Y, y la x con el acento


es la media de la variable X. “i” es la posición de la observación y “n” el
número total de observaciones.

Alternativamente, cuando las frecuencias absolutas no son unitarias (es


decir, los pares i,j se repiten al menos una vez) la fórmula aplicable es la
siguiente:
Propiedades de la covarianza
Han de tenerse en cuenta, a la hora de trabajar con ella las propiedades que tiene y
que se deducen de la definición misma de covarianza:

•Cov (X, b) = 0, siendo b en este caso una constante.


•Cov (X, X) = Var(X) es decir, la covarianza de una variable y de sí misma es igual a la varianza
de la variable.
•Cov (X, Y) = Cov(Y,X) la covarianza es la misma, independientemente del orden en que las
pongamos.
•Cov (b·X, c·Y) = c·b ·Cov(X,Y) siendo b y c dos constantes. La covarianza de dos variables
multiplicadas por dos constantes cualesquiera es igual a la covarianza de las dos variables
multiplicada por la multiplicación de las constantes.
•Cov (b+X, c+Y) = Cov(X,Y) sumar dos constantes cualesquiera a cada variable, no afecta a la
covarianza.
•Cov (X,Y) = E(X·Y) – E(X)·E(Y) o lo que es lo mismo, la covarianza es igual a la esperanza del
producto de las dos variables menos el producto de las dos esperanzas por separado.

Ampliando las propiedades anteriores, en el caso de que


dos variables sean independientes. Es decir, que no tengan
relación estadística alguna, se cumple que:

E(X·Y) = E(X)·E(Y)
Ejemplo de la covarianza
Supongamos que tenemos los siguientes datos de X e Y.

¿Cómo interpretamos este resultado?

Este 4 nos está diciendo, al ser mayor que cero, que estas dos variables tienen una relación
positiva. Para saber la relación ajustada entre las dos variables deberíamos calcular
la correlación lineal. Dos covarianzas de distintas variables no son comparables, ya que el
valor de la covarianza es un valor absoluto que depende de la unidad de medida de las
variables.
Coeficiente de correlación lineal

La correlación, también conocida como coeficiente de correlación lineal (de


Pearson), es una medida de regresión que pretende cuantificar el grado de
variación conjunta entre dos variables.

es una medida estadística que cuantifica la dependencia


lineal entre dos variables, es decir, si se representan en un
diagrama de dispersión los valores que toman dos
variables, el coeficiente de correlación lineal señalará lo
bien o lo mal que el conjunto de puntos representados se
aproxima a una recta.
Coeficiente de correlación lineal

la podemos definir como el número que mide el grado de intensidad y el


sentido de la relación entre dos variables.

Siendo:

Cov (x;y): la covarianza entre el valor «x» e «y».

σ(x): desviación típica de «x».


σ(y): desviación típica de «y».
Valores que puede tomar la correlación

ρ = -1 Correlación perfecta negativa


ρ=0 No existe correlación
ρ = +1 Correlación perfecta positiva

Hablamos de correlación positiva si siempre que el valor «x» sube, el valor «y»
sube, y además con la misma intensidad (+1).

En el caso opuesto, si siempre que el valor «x» sube, y el valor «y» baja, y
además con la misma intensidad, entonces estamos hablando de correlación
negativa (-1).

Es importante saber que esto no quiere decir que lo hagan en la misma


proporción (salvo que tengan la misma desviación típica).
Representación gráfica de la correlación

Correlación perfecta positiva:


Representación gráfica de la correlación

No hay correlación:
Representación gráfica de la correlación

Correlación perfecta negativa:


Matriz varianza-covarianza

La matriz varianza–covarianza es una matriz cuadrada de dimensión nxm que


recoge las varianzas en la diagonal principal y las covarianzas en los elementos
de fuera de la diagonal principal.

En otras palabras, la matriz varianza-covarianza es una


matriz que tiene el mismo número de filas y columnas y
que tiene distribuidas las varianzas en la diagonal principal
y las covarianzas en los elementos fuera de la diagonal
principal.
Representación de la matriz

La matriz varianza-covarianza acostumbra a expresarse como

Sigma

Aunque parezca que sea el símbolo del sumatorio y que


no tenga ninguna relación con la matriz varianza-
covarianza, esta letra griega representa perfectamente el
contenido de esta matriz.
Representación de la matriz
Para entenderlo, primero vamos a fijarnos en su expresión:

Matriz varianza-covarianza nxm

Sabiendo que hay m columnas, los puntos suspensivos


indican que se ha obviado representar las columnas entre
la segunda y la última columna.

Del mismo modo, sabiendo que hay n filas, los puntos


suspensivos indican que se ha obviado representar las filas
entre la segunda y la última fila.
Representación de la matriz
Para entenderlo, primero vamos a fijarnos en su expresión:

Matriz varianza-covarianza nxm

En este caso, empleamos la sigma para representar las


covarianzas y la sigma al cuadrado para las varianzas. A
modo de ejemplo:
Requisitos para que sea una matriz varianza-covarianza

•Matriz cuadrada: mismo número de


filas (n) que columnas (m), entonces,
n=m, y por tanto, la dimensión de esta
matriz puede expresarse tanto nxm
como nxn.

•En la diagonal principal están


las varianzas: Varianzas de la matriz varianza-covarianza

•Fuera de la diagonal
principal están las covarianzas:

Covarianzas de la matriz varianza-covarianza


Aplicación

La matriz varianza-covarianza es muy popular en


econometría dado que se usa principalmente en el cálculo
matricial de los coeficientes de la regresión lineal
mediante Mínimos Cuadrados Ordinarios, entre otros
usos.

En finanzas, se utiliza para tener una imagen general de


la volatilidad de los activos financieros.
ESTADSITICA I

Econ. Guillermo Ortiz Choez, Mgs.


Gustavo.ortizc@ug.edu.ec
UNIDAD N° 3
 Objetivo de la unidad: Diferenciar entre los grupos participantes alguna
característica en estudio, datos bivariados a aquellos que provienen
de dos variables medidas al mismo tiempo sobre cada individuo.

Temas:

3.1 Análisis Bivariado.


3.2 Covarianza muestral.
3.3 Signos de la covarianza muestral.
Análisis Bivariado

análisis bivariado se refiere al análisis de dos variables.


Análisis Bivariado

El propósito del análisis bivariado es comprender la relación entre dos


variables. Puede contrastar este tipo de análisis con los siguientes:

•Análisis univariante : el análisis de una variable.


•Análisis multivariado: el análisis de dos o más variables.
Análisis Bivariado
Hay tres formas habituales de realizar análisis bivariados:

1. Diagramas de dispersión.
2. Coeficientes de correlación.
3. Regresión lineal simple.
.
Ejemplo
Tipos de análisis bivariante utilizando el siguiente conjunto de datos que
contiene información sobre dos variables: (1) Horas dedicadas al estudio
y (2) Puntaje del examen recibido por 20 estudiantes diferentes:
1. Diagramas de dispersión
Un diagrama de dispersión ofrece una forma
visual de realizar análisis bivariados. Nos
permite visualizar la relación entre dos
variables colocando el valor de una variable en
el eje x y el valor de la otra variable en el eje y.

En el diagrama de dispersión a continuación,


colocamos las horas estudiadas en el eje x y la
puntuación del examen en el eje y:

Podemos ver claramente que existe una relación positiva entre


las dos variables: a medida que aumentan las horas estudiadas,
la puntuación del examen también tiende a aumentar.
2. Coeficientes de correlación
Un coeficiente de correlación ofrece otra forma de realizar análisis bivariados. El
tipo más común de coeficiente de correlación es el coeficiente de correlación
de Pearson , que es una medida de la asociación lineal entre dos variables. Tiene
un valor entre -1 y 1 donde:

•-1 indica una correlación lineal perfectamente negativa entre


dos variables
•0 indica que no hay correlación lineal entre dos variables
•1 indica una correlación lineal perfectamente positiva entre
dos variables
Esta simple métrica nos da una buena idea de cómo se relacionan dos variables. En
la práctica, a menudo usamos diagramas de dispersión y coeficientes de correlación
para comprender la relación entre dos variables y poder visualizar y cuantificar su
relación.
2. Coeficientes de correlación
3. Regresión lineal simple
Con este método, elegimos una variable para que sea una variable explicativa y la otra
variable para que sea una variable de respuesta . Luego, encontramos la línea que mejor
se «ajusta» al conjunto de datos, que luego podemos usar para comprender la relación
exacta entre las dos variables.

Por ejemplo, la línea de mejor ajuste para el conjunto de


datos anterior es:

Puntaje del examen = 69.07 + 3.85 * (horas estudiadas)

Esto significa que cada hora adicional estudiada está asociada


con un aumento promedio en la puntuación del examen de
3,85. Al ajustar este modelo de regresión lineal, podemos
cuantificar la relación exacta entre las horas estudiadas y la
puntuación del examen recibida.
Análisis Bivariado

El análisis bivariado es uno de los tipos de análisis más


comunes que se utilizan en estadística porque a menudo
nos interesa comprender la relación entre dos variables.

Mediante el uso de diagramas de dispersión, coeficientes


de correlación y regresión lineal simple, podemos
visualizar y cuantificar la relación entre dos variables.
Análisis Bivariado
Cuando analizamos una variable y empleamos la estadística descriptiva para
calcular medidas de tendencia central como un promedio, una mediana
y una moda; así también, cuando estimamos la dispersión o variabilidad
como varianza o la desviación estándar hacemos empleo de un análisis
univariado.

De igual manera ocurre cuando analizamos los efectos de una variable


predictora sobre un resultado.

Ahora bien, cuando empleamos dos o más variables en nuestros estudios


o investigaciones, buscando conocer causalidad, efectos o correlaciones
podemos hablar de análisis bivariados o multivariados.

Un análisis bivariado típico puede ser determinar la relación entre la ingesta


de carbohidratos en el peso de las adolescentes.
¿Qué es análisis univariado?
Es la forma más sencilla de analizar datos, realizamos un estudio univariado cuando
empleamos la estadística descriptiva para mostrar el comportamiento de la
variable.

Podemos así analizar la estatura promedio de un grupo de estudiantes, su peso o el


rendimiento estudiantil. Generalmente hacemos énfasis en una variable a la vez.

Medidas de tendencia central como:


•Promedio
•Moda
•Mediana.
Medidas de dispersión, tales como:
•Rango
•Máximo
•Mínimo
•Varianza
•Desviación típica
•Cuartiles, deciles y percentiles.
¿Qué son análisis bivariados?
La línea divisoria entre un estudio univariado y uno bivariado radica en que éste
último busca estrictamente analizar dos variables en conjunto, que bien
podríamos denotar como “X” y “Y” buscando probar relaciones simples de
causalidad o asociación.

En estadística una variante específica de los estudios bivariados recibe el nombre


de “análisis correlacional” simple, a través del cual se busca demostrar que
existe una relación significativa directa o inversa entre dos variables.
Existe una correlación directa entre dos variables cuando un aumento en la
“variable control” (independiente) provoca un cambio similar en la “variable
resultado” (dependiente).
¿Cómo se hace un análisis bivariado?

Paso 1:

El primer paso es observar la naturaleza de la posible relación de


las variables, es decir, cómo estas podrían vincularse: podríamos
tener correlación directa, de manera que cuando una variable
aumenta la otra también lo hará o correlación inversa, cuando un
cambio en una variable mueve a la otra en sentido contrario.
¿Cómo se hace un análisis bivariado?

Paso 2:

Un segundo paso tiene que ver con identificar los niveles de


medición de los datos y con ello definimos si se tratan de
valores nominales, ordinales o de ratios.

Un valor nominal no es numérico y ubica al objeto medible en una


categoría, como masculino o femenino. Un dato ordinal ubica a los
datos dentro de un rango. También podemos tener ratios cuyo
rango de valores incluye un cero absoluto.
¿Cómo se hace un análisis bivariado?

Paso 3:

El análisis bivariado y multivariado va de la mano con el rigor de la


“significancia estadística” y con ello tomar por sentado que los
resultados que obtenemos serán los mismos que con otra muestra o
estudio similar y no se deben a la mera casualidad.

Para la mayoría de los casos una correlación bivariada asume una


significancia de 0.05 lo que quiere decir que de 100 estudios, 95
concluirán en los mismos resultados y solo 5 se atribuirán al azar.
Para lograr tales niveles de significancia y la confiabilidad en los
estudios se emplean “tamaños mínimos de muestras”.
¿Cómo se hace un análisis bivariado?

Paso 4:

Si conocemos las variables y sus niveles de medición, prosigue el


rigor estadístico para determinar si existe relación o no entre las
variables.

Para conocer si existe o no una correlación significativa, la medida


más comúnmente usada es el coeficiente de correlación de
Pearson. Valor que oscila entre -1 y 1, mientras más cercado a tales
límites más fuerte será el grado de asociación inversa (-) o directa
(+) de las dos variables.

Otro indicador análogo muy usado para variables ordinales es el “rho


de Spearman”.
Los estudios o análisis multivariados

Los estudios multivariados son similares a los univariados, a diferencia


que tienen más de dos variable dependiente e independiente.

Otra diferencia importante es que en un análisis de múltiples variables


no hablamos de “correlación simple” ni de estadísticos descriptivos
por si solos, sino que apelamos a otras herramientas estadísticas
llamadas “multivariantes”, tal es el caso de:

•Análisis de varianza (ANOVA)


•El análisis de varianzas múltiples
•Análisis de trayectorias
•Estudio multifactorial
•Los análisis de regresión múltiple.

También podría gustarte