Estadística Iii

ESTADSITICA I
Econ. Guillermo Ortiz Choez, Mgs.

Gustavo.ortizc@ug.edu.ec
UNIDAD N° 3
 Objetivo de la unidad: Diferenciar entre los grupos participantes alguna
característica en estudio, datos bivariados a aquellos que provienen
de dos variables medidas al mismo tiempo sobre cada individuo.
Temas:
3.4 Coeficiente de correlación lineal muestral.

3.5 Matriz de varianza y covarianza.
3.6 Matriz de correlación.
Coeficientes de correlación
Un coeficiente de correlación ofrece otra forma de realizar análisis bivariados. El
tipo más común de coeficiente de correlación es el coeficiente de correlación
de Pearson , que es una medida de la asociación lineal entre dos variables. Tiene
un valor entre -1 y 1 donde:
•-1 indica una correlación lineal perfectamente negativa entre

dos variables
•0 indica que no hay correlación lineal entre dos variables
•1 indica una correlación lineal perfectamente positiva entre
dos variables
Esta simple métrica nos da una buena idea de cómo se relacionan dos variables. En
la práctica, a menudo usamos diagramas de dispersión y coeficientes de correlación
para comprender la relación entre dos variables y poder visualizar y cuantificar su
relación.
Coeficientes de correlación
Covarianza
La covarianza es el valor que refleja en qué cuantía dos variables aleatorias

varían de forma conjunta respecto a sus medias.
Nos permite saber cómo se comporta una variable en función de lo que hace
otra variable. Es decir, cuando X sube ¿Cómo se comporta Y? Así pues, la
covarianza puede tomar los siguiente valores:
Covarianza (X,Y) es menor que cero cuando “X” sube e “Y” baja. Hay una
relación negativa.
Covarianza (X,Y) es mayor que cero cuando “X” sube e “Y” sube. Hay una
relación positiva.
Covarianza (X,Y) es igual que cero cuando no hay relación existente entre las
variables “X” e “Y”.
Cálculo de la covarianza
La fórmula de la covarianza se expresa como sigue:
Dónde la y con el acento es la media de la variable Y, y la x con el acento

es la media de la variable X. “i” es la posición de la observación y “n” el
número total de observaciones.
Alternativamente, cuando las frecuencias absolutas no son unitarias (es

decir, los pares i,j se repiten al menos una vez) la fórmula aplicable es la
siguiente:
Propiedades de la covarianza
Han de tenerse en cuenta, a la hora de trabajar con ella las propiedades que tiene y
que se deducen de la definición misma de covarianza:
•Cov (X, b) = 0, siendo b en este caso una constante.

•Cov (X, X) = Var(X) es decir, la covarianza de una variable y de sí misma es igual a la varianza
de la variable.
•Cov (X, Y) = Cov(Y,X) la covarianza es la misma, independientemente del orden en que las
pongamos.
•Cov (b·X, c·Y) = c·b ·Cov(X,Y) siendo b y c dos constantes. La covarianza de dos variables
multiplicadas por dos constantes cualesquiera es igual a la covarianza de las dos variables
multiplicada por la multiplicación de las constantes.
•Cov (b+X, c+Y) = Cov(X,Y) sumar dos constantes cualesquiera a cada variable, no afecta a la
covarianza.
•Cov (X,Y) = E(X·Y) – E(X)·E(Y) o lo que es lo mismo, la covarianza es igual a la esperanza del
producto de las dos variables menos el producto de las dos esperanzas por separado.
Ampliando las propiedades anteriores, en el caso de que

dos variables sean independientes. Es decir, que no tengan
relación estadística alguna, se cumple que:
E(X·Y) = E(X)·E(Y)
Ejemplo de la covarianza
Supongamos que tenemos los siguientes datos de X e Y.
¿Cómo interpretamos este resultado?
Este 4 nos está diciendo, al ser mayor que cero, que estas dos variables tienen una relación
positiva. Para saber la relación ajustada entre las dos variables deberíamos calcular
la correlación lineal. Dos covarianzas de distintas variables no son comparables, ya que el
valor de la covarianza es un valor absoluto que depende de la unidad de medida de las
variables.
Coeficiente de correlación lineal
La correlación, también conocida como coeficiente de correlación lineal (de

Pearson), es una medida de regresión que pretende cuantificar el grado de
variación conjunta entre dos variables.
es una medida estadística que cuantifica la dependencia

lineal entre dos variables, es decir, si se representan en un
diagrama de dispersión los valores que toman dos
variables, el coeficiente de correlación lineal señalará lo
bien o lo mal que el conjunto de puntos representados se
aproxima a una recta.
Coeficiente de correlación lineal
la podemos definir como el número que mide el grado de intensidad y el

sentido de la relación entre dos variables.
Siendo:
Cov (x;y): la covarianza entre el valor «x» e «y».
σ(x): desviación típica de «x».

σ(y): desviación típica de «y».
Valores que puede tomar la correlación
ρ = -1 Correlación perfecta negativa

ρ=0 No existe correlación
ρ = +1 Correlación perfecta positiva
Hablamos de correlación positiva si siempre que el valor «x» sube, el valor «y»
sube, y además con la misma intensidad (+1).
En el caso opuesto, si siempre que el valor «x» sube, y el valor «y» baja, y
además con la misma intensidad, entonces estamos hablando de correlación
negativa (-1).
Es importante saber que esto no quiere decir que lo hagan en la misma

proporción (salvo que tengan la misma desviación típica).
Representación gráfica de la correlación
Correlación perfecta positiva:

No hay correlación:
Correlación perfecta negativa:

Matriz varianza-covarianza
La matriz varianza–covarianza es una matriz cuadrada de dimensión nxm que

recoge las varianzas en la diagonal principal y las covarianzas en los elementos
de fuera de la diagonal principal.
En otras palabras, la matriz varianza-covarianza es una

matriz que tiene el mismo número de filas y columnas y
que tiene distribuidas las varianzas en la diagonal principal
y las covarianzas en los elementos fuera de la diagonal
principal.
Representación de la matriz
La matriz varianza-covarianza acostumbra a expresarse como
Sigma
Aunque parezca que sea el símbolo del sumatorio y que

no tenga ninguna relación con la matriz varianza-
covarianza, esta letra griega representa perfectamente el
contenido de esta matriz.
Para entenderlo, primero vamos a fijarnos en su expresión:
Matriz varianza-covarianza nxm
Sabiendo que hay m columnas, los puntos suspensivos

indican que se ha obviado representar las columnas entre
la segunda y la última columna.
Del mismo modo, sabiendo que hay n filas, los puntos

suspensivos indican que se ha obviado representar las filas
entre la segunda y la última fila.
Para entenderlo, primero vamos a fijarnos en su expresión:
Matriz varianza-covarianza nxm
En este caso, empleamos la sigma para representar las

covarianzas y la sigma al cuadrado para las varianzas. A
modo de ejemplo:
Requisitos para que sea una matriz varianza-covarianza
•Matriz cuadrada: mismo número de

filas (n) que columnas (m), entonces,
n=m, y por tanto, la dimensión de esta
matriz puede expresarse tanto nxm
como nxn.
•En la diagonal principal están

las varianzas: Varianzas de la matriz varianza-covarianza
•Fuera de la diagonal
principal están las covarianzas:
Covarianzas de la matriz varianza-covarianza

Aplicación
La matriz varianza-covarianza es muy popular en

econometría dado que se usa principalmente en el cálculo
matricial de los coeficientes de la regresión lineal
mediante Mínimos Cuadrados Ordinarios, entre otros
usos.
En finanzas, se utiliza para tener una imagen general de

la volatilidad de los activos financieros.
ESTADSITICA I
Econ. Guillermo Ortiz Choez, Mgs.

Gustavo.ortizc@ug.edu.ec
UNIDAD N° 3
 Objetivo de la unidad: Diferenciar entre los grupos participantes alguna
característica en estudio, datos bivariados a aquellos que provienen
de dos variables medidas al mismo tiempo sobre cada individuo.
Temas:
3.1 Análisis Bivariado.

3.2 Covarianza muestral.
3.3 Signos de la covarianza muestral.
Análisis Bivariado
análisis bivariado se refiere al análisis de dos variables.

Análisis Bivariado
El propósito del análisis bivariado es comprender la relación entre dos

variables. Puede contrastar este tipo de análisis con los siguientes:
•Análisis univariante : el análisis de una variable.

•Análisis multivariado: el análisis de dos o más variables.
Análisis Bivariado
Hay tres formas habituales de realizar análisis bivariados:
1. Diagramas de dispersión.
2. Coeficientes de correlación.
3. Regresión lineal simple.
.
Ejemplo
Tipos de análisis bivariante utilizando el siguiente conjunto de datos que
contiene información sobre dos variables: (1) Horas dedicadas al estudio
y (2) Puntaje del examen recibido por 20 estudiantes diferentes:
1. Diagramas de dispersión
Un diagrama de dispersión ofrece una forma
visual de realizar análisis bivariados. Nos
permite visualizar la relación entre dos
variables colocando el valor de una variable en
el eje x y el valor de la otra variable en el eje y.
En el diagrama de dispersión a continuación,

colocamos las horas estudiadas en el eje x y la
puntuación del examen en el eje y:
Podemos ver claramente que existe una relación positiva entre

las dos variables: a medida que aumentan las horas estudiadas,
la puntuación del examen también tiende a aumentar.
2. Coeficientes de correlación
Un coeficiente de correlación ofrece otra forma de realizar análisis bivariados. El
tipo más común de coeficiente de correlación es el coeficiente de correlación
de Pearson , que es una medida de la asociación lineal entre dos variables. Tiene
un valor entre -1 y 1 donde:
•-1 indica una correlación lineal perfectamente negativa entre

dos variables
•0 indica que no hay correlación lineal entre dos variables
•1 indica una correlación lineal perfectamente positiva entre
dos variables
Esta simple métrica nos da una buena idea de cómo se relacionan dos variables. En
la práctica, a menudo usamos diagramas de dispersión y coeficientes de correlación
para comprender la relación entre dos variables y poder visualizar y cuantificar su
relación.
2. Coeficientes de correlación
3. Regresión lineal simple
Con este método, elegimos una variable para que sea una variable explicativa y la otra
variable para que sea una variable de respuesta . Luego, encontramos la línea que mejor
se «ajusta» al conjunto de datos, que luego podemos usar para comprender la relación
exacta entre las dos variables.
Por ejemplo, la línea de mejor ajuste para el conjunto de

datos anterior es:
Puntaje del examen = 69.07 + 3.85 * (horas estudiadas)
Esto significa que cada hora adicional estudiada está asociada

con un aumento promedio en la puntuación del examen de
3,85. Al ajustar este modelo de regresión lineal, podemos
cuantificar la relación exacta entre las horas estudiadas y la
puntuación del examen recibida.
Análisis Bivariado
El análisis bivariado es uno de los tipos de análisis más

comunes que se utilizan en estadística porque a menudo
nos interesa comprender la relación entre dos variables.
Mediante el uso de diagramas de dispersión, coeficientes

de correlación y regresión lineal simple, podemos
visualizar y cuantificar la relación entre dos variables.
Análisis Bivariado
Cuando analizamos una variable y empleamos la estadística descriptiva para
calcular medidas de tendencia central como un promedio, una mediana
y una moda; así también, cuando estimamos la dispersión o variabilidad
como varianza o la desviación estándar hacemos empleo de un análisis
univariado.
De igual manera ocurre cuando analizamos los efectos de una variable

predictora sobre un resultado.
Ahora bien, cuando empleamos dos o más variables en nuestros estudios

o investigaciones, buscando conocer causalidad, efectos o correlaciones
podemos hablar de análisis bivariados o multivariados.
Un análisis bivariado típico puede ser determinar la relación entre la ingesta

de carbohidratos en el peso de las adolescentes.
¿Qué es análisis univariado?
Es la forma más sencilla de analizar datos, realizamos un estudio univariado cuando
empleamos la estadística descriptiva para mostrar el comportamiento de la
variable.
Podemos así analizar la estatura promedio de un grupo de estudiantes, su peso o el

rendimiento estudiantil. Generalmente hacemos énfasis en una variable a la vez.
Medidas de tendencia central como:

•Promedio
•Moda
•Mediana.
Medidas de dispersión, tales como:
•Rango
•Máximo
•Mínimo
•Varianza
•Desviación típica
•Cuartiles, deciles y percentiles.
¿Qué son análisis bivariados?
La línea divisoria entre un estudio univariado y uno bivariado radica en que éste
último busca estrictamente analizar dos variables en conjunto, que bien
podríamos denotar como “X” y “Y” buscando probar relaciones simples de
causalidad o asociación.
En estadística una variante específica de los estudios bivariados recibe el nombre

de “análisis correlacional” simple, a través del cual se busca demostrar que
existe una relación significativa directa o inversa entre dos variables.
Existe una correlación directa entre dos variables cuando un aumento en la
“variable control” (independiente) provoca un cambio similar en la “variable
resultado” (dependiente).
¿Cómo se hace un análisis bivariado?
Paso 1:
El primer paso es observar la naturaleza de la posible relación de

las variables, es decir, cómo estas podrían vincularse: podríamos
tener correlación directa, de manera que cuando una variable
aumenta la otra también lo hará o correlación inversa, cuando un
cambio en una variable mueve a la otra en sentido contrario.
Paso 2:
Un segundo paso tiene que ver con identificar los niveles de

medición de los datos y con ello definimos si se tratan de
valores nominales, ordinales o de ratios.
Un valor nominal no es numérico y ubica al objeto medible en una

categoría, como masculino o femenino. Un dato ordinal ubica a los
datos dentro de un rango. También podemos tener ratios cuyo
rango de valores incluye un cero absoluto.
Paso 3:
El análisis bivariado y multivariado va de la mano con el rigor de la

“significancia estadística” y con ello tomar por sentado que los
resultados que obtenemos serán los mismos que con otra muestra o
estudio similar y no se deben a la mera casualidad.
Para la mayoría de los casos una correlación bivariada asume una

significancia de 0.05 lo que quiere decir que de 100 estudios, 95
concluirán en los mismos resultados y solo 5 se atribuirán al azar.
Para lograr tales niveles de significancia y la confiabilidad en los
estudios se emplean “tamaños mínimos de muestras”.
Paso 4:
Si conocemos las variables y sus niveles de medición, prosigue el

rigor estadístico para determinar si existe relación o no entre las
variables.
Para conocer si existe o no una correlación significativa, la medida

más comúnmente usada es el coeficiente de correlación de
Pearson. Valor que oscila entre -1 y 1, mientras más cercado a tales
límites más fuerte será el grado de asociación inversa (-) o directa
(+) de las dos variables.
Otro indicador análogo muy usado para variables ordinales es el “rho

de Spearman”.
Los estudios o análisis multivariados
Los estudios multivariados son similares a los univariados, a diferencia

que tienen más de dos variable dependiente e independiente.
Otra diferencia importante es que en un análisis de múltiples variables

no hablamos de “correlación simple” ni de estadísticos descriptivos
por si solos, sino que apelamos a otras herramientas estadísticas
llamadas “multivariantes”, tal es el caso de:
•Análisis de varianza (ANOVA)

•El análisis de varianzas múltiples
•Análisis de trayectorias
•Estudio multifactorial
•Los análisis de regresión múltiple.

Estadística Iii

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística Iii

Cargado por

Copyright:

Formatos disponibles

ESTADSITICA I

Econ. Guillermo Ortiz Choez, Mgs.

3.4 Coeficiente de correlación lineal muestral.

•-1 indica una correlación lineal perfectamente negativa entre

La covarianza es el valor que refleja en qué cuantía dos variables aleatorias

La fórmula de la covarianza se expresa como sigue:

Dónde la y con el acento es la media de la variable Y, y la x con el acento

Alternativamente, cuando las frecuencias absolutas no son unitarias (es

•Cov (X, b) = 0, siendo b en este caso una constante.

Ampliando las propiedades anteriores, en el caso de que

¿Cómo interpretamos este resultado?

La correlación, también conocida como coeficiente de correlación lineal (de

es una medida estadística que cuantifica la dependencia

la podemos definir como el número que mide el grado de intensidad y el

Cov (x;y): la covarianza entre el valor «x» e «y».

σ(x): desviación típica de «x».

ρ = -1 Correlación perfecta negativa

Es importante saber que esto no quiere decir que lo hagan en la misma

Correlación perfecta positiva:

Correlación perfecta negativa:

La matriz varianza–covarianza es una matriz cuadrada de dimensión nxm que

En otras palabras, la matriz varianza-covarianza es una

La matriz varianza-covarianza acostumbra a expresarse como

Aunque parezca que sea el símbolo del sumatorio y que

Matriz varianza-covarianza nxm

Sabiendo que hay m columnas, los puntos suspensivos

Del mismo modo, sabiendo que hay n filas, los puntos

Matriz varianza-covarianza nxm

En este caso, empleamos la sigma para representar las

•Matriz cuadrada: mismo número de

•En la diagonal principal están

Covarianzas de la matriz varianza-covarianza

La matriz varianza-covarianza es muy popular en

En finanzas, se utiliza para tener una imagen general de

Econ. Guillermo Ortiz Choez, Mgs.

3.1 Análisis Bivariado.

análisis bivariado se refiere al análisis de dos variables.

El propósito del análisis bivariado es comprender la relación entre dos

•Análisis univariante : el análisis de una variable.

En el diagrama de dispersión a continuación,

Podemos ver claramente que existe una relación positiva entre

•-1 indica una correlación lineal perfectamente negativa entre

Por ejemplo, la línea de mejor ajuste para el conjunto de

Puntaje del examen = 69.07 + 3.85 * (horas estudiadas)

Esto significa que cada hora adicional estudiada está asociada

El análisis bivariado es uno de los tipos de análisis más

Mediante el uso de diagramas de dispersión, coeficientes

De igual manera ocurre cuando analizamos los efectos de una variable

Ahora bien, cuando empleamos dos o más variables en nuestros estudios

Un análisis bivariado típico puede ser determinar la relación entre la ingesta

Podemos así analizar la estatura promedio de un grupo de estudiantes, su peso o el

Medidas de tendencia central como:

En estadística una variante específica de los estudios bivariados recibe el nombre

El primer paso es observar la naturaleza de la posible relación de

Un segundo paso tiene que ver con identificar los niveles de

Un valor nominal no es numérico y ubica al objeto medible en una

El análisis bivariado y multivariado va de la mano con el rigor de la

Para la mayoría de los casos una correlación bivariada asume una

Si conocemos las variables y sus niveles de medición, prosigue el

Para conocer si existe o no una correlación significativa, la medida

Otro indicador análogo muy usado para variables ordinales es el “rho

Los estudios multivariados son similares a los univariados, a diferencia

Otra diferencia importante es que en un análisis de múltiples variables