Está en la página 1de 69

Unidad I.

Organización,
presentación y
descripción de datos
M . C . N A N C Y TO R I Z R O B L E S

2020 -2021

II SEMESTRE
Aplicar la estadística
descriptiva para la
organización, presentación
gráfica y cálculo de cantidades
Objetivo representativas de un grupo
de datos.
Contenido
1. Introducción
2. Organización y presentación de datos
3. Medidas de localización
4. Medidas de dispersión
5. Selección de medidas descriptivas
¿Qué es la Estadística?
¿A qué la aplico?
¿Cuándo la aplico?
¿Qué me interesa?
¿Qué es la Estadística?
✓ Como rama de las matemáticas, y utilizando el cálculo de
probabilidades, la estadística estudia los fenómenos o experimentos
aleatorios intentando deducir leyes sobre los mismos y aplicando
dichas leyes para la predicción y toma de decisiones.

✓ Ciencia que utiliza conjuntos de datos numéricos para obtener, a


partir de ellos, inferencias basadas en el cálculo de probabilidades.

✓ Estudio que reúne, clasifica y recuenta todos los hechos que tienen
una determinada característica en común, para poder llegar a
conclusiones a partir de los datos numéricos extraídos.
Fuentes de información
“confiables”
Atendiendo a su procedencia o generación, las llamadas fuentes de
información se clasifican en:

➢Fuentes de Información Primaria


Información que reúne o genera el investigador para alcanzar los
objetivos del proyecto, análisis o estudio de un fenómeno.

➢Fuentes de Información Secundaria

Recabada por empresas o agentes ajenos a la propia investigación.

Suele ser información elaborada en otras investigaciones o


recopilada y difundida por organismos oficiales.
Clasificación de la Estadística
Estadística descriptiva: describe, analiza y representa un
grupo de datos utilizando métodos numéricos y gráficos
que resumen y presentan la información contenida en
ellos.

Estadística inferencial: efectúa estimaciones, toma de


decisiones, formula predicciones apoyándose en cálculo
de probabilidades y a partir de datos muestrales.
Conceptos básicos
Población: Conjunto sobre el que se centra el objetivo de un análisis o
investigación estadística. Esta compuesta por unidades a las que se
denomina elementos (individuos).

Cantidad de estudiantes del DIA Cantidad de peces en el mar


Cantidad de productos elaborados en una hora Cantidad de litros de agua en un mar.
Cantidad de autos en una fábrica Cantidad de granos en un kilo de sal
Conceptos básicos
Muestra: Subconjunto representativo de la población al que tenemos
acceso y sobre el que realmente hacemos observaciones (mediciones).

Inferencia: son las afirmaciones Un estadístico se define como


válidas acerca de la población o cualquier función de los datos
proceso basadas en la información muestrales que no contiene
contenida en la muestra parámetros desconocidos
Población de Aliens

Muestra de Aliens
Conceptos básicos
Dato: Manifestación de un fenómeno de forma cualitativa o numérica.

Censo: Observación de la/s característica/s en todos los elementos de


una población.

Encuesta: Método de medición de una o más variables en una muestra.


Estamos interesados en estudiar un fenómeno de una
población
CENSO
Limitaciones Imposibilidad
Conceptos básicos
Variable: Característica observable que varía entre los diferentes
individuos de una población. La información que disponemos de cada
individuo es resumida en variables.
Ejemplos:
▪ Sexo (hombre / mujer)
▪ Salario bruto anual
▪ Tipo de contrato (duración indefinida / duración determinada)
▪ Edad (en años cumplidos)
▪ Nacionalidad
▪ Altura
▪ Peso
Clasificación de variables
➢Cualitativas: describen cualidades de un objeto o individuo (no se pueden hacer operaciones
algebraicas con ellas):
➢ Nominales: Si sus valores no se pueden ordenar
➢ Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)
➢ Ordinales (semicuantitativas): Si sus valores se pueden ordenar
➢ Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor

➢Cuantitativas o numéricas: sus valores son numéricos (tiene sentido hacer operaciones algebraicas
con ellos)
➢ Discretas: Si toma valores enteros
➢ Número de hijos, Número de libros leidos, Num. de “cumpleaños”
➢ Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
➢ Altura, Salario bruto anual, Gasto farmaceútico, edad (años, meses, horas…)
1. Mi primer salario:

2. ¿Qué tanto me gustó el viaje de


Introducción a la Agroindustria?

Ejercicio 1
3. Número de grupos en el
Clasificar las Departamento de Ingeniería
siguientes variables Agroindustrial:

4. Estados de procedencia del grupo:


1. Mi primer salario: Cuantitativa
Continua

2. ¿Qué tanto me gustó el viaje de


Introducción a la Agroindustria?
Ejercicio 1 Cualitativa Ordinal
Clasificar las
siguientes variables 3. Número de grupos en el
Departamento de Ingeniería
Agroindustrial: Cuantitativa Discreta

4. Estados de procedencia del grupo:


Cualitativa Nominal
Tabulación de datos
Proceso de ordenación y agrupamiento de un conjunto de datos

✓ Tamaño de la población: N
✓ Valores de la variable o modalidades: xi
✓ Número de modalidades: k
✓ Recorrido o campo de variación: {x1, ... , xk }
✓ Supuesto: x1 < x2 < ... < xk

Frecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de


veces que se presenta una característica.
Tabulación de datos
Definimos:

𝒏𝒊 frecuencia absoluta: número de veces que se observa (𝒏𝒊 ) o


repite el dato xi

𝒇𝒊 frecuencia relativa: porcentaje de observaciones sobre el total


𝒇𝒊 = 𝒏𝒊 Τ𝑵

𝑵𝒊 frecuencia absoluta acumulada: número de datos menores o


iguales que xi

𝑭𝒊 frecuencia relativa acumulada: porcentaje por debajo o igual


a xi
𝑭𝒊 = 𝑵𝒊 Τ𝑵
¿De donde eres originari@?
¿Qué tanto te gustan las verduras?
¿Qué tipo de variables son?

Ejercicio 2
https://docs.google.com/for
ms/d/e/1FAIpQLSe9yGPP4-
AHYL1jNLT7iq0alLRwiO23L4
UX5UL1AnX777R80Q/viewf
orm?usp=sf_link

Elabora una tabla de frecuencia


para cada una de las variables
¿Cuántos años tienen tus papás?

¿Qué tipo de variable es?

Ejercicio 3
https://docs.google.com/for
ms/d/e/1FAIpQLScg7dRh7b
D9vzZ0TebVdQ54VlAURGOD
u2sIw9QEx3OmYoRQKQ/vie
wform?usp=sf_link

¿Cómo elaborar una tabla de


frecuencia?
Tabulación de datos: variables
cuantitativas
¿Como construir los intervalos?
1. Dividir el rango de las mediciones (la diferencia entre la medición más
grande y la más pequeña) entre el número aproximado de clases de
intervalo deseadas. Generalmente se recomiendan de 5 a 20
intervalos de clase.
2. Después de dividir el rango por el número deseado de intervalos,
redondear el número resultante a una unidad conveniente. Esta
unidad representa un ancho común para los intervalos de clase.
3. Seleccionar el primer intervalo de clase de tal manera que contenga
la medición más pequeña.
4. Elaborar la tabla de frecuencias.
Tabulación de datos: variables
cuantitativas
A considerar:
➢Para que los gráficos permitan
visualizar tendencias de la variable en
estudios, el número de clases se
recomienda que no sean menor de 3
ni mayor de 20.
➢Al ancho de clase se debe variar entre
3 y 20.
➢Hay que utilizar más clases cuando se
tiene más datos disponibles, si el
número de clases es muy grande es
posible tener clases vacías, si es
demasiado pequeño podrían quedar
ocultas características importantes de
los datos al agruparlos.
Tabulación de datos: variables
cuantitativas
Ejercicio: los siguientes datos corresponden al ingreso semanal de 24 familias.

1. Calcular el rango de los datos.


2. Determinar el número de clases (5clases).
3. Determinar el ancho (amplitud) de clase. Se ajusta a 100 y de esta manera el
número de clases queda en cinco. Se construyen los límites inferior y
superior de cada clase como intervalos semiabiertos.
4. Se cuentan las frecuencias por clase, esto es la Frecuencia Absoluta.
5. Se completa la tabla.
Tabulación de datos: variables
cuantitativas
Ejercicio: los siguientes datos corresponden al ingreso semanal de 24 familias.
Construcción de tablas de
frecuencia en Excel
https://www.youtube.com/watch?v=bKK0kXzwpgs
Representaciones gráficas
Para Variables Cualitativas o Atributos
Pictogramas
Diagramas de Sectores / Pastel / Circulares
Diagrama de Barras
Diagramas de cajas

Para Variables Cuantitativas Discretas


Diagrama de Barras

Para Variables Cuantitativas Continuas


Histograma
Polígonos de Frecuencias
Pictograma
Es un diagrama que
utiliza imágenes o
símbolos para
mostrar datos para
una rápida
comprensión. En una
pictograma, se utiliza
una imagen o un
símbolo para
representar una
cantidad específica.
Fuente: SAGARPA, 2017.

Diagramas de Sectores / Pastel / Circulares


Utilizada para representar porcentajes y proporciones
Diagrama de
Barras
Diagrama de Cajas
-Permite identificar gráficamente la
mediana, los cuartiles 1 y 3
(percentiles 25 y 75), mínimo y
máximo de una variable.
- Sólo es útil para variables
cuantitativas.
-El eje x permite identificar la
población en estudio.
- El eje y representa los valores de
la variable en estudio.
Distribución Variable
Cuantitativa Discreta
- El eje x se refiere a la variable.
- El eje y se refiere a la frecuencia.
- Cada línea representa la frecuencia de la
variable en la población de estudio (o la
muestra).
-se puede construir desde los datos de la tabla
de frecuencia de la variable en estudio.
Histogramas
- Permite la representación de la
frecuencia de una variable
Cuantitativa Continua.
- El eje x se refiere a la variable.
- El eje y se refiere a la frecuencia.
- Cada barra representa la
frecuencia de la variable en la
población de estudio (o la
muestra).
-El histograma se puede construir
desde los datos de la tabla de
frecuencia de la variable en
estudio.
Histogramas
➢ Efecto de la amplitud del intervalo.
Histogramas
¿Qué podemos ver en
un histograma?

➢ Rango de los
datos (Mínimo –
Máximo).

➢ Intervalos más
frecuentes.

➢ Simetría o
Asimetría.
Polígonos de frecuencias
16

14

Frecuencia Absoluta
12

10

Polígonos de 4

Frecuencia 2

0
-Esta representación se 1,465 1,497 1,529 1,561 1,593 1,625 1,657 1,689

basa en el histograma. Marca de clase

-Sólo es útil para variables Polígonos de frecuencias acumuladas


cuantitativas.
9000

7.989 8.052 8.102 8.108

-El eje x se refiere a la 8000


7.458
7.792

variable. 7000
6.948

5.943
6000

- El eje y se refiere a la 5000


4.951

frecuencia. 4000
3.829

3000

-Los puntos que permiten


la unión de las líneas
2000

981

representa el centro de 1000

clase (o marca de clase). 0

Menos De 101 De 501 De De De De De De De Más de


de 101 a 500 a 1.000 1.001 a 2.001 a 5.001 a 10.001 a 20.001 a 50.001 a 100.001 500.000
2.000 5.000 10.000 20.000 50.000 100.000 a
500.000
Construcción de tablas de
frecuencia e histograma en Excel
https://www.youtube.com/watch?v=CmSZwmoGnJY
¿Qué es lo que hemos visto?
1. Definición de estadística y su clasificación
2. Fuentes de información confiables (primaria / secundaria)
3. Conceptos básicos de Estadística
◦ Población
◦ Muestra
◦ Variable
4. Clasificación de variables
◦ Cualitativas: nominales y ordinales
◦ Cuantitativas: discretas y continuas
5. Distribución de frecuencias
◦ Frecuencias absolutas
◦ Frecuencias relativas
◦ Frecuencias acumuladas
6. Representaciones gráficas
Cálculo y selección de medidas
descriptivas
➢ Resumiremos la información de los datos mediante medidas de fácil
interpretación que reflejen sus características más relevantes.
➢ Las medidas resúmenes son útiles para comparar conjuntos de datos y
para presentar los resultados de un estudio.

Se clasifican en dos grupos principales:


❖ Medidas de posición / localización / tendencia: describen un valor
alrededor del cual se encuentran las observaciones.

❖ Medidas de dispersión o escala: pretenden expresar cuán variable


es un conjunto de datos.
-Media Aritmética
(Promedio)
Medidas de Tendencia Central -Mediana
-Moda

¿Cuál es el valor central o que mejor representa a los datos?


Buscamos un valor típico que represente a los datos.
Si la distribución es simétrica diferentes medidas darán resultados
similares y hay un claro valor de centrado.
Si es asimétrica no existe un centro evidente y diferentes criterios para
resumir los datos pueden diferir considerablemente.
Media aritmética (promedio)
➢ La media aritmética o simplemente media de un conjunto de mediciones es la
medida de tendencia central más usada y conocida.

➢ Se simboliza como 𝒙ഥ cuando representa la media de una muestra y como 𝜇


para representar la media poblacional. Para ambos, son la suma de todos los
valores de la muestra o población divididos por el número de casos.
σ𝒏
𝒊=𝟏 𝒙𝒊 σ𝑵
𝒊=𝟏 𝒙𝒊
ഥ=
𝒙 𝝁=
𝒏 𝑵
➢ Donde:
➢ 𝑛 es el tamaño de la muestra o bien 𝑁 es el tamaño de la población.

Ejercicio: considerando que la población de estudio es el grupo, calcular la media


aritmética considerando que la variable es la estatura en centímetros.
Mediana
➢ La mediana (Me) de un conjunto de 𝒏 números, ordenados de menor a
mayor, es el número central en el arreglo. El 50% de los elementos de la
población tienen un valor de la variable menor o igual que la mediana.
➢ Si 𝒏 es un número non, solo hay un valor central en el arreglo.
➢ Si 𝒏 es un número par, hay dos valores centrales, y la media debe tomarse
como la media aritmética de estos dos valores.
➢ Ejemplo: calcular la mediana para los números 27, 3.4, 3.2, 3.3 y 3.1
➢ Primero se ordenan:

3.1, 3.2, 3.3, 3.4, 27

Ejercicio: con los datos anteriores, calcular la mediana.


Moda
➢ La Moda (Mo) de un conjunto de datos es el valor (si existe) que ocurre con
mayor frecuencia.

➢ Si es un valor único decimos que la distribución de frecuencias es unimodal.

➢ Si tiene dos o más valores con la misma frecuencia máxima decimos que la
distribución es bimoda, trimodal, multimodal, etc.

➢ En una tabla de frecuencias la moda se define como el valor medio de la clase


cuya frecuencia tiene el valor mayor, la cual recibe el nombre de clase modal.

Ejercicio: cual es la moda de las edades del grupo.


Relación media – mediana –
moda
Otras medidas…
Además de la mediana, pueden definirse otros estadísticos de orden si, en
lugar de considerar la mitad de los datos, tomamos otra fracción, cuando los
n datos están ordenados de menor a mayor.

➢ Percentil (1 a 100). El percentil 25 (25/100): es el valor de la variable que


reúne al menos el 25% de los datos.
▪ Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que
este en la posición 20.

➢ Decil (1 a 10). El Decil 4 (4/10): es el valor de la variable que reúne al


menos el 40% de los datos.
➢ Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que
este en la posición 32.
Otras medidas…
➢ Cuantil o cuartil (1 a 4). Los
cuantiles de uso más frecuente son
los cuartiles Q1 y Q3.
➢ Q1 es el cuantil de orden 1/4
(25%) y Q3 el cuantil de orden
3/4 (75%).

➢ La mediana es el percentil del 50%,


el decil 50% y el segundo cuantil.
Graficas Box – Plot
➢ Permite identificar gráficamente la mediana, los Q1 y Q3 (percentiles 25 y
75), mínimo y máximo de una variable.
➢ Sólo es útil para variables cuantitativas.
➢ El eje 𝑥 permite identificar la población en estudio.
➢ El eje 𝑦 representa los valores de la variable en estudio.
Graficas Box – Plot
Construir la grafica Box – Plot a
partir del siguiente conjunto de
datos (peso en kg de un grupo
de alumnos de bachillerato).
Medidas de dispersión
➢ Las características de dispersión son estadísticos que nos proporcionan una
medida del mayor o menor agrupamiento de los datos respecto a los valores
de tendencia central.

➢ Son tan importantes como las medidas de tendencia central y así como éstas
son valores puntuales en una distribución, las medidas de dispersión son
intervalos, distancias o un número de unidades en la escala de medición.

➢ Este tipo de medida se complementa con las medidas de tendencia central y


juntas permiten describir a la mayoría de las distribuciones.

➢ Todas ellas son valores mayores o iguales a cero, indicando un valor 0 la


ausencia de dispersión.
Medidas de dispersión
Supongamos que se realiza una
prueba con 6 preguntas a 3
grupos de 40 alumnos, donde
Xi es el número de preguntas
correctas.
¿Cuál es la media de cada
grupo? 3.5
Frecuencia Absoluta

Frecuencia Absoluta
Frecuencia Absoluta

17 17 7 7 7 7
16 16 6 6

1 2 2 1 3 1 1 3

1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
Grupo 1 Grupo 2 Grupo 3
¿Qué se observa en las imágenes?
Rango
❖ El Rango, Recorrido o Amplitud de un conjunto de mediciones, es la
diferencia entre el valor máximo y el mínimo.

𝑅𝑎𝑛𝑔𝑜 = max 𝑥𝑖 − min(𝑥𝑖 )


❖ Es la medida de dispersión más fácil de calcular, pero también es la
menos estable al estar fuertemente influenciada por valores extremos
atípicos.
❖ Cuanto más grande es el rango, mayor será la dispersión de los datos de
una distribución.
❖ Es adecuada para medir la variación de pequeños conjuntos de datos.

Ejercicio
¿Cual es el rango de las edades de hombres y mujeres del grupo?
¿Quiénes presentan mayor variación?
Desviación Estándar
❖ Es la medida de dispersión más ampliamente usada. Es la más estable ya que
depende de todos los valores de la distribución.
❖ Se expresa en la misma unidad de medida que la media y los datos.
❖ A medida que aumenta la desviación estándar >>> mayor diversidad habrá
entre las observaciones de una muestra
Población Muestra

σ𝑵
𝒊=𝟏 𝒙𝒊 − 𝝁
𝟐 σ𝒏𝒊=𝟏 𝒙𝒊 − 𝒙
ഥ 𝟐
𝝈= 𝑺=
𝑵 𝒏−𝟏

❖ Donde
❖ 𝑵 tamaño de la población
❖ 𝒏 tamaño de la muestra
❖ 𝒊 = 𝟏, 𝟐, … 𝑵 ó 𝒏 número de datos
Varianza
➢ Es una medida que se usa en pruebas de hipótesis estadísticas, p. ej.
ANOVA.
➢ La varianza es la desviación estándar elevada al cuadrado.

Población Muestra
𝑵 𝟐 σ𝒏 𝟐
σ𝒊=𝟏 𝒙𝒊 − 𝝁

𝒊=𝟏 𝒙𝒊 − 𝒙
𝟐
𝝈 = 𝑺𝟐 =
𝑵 𝒏−𝟏

Para fines descriptivos se prefiere usar la desviación ❖ Donde


❖ 𝑵 tamaño de la población
estándar en vez de la varianza, que suele ser un valor ❖ 𝒏 tamaño de la muestra
mayor y difícil de interpretar. ❖ 𝒊 = 𝟏, 𝟐, … 𝑵 ó 𝒏 número
de datos
Ejercicio
Un ingeniero se interesa en probar un medidor de pH. Los datos se recaban con
el medidor mediante la medición del pH de una sustancia neutra (pH = 7.0).
Se toma una muestra de tamaño 10 y se obtienen los siguientes resultados:
7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08
Determinar: media, mediana, moda, rango, desviación estándar y varianza.
ഥ = 𝟕. 𝟎𝟐𝟓
𝒙
𝑴𝒆 = 𝟕. 𝟎𝟏
𝑴𝒐𝟏 = 𝟕. 𝟎𝟎 𝑴𝒐𝟐 = 𝟕. 𝟎𝟏
𝑹𝒂𝒏𝒈𝒐 = 𝟎. 𝟏𝟑
σ𝒏𝒊=𝟏 𝒙𝒊 − 𝒙
ഥ 𝟐
𝑺=
𝒏−𝟏
(𝟕. 𝟎𝟕 − 𝟕. 𝟎𝟐𝟓)𝟐 +(𝟕. 𝟎𝟎 − 𝟕. 𝟎𝟐𝟓)𝟐 + ⋯ + (𝟕. 𝟎𝟖 − 𝟕. 𝟎𝟐𝟓)𝟐
𝑺= = 𝟎. 𝟎𝟒𝟒𝟎
𝟗
𝑺𝟐 = 𝟎. 𝟎𝟎𝟏𝟗
Coeficiente de Variación
❑ Las mediciones anteriores, miden la dispersión en cifras absolutas.

❑ El Coeficiente de Variación es una medida de dispersión relativa


(porcentaje).
𝑆
𝐶𝑉 =
𝑋ത

❑ Su utilidad radica en que es independiente de la unidad utilizada en


los valores de la variable, por lo que se pueden comparar
distribuciones cuyos datos estén medidos en distintas unidades.

❑ Sin embargo, es poco práctico cuando la media se aproxima a cero.


Coeficiente de Variación
❑ Ejercicio. Un fabricante de quesos produce dos tipos A y B, los cuales tienen vidas
de anaquel medias diferentes:
𝑋ത𝐴 = 1495 ℎ𝑜𝑟𝑎𝑠 y 𝑋ത𝐵 = 1875 ℎ𝑜𝑟𝑎𝑠
𝑆𝐴 = 280 ℎ𝑜𝑟𝑎𝑠 y 𝑆𝐵 = 310 ℎ𝑜𝑟𝑎𝑠

𝑆
❑ ¿Cuál de los dos productos tiene mayor dispersión de datos? 𝐶𝑉 = ത
𝑋
𝑆𝐴 280 ℎ𝑜𝑟𝑎𝑠
𝐶𝑉𝐴 = = = 0.1873 = 18.73%
𝑋ത𝐴 1495 ℎ𝑜𝑟𝑎𝑠

𝑆𝐵 310 ℎ𝑜𝑟𝑎𝑠
𝐶𝑉𝐵 = = = 0.1653 = 16.53%
𝑋ത𝐵 1875 ℎ𝑜𝑟𝑎𝑠
❑ Tiene más dispersión de datos el producto A.
Selección de medidas
descriptivas
Al elegir una medida de tendencia central se debe tomar en
cuenta:

❖ Si la distribución no es muy asimétrica, la moda, media y


mediana tienen aproximadamente el mismo valor.

❖ Para distribuciones asimétricas, la mediana puede ser


mejor medida de tendencia central que la media.

❖ Si se va a proceder a realizar estadística inferencial, la


media es indispensable, por sus propiedades teóricas.

❖ Si sólo se trata de describir un conjunto, es conveniente


reportar las tres medidas, ya que cada una puede decir
algo sobre la distribución de frecuencias.
Selección de medidas
descriptivas
Medidas de dispersión:

❖ El rango es la medida más fácil de calcular,


pero es la medida de dispersión más
sensible a observaciones extremas.

❖ La desviación estándar es indispensable


para la estadística inferencial.

❖ El coeficiente de variación es la medida


apropiada para comparar la variabilidad de
dos conjuntos de datos.
Descripción simultanea de dos
conjuntos de datos
Cuando se estudian dos características:

➢ Peso y estatura de un grupo de individuos.


➢ La temperatura y la tasa de reproducción de una bacteria.
➢ El ingreso y el consumo por familia.

¿Existe alguna relación entre ellas?


Covarianza Correlación
Covarianza
Sean 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 , 𝑛 pares de observaciones de dos
características 𝑋 y 𝑌, y sean 𝑥ҧ y 𝑦ത sus respectivas medias.

La covarianza entre las dos características se define como:


Población Muestra
σ𝑵
𝒊=𝟏(𝒙𝒊 − 𝝁𝒙 )(𝒚𝒊 − 𝝁𝒚 )
σ𝒏𝒊=𝟏(𝒙𝒊 − 𝒙
ഥ)(𝒚𝒊 − 𝒚
ഥ)
𝑪𝒐𝒗(𝑿, 𝒀) = 𝑪𝒐𝒗(𝑿, 𝒀) =
𝑵 𝒏−𝟏

Cov(x,y) > 0: X e Y tienden a moverse en la misma dirección.


Cov(x,y) < 0: X e Y tienden a moverse en direcciones opuestas.
Cov(x,y) = 0: X e Y no están relacionadas linealmente.
Covarianza
Si 𝑋, 𝑌, 𝑊 y 𝑉 son variables aleatorias y 𝑎, 𝑏, 𝑐 y 𝑑 son constantes,
entonces las propiedades de la covarianza son:
✓ 𝐶𝑜𝑣(𝑋, 𝑎) = 0
✓ 𝐶𝑜𝑣(𝑋, 𝑋) = 𝑉𝑎𝑟(𝑋)
✓ 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑌, 𝑋)
✓ 𝐶𝑜𝑣 𝑎𝑋, 𝑏𝑌 = 𝑎𝑏 𝐶𝑜𝑣(𝑋, 𝑌)
✓ 𝐶𝑜𝑣(𝑋 + 𝑎, 𝑌 + 𝑏) = 𝐶𝑜𝑣(𝑋, 𝑌)
✓ 𝐶𝑜𝑣 𝑎𝑋 + 𝑏𝑌, 𝑐𝑊 + 𝑑𝑉 = 𝑎𝑐 𝐶𝑜𝑣 𝑋, 𝑊 + 𝑎𝑑 𝐶𝑜𝑣 𝑋, 𝑉 +
𝑏𝑐 𝐶𝑜𝑣 𝑌, 𝑊 + 𝑏𝑑 𝐶𝑜𝑣(𝑌, 𝑉)
✓ 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸(𝑋𝑌) − 𝐸(𝑋)𝐸(𝑌)
Correlación
Sean 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 , 𝑛 pares de observaciones de dos
características 𝑋 y 𝑌. Sean 𝑠𝑥𝑦 , 𝑠𝑥 y 𝑠𝑦 la covarianza entre ellas y las
desviaciones estándar correspondientes.
El Coeficiente de Correlación se define como:

Población Muestra
𝑪𝒐𝒗(𝑿, 𝒀) 𝑪𝒐𝒗(𝑿, 𝒀)
𝝆𝑿𝒀 = 𝒓𝑿𝒀 =
𝝈𝑿 𝝈𝒚 𝑺𝑿 𝑺𝒚

Mide la intensidad de la relación lineal entre dos variables.


Correlación
Ejercicio
La siguiente tabla muestra las edades (x) y la presión sanguínea (y) de
12 mujeres de un grupo de interés.

Edad (x) 56 42 72 36 63 47 55 49 38 42 68 60
Presión
147 125 160 118 149 128 150 145 115 140 152 155
sanguínea (y)
a) Determinar la covarianza entre las dos variables.
σ𝑵
𝒊=𝟏(𝒙𝒊 −𝝁𝒙 )(𝒚𝒊 −𝝁𝒚 )
𝑪𝒐𝒗𝒙𝒚 =
𝑵
b) Determinar el coeficiente de correlación entre las dos variables.
𝑪𝒐𝒗(𝑿,𝒀)
𝝆𝑿𝒀 =
𝝈𝑿 𝝈𝒚
Ejercicio
Edad (x) 56 42 72 36 63 47 55 49 38 42 68 60
Presión
147 125 160 118 149 128 150 145 115 140 152 155
sanguínea (y)
a) Determinar la covarianza entre las dos variables.
σ𝑵𝒊=𝟏(𝒙𝒊 − 𝝁𝒙 )(𝒚𝒊 − 𝝁𝒚 )
𝑪𝒐𝒗𝒙𝒚 =
𝑵
𝒙𝟏 − 𝝁𝒙 𝒚𝟏 − 𝝁𝒚 + 𝒙𝟐 − 𝝁𝒙 𝒚𝟐 − 𝝁𝒚 + ⋯ + 𝒙𝟏𝟐 − 𝝁𝒙 𝒚𝟏𝟐 − 𝝁𝒚
=
𝑵
1. Primero… determinar la media de 𝒙 y 𝒚.
σ𝑵
𝒊=𝟏 𝒙𝒊 𝟓𝟔+𝟒𝟐+⋯+𝟔𝟎
𝝁𝒙 = = = 𝟓𝟐. 𝟑𝟑
𝑵 𝟏𝟐
σ𝑵
𝒊=𝟏 𝒚𝒊 𝟏𝟒𝟕+𝟏𝟐𝟓+⋯+𝟏𝟓𝟓
𝝁𝒚 = 𝑵
= 𝟏𝟐
= 𝟏𝟒𝟎. 𝟑𝟑
Ejercicio
X Y ഥ 𝒚𝒊 − 𝒚
𝒙𝒊 − 𝒙 ഥ (𝒙𝒊 − 𝒙 ഥ) a) Determinar la covarianza entre las dos
ഥ)(𝒚𝒊 − 𝒚
variables.
56 147 3.67 6.67 24.44
σ𝑵𝒊=𝟏(𝒙𝒊 − 𝝁𝒙 )(𝒚𝒊 − 𝝁𝒚 )
42 125 -10.33 -15.33 158.44 𝑪𝒐𝒗𝒙𝒚 =
72 160 19.67 19.67 386.78 𝑵
36 118 -16.33 -22.33 364.78 2. Determinar la diferencia de cada
63 149 10.67 8.67 92.44 observación con respecto a la media y la
47 128 -5.33 -12.33 65.78 multiplicación de las diferencias para 𝑥 y 𝑦.
55 150 2.67 9.67 25.78 3. Sumar.
49 145 -3.33 4.67 -15.56
38 115 -14.33 -25.33 363.11 4. Calcular la covarianza
42 140 -10.33 -0.33 3.44 σ𝑵
𝒊=𝟏(𝒙𝒊 −𝝁𝒙 )(𝒚𝒊 −𝝁𝒚 ) 𝟏𝟕𝟔𝟒.𝟔𝟕
68 152 15.67 11.67 182.78 𝑪𝒐𝒗𝒙𝒚 = 𝑵
= 𝟏𝟐
=
60 155 7.67 14.67 112.44 𝟏𝟒𝟕. 𝟎𝟔
Σ 1,764.67
Ejercicio
b) Determinar el coeficiente de correlación

𝒙𝒊 − 𝒙 𝟐 ഥ
𝒚𝒊 − 𝒚 𝟐
X Y entre las dos variables.
56 147 13.44 44.44 𝑪𝒐𝒗(𝑿, 𝒀)
𝝆𝑿𝒀 =
42 125 106.78 235.11 𝝈𝑿 𝝈𝒚
72 160 386.78 386.78
1. Determinar las desviaciones estándar de X y
36 118 266.78 498.78
Y.
63 149 113.78 75.11
47 128 28.44 152.11 σ𝑵
𝒊=𝟏 𝒙𝒊 −𝝁𝒙
𝟐

55 150 7.11 93.44 𝝈𝑿 = = 𝟏𝟏. 𝟑𝟕


𝑵
49 145 11.11 21.78 𝟐
σ𝑵
𝒊=𝟏 𝒚𝒊 −𝝁𝒚
38 115 205.44 641.78 𝝈𝒚 = = 𝟏𝟒. 𝟒𝟒
𝑵
42 140 106.78 0.11
68 152 245.44 136.11 2. Por lo tanto el coeficiente de correlación es:
60 155 58.78 215.11 𝑪𝒐𝒗(𝑿,𝒀) 𝟏𝟒𝟕.𝟎𝟔
Σ 1,550.67 2,500.67 𝝆𝑿𝒀 = = = 𝟎. 𝟖𝟗𝟔
𝝈𝑿 𝝈𝒚 𝟏𝟏.𝟖𝟕∗𝟏𝟒.𝟒𝟒
𝒓𝑿𝒀 = 𝟎. 𝟖𝟗𝟔
Ejercicio Existe una relación lineal positiva “fuerte”

170

160
Presión sanguínea (y)

150

140

130

120

110
35 40 45 50 55 60 65 70 75
Edad (x)

También podría gustarte