Está en la página 1de 62

Describiendo los Datos, Usando

Medidas Numéricas

3-1
Datos en Información
Descripción Gráfica, diagramas y tablas

Descripción numérica de los datos

¿Cómo compara la duración de los neumáticos de un fabricante A y


la de un fabricante B?

En forma gráfica: Tomar una muestra y producir los histogramas


respectivos.
Se requiere más: Medidas numéricas que resuman la
información
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-2
Objetivos

 Calcular e interpretar la media, mediana, y moda para un


conjunto de datos
 Calcular el rango, varianza, y desviación estándar y saber
qué significan estos valores
 Construír e interpretar un gráfico de caja y bigote
 Calcular y explicar el coeficiente de variación y
valor estandarizado (z)

3-3
Técnicas Descriptivas

Describiendo Numéricamente los Datos

Centro y Ubicación Otras Medidas Variación


de Ubicación
Rango
Media
Percentiles Rango
Mediana Intercuartílico
Cuartiles
Moda Varianza
Media Ponderada Desviación
Estándar
Coeficiente
de Variación
3-4
Medidas de Centro y Ubicación

Centro y Ubicación

Media Mediana Moda Media Ponderada

 xi XW 
 wx
i i

x i1
n
w i

N
Punto medio Punto de mayor
W 
 wx
i i
x i
frecuencia
w i
 i1 Punto de
N equilibrio

3-5
Media (Promedio Aritmético)

 La medida más común de tendencia central


 Media = Suma de valores divididos por el número de
valores
 Afectado por valores extremos (atípicos)

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Media = 3 Media = 4

1  2  3  4  5 15 1  2  3  4  10 20
 3  4
5 5 5 5

3-6
Media (Promedio Aritmético)
(continuación)
 La Media es el promedio aritmético de los
valores de los datos
 Media poblacional N = Tamaño de la Población
N

x
x1  x 2    xN
i
 i1
N N
 Media muestral
n = Tamaño de la Muestra
n

x i
x1  x 2    x n
x i1

n n
3-7
Mediana
 En un arreglo ordenado (de menor a mayor), la
mediana es el número “medio”, es decir, el número
que parte numéricamente a la distribución por la
mitad
 50% de los datos están arriba de la mediana, 50% están
debajo
 Se representa como Md
 La mediana no está afectada por valores extremos

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Mediana = 3 Mediana = 3
3-8
Mediana
(continuación)

 Para obtener la mediana, ordenar los n valores


(datos) de menor a mayor. El conjunto de datos
ordenados es llamado arreglo ordenado de
datos
 Encontrar el valor en la ubicación i = (1/2)n
 La ima ubicación es el Punto de la Mediana
 Si i no es un entero, redondear hacia arriba
 Si i es un entero, la mediana es el promedio de los
valores en las ubicaciones “i ” e “i + 1”

3-9
Mediana: Ejemplo
Arreglo ordenado de datos:
4, 4, 5, 5, 9, 11, 12, 14, 16, 19, 22, 23, 24
 Observe que n = 13
 Busque la ubicación = (1/2)n:
i = (1/2)(13) = 6.5
 Desde que 6.5 no es un entero, redondea
hacia arriba (7)
 La mediana es el valor en la 7ma ubicación:
Md = 12
3-10
Forma de una Distribución
 Describir cómo los datos están distribuídos
 Simetrica or asimétrica
 A mayor diferencia entre la media y la mediana, mayor es la
asimetría de la distribución

Asimétrica a Simétrica Asimétrica a


la Izquierda la Derecha

Media < Mediana Media = Mediana Mediana < Media


(Cola larga hacia la izquierda) (Cola larga hacia la derecha)

3-11
Mediana vs Media
Arreglo ordenado de datos:
4, 4, 5, 5, 9, 11, 12, 14, 16, 19, 22, 23, 24
Se tenía: Md = 12
De otro lado, se puede verificar que la media es: 12.9. Se tiene un
sesgo hacia la derecha.
Considere que los datos corresponden a niveles de salarios
mensuales en miles de dólares. Suponga que en lugar del salario de
24 se tiene 200. La media pasa a ser 26.5, más del doble, por la
variación de un solo salario. Aún más la media es más grande que
todos los valores, excepto el más alto.
Sin embargo, se puede verificar que este cambio no afecta la
mediana que sigue siendo 12. La mediana no se ve afectada por
valores extremos, a diferencia de la media.

3-12
Moda
 Una medida de ubicación
 El valor que ocurre con mayor frecuencia
 No está afectado por valores extremos
 Usado para datos numéricos y categóricos
 Podría no haber moda
 Podría haber varias modas (2 modas = bimodal)

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6

Moda = 5 No hay moda


3-13
Moda: Ejemplo
 Una pizería está rediseñando su comedor, para lo cual está
interesada en los tamaños de grupos más frecuentes.
 Toma una muestra de 20 grupos, en los cuales la cantidad de
individuos por grupo fue:
{2, 4, 1, 2, 3, 2, 4, 2, 3, 6, 8, 4, 2, 1, 7, 4, 2, 4, 4, 3}
 Se elaboró una distribución de frecuencias:
Frecuencia 2 6 3 6 0 1 1 1
Ind.x Grupo 1 2 3 4 5 6 7 8

 Se determinó los valores que ocurren con mayor frecuencia, en


este caso se tuvo dos modas: 2 y 4, cada una con una frecuencia
de 6 casos.

Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-14


Media Ponderada

 Usado cuando los valores son agrupados por


frecuencia o importancia relativa

Ejemplo: Muestra de 26
proyectos de reparación
Media Ponderada de
Días para Frecuencia Días para Culminar
Culminar
5 4 XW   wx
i i

(4  5)  (12  6)  (8  7)  (2  8)
6 12 w i 4  12  8  2
7 8 164
  6.31 días
8 2 26

3-15
Ejemplo

 Cinco casas en una colina cerca a la playa

Precios de las
casas (Dólares):

2,000,000
500,000
300,000
100,000
100,000

3-16
Estadísticos de Resumen

Precios de las
casas (Dólares):  Media: ($ 3,000,000/5)
2,000,000  = $ 600,000
500,000
300,000
100,000  Mediana: Valor medio de los datos
100,000
Suma 3,000,000 ordenados
Md = $ 300,000

 Moda: Valor de mayor frecuencia


Moda = $ 100,000
3-17
Qué medida de ubicación es la
“mejor”?
 La media es generalmente usada, a menos
que existan valores extremos (atípicos)
 Luego la mediana es a menudo usada,
desde que la mediana no es sensible a
valores extremos
 Ejemplo: La mediana de los precios de las casas
podrían ser reportados para una región – menos
sensibles a valores extremos
 La moda es buena para determinar lo más
probable a ocurrir

3-18
Resumen
Tipo de Método de cálculo Nivel de Ventajas y desventajas
medida medida
central de los
datos
Suma de valores dividida Ratio • Centro numérico de los datos.
Media entre número de valores Intervalo • Suma de desviaciones respecto
de la media es cero.
• Sensible a valores extremos

Valor medio de la data Ratio • No sensibles a valores


Mediana ordenada de menor a Intervalo extremos.
mayor Ordinal • Calculado solo en base a
posición media de los valores.
• No usa la información total de
los datos.
Valor de mayor frecuencia Ratio • Puede no reflejar el centro de
Moda de ocurrencia en la data Intervalo los datos.
Ordinal • Puede no existir.
• Pueden ser múltiples.
Nominal
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-19
Percentiles y Cuartiles

En algunas aplicaciones se está interesado en describir la


locación de los datos en términos distintos a los de sus
centros.
Ejemplo: La nota obtenida en el curso a qué percentil
de las notas del grupo corresponde.
Si esta corresponde al percentile 90th, se
tiene que la nota fue igual o superior al 90%
de las notas registradas.

Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-20


Otras Medidas de Ubicación

Percentiles Cuartiles
El pmo percentil en un
arreglo ordenado de datos: 1er cuartil = 25to percentil

 p% de los datos es menor o


2do cuartil = 50mo percentil
igual que este valor Mediana

 (100 – p)% de los datos es


mayor que o igual a este valor 3er cuartil = 75to percentil
(donde 0 ≤ p ≤ 100)

3-21
Percentiles
 El pmo percentil en un arreglo ordenado de n valores es
el valor en la ubicación ima, donde
Si i no es un entero,
Índice de
redondear hacia arriba
Ubicación p
del
Percentil
i (n) Si i es un entero, considerar
100 el promedio del imo y del
(i+1)mo valor.

 Ejemplo: Encontrar el 60mo percentil en un arreglo


ordenado de 19 valores.

p 60 Usar el valor de
i (n)  (19)  11.4
100 100 ubicación i = 12do

3-22
Percentiles: Ejemplo
 Salarios mensuales en miles de una muestra de 30 ejecutivos:
13.5 8.6 16.2 21.4 21.0 23.7 4.1 13.8 20.5 9.6
11.5 6.5 5.8 10.1 11.1 4.4 12.2 13.0 15.7 13.2
13.4 13.1 21.7 14.6 14.1 12.4 24.9 19.3 26.9 11.7

 Ordenados de menor a mayor:


4.1 4.4 5.8 6.5 8.6 9.6 10.1 11.1 11.5 11.7
12.2 12.4 13.0 13.1 13.2 13.4 13.5 13.8 14.1 14.6
15.7 16.2 19.3 20.5 21.0 21.4 21.7 23.7 24.9 26.9

 Determinación del índice de locación percentil i


i = (p/100)*n = (80/100)*30 = 24

 Para i = 24 e i = 25 se tienen los valores 20.5 y 21.0. El percentil 80th


será: (20.5 + 21.0)/2 = 20.75.
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-23
Cuartiles

 Los cuartiles dividen a los datos ordenados en


cuatro grupos iguales:
25% 25% 25% 25%

Q1 Q2 Q3

 Notar que el segundo cuartil (el 50mo percentil),


Q2, es la mediana
 IQR (rango intercuartílico) = Q3 – Q1

3-24
Cuartiles

 Ejemplo: Encontrar el primer cuartil

Datos muestrales en un arreglo ordenado: 11 12 13 16 16 17 18 21 22


(n = 9)

Redondear a 3
25
Q1 = 25to percentil. Encontrar i : i = 100 (9) = 2.25 dado que no es
un entero

Entonces redondear hacia arriba y usar el valor en la 3ra ubicación:


Q1 = 13

Interpretación: El 25% de los datos es menor que 13

3-25
Gráfico de Caja y Bigote

Herramienta gráfica de descripción de datos cuantitativos,


muestra:
 La mediana y los cuartiles

 Valores átipicos

Valores atípicos valores inusualmente bajos o altos en


relación al resto de valores de la data.

Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-26


Gráfico de Caja y Bigote
 Es una presentación gráfica de los datos
usando una “caja” central y “bigotes”
extendidos
Ejemplo:
25% 25% 25% 25%

* *
Valores “Valor más pequeño” 1er Mediana 3er “Valor más grande”
Atípicos (Límite Inferior) Cuartil Cuartil (Límite Superior)

3-27
Construcción de un Gráfico de
Caja y Bigote

* *
Valores “Valor más pequeño” 1er Mediana 3er “Valor más grande”
Atípicos (Límite Inferior) Cuartil Cuartil (Límite Superior)

El límite inferior es El límite superior es


Q1 – 1.5 (Q3 – Q1) Q3 + 1.5 (Q3 – Q1)

 Dibujar una caja desde Q1 a Q3


 Trazar una línea vertical en la mediana
 Trazar líneas (bigotes) hacia el valor más pequeño y más
grande (dentro de los límites calculados)
 Identificar los valores atípicos fuera de los límites calculados

3-28
Forma de un Gráfico de Caja y
Bigote
 La caja y la línea central están centrados entre los
valores extremos si los datos son simétricos respecto
a la mediana

 Un Gráfico de Caja y Bigote puede ser mostrado en


un formato vertical u horizontal

3-29
Forma de una Distribución y de
su Gráfico de Caja y Bigote
Asimétrica a Asimétrica a
la Izquierda Simétrica la Derecha

Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3

3-30
Construcción de un Gráfico de
Caja y Bigote

1. Ordenar los valores de menor a mayor


2. Encontrar Q1, Q2, Q3
3. Dibujar la caja tal que los límites sean Q1 y Q3
4. Trazar una línea vertical en la mediana
5. Calcular el rango intercuartílico (Q3 – Q1)
6. Trazar líneas (bigotes) hacia el valor más pequeño
y más grande (dentro de los límites calculados)
7. Identificar los valores atípicos con un asterisco (*)

3-31
Gráfico de Caja y Bigote:
Ejemplo
 Acontinuación se presenta un arreglo ordenado de datos y
su gráfico de caja y bigote:
Min Q1 Q2 Q3 Max
0 2 2 2 3 3 4 5 6 11 27

*
0 2 3 6 11 27

Límite superior = Q3 + 1.5 (Q3 – Q1) 27 está arriba del límite


superior, por lo tanto, es un
= 6 + 1.5 (6 – 2) = 12 valor atípico
 Estos datos son asimétricos a la derecha (ver gráfico)
3-32
Medidas de Variación

El presidente de la corporación solicita al gerente de producción


información sobre la producción de los últimos 5 días de las plantas A y
B. Se registran los siguientes resultados:
A 15 25 35 20 30
B 23 26 25 24 27

El gerente de producción elabora un resumen el cual presente al


presidente:
Media Mediana
En base a la información proporcionada,
¿Qué puede concluir el presidente?
A 25 25
¿Cuál es la realidad?
B 25 25
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-33
Medidas de Variación
Variación

Rango Varianza Desviación Coeficiente


Estándar de Variación
Rango
Varianza Desviación
Intercuartílico Poblacional Estándar
Poblacional
Varianza Desviación
Muestral Estándar
Muestral

3-34
Variación

 Las medidas de variación dan información


sobre la dispersión o variabilidad de los
datos

 Valor pequeño
 Menos variación
 Valor grande
 Más variación

Mismo centro,
diferente variación

3-35
Rango
 Medida más simple de variación
 Diferencia entre la observación más grande y la
más pequeña:
Rango = xmáximo – xmínimo

Ejemplo:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Rango = 14 - 1 = 13

3-36
Desventajas del Rango
 Ignora la distribución de los datos

7 8 9 10 11 12 7 8 9 10 11 12
Rango = 12 - 7 = 5 Rango = 12 - 7 = 5

 Sensible a los valores atípicos


1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Rango = 5 - 1 = 4

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Rango = 120 - 1 = 119

3-37
Rango Intercuartílico

 Usando el rango intercuartílico se puede


eliminar algunos problemas de valores atípicos

 No cambiará incluso si los valores más


pequeños y más grandes tomasen valores más
extremos

 Rango intercuartílico =Q3 – Q1

3-38
Rango Intercuartílico: Ejemplo

Ejemplo:
Mediana X
X Q1 Q3 máximo
mínimo (Q2)
25% 25% 25% 25%

12 30 45 57 70

Rango intercuartílico:
57 – 30 = 27

3-39
Medidas de Variación
Rango Considera solo dos valores de la data
Sensible a valores extremos

Rango Considera solo dos valores de la data


Intercuartílico Elimina la influencia de los valores
extremos

Varianza Considera todos los valores de la data


Unidades cuadráticas de los datos

DS Considera todos los valores de la data


Unidades iguales a los de la data
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-40
Varianza

 Promedio del cuadrado de las desviaciones de


los valores respecto a la media (unidades
cuadráticas) N

 Varianza poblacional:  i
(x  μ) 2

σ 
2 i1
N

 Varianza muestral:  i
(x  x ) 2

s 
2 i1
n -1
3-41
Desviación Estándar

 Medida de variación más usada


 Muestra la variación respecto a la media
 Tiene la misma unidad de los datos
N
 Desviación estándar poblacional:  i
(x  μ) 2

σ i1
N
n

 Desviación estándar muestral:  i


(x  x ) 2

s i1
n -1

3-42
Desviación Estándar
Muestral: Ejemplo
Datos muestrales (Xi) : 10 12 14 15 17 18 18 24

n=8 Media = x = 16
(10  x ) 2  (12  x ) 2  (14  x ) 2    (24  x ) 2
s
n 1

(10  16) 2  (12  16) 2  (14  16) 2    (24  16) 2



8 1

130
  4.3095
7
3-43
Comparación de Desviaciones
Estándar
Misma media pero diferentes
desviaciones estándar:
Datos A
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 3.338

Datos B
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 0.9258
Datos C
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 4.57

3-44
¿Qué datos tienen mayor variabilidad?

Datos A: SA = 100

Datos B: SB = 1

Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-45


¿Qué datos tienen mayor variabilidad?

Datos A: SA = 100 MediaA = 1,000

Datos B: SB = 1 MediaB = 0.01

Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-46


Media y Desviación Estándar

Interacción entre media y la DS en la descripción


de los datos y la generación de información.

Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-47


Coeficiente de Variación
 Muestra la variación relativa a la media.
 Expresado siempre en porcentaje (%).
 Especialmente relevante para comparar la variabilidad
de dos distribuciones con distintas medias.
 Usado para comparar dos o más conjuntos de datos
medidos en diferentes unidades o niveles

Población Muestra

σ   s 
CV     100% CV     100%

μ   x 
3-48
Comparación de Coeficientes
de Variación
 Acción A:
 Precio promedio del año pasado = $50

 Desviación estándar = $5

 s  $5
 
CVA    *100%  *100%  10%
x  $50 Ambas acciones
tienen la misma
 Acción B: desviación
estándar, pero la
 Precio promedio del año pasado = $100 Acción B es
 Desviación estándar = $5 menos variable
relativo a su
 s  $5 precio
 
CVB    *100%  *100%  5%
x  $100

3-49
Regla Empírica
 Si la distribución de los datos tiene forma de
campana, entonces el intervalo ( μ  1σ )
contiene alrededor del 68% de los valores
de la población:

68%

μ
μ  1σ
 La media y la mediana son iguales
3-50
Regla Empírica
 μ  2σ contiene alrededor del 95% de los
valores de la población
 μ  3σ contiene alrededor del 99.7% de los
valores de la población

95% 99.7%

μ  2σ μ  3σ

3-51
Teorema de Tchebysheff

 Sin considerar como esten distribuidos los


datos, al menos (1 - 1/k2) de los valores
caerán dentro del intervalo μ ± kσ

 Ejemplos:
Al menos Dentro
(1 - 1/12) = 0% ……..... k=1 (μ ± 1σ)
(1 - 1/22) = 75% …........ k=2 (μ ± 2σ)
(1 - 1/32) = 89% ………. k=3 (μ ± 3σ)

3-52
Valores Estandarizados

 Un valor estandarizado se refiere al número de


desviaciones estándar en que el valor difiere de su
media.

 Un valor estandarizado también es conocido como


valor z.

 Pueden ser usados para comparar conjuntos de datos,


al menos de intervalo, incluso de escala distinta.

 Serán vistos en mayor detalle en los próximos


capítulos.

3-53
Valores Estandarizados
Poblacionales
x μ
z
σ
Donde:
 x = valor original del dato

 μ = media poblacional

 σ = desviación estándar poblacional

 z = valor estandarizado

(número de desviaciones estándar en que x difiere de μ)

3-54
Valores Estandarizados
Muestrales
xx
z
s
Donde:
 x = valor original del dato

 x = media muestral

 s = desviación estándar muestral

 z = valor estandarizado
(número de desviaciones estándar en que x difiere de x )

3-55
Valor Estandarizado: Ejemplo
 Los puntajes de CI en una población tienen
distribución en forma de campana con media
μ = 100 y desviación estándar σ = 15
Encontrar el valor estandarizado (z-score)
para una persona con un CI de 121.
Respuesta: x  μ 121 100
z   1.4
σ 15
Alguien con CI de 121 está a 1.4 desviaciones
estándar sobre la media

3-56
Usando Excel

 Estadísticas Descriptivas son fáciles de


obtener de Excel

 Seleccione:
Datos / Análisis de datos / Estadística
descriptiva

 Diligencie el cuadro de diálogo

3-57
Usando Excel
(continuación)

 Seleccionar:
Datos / Análisis de datos / Estadística descriptiva
3-58
Usando Excel
(continuación)

 Diligenciar el
cuadro de diálogo

 Seleccionar
“Resumen de
estadísticas”

 Click en “Aceptar”

3-59
Resultado del Excel

Estadísticas descriptivas
de los precios de las
casas (usando Excel):
Precios de las
casas:

$2,000,000
500,000
300,000
100,000
100,000

3-60
Resumen

 Se describió medidas de centro y ubicación


 Media, mediana, moda, media ponderada
 Se discutió percentiles y cuartiles
 Se creó gráficos de caja y bigote
 Se ilustró formas de distribución
 Simétrica y asimétrica

3-61
Resumen
(continuación)

 Se describió medidas de variación


 Rango, rango intercuartílico, varianza,
desviación estándar, coeficiente de variación
 Se discutió el teorema de Tchebysheff
 Se calculó valores estandarizados

3-62

También podría gustarte