Está en la página 1de 59

Slides Prepared by

JOHN S. LOUCKS
St. Edward’s University

© 2002 South-Western /Thomson Learning


Slide 1
Capítulo 3
Estadística descriptiva II: Métodos numéricos
(Pág. 62)

 Medidas de localización (ó de tendencia centra l)


 Medidas de variabilidad
 Medidas de localización relativa y detección valores
atípicos
 Análisis exploratorio de datos
 Medidas de asociación entre dos variables
 Media ponderada y manejo de datos agrupados

x
Slide 2
3.1. Medidas de localización (ó de tendencia central)
(Pág. 65)

 Media
 Mediana
 Moda
 Percentiles
 Cuartiles

Slide 3
Ejemplo: Apartamentos en renta

Abajo encontrara una muestra de los valores de renta


mensuales para un departamento de una recamara. Los
datos son una muestra de 70 apartamentos en una
ciudad de los Estados Unidos. Los datos se presentan en
orden ascendente.
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Slide 4
Media (Pág. 65)

 La Media de un conjunto de datos es el promedio de


todos los valores de los datos.
 Si los datos son de una muestra el promedio se
denota por x .
 xi
x
n
 Si los datos provienen de una población, el promedio
se denota por m (mu).
 xi

N

Slide 5
Ejemplo: Apartamentos en renta

 Promedio
 xi 34, 356
x   490.80
n 70
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Slide 6
Mediana (Pág. 66)

 La mediana es la medida de localización mas


usada para ingresos anuales y datos de
valores de propiedad.
 Unas pocas valores de ingresos o valores de
propiedad, extremadamente grandes, pueden
inflar el promedio.

Slide 7
Mediana (Pág. 67)

 La mediana de un conjunto de datos es el


valor en la mitad cuando los elementos de los
datos están en orden ascendente.
 Para un numero impar de observaciones, la
mediana es el valor de en medio (central)
 Para un numero para de observaciones, la
mediana es el promedio de los dos valores
centrales.

Slide 8
Ejemplo: Apartamentos en renta

 Mediana
Mediana = percentil 50
i = (p/100)n = (50/100)70 = 35.5
Promediando los valores de los datos 35to y 36to:
Mediana = (475 + 475)/2 = 475
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Slide 9
Moda (Pág. 68)

 La moda de u conjunto de datos es el valor


que ocurre con mayor frecuencia.
 La mayor frecuencia puede ocurrir a dos o
mas valores diferentes
 Si los datos tiene exactamente dos modas, el
conjunto de datos es bimodal.
 Si los datos tienen mas de dos modas, los
datso son multimodales.

Slide 10
Ejemplo: Apartamentos en renta

 Moda
450 ocurre más frecuentemente (7 times)
Moda = 450
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Slide 11
Percentiles (Pág. 68)

 Un percentil provee información de cómo los


datos están dispersos sobre un intervalo
desde el valor mas pequeño hasta el valor
mas grande.
 Los exámenes de admisión para las
universidades (en USA) es frecuente que se
reporten en términos de percentiles.

Slide 12
Percentiles (Pág. 69)
 El p-èsimo percentil de un conjunto de datos es un
valor tal que al menos p por ciento de los elementos
toma este valor o menor y al menos (100 - p) por ciento
de los elementos toman este valor o mas.
• Acomode los datos en orden ascendente.
• Calcule el índice i, la posición de el percentil p-
esimo.
i = (p/100)n

• Si i no es entero, redondee hacia arriba. El percentil


p-esimo es el valor en la posición i.
• Si i es un entero, el percentil p-esimo es el promedio
de los valores en las posiciones i e i+1

Slide 13
Ejemplo: Apartamentos en renta

 Percentil de 90
i = (p/100)n = (90/100)70 = 63
Promediando los valores de los datos 63ro y 64to :
Percentil de 90 = (580 + 590)/2 = 585
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Slide 14
Cuartiles (Pág. 70)

 Los Cuartiles son percentiles específicos


 Primer Cuartil = Percentil de 25
 Segundo Cuartil = Percentil de 50 = Mediana
 Tercer Cuartil = Percentil de 75

Slide 15
Ejemplo: Apartamentos en renta

 Tercer Cuartil
Tercer cuartil = Percentil de 75
i = (p/100)n = (75/100)70 = 52.5 = 53
Tercer cuartil = 525
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Slide 16
3.2. Medidas de variabilidad (Pág. 74)

 A menudo es deseable considera medidas de


variabilidad (dispersión), asì como medidas
de localización.
 Por ejemplo, al escoger a al proveedor A o
proveedor B debemos considerar no solo el
promedio del tiempo de entrega para cada
uno, sino también la variabilidad en los
tiempos de entrega para cada uno

Slide 17
3.2. Medidas de variabilidad (Pág. 74)

 Rango
 Rango Intercuartil
 Varianza
 Desviación Estándar
 Coeficiente de Variación

Slide 18
Rango (Pág. 74)

 El rango de un conjunto de datos es la diferencia


entre los valores más grande y más pequeño
 Es la medida mas simple de variabilidad
 Es muy sensitivo a los valores muy pequeños o muy
grandes

Slide 19
Ejemplo: Apartamentos en renta

 Rango
Rango = valor mayor – valor menor
Rango = 615 - 425 = 190
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Slide 20
Rango Intercuartil (Pág. 74)

 El rango intercuartil de un conjunto de datos


es la diferencia entre el tercer cuartil y el
primer cuartil.
 Es el rango donde se encuentra el 50% central
de los datos.
 Elimina la sensibilidad de los valores de datos
extremos.

Slide 21
Ejemplo: Apartamentos en renta

 Rango intercuartil
3er. Cuartil (Q3) = 525
1er. Cuartil (Q1) = 445
Rango intercuartil = Q3 - Q1 = 525 - 445 = 80
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Slide 22
Varianza (Pág. 75)

 La varianza es una medida de variabilidad


que utiliza todos los datos.
 Esta basada en la diferencia entre los valores
de cada observación (xi) y la media. (x para
una muestra,  para una población).

Slide 23
Varianza (Pág. 76)

 La varianza es el promedio de las diferencias al


cuadrado entre cada valor de dato y la media.
 Si el conjunto de datos es una muestra, la varianza se
denota por s2.
 i
( x  x ) 2
s2 
n 1

 Si el conjunto de datos es una población, la varianza


se denota por  2.

 ( xi   ) 2
 
2
N

Slide 24
Desviación Estándar (Pág. 78)

 La desviación estándar de un conjunto de datos es la


raíz cuadrada positiva de la varianza.
 Se mide en las mismas unidades que los datos,
haciéndola mas comparable, que la variancia, a la
media.
 Si el conjunto de datos es una muestra, la desviación
estándar se denota por s.

s  s2
 Si el conjunto de datos es una muestra, la desviación
estándar se denota por  (sigma).

 2

Slide 25
Coeficiente de Variación (Pág. 78)

 El coeficiente de variación indica que tan grande es la


desviación estándar rn relación al promedio.
 Si un conjunto de datos es una muestra, el coeficiente
de variación se calcula como sigue:
s
(100)
x
 Si un conjunto de datos es una población, el
coeficiente de variación se calcula como sigue:

(100)

Slide 26
Ejemplo: Apartamentos en renta

 Varianza
2
s   ( xi  x ) 2
 2 , 996.16
n 1
 Desviación estándar

s  s2  2996. 47  54. 74
 Coeficiente de Variación
s 54. 74
 100   100  11.15
x 490.80

Slide 27
3.3. Medidas de localización relativa y
detección de valores atípicos (Pág. 81)
 Valores z
 Teorema de Chebyshev
 La Regla Empírica
 Detección de Valores Atípicos

Slide 28
Valores z (Pág. 81)

 El valor z es frecuentemente llamado el valor


estandarizado
 Denota el numero de desviaciones estándar que el
valor de un dato xi está de la media.

xi  x
zi 
s
 Un dato con valor menor que la media de la muestra
tendrá un valor de z menor que cero.
 Un dato con valor mayor que el promedio de la
muestra tendrá un valor de z mayor que cero
 Un dato con valor igual que el promedio de la
muestra tendrá un valor de z igual a cero

Slide 29
Ejemplo: Apartamentos en renta

 Valro z del menor valor (425)


xi  x 425  490.80
z   1. 20
s 54. 74
Valores estandarizados para Apartamentos en renta
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93
-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75
-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47
-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20
-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35
0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45
1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

Slide 30
Teorema de Chebyshev (Pág. 82)

Al menos (1 - 1/k2) de los elementos en un conjunto de


datos estará dentro de las k desviaciones estándar del
promedio donde k es cualquier valor mayor que 1.
• Al menos 75% de los elementos deben estar entre
k = 2 desviaciones estándar de la media.
• Al menos 89% de los elementos deben estar entre
k = 3 desviaciones estándar de la media.
Al menos 94% de los elementos deben estar entre
k = 4 desviaciones estándar de la media.

Slide 31
Ejemplo: Apartamentos en renta

 Teorema de Chebyshev’s Theorem

Sea k = 1.5 con x = 490.80 y s = 54.74


al menos (1 - 1/(1.5)2) = 1 - 0.44 = 0.56 o 56%
de los costos de renta deben estar entre
x - k(s) = 490.80 - 1.5(54.74) = 409
y
x + k(s) = 490.80 + 1.5(54.74) = 573

Slide 32
Ejemplo: Apartamentos en renta

 Teorema de Chebyshev (continúa)


realmente, 86% de los costos de renta
están entre 409 y 573.
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Slide 33
La Regla Empírica (Pág. 83)

Para los datos que tienen una distribución tipo


campana:

• Aproximadamente 68% de los valores de los datos


estarán entre una desviación estándar de la media

Slide 34
La Regla Empírica (Pág. 83)

Para los datos que tienen una distribución tipo


campana:

Aproximadamente 95% de los valores de los datos


estarán entre dos desviaciones estándar de la media

Slide 35
La Regla Empírica (Pág. 84)

Para los datos que tienen una distribución tipo


campana:

• Casi todos (99.7%) los elementos estarán entre tres


desviaciones estándar de la media

Slide 36
Ejemplo: Apartamentos en renta

 Regla empírica
Intervalo % in Intervalo
Entre +/- 1s 436.06 to 545.54 48/70 = 69%
Entre +/- 2s 381.32 to 600.28 68/70 = 97%
Entre +/- 3s 326.58 to 655.02 70/70 = 100%
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Slide 37
Detección de Valores Atípicos (Pág. 84)

 Un valor atípico es un valor inusualmente muy


pequeño o muy grande para el conjunto de datos.
 Un dato con valor de z menor que -3 o mas grande
que +3 puede ser considerado como un valor atípico.
 Puede ser un valor de dato registrado
incorrectamente.
 Puede ser un dato
 Puede ser un valor de dato que fue incorrectamente
incluido en el conjunto de datos.
 Puede ser un valor de dato correctamente registrado
y que pertenece al conjunto de datos!!!

Slide 38
Ejemplo: Apartamentos en renta

 Detectando valores atípicos


Los valores extremos más atípicos son -1.20 y 2.27.
Usando |z| > 3 como el criterio para un dato atípico,
no hay valores atípicos en este conjunto de datos
Valores estandarizados para Apartamentos en Renta
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93
-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75
-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47
-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20
-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35
0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45
1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

Slide 39
3.4. Análisis exploratorio de datos (Pág. 86)

 Resumen de cinco datos


 Diagrama de caja

Slide 40
Resumen de cinco datos (Pág. 87)

 Valor mínimo
 Primer cuartil (Q1)
 Mediana (Q2)
 Tercer cuartil (Q3)
 Valor máximo

Slide 41
Ejemplo: Apartamentos en renta

 Resumen de cinco datos


Valor mínimo = 425 Primer cuartil (Q1) = 450
Mediana (Q2) = 475
Tercer cuartil (Q3) = 525 Valor máximo = 615
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Slide 42
Diagrama de caja (Pág. 87)

 Una caja se dibuja con sus extremos localizados en el


primer y tercer cuartil.
 Una línea es dibujada en la caja en la localización de
la mediana.
 Los límites son localizados (no dibujados) usando el
rango intercuartil (RIC)
• El límite menor se localiza a 1.5(RIC) abajo de Q1.
• El límite mayor se localiza 1.5(RIC) arriba de Q3.
• Los datos fuera de estos límites son considerados
atípicos
… continúa

Slide 43
Diagrama de caja (Pág. 87) (Continúa)

 Bigotes (líneas punteadas) se dibujan desde los


extremos de la caja a los valores de los datos menor y
mas grandes dentro de los limites.
 La localización de cada valor atípico es mostrada con
el símbolo *.

Slide 44
Ejemplo: Apartamentos en renta

 Diagrama de caja

Limite menor: Q1 - 1.5(IQR) = 450 - 1.5(75) = 337.5


Limite mayor: Q3 + 1.5(IQR) = 525 + 1.5(75) = 637.5
No hay valores atípicos.

37 40 42 45 47 50 52 550 575 600 625


5 0 5 0 5 0 5

Slide 45
3.5. Medidas de Asociación Entre Dos variables
(Pág. 91)
 Covarianza
 Coeficiente de Correlación

Slide 46
Covarianza (Pág. 91)

 La covarianza es una medida de la asociación lineal


entre dos variables.
 Valores positivos indican una relación positiva.
 Valores negativos indican una relación negativa

Slide 47
Covarianza (Pág. 91)

 Si el conjunto de datos es una muestra, la covarianza


se denota por sxy.
 ( xi  x )( yi  y )
sxy 
n 1
 Si el conjunto de datos es una población, la
covarianza se denota por  xy .

 ( xi   x )( yi   y )
 xy 
N

Slide 48
Coeficiente de correlación (Pág. 95)

 El coeficiente puede tomar valores entre -1 y +1.


 Valores cercanos a -1 indican un relación lineal negativa
fuerte.
 Valores cercanos a +1 indican un relación lineal positiva
fuerte.
 Si el conjunto de datos es una muestra, el coeficiente es rxy.
sxy
rxy 
sx s y
 Si el conjunto de datos es una población, el coeficiente es  xy .
 xy
 xy 
 x y

Slide 49
3.6. Media ponderada y manejo de datos
agrupados (Pág. 100)
 Media ponderada
 Media para datos agrupados
 Varianza para datos agrupados
 Desviación estándar para datos agrupados

Slide 50
Media ponderada (Pág. 101)

 Cuando la media es calculada dándole a cada valor


de dato un peso que refleja su importancia, es
referido como una media ponderada.
 En el calculo de promedio de calificaciones (tipo
USA), el peso es el numero de créditos obtenidos
para cada grado.
 Cuando los valores de los datos varían en
importancia, el analista debe escoger el peso que
refleje la importancia de cada valor.

Slide 51
Media ponderada (Pág. 101)

x =  wi xi
 wi

donde:
xi = valor de observación i
wi = peso de observaciòn i

Slide 52
Datos agrupados (Pág. 102)

 El calculo de la media pondera puede ser usado para


obtener aproximaciones al promedio, varianza, y
desviación estándar de datos agrupados.
 Para calcular la media ponderada, tratamos el punto
medio de cada clase como si fuera la media de todos
los elementos en la clase.
 Calculamos una media ponderada de los puntos
medios utilizando las frecuencias de la clase como
pesos.
 Similarmente, al calcular la varianza y desviación
estándar las frecuencias de las clases son utilizadas
como pesos.

Slide 53
Media para datos agrupados (Pág. 102)

 Muestra

x
 fM
i i

f i

 Población

  fM
i i

N
donde:
fi = Frecuencia de la clase i
Mi = punto medio de la clase i

Slide 54
Ejemplo: Apartamentos en renta

Abajo está la muestra de las rentas mensuales para


departamentos de una recamara presentados aquí
como datos agrupados en la forma de distribucion de
frecuencias
Renta ($) Frecuencia
420-439 8
440-459 17
460-479 12
480-499 8
500-519 7
520-539 4
540-559 2
560-579 4
580-599 2
600-619 6
Slide 55
Ejemplo: Apartamentos en renta

 Media para datos agrupados


Renta ($) fi Mi f i Mi
420-439 8 429.5 3436.0 34, 525
x  493. 21
440-459 17 449.5 7641.5 70
460-479 12 469.5 5634.0 Esta aproximación
480-499 8 489.5 3916.0
difiere en $2.41 de la
500-519 7 509.5 3566.5
520-539 4 529.5 2118.0 media real de la
540-559 2 549.5 1099.0 muestra de $490.80.
560-579 4 569.5 2278.0
580-599 2 589.5 1179.0
600-619 6 609.5 3657.0
Total 70 34525.0

Slide 56
Varianza para datos agrupados (Pág. 103)

 Muestra
 f ( M  x ) 2
s2  i i
n 1
 Población
 f ( M   ) 2
2  i i
N

Slide 57
Ejemplo: Apartamentos en renta

 Varianza para datos agrupados

s2  3, 017.89

 Desviación Estándar para datos agrupados

s  3, 017.89  54. 94
Esta aproximación difiere en solo $.20
de la desviación estándar de $54.74.

Slide 58
Fin del capítulo 3

Slide 59

También podría gustarte