Está en la página 1de 68

Estadística para Administradores

Capítulo3

Análisis Exploratorio de Datos

Lic. Daniel Fortuna Chap 2-1


Medidas Resumen
Describiendo Datos Numéricos

Tendencia Central Cuartiles Variación Forma

Asimetría
Rango
Media Aritmética Curtosis
Rango Intercuartílico
Mediana

Modo Varianza
Desviación estándar
Media Geométrica
Coeficiente de Variación
Media Armónica
Chap 3-2
Medidas de Tendencia Central

Tendencia Central

Media Mediana Modo Media Media


Aritmética Geométrica Armónica
n

X i X G  ( X1  X 2  L  X n )1/ n Xh 
n
X i1 n
1
i1 X
Punto Medio Valor mas
n de valores frecuente
rankeados mente i
observado

Chap 3-3
Media Aritmética
• La media aritmética es la medida mas usada de tendencia central

• Para una muestra de tamaño n:

X i
X1  X 2    Xn
X i1

n n

Tamaño Valores
muestral Observados
Chap 3-4
Media Aritmética
(continuación

• La mas usual medida de tendencia central


• Media = suma de valores dividida por el numero de valores
• Afectadas por valores extremos (outliers)

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Media = 3 Media = 4

1  2  3  4  5 15 1  2  3  4  10 20
 3  4
5 5 5 5
Chap 3-5
Mediana
• En un arreglo ordenado, la mediana es el numero del “valor medio” (50%
arriba, 50% abajo)

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

• No Mediana
afectada= 3 por valores extremos Mediana = 3

Chap 3-6
Encontrando la Mediana
• La localización de la mediana:

n 1
• Si el numero
posición mediana  es impar,posición
de valores la mediana
eneslos
el datos
numeroordenados
medio
2
• Si el numero de valores es par, la mediana es el promedio de los dos
números centrales

n 1
• Vea no es el valor de la mediana, solamente es la posición
2
de la mediana en el rango de los datos.
Chap 3-7
Modo

• Valor que ocurre mas a menudo


• No está afectado por los valores extremos
• Usados tanto para datos numéricos, o categóricos, escala (nominal)
• Puede no existir el modo
• Pueden existir varios modos

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6

No hay Modo
Modo = 9
Chap 3-8
Ejemplo

• 5 casas en una colina sobre la playa


$2,000 K
Precios de las
casas

$2,000,000 $500 K
500,000 $300 K
300,000
100,000
100,000
$100 K

$100 K
Chap 3-9
Ejemplo:
Resumen de Estadísticos

Precios de las
• Media: ($3,000,000/5)
Casas:
= $600,000
$2,000,000
500,000 • Mediana: punto medio de los datos ordenados
300,000 = $300,000
100,000
100,000
• Modo: valor mas frecuente
Suma $3,000,000 = $100,000

Chap 3-10
¿Que medida de localización es la “mejor”?

• Media: es generalmente utilizada, afectada por


valores fuera de escala (outliers).
• Mediana: se usan a menudo, pues no es sensible a
los valores extremos.
• Modo: Es el valor más frecuente. Puede no existir o
haber más de un modo

Chap 3-11
Media Geométrica
• Media geométrica
• Usada para medir la tasa de cambio de la variable sobre el tiempo

XG  ( X1  X2   Xn )1/ n
• Media geométrica, tasa de retorno
• Mide el status de una inversión a través del tiempo

RG  [(1 R1)  (1 R2 )   (1 Rn )] 1/ n


1
• donde Ri es la tasa de retorno en el tiempo del periodo i

Chap 3-12
Ejemplo

Una inversión de $100,000 obtiene $50,000 al fin del año


uno y $100,000 al fin del año dos:

X1  $100,000 X2  $50,000 X3  $100,000

50% caída 100% incremento

El resultado a los dos años es 0, pues empieza y


termina al mismo nivel.
Chap 3-13
Ejemplo
(continua
Usa el retorno en un año,para calcular la media aritmética y la media
geométrica:

tasa de ( 50 %)  (100 %)


retorno: X  25 % resultado erróneo
2
media
aritmética

tasa de RG  [(1  R1 )  (1  R2 )    (1  Rn )]1/ n  1


retorno
 [(1  ( 50%))  (1  (100 %))]1/ 2  1 Resultado
media
correcto
Geométrica :  [(.50 )  (2)]1/ 2
1 1
1/ 2
 1  0%
Chap 3-14
Media armónica

Se define como el recíproco de la media aritmética


de los valores recíprocos de la variable.

1 n
Xh  
 1n
 n
1
 X  i1 X
 i 1 i  i

 n 
 
 
Chap 3-15
Media armónica. Ejemplo

Un grupo de trabajadores construyen los primeros 120mts


de una avenida con una productividad de 12 mts diarios.

Los siguientes 120 metros lo hacen a razón de 18 metros por


día.

Se busca de determinar la productividad diaria durante todo el


trabajo.

Chap 3-16
Media armónica. Ejemplo
Si la calculamos como una media aritmética:
12  18
X  15 mts
2
Por otra parte, los primeros 120 metros requieren 10 días
y los siguientes 120 metros 6.67 días, o sea todo el trabajo
llevará 16.67 días.

Si la productividad diaria es de 15 metros, en los 16.67 días


construirán un total de 250.05 metros, lo que es inconsistente
ya que el trabajo total es de 240 metros.

Si en cambio se utiliza la media armónica:


2 72 72
Xh     14.4 mts
 1 1  3 2 5
  
 12 18  Chap 3-17
Media armónica. Ejemplo

Trabajando con una productividad media de 14.4 metros


por día en 16.67 días , se construirán 240 metros.

Se advierte que la media armónica se aplica cuando


se presenta una relación inversa entre las variables
Implícitas.

Chap 3-18
Medidas Resumen
Fractiles

Quintiles Percentiles
Mediana Deciles

Cuartiles

Chap 3-19
Cuartiles o Quartiles
• El cuartil, divide los datos ordenados en 4 segmentos con un igual
numero de términos por segmento

25% 25% 25% 25%

Q1 Q2 Q3

 El primer cuartil, Q1, es el valor en el cual 25% de las


observaciones son menores y. 75% son mayores
 Q2 es la mediana (50% son menores y, 50% son mayores)
 Solo el 25% de las observaciones son mayores que el tercer
cuartil Q3

Chap 3-20
Formulas de Cuartiles

Encontrar el cuartil para determinar el valor de la


posición apropiada. en un conjunto ordenado de
datos, donde

Posición del primer cuartil: Q1 = (n+1)/4

Posición del segundo cuartil: Q2 = (n+1)/2 (posición de la mediana)

Posición del tercer cuartil: Q3 = 3(n+1)/4

(donde n es el numero de los valores observados)


Chap 3-21
Cuartiles

 Ejemplo: Encontrar el primer cuartil


Datos muestrales, en un arreglo ordenado;11,12,13,16,16,17,18,21,22

(n = 9)
Q1 está en la (9+1)/4 = 2.5 posición de los datos ordenados
así se usa el valor medio ente el 2do y 3er valor.

Asi Q1 = 12.5

Q1 y Q3 son medidas de localización no centrales


Q2 = mediana, una medida de tendencia central
Chap 3-22
(continuación)
Cuartiles
 Ejemplo:
Datos muestrales ordenados: 11 12 13 16 16 17 18 21 22

(n = 9)
Q1 esta en (9+1)/4 = 2.5 posición de los datos ordenados
así Q1 = 12.5

Q2 esta en la (9+1)/2 = 5ta posición de los datos ordenados,


así Q2 = mediana = 16

Q3 esta en la 3(9+1)/4 = 7.5 posición de los datos ordenados,


así Q3 = 19.5

Chap 3-23
Medidas de Variación
Variación

Rango Rango Varianza Desviación Coeficiente


Intercuartilico de Variación
estándar

 Las medidas de variación dan


información sobre el spread o
variabilidad de los valores de los
datos.

Igual centro,
diferente variación
Chap 3-24
Rango

• Es la mas simple medida de variación


• Diferencia entre el mayor valor y, el menor valor del conjunto de datos:

Ejemplo:

Rango =X Mayor – X Menor

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Rango = 14 - 1 = 13
Chap 3-25
Desventaja de el Rango
• Ignora el camino de la distribución de los datos

7 8 9 10 11 12 7 8 9 10 11 12
Rango = 12 - 7 = 5 Rango = 12 - 7 = 5
• Sensible a los outliers

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Rango = 5 - 1 = 4

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Rango = 120 - 1 = 119
Chap 3-26
El Resumen de los 5 números

• Box-and-Whisker Plot: Una visualización de los datos utilizando el


resumen de los 5 números:

Mínimo -- Q1 -- Mediana -- Q3 -- Máximo

Ejemplo:

25% 25% 25% 25%

Mínimo Q1 Mediana Q3 Máximo


Minimum 1st Median 3rd Maximum
Quartile Quartile

Chap 3-27
Box-and-Whisker Plot Ejemplo
• Abajo se presentan los datos y el Box-and-Whisker:

•0 2 2 2 3 3 4 5 5 10 27

• Los datos y el grafico presentan asimetría derecha

Min Q1 Q2 Q3 Max

0 23 5 27
0 2 3 5 27
Chap 3-28
Rango Intercuartilico

• Algunos problemas de outliers pueden ser eliminados usando el


rango intercuartílico.
• Se eliminan los valores altos y bajos y se calcular el rango
intercuartilico de los valores restantes.
• Rango Intercuartilico = 3er cuartil – 1er cuartil

Q3 – Q1= Rango Intercuartílico = H


Chap 3-29
Rango Intercuartílico

• Es Q3-Q1 y mide la dispersión en el medio del 50% de los datos


• Es una medida de variabilidad no influida por valores extremos o
outliers.
• Medidas como Q1, Q3 o RI, no influidas por valores extremos se llaman
medidas robustas

Chap 3-30
Rango Intercuartilico

Ejemplo:
Mediana X
X Q1 Q3
(Q2) máximo
mínimo
25% 25% 25% 25%

12 30 45 57 70

Rango Intercuartílico = 57 – 30 =27

Chap 3-31
Valores Fuera de Escalas y Valores Extremos

Q1 Q3

Valores fuera de escala

Valores extremos

“Fuera de Escala”, se define como un valor menor a Q1 - 1.5H, o mayor que Q3 + 1.5H

“Extremo”, como un valor que es menor que Q1 - 3H. o mayor que Q3 + 3 H

Donde: Q1 es el primer cuartil; Q3: es el tercer cuartil


H = Q3-Q1
Chap 3-32
Varianza

• Promedio (aproximado) de las desviaciones cuadráticas de los valores


alrededor de la media:

• varianza muestral:
n

 (X  X) i
2

S 2 i1
n -1
donde X = media
n = tamaño muestral
Si = iesimo valor de la variable X
Chap 3-33
Desviación estándar
• La medida mas usada de la variación
• Muestra la variación alrededor de la media
• Es la raíz cuadrado de la varianza
• Tiene las mismas unidades de los datos originales

• Desviación estándar muestral :


n

 i
(X  X ) 2

S i1
n -1

Chap 3-34
Ejemplo de Calculo :
Desviación estándar muestral
Muestra
Datos : 10 12 14 15 17 18 18 24

n=8 Media = = 16

(10  X )2  (12  X )2  (14  X )2    (24  X )2


S
n 1

(10  16)2  (12  16)2  (14  16)2    (24  16)2



8 1

130 Un medida del “promedio”


  4.3095
7 de dispersion alrededor de
la media Chap 3-35
Midiendo la variación

Pequeña desviación
estándar

Gran desviación estándar

Chap 3-36
Comparando desviaciones estándar

Datos A
Media = 15.5

11 12 13 14 15 16 17 18 19 20 21
S = 3.338

Datos B
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 S = 0.926
Datos C
Media = 15.5

11 12 13 14 15 16 17 18 19 20 21 S = 4.567

Chap 3-37
Ventajas de la Varianza y Desviación
estándar

• Cada valor del conjunto de los datos es utilizado en el calculo

• Los valores cercanos de la media brindan un peso extra, porque las


desviaciones de la media son cuadráticas)

Chap 3-38
Coeficiente de Variación
• Medida relativas de variación
• Siempre expresada en porcentaje (%)
• Muestra la variación relativa a la media
• Puede ser usada para comparar dos o mas conjuntos de datos medidos en
diferentes unidades
• Mide la homogeneidad de la serie:
 CV<10%= homogénea
 10%<CV<30%= poco homogénea
 CV>30% = no homogénea

 S 
C V     100%

 X 
Chap 3-39
Comparando Coeficientes
de Variación
• Acción A:
• Precio promedio del último año = $50
• desviación estándar = $5

S $5 Ambas
 
C VA     100%   100%  10% acciones tienn
• Acción B: X $50 la misma
desviación
• Precio promedio del último año = $100 estándar, pero
• desviación estándar = $5 la acción B
tiene menor
variación
S $5 relativa a su
C VB     100%   100%  5% precio

X $100
Chap 3-40
Z Scores- tipificada-estandarizada

• Una medida de distancia desde la media.


• Ejemplo: Un Z-score de 2.0 indica que el valor se encuentra a
2.0 desviaciones estándar de la media).
• La diferencia entre un valor de variable y la media, dividida
por el desvío estándar.
• Un Z score mayor que 3.0 o menor que -3.0 es considerado
un outlier:

XX
Z
S Chap 3-41
Z Scores
(continua)
Ejemplo:
• Si la media es 14.0 y el desvió estándar es 3.0, cual es el Z
score para el valor 18.5?

X  X 18.5  14.0
Z   1.5
S 3.0
• El valor 18.5 es 1.5 desviaciones estándar sobre la media
• (un valor negativo del Z-score quiere decir que un valor es
menor que la media)
Chap 3-42
Medidas de Forma
Forma

Asimetría Curtosis

Chap 3-43
Forma de la Distribución

• Describe como los datos se distribuyen


• Medidas de Forma
• Simétrica o Asimétrica
<0 =0 >0

Asimetría- Izq Simétrica Asimetría-Derecha


Media < Mediana Media = Mediana Mediana < Media

Chap 3-44
Distribución de la Forma y el
Box-and-Whisker Plot

Izq.-Asimetría (-) Simétrica Der.-Asimetría (+)

Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3

Los datos se concentran Los datos se concentran


alrededor del tercer cuartil alrededor del primer cuartil
Chap 3-45
Forma de la distribución.
Curtosis o Kurtosis

• Describe la concentración relativa de los valores en el centro en


comparación con las colas, tomando como base a la distribución
normal, con un valor de 3.

4
k  4 3

k > 0 = Distribución Leptocurtica (más concentrada)

k = 0 = Distribución mesocurtica (igual)

k < 0 = Distribución platicurtica (menos concentrada)


Chap 3-46
Forma de la distribución.
Curtosis o Kurtosis

k > 0 = Distribución Leptocurtica (más concentrada)

k = 0 = Distribución mesocurtica (igual)

k < 0 = Distribución platicurtica (menos concentrada)


Chap 3-47
Usando Microsoft Excel

• Se pueden obtener estadísticos Descriptivos


usando Microsoft® Excel
• Usando la elección del menú:
Datos / análisis de dato / estadística descriptiva
• Ingresar los datos en la caja de diálogo

Chap 3-48
Utilizando Excel

Usar la elección del menú:


Herramientas /análisis de datos/
estadística descriptiva

Chap 3-49
Utilizando Excel
(continua)

• Entrar los datos en la


caja de dialogo

• Chequear en la caja
para estadísticos
resumen
• Presione OK-Aceptar

Chap 3-50
Salida de Excel

Microsoft Excel Salida de


estadística descriptiva,
Utilizando los datos de
los precios de las casas:

House Prices:

$2,000,000
500,000
300,000
100,000
100,000

Chap 3-51
Medidas Numéricas de la
Población
• Las medidas resumen Poblacionales se llaman parámetros
• La media poblacional es la suma de los valores de la suma de la población
dividida por el tamaño poblacional N

X i
X1  X 2    XN
 i1

N N
donde μ = media poblacional
N = tamaño poblacional
Si = iesimo valor de la variable X
Chap 3-52
Varianza Poblacional

• Promedio de las desviaciones cuadráticas de las media

• Varianza Poblacional :
N

 (X  μ)
i
2

σ2  i1
N

donde μ = media poblacional


N = Tamaño poblacional
Si = iesimo valor de la variable X
Chap 3-53
Desviación estándar Poblacional
• La mas común medida de variación
• Muestra de variación alrededor de la media
• Es la raíz cuadrada de la varianza poblacional
• Tiene las mismas unidades que los datos originales

• Desviación estándar Poblacional :


N

 i
(X  μ) 2

σ i1
N

Chap 3-54
La regla empírica

•Si los datos son aproximadamente simétrica e


intervalo:
• μ  1σcontiene alrededor del 68% de los valores en la población o
en la muestra

68%

μ
μ  1σ
Chap 3-55
La regla empírica
• μ  2σ contiene alrededor del 95% de los valores en la población o
en la muestra

• μ  3σ contiene alrededor del 99.7 % de los valores en la


población o en la muestra

95% 99.7%

μ  2σ μ  3σ
Chap 3-56
Aproximación de la media de la Distribución
de frecuencia
• Algunas veces solamente la distribución de frecuencias esta
disponible pero no los datos crudos.
• Utilizar el punto medio de clase del intervalo aproximando los
valores de la clase:
c

m f
j1
j j

X
n
• donde n = numero de valores o tamaño de la muestra
c = numero de clases en la distribución de frecuencias
mj = punto medio de la clase jesima
fj = numero de valores en la jesima clase

Chap 3-57
Aproximando el desvío estándar desde la
distribución de Frecuencias
• Se supone que todos los valores dentro de cada intervalo de clase se
localizan en el punto medio de las clases

• Aproximación de la desviación estándar desde la distribución de frecuencias :

 (m  X)
j1
j
2
fj
S
n -1
Chap 3-58
La covarianza muestral

• La medida de la covarianza presenta la intensidad de la


relación lineal entre dos variables llamadas variables
bivariantes)

• La covarianza muestral :

 ( X  X)(Y  Y )
i i
cov ( X , Y )  i1
n 1
• Solamente representa la intensidad de la relación
• No implica efectos causales
Chap 3-59
Interpretando Covarianzas

•Covarianza entre dos variables aleatorias:

cov(X,Y) > 0 X e Y tienden a moverse en la misma dirección

cov(X,Y) < 0 X e Y tienden a moverse en direcciones opuestas

cov(X,Y) = 0 X e Y son independientes

Chap 3-60
Coeficiente de Correlación
• Mide la relación lineal relativa entre dos variables
• Coeficiente de correlación Muestral :

cov (X, Y)
donde r
SX SY

 (X  X)(Y  Y)
n n
i i  (X  X)
i
2
 i
(Y  Y ) 2

cov (X, Y)  i1


SX  i1
SY  i1
n 1 n 1 n 1
Chap 3-61
Características del
Coeficiente de Correlación, r

• Libre de unidades de medidas


• Rango entre –1 y 1
• El máximo de la relación lineal negativa o inversa –1, p
• El máximo de la relación lineal positiva 1 o directa
• El valor 0, ausencia de relación lineal

Chap 3-62
Diagramas de dispersión de Datos con
Varios Coeficientes de Correlación
Y Y Y

X X X
r = -1 r = -.6 r=0
Y
Y Y

X X X
r = +1 r = +.3 r = 0Chap 3-63
Utilizando Excel para encontrar el coeficiente
de correlación
• Seleccionar
Herramientas/ Análisis de
Datos
• Elegir Correlación de la
opción del menú
• Presiona OK- Aceptar . . .

Chap 3-64
Utilizar Excel para encontrar el Coeficiente de
Correlación
(continued)

• Ingrese los datos en el rango y


seleccione las apropiadas
opciones
• Presione OK para obtener la salida
Chap 3-65
Interpretando los Resultados

• r = .733

• Hay una relativa fortaleza en la relación Scatter Plot of Test Scores

lineal entre el resultado de la prueba 1 y 100

prueba 2 95

Test #2 Score
90

85

80

• Estudiantes que presentan altos resultados 75

del primer test, presentan una tendencia 70


70 75 80 85 90 95 100

alta para el segundo test, y los estudiantes Test #1 Score

que presentan bajos resultados en el


primer test, presentan bajo resultados en el
segundo test

Chap 3-66
Errores en las mediciones numéricas
descriptivas

• El análisis de datos es objetivo


• Se presentan informes de las medidas resumen que mejor representan los
supuestos acerca del conjunto de datos

• La interpretación de la salida de los datos es subjetiva

Chap 3-67
Bibliografía
• LEVINE, DAVID M., KREHBIEL, TIMOTHY C. Y MARK L.
BERENSON - Estadística para administración. Cuarta edición -
PEARSON EDUCACIÓN, México, 2006
Capítulo 10

También podría gustarte