Está en la página 1de 98

Estadística para

Administradores

Introducción y Reunión de datos

Lic. Daniel Fortuna Chap 1-1


Conceptos básicos en
Estadística

El campo de la estadística se refiere a:

 Procesar y analizar datos


 Reunir, presentar y transformar datos
para asistir en la toma de decisiones

Chap 1-2
Definiciones Básicas

Estadística
Es la rama de la matemática que
transforma los datos en información útil
para la toma de decisiones,
organizándolos, resumiéndolos,
presentándolos y analizándolos

Chap 1-3
Dos ramas de la Estadística

 Estadística descriptiva: Conjunto de varias técnicas


utilizadas para resumir la información contenida en un
conjunto de datos.

 Estadística inferencial: Utilizando los datos obtenidos


de un grupo pequeño se sacan conclusiones acerca de
un grupo más grande.

Chap 1-4
Estadística Descriptiva

 Colección de datos
 p.ej., Encuesta

 Presenta los datos


 p.ej., Tablas y gráficos

 Caracteriza los datos


 p ej., Media muestral =
X i

n
Estadística Inferencial
 Estimación
 p. ej., Estima la media poblacional
ponderada usando la media
muestral ponderada
 Prueba, Test, Contraste, Docimasia de
hipótesis
 p.ej., la afirmación que el peso
medio poblacional ponderada es 70
kg.

Extraer conclusiones acerca de la población basada


en los resultados muestrales.

Chap 1-6
Población vs. Muestra

Población Muestra

b c
a b cd
gi n
ef gh i jk l m n
o r u
o p q rs t u v w
y
x y z
Es un subconjunto
de la población

Chap 1-7
Población vs. Muestra

Población Muestra

Las medidas usadas para Las medidas usadas para


describir una población se describir una muestra se
llaman parámetros llaman estadísticos
Chap 1-8
Población vs. Muestra

Parámetro Estadístico
Es una medida Una medida numérica
numérica describiendo describiendo alguna
alguna característica de característica de una
una población muestra.

población Muestra

parámetro estadístico

Chap 1-9
Tipos de Datos o Variables

Datos/Variables

Categóricos Cuantitativos

Discretas Continuos

Chap 1-10
Tipos de Datos o Variables

 Cuantitativos (o numéricos)
 Sus valores representan cantidades.
Ejemplos: pesos de supermodelos.

 Datos cualitativos (o categóricos o


atributos)
• Sus valores sólo pueden ser divididos en categorías
(como «si» o «no»).
Ejemplo: genero (hombre/mujer) de atletas profesionales.

Chap 1-11
Datos Cuantitativos

Los Datos Cuantitativos pueden ser divididos en


discretos y continuos.

Discretos
Cuando el numero de los posibles valores,
es un numero finito o ‘contable’ de valores
posibles.
0, 1, 2, 3, . . .
Ejemplo: Cantidad de instrumentos de
escritura que puedo llevar.
Chap 1-12
Datos Cuantitativos

Continuos
Cuando pueden tomar cualquier valor
dentro de un intervalo

Ejemplo: El monto de leche que puede producir


una vaca, entre 0 y 30.125 litros por día

Chap 1-13
Niveles o escalas de medidas

Otro camino de clasificar los datos

no es un fin en si mismo sino un Muchas


medio en procesos tales como decisiones
descripción, diferenciación, incorporan el
explicación, predicción, concepto de
diagnóstico, toma de medición en
decisiones, etc.” algún
sentido.

Chap 1-14
Niveles o escalas de medidas

MEDICIÓN

CONSISTE
EN
ASIGNAR
SÍMBOLOS
A

• OBJETOS
• ATRIBUTOS
• OBSERVACIONES
• ETC
Chap 1-15
Escalas de medidas

 Nominal – solo clases o categorías


 Ordinal - categorías con algún orden
 Intervalo – diferencias pero sin un
punto de inicio natural
 Razón – diferencias y un punto de
inicio natural
Chap 1-16
Escala de Medida

Tipo de escala Orden Distancia Origen

 Nominal No No No
 Ordinal Si No No
 Intervalo Si Si No
 Razón Si Si Si

Chap 1-17
Exactitud y Precisión

 En cualquiera de los
sistemas de muestreo, la
característica de la población
puede ser diferente de la
característica muestral.

 El muestreo aleatorio permite


la medición del error de
muestreo. Chap 1-18
Exactitud y Precisión

 Otro tipo de error que no tiene nada


que ver con el error de muestreo es el
llamado error no muestral, o
sistemático
Estos errores son
el resultado de
mediciones
defectuosas,
malos
instrumentos, etc.
Chap 1-19
Exactitud y Precisión

Cada medición tiene dos


componentes de error.
Error de muestreo y, error
no muestral (sistemático)

Chap 1-20
Exactitud y Precisión

Medición individual Xi = X  e.m.  e.no m.

 Si tomamos un censo cabe esperar que


el e.m = 0, pero persiste el error no m.
 Cuando e.no m = 0 diremos que la
medición muestral es exacta.
 Cuando e.m=0, es tan pequeño como se
quiere, diremos que la medición es
precisa.
Chap 1-21
Tipos de muestreo

 Muestreo probabilístico: cuando todos los


elementos de la población tienen una
probabilidad conocida y no nula de pertenecer
a la muestra.
 Muestreo no probabilístico: En caso contrario.

Sólo el muestreo probabilístico permite


calcular el error muestral. Las técnicas de la
inferencia estadística utilizan hipótesis de
muestreo probabilístico.

Chap 1-22
Tipos de muestreo

 En el MAS (muestreo aleatorio simple), se


enumeran los elementos de la población y se
eligen n elementos que compondrán la
muestra, a través de un proceso aleatorio.

N: Tamaño de la Población
n: Tamaño de la muestra

Chap 1-23
Tipos de muestreo

Cada elemento de la población tiene una


probabilidad igual a n/N de pertenecer a la
muestra y el número de muestras que pueden
extraerse dependerá de que se reponga o no al
elemento extraído.

 Muestreo con Reposición


 Muestreo sin Reposición

Chap 1-24
Notación Científica

Chap 1-25
Recolección de Datos
Presentación de Datos en Tablas y
Gráficos

Lic. Daniel Fortuna Chap 2-26


Reunir los datos
Primarios Secundario
Colección de Compilación
Datos de datos
Impresos o Electrónicos
Observación Encuesta

Experimentación

Chap 1-27
Organización y Presentación,
de Datos Gráficamente
 Los datos, en forma cruda, no son usualmente fáciles
de utilizar en la toma de decisiones.
 Algún tipo de organización de datos es necesaria
 Tablas

 Gráficos

 Técnicas :
 Gráficos de Barras y, gráficos circulares
 Diagrama de Pareto
 Arreglos ordenados-Ordered array
 Tallos y Hojas
 Distribuciones de frecuencia, histogramas y polígonos
 Distribuciones Acumuladas y ojivas
 Tablas de Contingencia
 Diagrama de dispersión
Tablas y Gráficos para Datos
Categóricos
Datos
Categóricos

Tabulación de Graficando Datos


Datos

Tablas Gráficos Gráficos Diagrama


Resumen de Barras Circulares de Pareto
Las tablas resumen
Resumir datos por categorías

Ejemplo: Portfolio de Inversión


Tipo de Monto en miles %
Inversión
Acciones 46.5 42.27
Bonos 32.0 29.09
Fondos 15.5 14.09
Ahorro 16.0 14.55
(Variables
Categóricas) Total 110.0 100.0
Grafico de Barras: Ejemplo
Portfolio de Inversiones
Tipo de Inver Monto en miles %

Acciones 46.5 42.27


Bonos 32.0 29.09
Fondos 15.5 14.09
Ahorro 16.0 14.55
Total 110.0 100.0
Investor's Porfolio

Ahorros

Fondos

Bonos

Acciones

0 10 20 30 40 50
Amount in K$
Ejemplo de Gráfico Circular

Portfolio de Inversión
Tipo de Monto
Inversión (en miles $) (%)

Acciones 46.5 42.27


Bonos 32.0 29.09 Ahorro
CD 15.5 14.09 15%
Accion
Ahorros 16.0 14.55 es42%
Total 110.0 100.0 CD
14%

Porcentajes
redondeados
Bonos
29%
Ejemplo de Gráfico Circular

 Supongamos intención de voto positivo


Candidato A
15%
Candidato D
42%
Candidato B
14%

Candidato C
29%
Ejemplo de Gráfico Circular

 Supongamos intención de voto negativo

Candidato D
42%

NO Candidato D
58%
Diagrama de Pareto
Portfolio de Inversión
45% 100%

90%
% inversión de cada categoría

40%

80%

% inversión Acumulada
35%

70%
30%

60%
25%
Serie1
50%
Serie2
20%
40%

15%
30%

10%
20%

5% 10%

0% 0%
Stocks Bonds Savings CD
Serie1 0,42 0,29 0,15 0,14
Serie2 0,42 0,71 0,86 1
Tablas y Gráficos para
Datos Numéricos
Datos
Numéricos

Distribución de
Arreglo Frecuencias y
Ordenado
Distribución Acumulada

Diagrama de
Tallo y Hojas Histograma Polígono Ojiva
Arreglo ordenado
Una secuencia de datos ranqueados en
algún orden:
 Muestra rango (mínimo a máximo o viceversa)
 Provee algunas señales sobre la variabilidad
dentro del rango
 Sirve de ayuda para identificar outliers
(observaciones no usuales)
 Si el conjunto de datos es grande el
ordenamiento, facilita la interpretación de los
mismos
El ordenamiento de Datos
(continua)

 Datos crudos (como se reúnen):

24, 26, 24, 21, 27, 27, 30, 41, 32, 38

 Datos ordenados desde el menor al mayor:

21, 24, 24, 26, 27, 27, 30, 32, 38, 41


Diagrama de Tronco y Hojas

 Un camino simple para ver detalles de la


distribución de un conjunto de datos

METODO: Separar los datos ordenados de


la serie de datos en dígitos líder (el tronco)
y los datos complementarios (las hojas)
Ejemplo
Datos ordenados:
21, 24, 24, 26, 27, 27, 30, 32, 38, 41

 Aquí utilizamos las decenas como unidad para el


tronco:
Tronco Hoja
 21 se coloca 2 1

 38 se coloca 3 8

 41 se coloca 4 1
Ejemplo
(continua)
Datos ordenados
21, 24, 24, 26, 27, 27, 30, 32, 38, 41

 Completamos el diagrama de stem-and-leaf :


Stem Leaves
2 1 4 4 6 7 7
3 0 2 8
4 1
Utilizando otras unidades de tronco

 Utilizando las centenas como tronco:


 Redondeamos las decenas como hojas

Stem Leaf
 613 resulta 6 1
 776 resulta 7 8
 ...
 1224 resulta 12 2
Utilizando otras unidades para el tronco
(continua)
 Usando los dígitos de la centena como troncos:
 La visualización completa del diagrama de tronco y
hojas:

Data:
Stem Leaves
613, 632, 658, 717, 6 136
722, 750, 776, 827, 7 2258
841, 859, 863, 891, 8 346699
894, 906, 928, 933,
9 13368
955, 982, 1034,
1047,1056, 1140, 10 356
1169, 1224 11 47
12 2
Tabulación de Datos Numéricos:
Distribuciones de Frecuencias

¿Que es una Distribución de Frecuencias?


 Una distribución de frecuencias es una lista o
tabla …
 contiene grupos de clases (rangos dentro de
los cuales los datos caen) ...
 Y las frecuencias corresponden a el numero de
datos que caen dentro de cada clase o
categoría
¿Porque utilizar Distribuciones de
Frecuencias?

 Es un camino para resumir datos


numéricos
 Condensa los datos crudos de una forma
mas útil...
 Permite una interpretación visual rápida de
los datos
Intervalos de Clase
y Fronteras de Clases
 Cada intervalo de clase tiene igual rango ( o no)
 Se puede determinar el ancho de cada intervalo
mediante
rango
amplitud del intervalo 
numero de clases deseadas

Usualmente 5 como mínimo y no mas de 15


clases
 Las fronteras de clase no deben superponerse
 Redondear los puntos finales de cada intervalo
de clase para evitar superposiciones
Ejemplo de Distribución de
Frecuencias

Ejemplo: Un productor de aislamiento térmico


selecciona aleatoriamente 20 días invernales a
fin de medir las temperaturas diarias

24, 35, 17, 21, 24, 37, 26, 46, 58, 30,
32, 13, 12, 38, 41, 43, 44, 27, 53, 27
Tabulando Datos Numéricos:
Frecuencia Acumulada
Datos ordenados en forma ascendente:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

Frecuencia
Frecuencia Frecuencia Frecuencia Frecuencia
Porcentual
Clases Absoluta Relativa Acumulada Porcentual
Acumulada
f fr F % %
10 a 20 3 0,15 3 15 15
20 a 30 6 0,3 9 30 45
30 a 40 5 0,25 14 25 70
40 a 50 4 0,2 18 20 90
50 a 60 2 0,1 20 10 100
20 1 100
Histograma

Clases
Clases Frecuencias
Punto medio
10 A 20 15 3
Histograma: Temperaturas diarias
20 A 30 25 6
30 A 40 35 5
altas
40 A 50 45 4 7
50 A 60 55 2
6
5
4
Frequencias

3
(Sin
espacios 2
vacíos
1
entre
barras) 0
5 15 25 35 45 55 65
Graficando Datos Numéricos :
El Polígono de Frecuencias
Pto medio de
Clases Clases Frecuencias

10 A 20 15 3
20 A 30 25 6
30 A 40 35 5 Poligono deFrecuencia : Altas Temperaturas diarias
40 A 50 45 4 7
50 A 60 55 2 6
Frecuencias 5
4
3
2
1
0
5 15 25 35 45 55 65

Puntos medios de
clase
Graficando Frecuencias acumuladas
La Ojiva (Poligono de %Acumulado)

Lim sup
clases Percentaje
Clases Acumul.
Menos de 10 0 0
10 A 20 20 15
20 A 30 30 45
30 A 40 40 70 Ojiva

PorcentajeAcuulado
40 A 50 50 90
50 A 60 60 100 100
80
60
Frequency
40
20
0
10 10
20 20
30 30
40 40
50 5060 60

Límite Inf del Int de clase


Tabulación y Grafico
Datos Categóricos Multivariados
 Ventas por trimestres de tres territorios

1st Qtr 2nd Qtr 3rd Qtr 4th Qtr


East 20.4 27.4 59 20.4
West 30.6 38.6 34.6 31.6
North 45.9 46.9 45 43.9

60

50

40
East
30 West
North
20

10

0
1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
Utilizando Tablas dinámicas para Explorar datos
multivariantes

 Se pueden utilizar para encontrar posibles patrones y


relaciones entre datos multivariantes.
 Es una herramienta de MS Excel para crear tablas que
resumen los datos
 Aplicaciones sencillas para obtener resúmenes o tablas
de contingencia
 Puede ser utilizada para agregar o quitar variables
Diagrama de Dispersión

 El Diagrama de dispersión es
usado para examinar posibles
relaciones entre dos variables
numéricas

 Una variable se mide sobre el eje


vertical y la otra variable se mide
sobre el eje horizontal
Ejemplo de Diagrama de dispersión

Volumen Costo por


por día día
23 131 Costo por Dia vs. Volumen de Produccion
250
24 120
26 140 200
Costo per Dia

29 151 150
33 160
100
38 167
41 185 50

42 170 0
50 188 0 10 20 30 40 50 60 70
Volumen por Dia
55 195
60 200
Gráfico de Series de Tiempo

 Un gráfico de Series de Tiempo se


usa para reconocer modelos en los
valores de una variable a través del
tiempo

 Una variable se mide sobre el eje


vertical y, la variable temporal se
mide sobre el eje horizontal
Diagrama de dispersión Ejemplo

Numero de
Año Franquicias Numero de Franquicias, 1996-2004
120
1996 43
Numero de Franquicias
100
1997 54
80
1998 60 60
1999 73 40
2000 82 20

2001 95 0
1994 1996 1998 2000 2002 2004 2006
2002 107
Año
2003 99
2004 95
Estadística para
Administradores

Análisis Exploratorio de Datos

Lic. Daniel Fortuna Chap 3-58


Medidas Resumen
Describiendo Datos Numéricos

Tendencia Cuartiles Variación Forma


Central
Asimetría
Rango
Media Aritmética Curtosis
Rango Intercuartílico
Mediana

Modo Varianza
Desviación estándar
Media Geométrica
Coeficiente de Variación
Media Armónica
Chap 3-59
Medidas de Tendencia Central

Tendencia Central

Media Mediana Modo Media Media


Aritmética Geométrica Armónica
n

X i X G  ( X1  X 2  L  X n )1/ n Xh 
n
X i 1 n
1
i1 X
Punto Medio Valor mas
n de valores frecuente
rankeados mente i
observado

Chap 3-60
Media Aritmética

 La media aritmética es la medida mas usada


de tendencia central

 Para una muestra de tamaño n:


n

X i
X1  X2    Xn
X i1

n n

Tamaño Valores
muestral Observados
Chap 3-61
Media Aritmética
(continuación

 La mas usual medida de tendencia central


 Media = suma de valores dividida por el numero de
valores
 Afectadas por valores extremos (outliers)

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Media = 3 Media = 4
1  2  3  4  5 15 1  2  3  4  10 20
 3  4
5 5 5 5

Chap 3-62
Mediana
 En un arreglo ordenado, la mediana es el numero
del “valor medio” (50% arriba, 50% abajo)

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Mediana = 3 Mediana = 3

 No afectada por valores extremos

Chap 3-63
Modo
 Valor que ocurre mas a menudo
 No está afectado por los valores extremos
 Usados tanto para datos numéricos, o
categóricos, escala (nominal)
 Puede no existir el modo
 Pueden existir varios modos

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6

Modo = 9 No hay Modo


Chap 3-64
Ejemplo
 5 casas en una colina sobre la playa
$2,000 K
Precios de las
casas

$2,000,000 $500 K
500,000 $300 K
300,000
100,000
100,000
$100 K

$100 K

Chap 3-65
Ejemplo:
Resumen de Estadísticos

Precios de las
Casas:  Media: ($3,000,000/5)
= $600,000
$2,000,000
500,000
300,000  Mediana: punto medio de los datos
100,000
100,000 ordenados
Suma $3,000,000
= $300,000

 Modo: valor mas frecuente


= $100,000
Chap 3-66
¿Que medida de localización es
la “mejor”?

 Media: es generalmente utilizada,


afectada por valores fuera de escala
(outliers).
 Mediana: se usan a menudo, pues
no es sensible a los valores
extremos.
 Modo: Es el valor más frecuente.
Puede no existir o haber más de un
modo

Chap 3-67
Media Geométrica
 Media geométrica
 Usada para medir la tasa de cambio de la variable
sobre el tiempo

XG  ( X1  X2    Xn ) 1/ n

 Media geométrica, tasa de retorno


 Mide el status de una inversión a través del tiempo

RG  [(1  R1 )  (1  R 2 )    (1  Rn )]1/ n  1
 donde Ri es la tasa de retorno en el tiempo del
periodo i Chap 3-68
Ejemplo

Una inversión de $100,000 obtiene $50,000 al fin del


año uno y $100,000 al fin del año dos:

X1  $100,000 X2  $50,000 X3  $100,000

50% caída 100% incremento

El resultado a los dos años es 0, pues empieza y


termina al mismo nivel.
Chap 3-69
Ejemplo
(continua

Usa el retorno en un año,para calcular la media


aritmética y la media geométrica:

tasa de ( 50%)  (100%)


retorno: X  25% resultado erróneo
2
media
aritmética

tasa de RG  [(1  R1 )  (1  R 2 )    (1  Rn )]1/ n  1


retorno
 [(1  ( 50%))  (1  (100%))]1/ 2  1 Resultado
media
correcto
Geométrica :  [(. 50)  (2)]1/ 2
1 1
1/ 2
 1  0%
Chap 3-70
Media armónica

Se define como el recíproco de la media aritmética


de los valores recíprocos de la variable.

1 n
Xh  
 1
n
 n
1
 X  i1 X
 i 1 i  i

 n 
 
 
Chap 3-71
Media armónica. Ejemplo

Un grupo de trabajadores construyen los primeros 120mts


de una avenida con una productividad de 12 mts diarios.

Los siguientes 120 metros lo hacen a razón de 18 metros por


día.

Se busca de determinar la productividad diaria durante todo el


trabajo.

Chap 3-72
Media armónica. Ejemplo
Si la calculamos como una media aritmética:
12  18
X  15 mts
2
Por otra parte, los primeros 120 metros requieren 10 días
y los siguientes 120 metros 6.67 días, o sea todo el trabajo
llevará 16.67 días.

Si la productividad diaria es de 15 metros, en los 16.67 días


construirán un total de 250.05 metros, lo que es inconsistente
ya que el trabajo total es de 240 metros.

Si en cambio se utiliza la media armónica:


2 72 72
Xh     14.4 mts
 1 1  3 2 5
  
 12 18  Chap 3-73
Media armónica. Ejemplo

Trabajando con una productividad media de 14.4 metros


por día en 16.67 días , se construirán 240 metros.

Se advierte que la media armónica se aplica cuando


se presenta una relación inversa entre las variables
Implícitas.

Chap 3-74
Medidas Resumen
Fractiles

Quintiles Percentiles
Mediana Deciles

Cuartiles Valores fuera


de escala y
extremos.

Chap 3-75
Cuartiles o Quartiles
 El cuartil, divide los datos ordenados en 4 segmentos con un
igual numero de términos por segmento

25% 25% 25% 25%

Q1 Q2 Q3

 El primer cuartil, Q1, es el valor en el cual 25% de las


observaciones son menores y. 75% son mayores
 Q2 es la mediana (50% son menores y, 50% son
mayores)
 Solo el 25% de las observaciones son mayores que el
tercer cuartil Q3

Chap 3-76
Medidas de Variación
Variación

Rango Rango Varianza Desviación Coeficiente


Intercuartilico estándar de
Variación

 Las medidas de variación


dan información sobre el
spread o variabilidad de
los valores de los datos.
Igual centro,
diferente variación
Chap 3-77
Rango

 Es la mas simple medida de variación


 Diferencia entre el mayor valor y, el menor valor
del conjunto de datos:

Rango =X Mayor – X Menor

Ejemplo:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Rango = 14 - 1 = 13
Chap 3-78
Desventaja de el Rango
 Ignora el camino de la distribución de los
datos
7 8 9 10 11 12 7 8 9 10 11 12
Rango = 12 - 7 = 5 Rango = 12 - 7 = 5

 Sensible a los outliers


1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Rango = 5 - 1 = 4

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Rango = 120 - 1 = 119
Chap 3-79
Rango Intercuartilico

 Algunos problemas de outliers pueden ser


eliminados usando el rango intercuartílico.
 Se eliminan los valores altos y bajos y se
calcular el rango intercuartilico de los valores
restantes.
 Rango Intercuartilico = 3er cuartil – 1er cuartil

Q3 – Q1= Rango Intercuartílico = H


Chap 3-80
Rango Intercuartílico

 Es Q3-Q1 y mide la dispersión en el medio del


50% de los datos
 Es una medida de variabilidad no influida por
valores extremos o outliers.
 Medidas como Q1, Q3 o RI, no influidas por
valores extremos se llaman medidas robustas

Chap 3-81
Rango Intercuartilico

Ejemplo:
Mediana X
X Q1 Q3 máximo
mínimo (Q2)
25% 25% 25% 25%

12 30 45 57 70

rango Intercuartílico
= 57 – 30 = 27

Chap 3-82
Valores Fuera de Escalas y Valores Extremos

Q1 Q3

Valores fuera de escala

Valores extremos

“Fuera de Escala”, se define como un valor menor a Q1 - 1.5H, o mayor que Q3 + 1.5H

“Extremo”, como un valor que es menor que Q1 - 3H. o mayor que Q3 + 3 H

Donde: Q1 es el primer cuartil; Q3: es el tercer cuartil


H = Q3-Q1
Chap 3-83
Varianza

 Promedio (aproximado) de las desviaciones


cuadráticas de los valores alrededor de la
media:
n

 varianza muestral:
 (X  X) i
2

S  2 i1
n -1
donde X = media
n = tamaño muestral
Si = iesimo valor de la variable X
Chap 3-84
Desviación estándar
 La medida mas usada de la variación
 Muestra la variación alrededor de la media
 Es la raíz cuadrado de la varianza
 Tiene las mismas unidades de los datos
originales
n

Desviación estándar muestral :


 i
(X  X ) 2

S
 i 1
n -1

Chap 3-85
Midiendo la variación

Pequeña desviación
estándar

Gran desviación estándar

Chap 3-86
Comparando desviaciones
estándar

Datos A
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 S = 3.338

Datos B
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 S = 0.926
Datos C
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 S = 4.567

Chap 3-87
Ventajas de la Varianza y
Desviación estándar

 Cada valor del conjunto de los datos es utilizado en


el calculo

 Los valores cercanos de la media brindan un peso


extra, porque las desviaciones de la media son
cuadráticas)

Chap 3-88
Coeficiente de Variación
 Medida relativas de variación
 Siempre expresada en porcentaje (%)
 Muestra la variación relativa a la media
 Puede ser usada para comparar dos o mas conjuntos de datos
medidos en diferentes unidades
 Mide la homogeneidad de la serie:
 CV<10%= homogénea
 10%<CV<30%= poco homogénea
 CV>30% = no homogénea

 S 
C V     100%

 X 
Chap 3-89
Medidas de Forma
Forma

Asimetría Curtosis

Chap 3-90
Forma de la Distribución

 Describe como los datos se distribuyen


 Medidas de Forma
 Simétrica o Asimétrica
<0 =0 >0
Asimetría- Izq Simétrica Asimetría-Derecha
Media < Mediana Media = Mediana Mediana < Media

Chap 3-91
Distribución de la Forma y el
Box-and-Whisker Plot

Izq.-Asimetría (-) Simétrica Der.-Asimetría (+)

Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3

Los datos se concentran Los datos se concentran


alrededor del tercer cuartil alrededor del primer cuartil
Chap 3-92
Forma de la distribución.
Curtosis o Kurtosis

 Describe la concentración relativa de los


valores en el centro en comparación con las
colas, tomando como base a la distribución
normal, con un valor de 3.
4
k  4 3

k > 0 = Distribución Leptocurtica (más concentrada)

k = 0 = Distribución mesocurtica (igual)

k < 0 = Distribución platicurtica (menos concentrada)


Chap 3-93
Forma de la distribución.
Curtosis o Kurtosis

k > 0 = Distribución Leptocurtica (más concentrada)

k = 0 = Distribución mesocurtica (igual)

k < 0 = Distribución platicurtica (menos concentrada)


Chap 3-94
El Resumen de los 5 números

 Box-and-Whisker Plot: Una visualización de los


datos utilizando el resumen de los 5 números:

Mínimo -- Q1 -- Mediana -- Q3 -- Máximo


Ejemplo:
25% 25% 25% 25%

Mínimo Q1 Mediana Q3 Máximo


Minimum 1st Median 3rd Maximum
Quartile Quartile

Chap 3-95
Box-and-Whisker Plot Ejemplo

 Abajo se presentan los datos y el Box-and-Whisker:


0 2 2 2 3 3 4 5 5 10 27

Min Q1 Q2 Q3 Max

 Los datos y el grafico presentan asimetría derecha


0 2 3 5 27
0 23 5 27

Chap 3-96
La covarianza muestral

 La medida de la covarianza presenta la intensidad de la


relación lineal entre dos variables llamadas variables
bivariantes)

 La covarianza muestral :
n

 ( X  X)( Y  Y)
i i
cov ( X , Y )  i1
n 1
 Solamente representa la intensidad de la relación
 No implica efectos causales
Chap 3-97
Interpretando Covarianzas

 Covarianza entre dos variables aleatorias:

cov(X,Y) > 0 X e Y tienden a moverse en la misma


dirección

cov(X,Y) < 0 X e Y tienden a moverse en direcciones


opuestas

cov(X,Y) = 0 X e Y son independientes

Chap 3-98

También podría gustarte