Documentos de Académico
Documentos de Profesional
Documentos de Cultura
STATISTICS
Recolección
Organización
Presentación
Análisis de los datos
Interpretación
SURGIMIENTO HISTÓRICO
Tablillas Censos
de arcilla Registros numéricos de Registros de
bienestar material Rey David ordenó un censo propiedades
Edad Contemporánea
1662: J. Graunt Primer estudio estadístico notable 1805: Laplace y Gauss Teoría de los errores
1693: E. Halley Pionero de las estadísticas sociales 1820: IDEM y Legendre Teoría Mínimos cuadrados
1691: G. Neumann Tablas de mortalidad 1835: J. Quetelet Padre de la Estadística Moderna
1760: G. Achenwall Acuñó la palabra «Estadística» 1880: W. Lexis Contribuyó con estadística social
CLASIFICACIÓN
ESTADÍSTICA DESCRIPTIVA
Describe un conjunto de datos
Elaboración de cuadros y gráficos
Cálculo de medidas de resumen
ESTADÍSTICA INFERENCIAL
Permite establecer conclusiones válidas para toda la
población con base en información proveniente de una
muestra
Elaboración hipótesis
Aplicación de pruebas estadísticas
Interpretación de los parámetros estadísticos
REPRESENTACIÓN DE LOS DATOS
GENERALIDADES
Cuadro 9
Costa Rica: Distribución absoluta del abstencionismo en la elección
presidencial de 1998 por provincias según sexo
Gráfico 7
Costa Rica: Porcentaje de desocupados (tasa de
desempleo abierto) por sexo, 1989-1999
6,0
Porcentaje de desocupados
5,0
4,0
3,0
2,0
1,0
0,0
1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Fuente: Elaboración propia con base en datos del Sexto Informe del Estado de la Nación. San José, Costa Rica, 1999
Gráfico 8
Costa Rica: Distribución del total de abstencionistas en la elección
presidencial de 1998, según provincias
San José
Alajuela
Puntarenas
Limón
Cartago
Heredia
Guanacaste
abstencionismo
Fuente: Elaboración propia con base en datos del Tribunal Supremo de Elecciones. Estadísticas del sufragio
1988. Imprenta Nacional. San José, Costa Rica, 2001
Muy útiles cuando los nombres de las categorías son muy extensos.
GRÁFICO DE BARRAS COMPUESTAS
Gráfico 7
Costa Rica: Número de hogares según niveles de
pobreza por zona, 1998
No pobres
Nivel de pobreza
Necesidades básicas
insatisfechas
Zona Urbana
Zona Rural
Extrema pobreza
Hogares
Fuente: Elaboración propia con base en datos del Sexto Informe del Estado de la Nación. San José, Costa Rica, 1999
96 84 68 87 82 N° clase LI LS Frecuencia
81 80 55 74 60 1 49.5 56.5 7
80 94 76 76 90 2 56.5 63.5 4
54 83 80 59 91
3 63.5 70.5 4
91 75 81 70 87
4 70.5 77.5 7
88 83 62 95 82
53 73 77 69 51 5 77.5 84.5 11
89 73 67 51 92 6 84.5 91.5 9
62 100 97 84 56 7 91.5 98.5 7
91 96 54 91 96 8 98.5 105.5 1
10
Cada clase se caracteriza por un límite 8
datos originales. 2
Nota 2 3 4 5 6 7 8 9
# alumnos 3 4 8 11 9 7 6 2
LA MEDIA
TÉRMINOS BÁSICOS
Parámetro
Valor numérico real de una población
Población
Todas las observaciones posibles de unidades de estudio similares.
Estadístico
Valor numérico tomado de una muestra para hacer una inferencia de
la población
Datos continuos agrupados y sin agrupar
El procesamiento de los datos continuos puede llevarse a cabo
empleando los datos en forma agrupada o sin agrupar.
La agrupación de datos se lleva a cabo separando los datos en clases
o categorías tal y como se realiza cuando se construyen histogramas.
LA MODA
Ejemplo
Si el conjunto de datos corresponde a: La moda sería:
d1
Fórmula Mo Li c
d1 d 2
Se debe determinar la clase modal, es decir la clase cuya
frecuencia relativa es mayor a la de las demás.
SOLUCIÓN
La clase modal Li 77,5
corresponde a la clase d1 11 – 7 4
comprendida entre 77,5 d 2 11 – 9 2
y 84,5 pues es la clase
c 84,5 – 77,5 7
que posee la mayor
frecuencia entre todas d1 4
Mo Li * c 77,5 * 7 82,17 82
las clases, igual a 11 . d1 d 2 42
LA MEDIANA
n Fa
Me Li 2 c
fi
Datos no agrupados
x i = dato x
x i
n = número de datos n
Datos agrupados
x
xf
i i
f i = frecuencia de la clase i
EJERCICIO
Calcule la media con base en los siguientes
datos agrupados. N° clase LI LS Frecuencia
1 49.5 56.5 7
2 56.5 63.5 4
3 63.5 70.5 4
4 70.5 77.5 7
5 77.5 84.5 11
6 84.5 91.5 9
7 91.5 98.5 7
8 98.5 105.5 1
3847
La media es por tanto: 76,94
50
MEDIDAS DE VARIABILIDAD:
¿Qué tan
dispersos
RANGO están los
datos?
DESVIACIÓN ESTÁNDAR
VARIANZA
COEFICIENTE DE VARIACIÓN
FÓRMULAS PARA DATOS NO AGRUPADOS
Desviación estándar s ( x x)
i
2
n 1
Varianza s2
i
( x x ) 2
n 1
Coeficiente de variación s
CV 100
x
EJERCICIO
La empresa de confites PIRULIN va a vender sus productos a una
transnacional que cuenta con altos estándares de calidad.
El Gerente de Producción ha identificado una alta variabilidad en la
longitud de los confites que produce, por lo que desea iniciar un
proyecto de 6 Sigma en alguna de las líneas de producción de
confites pero no sabe por cuál empezar.
Los datos representan la longitud de una muestra de confites.
Ayúdelo a seleccionar la línea de confite por la que empezaría a
desplegar un proyecto de 6 Sigma
Gráfico 7
Costa Rica: Cantidad de desempleados, 1989-19995
140000
120000
Hombres
Número de casos
100000
Mujeres
80000
60000
40000
20000
0
1989 1990 1991 1992 1993 1994 1995
Fuente: Elaboración propia con base en datos del Sexto Informe del Estado de la Nación. San José, Costa Rica, 1999
10
8
Frecuencia
0
49,5 56,5 63,5 70,5 77,5 84,5 91,5 98,5 105,5
56,5 63,5 70,5 77,5 84,5 91,5 98,5 105,5
Límites de Clase
506.5
406.5
Variable de respuesta
306.5
206.5
106.5
6.5
-93.5
Grupos para comparar
El gráfico Box Whisker se emplea para variables continuas, y permite comparar la distribución de los
datos entre distintas categorías o atributos, pudiendo provenir de distintas poblaciones. Los bigotes
muestran los valores máximo y mínimo del grupo, y la caja representa el 1°, el 2° y el 3° cuartil. El
2° cuartil equivale a la mediana.
Se emplean para comparar dos variables continuas con el fin
de encontrar relaciones entre ellas.
Se emplean para variables continuas, para mostrar el
comportamiento de los datos en distintos momentos
TEORÍA DE LA
PROBABILIDAD
DEFINICIÓN
Suceso
Cualquier conjunto de resultado o consecuencias de
un procedimiento
Espacio muestral
Se compone de todos los sucesos simples posibles.
Es decir, el espacio muestral se forma con todos los
resultados que ya no es posible desglosar más.
El espacio muestral de lanzar una moneda al aire
consta de dos posibles sucesos: escudo o corona.
¿CUÁL ES EL ESPACIO MUESTRAL DE LOS
SIGUIENTES SUCESOS SIMPLES?
Lanzar un dado
Tirar dos dados
Sacar Tréboles de un
naipe
Preguntar por el
género
Preguntar por lugar
de nacimiento
NOTACIÓN DE PROBABILIDADES
319
P( A) 0, 65
491
REGLA 3: PROBABILIDADES
SUBJETIVAS
PROBABILIDAD COMPLEMENTARIA
LEY ADITIVA
LEY ADITIVA COMPLETA
LEY MULTIPLICATIVA
PROBABILIDAD COMPLEMENTARIA
Ejemplo
En un grupo típico, hay 205 bebés recién nacidos y 105 de ellos son niños. Si
un bebé del grupo es seleccionado al azar, ¿cuál es la probabilidad de que el
bebé no sea niño?
105
P(no niño) 1 P niño 1 1 0,51 0, 49
205
LEY ADITIVA
P( A ó B) P( A ) P(B)
Ejemplo
En un servicio de urología, el 38,2% de las biopsias prostáticas presentan
hiperplasia benigna (HB), el 18,2% prostatitis (PR) y en un 43,6% el diagnóstico
de cáncer (C). La probabilidad de que un paciente que se someta a una biopsia
de próstata no confirme el diagnóstico de cáncer prostático es:
P(HB ó PR ) P(HB ) P(PR ) 0,382 0,182 0,564
1 P(C) 1 0,436 0,564
LEY ADITIVA COMPLETA
P( A ó B) P( A ) P(B) P( A y B)
Ejemplo
El servicio meteorológico pronosticó una probabilidad de lluvia del 60%, una
probabilidad de granizo del 20%, y una probabilidad de lluvia con granizo del
10%. ¿Cuál es la probabilidad de que llueva o caiga granizo?
P( A y B) P( A ) * P(B)
Ejemplo
La probabilidad de que un tren llegue a tiempo es de 0,80. En tanto que la
probabilidad de que salga a tiempo es de 0,95. ¿Cuál es la probabilidad de
que un tren llegue y salga a tiempo?
P( A y B) P( A ) * P(B)
0,80 * 0,95 0,76
PROBABILIDAD
CONDICIONAL
P( A y B) 0,76
P( A / B) 0,95
P(B) 0,80
EJEMPLO
80
La probabilidad de desarrollar la enfermedad E es: P( E ) 0,444
180
60
La probabilidad de que un fumador padezca la enfermedad E es: P( E / F ) 0,857
70
20
La probabilidad de que un no fumador padezca la enfermedad es: P( E / F ) 0,182
110
ARBOL DE ESPACIO MUESTRAL
0,5 Tercero
0.125
0,5
Segundo 0.125
0,5 0,5 Tercero
Primero
0,5
0.125
Tercero
0,5 P(2 niños) = 0,375
0,5
Segundo 0,5
0,5
Niño Tercero
Niña
0,5
EJEMPLO PROBABILIDAD CONDICIONAL
9/14 Tercero
5/13 10/15*9/14 *5/13 = 0,1648
Segundo
10/15 9/13
5/14 Tercero 10/15*9/14 *5/13 = 0,1648
Primero
10/14 Tercero
9/13 10/15*9/14 *5/13 = 0,1648
5/15
Segundo
Distribución discreta
Distribución que resulta de datos contados que tienen una cantidad
finita de posibles valores. Ejm: binomial, poisson, hipergeométrica.
Distribución continua
Distribución que contiene una cantidad infinita de datos que pueden
ser desplegados en una escala de medición. Ejm: normal, Weibull
Parámetro
Valor numérico real de una población
Población
Todas las observaciones posibles de unidades de estudio similares.
Estadístico
Valor numérico tomado de una muestra para hacer una inferencia de
la población
DISTRIBUCIÓN NORMAL
DISTRIBUCIÓN NORMAL
1
f ( x; , ) e 2
2
•Probabilidad de ocurrencia:
1 x
2
x2
1
e
2
P( x1 X x2 ) dx
donde, 2 x1
La desviación estándar de la
distribución de una estadística de
muestra se conoce como error estándar x
de la estadística. n
Esta variabilidad proviene de un error de muestreo
debido al azar, es decir, hay diferencias entre cada
muestra y la población así como entre las diversas
muestras.
Indica no solo el tamaño del error de azar que se
ha cometido, sino también la probable precisión al
emplear una estadística de muestra para estimar
un parámetro de población.
DISTRIBUCIÓN
BINOMIAL
DISTRIBUCIÓN BINOMIAL
Proceso de Bernoulli
n!
P ( r , n) p r q nr
r!(n r )!
donde,
Distribución Binomial
p=30%, n=6
35%
30%
25%
Probabilidad
20%
15%
10%
5%
0%
0 1 2 3 4 5 6
EJEMPLO
n! r nr 3!
P(r, n) p q 0,520,532 0,375
r! (n r )! 2! (3 2)!
MEDIDAS DE POSICIÓN Y VARIABILIDAD
EN DIST. BINOMIALES
Medida de posición
media: np
Medida de variabilidad
desviación estándar:
npq
donde,
n = número de ensayos
p = probabilidad de éxito
q = probabilidad de fracaso
EJEMPLO
np 10 20% 2
e
x
P( x)
x!
donde,
Distribución Poisson
λ=4
25%
20%
Probabilidad
15%
10%
5%
0%
0 1 2 3 4 5 6 7 8 9 10 11 12
N° de éxitos
EJEMPLO
P(x≤3) = 0,2650
n!
P(n1, n2 ,..., nk ) p1n pn2 ...pnk
1 2 k
n1! n2!... nk !
EJEMPLO
n1! n2 !... nk !
20!
P(7,8,5) 0,23 70,59 80,18 5 0,0094
7!8!5!
DISTRIBUCIÓN
HIPERGEOMÉTRICA
DISTRIBUCIÓN HIPERGEOMÉTRICA
Distribución discreta para muestreos aleatorios en donde
los eventos pueden obtener únicamente dos posibles
resultados, tal y como sucede con la Binomial pero sin
reemplazo, por lo que la probabilidad entre ensayos no se
mantiene constante.
La función de probabilidad se deduce a través de
razonamientos combinatorios y es igual a
d N d
x nx b
P( X x )
b!
donde
a b! (a b)!
N
n
El valor esperado de una variable X que sigue la
distribución hipergeométrica es
EX
nd
N
Y su varianza es
Nn
VarX npq
N 1
APLICACIONES
20 50 20
20!
30!
3 10 3 3!17! 7!23!
P( X 3) 0,2259
50 50 !
10 10!40!
EJEMPLO CON EXCEL
El comando es:
=DISTR.HIPERGEOM(muestra_éxito;núm_de_muestra;población_éxito;núm_de_población)
OTRAS DISTRIBUCIONES