Está en la página 1de 91

ESTADSTICA Y

PROBABILIDAD
JUSTIFICACIN DEL ESPACIO
ACADMICO
Los profesionales de Ingeniera Industrial deben en su
profesin tomar decisiones que requieren de anlisis de
un conjunto de informacin disponible o que deben
obtener, para poder elegir entre diferentes alternativas.
En estos aspectos es en donde la Estadstica Descriptiva
presenta un apoyo por cuanto presenta los
procedimientos para recolectar datos necesarios y su
posterior procesamiento, interpretacin y anlisis. De
otra parte, en modelos que se utilizan en diferentes reas
de la Ingeniera Industrial (Investigacin de Operaciones,
Logstica, Control de calidad, Produccin) es necesario
tener un buen conocimiento de los modelos
probabilsticos, parte integrante de este curso.
LOS PROPSITOS

Adquirir un conocimiento preciso de las bases


necesarias de la Estadstica Descriptiva y de las
probabilidades para su aplicacin en la vida
profesional, como herramienta determinante en la
toma de decisiones.
El curso de Estadstica pretende desarrollar en los
estudiantes las competencias propias del rea, para
poder realizar un anlisis estadstico bsico como la
media, la varianza y la desviacin estndar a partir de
un conjunto de datos dado, al igual podr describir
probabilsticamente una distribucin de datos,
identificando el tipo de variable (discreta o continua).
OBJETIVO GENERAL

Conocer los principales mtodos de la


Estadstica Descriptiva para recolectar,
resumir, interpretar y analizar informacin
numrica y de los fundamentos de la teora de
probabilidades y de algunos modelos
probabilsticos.
OBJETIVOS ESPECFICOS
Anlisis de datos: Representar datos en forma grfica y tabular.
Determinar de forma manual las medidas de posicin y de
dispersin. Interpretar el resumen de las estadsticas que brinda un
software.
Determinar la probabilidad de un evento en ejercicios
seleccionados.
Operar con las principales distribuciones de variables discretas.
Operar con las principales distribuciones de variables continuas.
Determinar funciones generadoras de momentos.
Operar con mltiples variables aleatorias discretas y continuas.
Conocer los principales modelos de probabilidades para variables
aleatorias discretas y variables aleatorias continuas.
Utilizar las funciones de distribucin conjuntas.
LA ESTADSTICA

La estadstica, en general, es la ciencia que


trata de la recopilacin, organizacin,
presentacin, anlisis e interpretacin de
datos numricos con el fin de realizar una
toma de decisin ms efectiva.
HISTORIA DE LA ESTADSTICA
Historia.
DIVISIN DE LA ESTADSTICA

Estadstica Estadstica
Descriptiva Inferencial
ESTADSTICA DESCRIPTIVA:

Consiste en la presentacin de datos en


forma de tablas y grficas. Esta comprende
cualquier actividad relacionada con los datos
y est diseada para resumir o describir los
mismos sin factores pertinentes adicionales;
esto es, sin intentar inferir nada que vaya
ms all de los datos.
ESTADSTICA INFERENCIAL:
Se deriva de muestras, de observaciones
hechas slo acerca de una parte de un
conjunto numeroso de elementos y esto
implica que su anlisis requiere de
generalizaciones que van ms all de los
datos. La Estadstica Inferencial investiga
o analiza una poblacin partiendo de una
muestra tomada.
MTODO ESTADSTICO
El conjunto de los mtodos que se utilizan para medir las
caractersticas de la informacin, para resumir los valores
individuales, y para analizar los datos a fin de extraerles el
mximo de informacin, es lo que se llama mtodos
estadsticos. Los mtodos de anlisis para la informacin
cuantitativa se pueden dividir en los siguientes siete pasos:
1. Definicin del problema.
2. Recopilacin de la informacin existente.
3. Obtencin de informacin original.
4. Clasificacin.
5. Presentacin.
6. Anlisis.
7. Toma de decisiones.
APLICACIN DE LA ESTADSTICA
La estadstica prcticamente se puede
utilizar en todas las actividades del ser
humano, donde se presenta con mayor
incidencia es en: Economa, Agricultura,
Informtica, Prevencin de Riesgos,
Control de Medio Ambiente, Qumica
Analtica, Medicina, Ingeniera,
Psicologa, etc.
DEFINICIONES BSICAS
LA POBLACIN: es el conjunto de todos los elementos
sobre los que se quiere realizar un estudio estadstico.
LA MUESTRA: es una parte representativa de la poblacin
que se elige para hacer el estudio estadstico.
VARIABLE: Caracterstica de la poblacin que se analiza en
el estudio estadstico. Hay dos tipos de variables
estadsticas:
Cuantitativas, (variables) son los que se pueden
expresar con nmeros (estatura de todas la personas
de la U.) se pueden describir por medio nmeros.
Cualitativas, (atributos) son los que no se pueden
expresar con nmeros (el estado civil, el sexo, la raza,
etc.) se pueden describir por medio de palabras.
VARIABLES CUANTITATIVAS
Datos Discretos: Son aquellos que surgen por el
procedimiento de conteo. Es decir, los datos
discretos toman valores enteros (ej., el nmero
de hijos por familia; el nmero de automviles
que pasan por una avenida en una hora, etc.).

Datos Continuos: Son aquellos que surgen


cuando se mide alguna caracterstica. Es decir,
toman al menos tericamente cualquier valor
dentro de un intervalo (ej., el peso, la estatura, la
tensin arterial de las personas, etc.)
EJERCICIOS
1. Clasifique, como cualitativos o cuantitativos
(discretos o continuos), los siguientes caracteres
estadsticos estudiados en los carros de cierta
marca:
a) Modelo de carro
b) Color de su carrocera
c) Potencia de su motor
d) Consumo medio de gasolina en 100 km
e) Nmero de piezas
EJERCICIOS
2. Clasifique, como cualitativos o cuantitativos
(discretos o continuos), los siguientes
caracteres estadsticos estudiados en una
fbrica de tornillos:
a) La produccin diaria de tornillos.
b) Las longitudes de los tornillos.
c) El color de los tornillos.
d) Las anchuras de los tornillos.
QU ES UN DATO?
Dato es una representacin simblica (numrica,
alfabtica, etc.), un atributo o una caracterstica
de una entidad. El dato no tiene valor semntico
(sentido) en s mismo, pero si recibe un
tratamiento (procesamiento) apropiado, se
puede utilizar en la realizacin de clculos o toma
de decisiones. Es de empleo muy comn
prcticamente en cualquier disciplina cientfica.
Un Conjunto de datos es una coleccin de datos
normalmente tabulada. Por cada elemento (o
individuo) se indican varias caractersticas.
FORMAS DE RESUMIR LOS DATOS
Tablas
Tablas de frecuencias (distribucin de frecuencias)
Frecuencias relativas (porcentaje del total)
Grficos
Histogramas
Polgonos de Frecuencias
Diagrama de Puntos
Diagrama de Cajas (Box plots) etc.
Diagrama de Pareto
DISTRIBUCIN DE FRECUENCIAS
Es un mtodo para clasificar, organizar y
resumir datos.

SMBOLOS:
TABLAS DE FRECUENCIAS
Variables discretas:
Ejemplo: En un estudio con un grupo de 2.000 personas
que haban sido tratadas psicolgicamente por problemas
de ansiedad, se desea preguntar a las mismas, cuntas
veces haban sufrido un ataque de ansiedad desde que
termin el tratamiento recibido. Pero no se quiere
realizar una investigacin exhaustiva, por lo cual se
selecciono una muestra de 20 personas. El resultado de
esta encuesta, se anota a continuacin:

X1= 2 X6= 4 X11= 4 X16= 0


X2= 2 X7= 0 X12= 0 X17= 2
X3= 1 X8= 1 X13= 0 X18= 3
X4= 2 X9= 0 X14= 4 X19= 0
X5= 1 X10= 0 X15= 4 X20= 3
TABLAS DE FRECUENCIAS
N=
n=

Yi ni hi Ni Hi
0 7 35% 7 35%
1 3 15% 10 50%
2 4 20% 14 70%
3 2 10% 16 80%
4 4 20% 20 100%
n= 20 100%
La siguiente es una muestra que representa un
estudio hecho en la ciudad de Bogot, este se
realiz con fin de conocer la principal causa de
muerte en esta ciudad. Cul sera la principal
causa de muerte? Con qu porcentaje?; Cul
sera la menor causa de muerte? Con qu
porcentaje?; Qu quiere decir N2? Qu quiere
decir H3? 1 5 3 1 2 4 1 3 1 5
2 1 1 5 3 1 2 1 4 1
4 1 3 1 5 1 2 1 1 2
5 1 1 5 1 5 3 1 2 1
2 3 1 1 2 1 5 1 5 1
1 2 5 1 1 2 3 4 1 1
1 1 2 1 1 2 1 1 2 3
3 3 1 5 2 3 5 1 3 4
1 1 2 4 5 4 1 5 1 5
5 1 1 5 1 1 5 1 1 5
LOS GRFICOS ESTADSTICOS MS
UTILIZADOS SON:
DIAGRAMA DE BARRAS, consiste en dibujar una
barra sobre cada uno de los datos con una altura
proporcional a la frecuencia absoluta o relativa. Si
en un diagrama de barras unimos los extremos
superiores de cada una obtenemos una lnea
poligonal que se llama polgono de frecuencias
EL DIAGRAMA DE SECTORES, es un crculo
dividido en sectores circulares de amplitudes
proporcionales a las frecuencias absolutas o
relativas
EJEMPLOS DE GRFICOS VARIABLES
DISCRETAS:
TABLAS DE FRECUENCIAS
Variables continuas:
Tomamos como ejemplo una muestra de 20
alumnos a fin de conocer su peso en kilos:
1 67,9 6 56,4 11 50,2 16 47,4
2 61,6 7 75,3 12 80,2 17 78,7
3 64,4 8 65,8 13 68,5 18 43,5
4 62,6 9 72,3 14 61,1 19 59,0
5 47,2 10 58,3 15 68,8 20 99,5
PASOS PARA ELABORAR TABLA DE
FRECUENCIAS EN DATOS CONTINUOS
Determinar el valor mximo y mnimo.
Calcular el rango: R =Xmax - Xmin
Introducir dos nuevos smbolos:
M = nmero de intervalos
C = amplitud del intervalo.
Calcular:
Yj-1 = Lmite inferior del intervalo Y
Yj = Lmite superior del intervalo Y
Donde Yj-1 - Yj = C
Y0 = Xmin Yj-1 Yj
Y0 Y1
Y1 Y2
Y2 Y3
Y3 Y4
Y4 Y5
Calcular: frecuencia absoluta, relativa, etc.
PASOS
1. X MAX= 99,5
X MIN= 43,5
2. R= 55,9
3. n= 20
m= 5 5 < m < 16
4. C= 11,19 m= 1 + 3.3 log n
m= n

Yj-1 Yj ni hi Ni Hi
1 43,54 54,73 4 20,0% 4 20,0%
2 54,73 65,92 8 40,0% 12 60,0%
3 65,92 77,11 5 25,0% 17 85,0%
4 77,11 88,30 2 10,0% 19 95,0%
5 88,30 99,49 1 5,0% 20 100,0%
RESPUESTA
Ejercicio
En un barrio de Bogot, en el ao 2012, se entrevist a
un cierto nmero de mujeres casadas nacidas entre los
aos 1935 y 1944 y se les pregunt a qu edad
contrajeron matrimonio. A continuacin se muestran
los datos correspondientes a 50 de estas mujeres:
Realizar tablas de frecuencias, con 6 intervalos.

15 17 25 15 16 11 15 13 12 10
15 14 16 14 17 13 14 20 29 19
16 18 10 18 12 11 20 34 13 22
19 14 17 16 16 15 12 24 25 9
21 15 13 23 24 10 10 16 14 18
FORMAS DE RESUMIR LOS DATOS
CONTINUOS
Grficos
Histogramas. Est formado por rectngulos cuyas
bases miden la amplitud de las clases y cuyas
alturas son proporcionales a las frecuencias
absolutas (o relativas, si es el caso).
Polgonos de Frecuencias. Si en un histograma
unimos los extremos superiores de cada una
obtenemos una lnea poligonal que se llama
polgono de frecuencias
DIAGRAMA DE PARETO
El diagrama de Pareto, es una grfica para organizar datos de
forma que estos queden en orden descendente, de izquierda a
derecha y separados por barras. Permite asignar un orden de
prioridades. El diagrama permite mostrar grficamente el
principio de Pareto (pocos vitales, muchos triviales), es decir, que
hay muchos problemas sin importancia frente a unos pocos muy
importantes. Mediante la grfica colocamos los "pocos que son
vitales" a la izquierda y los "muchos triviales" a la derecha.

Fuente: https://es.wikipedia.org/wiki/Diagrama_de_Pareto
LAS VENTAJAS DEL DIAGRAMA DE
PARETO
Permite centrarse en los aspectos cuya mejora
tendr ms impacto, optimizando por tanto los
esfuerzos.
Proporciona una visin simple y rpida de la
importancia relativa de los problemas.
Ayuda a evitar que se empeoren algunas causas
al tratar de solucionar otras y ser resueltas.
Su visin grfica del anlisis es fcil de
comprender y estimula al equipo para continuar
con la mejora.
Ejemplo
Nmero de
En una empresa textil se Factores
defectos
desea analizar el Seda 13
nmero de defectos en Algodn 171
los tejidos que fabrica. Tul 105
En la tabla siguiente se
Tafetn 7
muestran los factores
Raso 7
que se han identificado
como causantes de los Encaje 8
mismos as como el Lana 4
nmero de defectos Lino 9
asociado a ellos: Satn 11
Viscosa 9
Tul es un tejido ligero con estructura abierta, en forma de red
Tafetn es un tejido de seda 344
Raso es un tipo de ligamento empleado generalmente para realizar un
tejido de seda muy liso, pastoso y lustros
DIAGRAMA DE PARETO
Frecuancia
Nmero de Frecuencia Frecuancia
Factores relativa
defectos acomulada relativa
acomulada
De mayor
a menor
DIAGRAMA DE PARETO
Frecuancia
Nmero de Frecuencia Frecuancia
Factores relativa
defectos acomulada relativa
acomulada
Algodn 171 171 0,49709 0,49709
Tul 105 276 0,30523 0,80233
Seda 13 289 0,03779 0,84012
Satn 11 300 0,03198 0,87209
Lino 9 309 0,02616 0,89826
Viscosa 9 318 0,02616 0,92442
Encaje 8 326 0,02326 0,94767
Tafetn 7 333 0,02035 0,96802
Raso 7 340 0,02035 0,98837
Lana 4 344 0,01163 1,00000
344
DIAGRAMA DE PARETO
DIAGRAMA DE PARETO
Nmero de
Causas de reprobar una materia
personas
No entregar taller 153
No presentar parciales 213
No asistir a clase 87
No se estudia 372
Falta de empata con el profesor 27
Desinters por la materia 7
No participar activamente en clase 16
No se realiza un anlisis crtico de los temas estudiados 34
Problemas de aprendizaje 6
MEDIDAS DE TENDENCIA
CENTRAL
Media (aritmtica, ponderada, geomtrica,
armnica)

Mediana

Moda

Cuartiles, deciles, percentiles


MEDIA ARITMTICA
Datos originales: El ndice de tendencia central
ms utilizado es la media. Se define como la
suma de los valores observados, dividida por
el nmero de ellas. Se representa con la X, en
maysculas , con una barra horizontal encima.
Datos originales:

Calcula la media de los siguientes datos

14 25 14 8 22 14 14 14 13 21 15
MEDIA ARITMTICA
Datos agrupados:

Hallar la media de los ejercicios:


En un estudio con un grupo de 2.000 personas..
Tomamos como ejemplo una muestra de 20.
En cierto barrio de Bogot, en el ao 2012, se
entrevist.
MEDIA ARITMTICA PONDERADA

Es una media aritmtica que se emplea en distribuciones


de tipo unitario, en las que se introducen unos coeficientes
de ponderacin, denominados , que son valores
i

positivos, que representan el nmero de veces que un valor


de la variable es ms importante que otro.

Ejemplo: un alumno de estadstica I, obtuvo las siguientes


notas durante los tres cortes: 1 corte 2.3; 2 corte 3.1; y
3 corte 2.9; cul ser la nota definitiva del este alumno?
MEDIA GEOMTRICA
El empleo ms frecuente de la media
geomtrica es el de promediar variables tales
como porcentajes, tasas, nmeros ndices.
etc., es decir, en los casos en los que se
supone que la variable presenta variaciones
acumulativas.
Para datos originales

Para datos agrupados


EJERCICIO
DATOS ORIGINALES
Suponga que tenemos 5 observaciones cuyos
valores son:
X1 = 3
X2 = 8
X3 = 9
X4 = 7
X5 = 6

Calcular la media geomtrica.


EJERCICIO
DATOS AGRUPADOS
Suponga que tenemos 10 observaciones cuyos
valores son:
X1 = 2
X2 = 6
X3 = 3
X4 = 3
X5 = 4
X6 = 2
X7 = 5
X8 = 4
X9 = 3
X10 = 2

Calcular la media geomtrica.


MEDIA GEOMTRICA
1
= 1

Suponga que la poblacin de un lugar en 1980


fue de 2 personas, y el nmero estimado para
1990 es 22. Cul fue el incremento porcentual
promedio anual estimado? R=27,09%

Una produccin se increment de 23,000


unidades en 1971 a 120.520 unidades en 1991.
Obtenga la media geomtrica del incremento
porcentual anual. R=8,63%
MEDIA ARMNICA
Obsrvese que la inversa de la media
armnica es la media aritmtica de los
inversos de los valores de la variable. Se suele
utilizar para promediar variables tales como
productividades, velocidades, tiempos,
rendimientos, cambios, etc.
Para datos originales

Para datos agrupados


EJERCICIO
Suponga que tenemos 10 observaciones cuyos
valores son:
X1 = 11
X2 = 13
X3 = 10
X4 = 12
X5 = 11

Calcular la media armnica.


EJERCICIO
DATOS AGRUPADOS
Suponga que tenemos 10 observaciones cuyos
valores son:
X1 = 8
X2 = 4
X3 = 7
X4 = 4
X5 = 7
X6 = 8
X7 = 8
X8 = 6
Calcular la media armnica.
X9 = 6
X10 = 5
LA MEDIANA
La mediana de un conjunto de datos es un
valor tal, que cuando escribimos todos los
datos ordenados de menor a mayor ocupa el
lugar central de la lista ordenada. Si el nmero
de datos es impar, la mediana es el dato
central; si el nmero de datos es par, la
mediana es la media de los dos datos
centrales.
EJEMPLOS DATOS ORIGINALES
X1= 14
X2= 15
X3= 12
X4= 5
Nmero impar de observaciones. X5= 9
X6= 6
X7= 11

X1= 27
X2= 38
X3= 23
Nmero par de observaciones. X4= 28
X5= 36
X6= 39
X7= 35
X8= 26
PASOS A SEGUIR EN EL CLCULO DE LA
MEDIANA DATOS AGRUPADOS
1) Obtener las frecuencias absolutas acumuladas.
2) Buscar la mitad de las observaciones, por medio
de n/2.
3) Localizar el resultado anterior n/2 en las
columnas de las frecuencias absolutas
acumuladas. Si no aparece, se toma el valor
inmediatamente anterior y se simboliza con Nj-1
y al inmediatamente superior por Nj.
4) Casos.
CASOS DATOS AGRUPADOS

CASO A
Variables discretas

CASO B

CASO A


Variables continuas
CASO B
EJERCICIOS
Variables discretas, caso a:
Yj nj Nj
0 2 2
1 3 5
2 6 11
3 5 16
4 4 20

Variables discretas, caso b:


Yj nj Nj
0 2 2
1 3 5
2 5 10
3 6 16
4 4 20
EJERCICIOS
Variables continuas, caso a:
Yj-1 Yj ni Ni
2,1 6 2 2
6,1 10 3 5
10,1 14 5 10
14,1 18 6 16
18,1 22 4 20

Variables continuas, caso b:


Yj-1 Yj ni Ni
2,1 6 2 2
6,1 10 3 5
10,1 14 6 11
14,1 18 5 16
18,1 22 4 20
LA MODA
La moda es el valor de la variable que ms
veces se repite, y en consecuencia, en una
distribucin de frecuencias, es el valor de la
variable que viene afectada por la mxima
frecuencia de la distribucin.
EJERCICIOS
Datos originales:

Calcula la moda los


siguientes datos:

14 25 14 8 22 14 14 14 13 21 15
EJERCICIOS
Datos agrupados:
Variables discretas
Yj nj
0 2
1 3
2 6
3 5
4 4
Variables continuas

Yj-1 Yj ni Yi
1
= 1 + 2,1 6 2 4,05
1 + 2
6,1 10 3 8,05
10,1 14 5 12,05
14,1 18 6 16,05
18,1 22 4 20,05

1 =limite inferior de la clase modal (la clase que contiene la moda)

d1 = la diferencia entre la frecuencia de la clase modal y la frecuencia


de la clase anterior

d2 = la diferencia entre la frecuencia de la clase modal y la frecuencia


de la clase siguiente
MEDIDAS DE POSICIN
Las medidas de posicin dividen un conjunto
ordenado de datos en grupos con la misma
cantidad de individuos.

Esto cuando se requiere obtener un promedio


de una parte de ella, se puede dividir la
distribucin en cuatro, diez o en cien partes.
Hablamos entonces del primer caso de
cuartiles, el segundo de deciles y percentiles.
PERCENTIL

Son 99 valores que dividen en cien porciones


iguales el conjunto de datos ordenados.
Ejemplo, el percentil de orden 15 deja por
debajo al 15% de las observaciones, y por
encima queda el 85%.

Datos originales: = +1
P = Posicin
100
PERCENTIL
Con los siguientes datos: 16, 10, 4, 8, 12, 10, 8,
20, 4, 13, 12, 22, 16, 26, 20. Hallar:
Primero y tercer cuartil
Cuarto y sexto decl
El 30 y 90 percentil

Respuestas:
Q1=8; Q3=20
D4=10,8; D6=14,8
P30=9,6; P90=23,6
PERCENTIL
En la tabla siguiente se muestran los nmeros de
acciones negociadas de cierta empresa (en
miles), en 50 das de operaciones. Determinar los
valores de los cuartiles, decl 2, decl 6, percentil
82 y 32.
PASOS A SEGUIR EN EL CLCULO DEL
PERCENTIL K EN DATOS AGRUPADOS
1) Obtener las frecuencias absolutas acumuladas.
2) Buscar el valor K de las observaciones, por
medio de K*n/100.
3) Localizar el resultado anterior K*n/100 en las
columnas de las frecuencias absolutas
acumuladas. Si no aparece, se toma el valor
inmediatamente anterior y se simboliza con Nj-1
y al inmediatamente superior por Nj.
4) Formula.
PERCENTIL
Cuando los datos estn agrupados en una tabla
de frecuencias, y son datos continuos, se
calculan mediante la frmula:
EJEMPLO DATOS AGRUPADOS CON
VARIABLES CONTINUOS.
Con los siguientes datos, hallar el primer
cuartil, tercer cuartil, sexto decl, el noveno
decl, el percentil 80 y el percentil nmero 50.

Yj-1 Yj ni Ni
3,1 8,1 14 14
8,1 13,1 15 29
13,1 18,1 8 37
18,1 23,1 6 43
23,1 28,1 7 50
28,1 33,1 10 60
DIAGRAMAS DE CAJA Y BIGOTES
A partir del valor de la mediana y los cuartiles se
pueden representar las distribuciones
estadsticas mediante los llamados diagramas
de caja y bigotes. Una vez ordenados los datos,
se calculan los valores mnimo y mximo, los
cuartiles y la mediana. mn=1300; Q1=1675 ;
Me=1900; Q3=2150; mx=2500
Datos
atpicos
= 1 1.5 3 1

= 3 + 1.5 3 1
EJERCICIO
Analiza el siguiente diagrama de caja y bigotes
y calcula, a partir de l, los valores mximo y
mnimo, la mediana y los cuartiles.
EJERCICIO
Analiza el siguiente diagrama de caja y bigotes.
Muestra los minutos que tarda en hacer efecto
un medicamento en una poblacin. Interpreta la
informacin que presenta y responde a las
preguntas.
preguntas
A qu porcentaje de la poblacin haba hecho
efecto al cabo de 30 minutos?.
Al cabo de cuntos minutos haba hecho efecto al
50 % de la poblacin?.
Cuntos minutos tard en hacer efecto al 100% de
la poblacin?
A qu porcentaje haba hecho efecto a los 55
minutos?.
Cunto tard en hacer efecto a las tres cuartas
partes de la poblacin?
EJERCICIO
Con los siguientes datos graficar el diagrama
de caja y bigotes.

Yj-1 Yj ni Ni
3,1 8,1 14 14
8,1 13,1 15 29
13,1 18,1 8 37
18,1 23,1 6 43
23,1 28,1 7 50
28,1 33,1 10 60
EJERCICIO
En la siguiente tabla se presentan los das con ndice de
contaminacin en la ciudad de Bogot. Graficar el
diagrama de caja para cada ao.
2010 2011 2012
248 221 248
208 171 184
113 131 104
128 101 79
106 95 69
118 89 67
60 33 35
79 63 32
55 56 30
47 54 30
88 55 26
47 69 21
58 59 20
82 48 11
EJEMPLO
Los siguientes datos son puntuaciones obtenidas por
50 estudiantes en una prueba psicolgica; agrupar los
datos en 5 intervalos. Hallar media aritmtica,
mediana, moda y el diagrama de caja y bigotes.

26 49 37 21 49 16 12 39 38 49
16 17 15 36 35 45 36 17 12 34
26 38 12 17 35 22 31 28 22 48
30 26 16 45 34 29 42 10 12 42
23 35 49 22 45 47 49 19 35 20
DIAGRAMA DE TALLO Y HOJA
Es un diagrama de gran utilidad para representar un
conjunto de datos cuantitativos, este tipo de
representacin presenta similitudes con el histograma en
cuanto que proporciona informacin del recorrido de la
distribucin de datos en estudio, muestra la ubicacin de
la mayor concentracin de mediciones y revela la
presencia o ausencia de simetra.
Cabe sealar que el diagrama de tallo y hojas tiene
ventajas sobre el histograma, porque conserva la
informacin que puede arrojar las mediciones
individuales, situacin que se pierde en los intervalos del
histograma, otra ventaja, es que sta representacin
elimina el paso de los datos originales a clases.
DIAGRAMA DE TALLO Y HOJA
Supongamos que durante el presente mes, se
mide el tiempo en minutos que tardan un grupo
de estudiantes para llegar a clase.
Datos de Tiempo (minutos): 12, 13, 13, 14, 14,
15, 15, 20, 21, 22, 22, 22, 25, 27, 28, 29, 31, 31,
33, 34, 36, 38, 39, 40, 41, 41, 42, 44, 45, 50, 51
52.
Construir el diagrama de tallo y hojas; hallar la
moda, la mediana, los cuartiles Q1 y Q3.
DIAGRAMA DE TALLO Y HOJA

Tallo Hojas ni
1 2 3 3 4 4 5 5 7
2 0 1 2 2 2 5 7 8 9 9
3 1 1 3 4 6 8 9 7
4 0 1 1 2 4 5 6
5 0 1 2 3
n= 32
MEDIDAS DE DISPERSIN
Las medidas de dispersin tratan de medir el grado de
dispersin que tiene una variable estadstica en torno a
una medida de posicin o tendencia central,
indicndonos lo representativa que es la medida de
posicin. A mayor dispersin menor representatividad
de la medida de posicin y viceversa.

Variancia (Poblacional, Muestral)


Desviacin Estndar (tpica)
Coeficiente de variacin
VARIANZA (POBLACIONAL, MUESTRAL)
La varianza mide la mayor o menor dispersin
de los valores de la variable respecto a la
media aritmtica. Cuanto mayor sea la
varianza mayor dispersin existir y por tanto
menor representatividad tendr la media
aritmtica.
EJEMPLOS
Una aseguradora vende 5 plizas de seguros, sus
valores fueron 110, 145, 125, 95 y 150 dlares, hallar
la media, la varianza y la desviacin estndar.
Hallar la varianza y la desviacin estndar de la variable
ansiedad, que siente una persona cuando se encuentra
mucha gente alrededor de ella, de una muestra de 7
personas. 9; 3; 10; 5; 9; 4; 9
Calcular la varianza y la desviacin estndar para la
variable Tiempo empleado en completar un
laberinto por una muestra de 20 ratas:
Tiempo (seg) ni
9 3
10 8
11 6
12 2
13 1
DESVIACIN ESTNDAR
Desviacin estndar: tambin llamada desviacin tpica, es
una medida de dispersin usada en estadstica que nos dice
cunto tienden a alejarse los valores puntuales del
promedio en una distribucin. Especficamente, la
desviacin estndar es "el promedio de la distancia de cada
punto respecto del promedio". Se suele representar por
una S o con la letra sigma, segn se calcule en una muestra
o en la poblacin.
Una desviacin estndar grande indica que los puntos estn
lejos de la media, y una desviacin pequea indica que los
datos estn agrupados cerca de la media.

POBLACIONAL
MUESTRAL
COEFICIENTE DE VARIACIN

Se utiliza para comparar la variabilidad de dos series de datos.

Tenemos datos sobre el gasto anual en nuevas tecnologas en los


colegios pblicos de 2 ciudades En cul de las 2 ciudades presenta
ms homogeneidad esta variable?

Ciudad A
X = 240.000
Sx = 3.300
Ciudad B
X = 150.000
Sx = 2.900
MEDIDAS DE ASIMETRA
En una distribucin simtrica se cumple que: X=Me=Mo. Ver figura
(c).
Si en una distribucin existen muy pocos valores altos respecto a los
dems, entonces la media aritmtica se ver influenciada por stos y
la asimetra es a la derecha o asimetra positiva o distribucin con
sesgo positivo. En stas condiciones: X>Me>Mo. Ver figura (a)
Si en una distribucin existen muy pocos valores bajos respecto a los
dems, entonces, la media aritmtica se ver influenciada por stos
y la asimetra ser a la izquierda o asimetra negativa o distribucin
con sesgo negativo. En estas condiciones: X< Me < Mo. Ver figura (b)
COEFICIENTE DE KARL PEARSON
Si una distribucin es simtrica, entonces: = = . Entre
mas diferencia halla entre la y la , mas asimtrica es la
diferencia. El coeficiente de Karl Pearson que simbolizamos como
SK, mide sta diferencia en unidades de desviacin estndar as:

3
= =

Primer coeficiente de sesgo de Pearson y segundo coeficiente


de sesgo de Pearson.
COEFICIENTE DE KARL PEARSON
Otras medidas del sesgo, que se definen en trminos de
cuartiles y percentiles, son las siguientes:

3 22 + 1
Coeficiente cuartil de sesgo=
3 1

90 250 + 10
Coeficiente de sesgo percentil 1090 =
90 10
COEFICIENTE DE KARL PEARSON

Si la media es mayor que la moda, entonces,


SK es positivo. Es decir, el sesgo es positivo.
Si la media es menor que la moda, entonces,
SK es negativo. Es decir, el sesgo es negativo.
Si la media es igual a la moda, SK = 0 y la
distribucin es simtrica.
EJEMPLO
El tiempo utilizado para atender entrevistas de
unos aspirantes a empleo en una empresa, se
clasifican de acuerdo a la siguiente tabla.
NMERO DE
TIEMPO NECESARIO ENTREVISTAS
(ni)
1 12 20 6
2 21 29 9
3 30 38 14
4 39 47 72
5 48 56 95
n= 196

a) Calcular la media aritmtica, la mediana, la moda


y el histogramas.
b) Identificar el tipo de asimetra y curtosis.
MEDIDAS DE CURTOSIS O
APUNTAMIENTO
Curtosis o Apuntamiento es utilizado para mostrar el grado
apuntamiento o de concentracin de los datos.
En la medida en que los diferentes tramos de la variable
presenten frecuencias muy similares en todo su recorrido.
Esta situacin contribuye a que la dispersin sea alta. Una
distribucin con stas caractersticas, se denomina
PLATICRTICA O ACHATADA.
MEDIDAS DE CURTOSIS O
APUNTAMIENTO
Por el contrario, si existe una cantidad muy
significativa de datos que se encuentran
concentrados en algn tramo de la variable,
entonces decimos que la distribucin es
altamente concentrada o que tiene alta
curtosis. Una distribucin de stas
caractersticas se denomina LEPTOCRTICA
O APUNTADA.
MEDIDAS DE CURTOSIS O
APUNTAMIENTO
Si la concentracin es intermedia entre las dos
situaciones anteriores, se dice que la distribucin es
MESOCRTICA o MODERADA CONCENTRACIN DE LOS
DATOS. Una distribucin con esta caracterstica es
propia de la distribucin normal. Una manera de medir
el grado de curtosis, es mediante el coeficiente de
curtosis A4.
COEFICIENTE DE CURTOSIS A 4

ste coeficiente, resulta del cociente existente entre el momento de


orden cuatro respecto a la media y la desviacin estndar elevada a la
cuarta.

La mayora de los autores consideran que:


a) Si A4 - 3 = 0, la distribucin es mesocrtica o moderada
concentracin de los datos. Tal es el caso de la distribucin
normal.
b) Si A4 - 3 > 0, la distribucin es apuntada o leptocrtica o alta
concentracin de los datos.
c) Si A4 - 3 < 0, la distribucin es achatada o platicrtica o baja
concentracin de los datos.