Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadist1 2012 PDF
Estadist1 2012 PDF
ACADEMIA DE MATEMTICAS
ESTADSTICA I
GUA PARA EXAMEN EXTRAORDINARIO
Octubre de 2008
PRPOSITOS PARTICULARES
Al finalizar el trabajo recomendado en esta gua, el alumno:
BIBLIOGRAFA RECOMENDADA
Chao, L., Introduccin a la Estadstica. CECSA, 1987
Christensen, H. Estadstica paso a paso. Trillas, 1997
Daniel, W. Estadstica Aplicada a las Ciencias Sociales y a la Educacin. Mc Graw Hill,
1998
Hoel, P., Estadstica Elemental. CECSA, 1979
Johnson, R. Estadstica Elemental. Iberoamrica, 1990
Mendenhall, W. Estadstica para Administracin y Economa. Iberoamrica, 1978
Willowghby, S. Probabilidad y Estadstica. PCSA, 1993
Wonnacott, T. Fundamentos de Estadstica para Administracin y Economa. Limusa,
1989
Spiegel, M. Probabilidad y Estadstica. Mc Graw Hill, 1975
CONTENIDO
INTRODUCCION
Nocin y utilidad de la Estadstica
Uso indebido de la Estadstica
Conceptos bsicos
UNIDAD 1. ESTADISTICA DESCRIPTIVA
Anlisis de datos No Agrupados
Anlisis de Datos Agrupados
Tablas de distribucin de frecuencias
Representaciones grficas
Medidas de tendencia central
Medidas de dispersin
Medidas de posicin
UNIDAD 2. DATOS BIVARIADOS
Relacin entre dos variables
Variables Cualitativas
Tablas de Contingencia
Variables Cuantitativas
Correlacin Lineal
Regresin lineal
UNIDAD 3. PROBABILIDAD
Fenmenos determinsticos y aleatorios
Enfoques de la probabilidad
Probabilidad de eventos simples
Probabilidad de eventos compuestos
INTRODUCCIN
PROPSITO
Que el estudiante se apropie de una visin inicial de la estadstica y la probabilidad a
partir de los conceptos bsicos y el planteamiento de ejemplos y problemas de su
entorno para apreciar los alcances de la disciplina.
2.- ___________________________________________________________________
______________________________________________________________________
3.- ___________________________________________________________________
______________________________________________________________________
Como puedes observar de todo lo anterior, la Estadstica es la ciencia que se encarga
del desarrollo de teora y la aplicacin de mtodos de recopilacin, descripcin y
anlisis de datos, para la toma de decisiones frente a la incertidumbre.
Seleccin aleatoria
muestra grande
Poblacin
Muestra
Representativa
X
Proporcin poblacional
X
Proporcin muestral
extrapolacin
Un error frecuente es tomar una muestra de una poblacin bajo criterios personales del
investigador o sin planificacin rigurosa. Tambin puede darse un uso indebido al
manipular los resultados de algn estudio, por ejemplo para inducir respuestas a
usuarios o comprometer sus decisiones.
Un poco de Historia
La palabra estadstica proviene del vocablo estado, debido a que los gobiernos fueron
los que comenzaron a llevar registros sobre impuestos, habitantes, nacimientos y
defunciones, cosechas y datos astronmicos, etc.
La Estadstica Descriptiva se origina con la recoleccin de datos poblacionales para
censos. Estos censos ya se hacan en el imperio romano: El evangelio de Lucas dice:
Y aconteci en aquellos das que sali un edicto de parte de Csar Augusto,
mandando que todo el mundo fuera empadronado.
La Estadstica Inferencial se origina en el Renacimiento con el desarrollo de la Teora
de la probabilidad, que a su vez se basa en el estudio de los juegos de azar. Comienza
a desarrollarse plenamente con Karl Pearson y Ronald Fisher a principios del siglo XX.
Conceptos Bsicos
Poblacin
Se define como el conjunto completo de individuos (personas, animales o cosas) que
tienen una cierta caracterstica considerada de inters para el estudio estadstico. La
mayor parte de las veces es muy grande, y algunas veces es hipottica
Muestra
La muestra es el subconjunto de la poblacin seleccionado para la investigacin. La
seleccin se hace porque generalmente el costo, el tiempo y los recursos son limitados
para hacer la investigacin con toda la poblacin. A partir de los resultados del estudio
con la muestra (siendo sta representativa de la poblacin), el investigador hace
inferencias sobre la poblacin.
Al nmero de individuos en la muestra se le llama Tamao de Muestra. Cuando el
tamao de muestra (n) es mayor de 30 se le llama muestra grande.
Parmetro
Es una medida (un nmero) utilizada para describir una caracterstica de la poblacin.
(Media, mediana, varianza, etc.). Es un elemento descriptivo de la poblacin.
3
Estadstico (o estadsticas)
Es una medida que se utiliza para describir una caracterstica numrica de la muestra,
no de la poblacin. Es un elemento descriptivo de una muestra
Variables
Las caractersticas de inters en una poblacin o una muestra se llaman variables.
Como estas caractersticas no se mantienen constantes de un individuo a otro, pueden
asumir ms de un valor, (de ah su nombre).
Datos
Son las observaciones, es decir, los valores que asumen las variables en cada uno de
los individuos
EJERCICIOS 0.1
Selecciona la opcin ms apropiada, y responde la pregunta.
1.- El proceso de recoger, organizar y representar los datos demogrficos de los
estudiantes de un saln de clase es llamado estadstica
a. Inferencial
b. Descriptiva
c. Paramtrica
d. No paramtrica
2.- El proceso de utilizar muestras estadsticas para llegar a conclusiones sobre los
parmetros de la poblacin se llama
a. Inferencia estadstica
c. mtodo cientfico
b. Muestreo
d. estadstica descriptiva
3.- El total de objetos bajo consideracin o investigacin del que se selecciona una
muestra se llama
a. Poblacin
b. Descripcin
c. Parmetro
d. Estadstica
b. Ejemplo
c. Muestra
d. Censo
b. Estadstico
c. Promedio
d. Descripcin
)
)
)
)
)
)
B. muestra
C. estadstico(s)
D. parmetro(s)
a.
b.
c.
d.
e.
f.
Numricas o Cuantitativas
Son aquellas variables que toman valores numricos como resultado de un proceso de
conteo o medicin. Las preguntas que se hacen sobre estas variables se pueden
responder con un nmero. Cunto pesas? Cunto mides? Cunto dinero ganas?
Cuntos hijos tienes? Adems, las variables numricas pueden ser Discretas o
Continuas.
Escalas de medicin
El tipo de anlisis estadstico que se lleva a cabo sobre los datos depende del nivel o
escala de medicin de las variables de la investigacin. La importancia de esta
clasificacin por niveles reside en el hecho de que mientras ms complejo o alto es el
nivel de medicin, ms efectivos son los mtodos estadsticos que se pueden utilizar.
Medir es ms que determinar las dimensiones de un objeto. Medir en Estadstica
significa observar el valor que toma la variable en cada elemento de la poblacin o
de la muestra.
5
Escala nominal
Se utiliza cuando los datos estn clasificados en categoras en las que no es posible
establecer una relacin de orden. Se refiere a atributos de los sujetos, no a
cantidades. Ejemplos: tez, religin, partido poltico, raza, etc.
Escala ordinal
Adems de agruparse en categoras, se muestra un orden o secuencia de los datos
de acuerdo al grado de posesin de cierto atributo. Sin embargo, no hay un sentido
numrico para este orden. La diferencia entre dos rangos no es una cantidad exacta.
Ejemplo: preescolar, primaria, secundaria, bachillerato, licenciatura, maestra,
doctorado; soldado raso, cabo, sargento, teniente, capitn, mayor, general, coronel.
Como puedes observar las escalas nominal y ordinal corresponden a variables de tipo
Cualitativo o Categrico
Escala intervalar
Los valores de las variables son datos numricos, sin embargo no son
proporcionales. por ejemplo un temblor de 8 es veinte veces mas intenso que uno de
6, y no dos veces adems el cero es arbitrario y no implica ausencia del fenmeno,
por ejemplo: la temperatura cero, en grados Celsius es diferente al cero en grados
Fahrenheit y ninguno implica ausencia de temperatura.
Escala de razn
Los valores de la variables son datos numricos proporcionales y tiene un cero real.
Las operaciones aritmticas de producto y de cociente toman una interpretacin vlida.
Por ejemplo: peso, altura, edad, etc. Tiene sentido hablar de que una persona de 80
aos tiene el doble de aos que otra de 40 aos.
Las escalas intervalar y de razn corresponden a variables de tipo Cuantitativo o
Numrico.
Ejercicio 0.2
1.- Selecciona la opcin que representa la escala de medicin para cada variable
A. nominal
(
(
(
(
(
(
(
)
)
)
)
)
)
)
(
(
(
(
(
(
(
(
(
(
(
(
(
)
)
)
)
)
)
)
)
)
)
)
)
)
B. Ordinal
C. Intervalar
D. de razn
Datos no agrupados
Si los datos estn en una escala por lo menos ordinal, lo primero que podemos hacer es
ordenarlos, en forma ascendente o descendente. Una vez ordenados los datos de la
muestra se organizan en una tabla de frecuencias.
Una Tabla de Frecuencias, tambin llamada de Distribucin de Frecuencias, est
formada por las categoras o valores de la variable y sus correspondientes frecuencias
Distribucin de Frecuencias
La frecuencia, tambin llamada frecuencia simple o absoluta, se define como el nmero de
veces que aparece un dato xi, y se denota por f.
Estatura
xi
1.52
1.53
1.57
1.58
1.60
1.64
1.66
1.74
1.76
1.79
Frecuencia
f
2
2
1
2
1
3
2
1
1
1
La frecuencia relativa es el nmero de veces que aparece cada valor de la variable Xi,
es decir cada dato, dividida entre el tamao de la muestra. Se representa con fr, y se
tiene que: f r
f
n
Estatura
xi
1.52
1.53
1.57
1.58
1.60
1.64
1.66
1.74
1.76
1.79
Frecuencia
f
2
2
1
2
1
3
2
1
1
1
Frecuencia
Relativa
fr
/16 = 0.1250
0.1250
0.0625
0.1250
0.0625
0.1875
0.1250
0.0625
0.0625
0.0625
Estatura
xi
1.52
1.53
1.57
1.58
1.60
1.64
1.66
1.74
1.76
1.79
Frecuencia
F
2
2
1
2
1
3
2
1
1
1
Frecuencia
Relativa
Frecuencia
Acumulada
fr
Fa
0.1250
0.1250
0.0625
0.1250
0.0625
0.1875
0.1250
0.0625
0.0625
0.0625
2
2+2 = 4
2+2+1 = 5
2+2+1+2 = 7
8
11
13
14
15
16
Frecuencia
Acumulada
Relativa
Far
2
/16 = 0.1250
/16 = 0.2500
5
/16 = 0.3125
0.4375
0.5000
0.6875
0.8125
4
0.8750
0.9375
1.0000
fr
Fa
Far
Ejercicios 1.1
1. La cuenta de la luz (en pesos) del mes de marzo de 30 familias escogidas
aleatoriamente se muestra a continuacin.
+
250 560 340 780 890 960 470 340 540 440 120 340
450 450 670 860 430 330 230 810
70
340
550 440
Moda
Como pudiste observar en la bibliografa, la moda se define como el dato con la
frecuencia ms alta, es decir, el que ms se repite. No siempre existe una moda y en
ocasiones puede haber ms de una. Adems, es la nica medida de tendencia central
que se puede calcular para variables nominales.
Ejemplos:
En el conjunto de datos: 2, 3, 3, 4, 4, 4, 5, 5, 8, 8, 12, 13 la moda es 4.
En la distribucin 2, 2, 3, 3, 5, 5, 8, 8, 12, 12, 13, 13 no hay moda.
Para el conjunto de datos ordinales: pequea, pequea, mediana, mediana, mediana,
grande, grande, grande, extragrande, extragrande, hay dos modas: mediana y
grande, porque ambos se repiten el mismo numero de veces.
11
Mediana
La mediana se define como el dato central de la distribucin, es decir el dato que queda
justo en el medio, cuando el conjunto de datos se encuentra ordenado. Se denota por
~
x.
Media
Si los datos son numricos (en escala intervalar o de razn), entonces es posible
calcular una tercera medida de tendencia central: la media aritmtica, la cual consiste
en la suma de todos los valores dividida por el nmero de ellos.
n
xi
i 1
Un ejemplo ms:
En un grupo de Estadstica I del Cch Sur, se observ la estatura de 16 alumnos y se
obtuvieron los siguientes datos (ya ordenados):
1.52 1.52 1.53 1.53 1.57 1.58 1.58 1.60 1.64 1.64 1.64 1.66 1.66 1.74 1.76
1.79
mediana =
~
x = 1.60 1.64 = 1.62
2
16
xi
media =
x=
i 1
16
25.96
= 1.6225
16
Informacin proporcionada:
moda:
mediana:
moda:
Ejercicios 1.2
1. La cuenta de la luz (en pesos) del mes de marzo de 30 familias escogidas
aleatoriamente se muestra a continuacin.
250 560 340 780 890 960 470 340 540 440 120 340
450 450 670 860 430 330 230 810
70
340
550 440
Calcula las tres medidas de tendencia central y escribe la informacin que proporcionan
a.- __________________________________________________________________
b.- __________________________________________________________________
c.- __________________________________________________________________
13
Medidas de Dispersin
A las Medidas de Dispersin tambin se les llama Medidas de Variacin. La variacin
es la cantidad de dispersin, o separacin, que presentan los datos.
Rango
El rango de un conjunto de nmeros es la diferencia entre el mayor y el menor de todos
ellos. Se denota por R y se tiene que R = xn x1
Varianza
La varianza es la suma de los cuadrados de las diferencias de los datos con relacin a
su media aritmtica, dividida entre el tamao de la muestra menos 1.
n
S2
( xi x ) 2
i 1
n 1
S2
( xi x ) 2 * f i
i n
n 1
Desviacin Estndar
Un inconveniente de la varianza es que sus unidades de medicin se encuentran al
cuadrado, por lo que no se puede comparar con la media aritmtica. Debido a esto, se
define la Desviacin Estndar como la raz cuadrada de la varianza.
n
( xi x ) 2
i 1
n 1
k
14
( xi x ) 2 * f i
i n
n 1
Coeficiente de Variacin
El coeficiente de variacin es una medida relativa de la variacin. Mide la dispersin de
los datos con respecto de su media.
S
Se denota por CV y se expresa en porcentaje: CV 100%
x
El coeficiente de variacin se utiliza principalmente cuando se desea comparar dos
distribuciones de frecuencia que tienen diferente unidad de medida.
Ejemplo:
En un grupo de Estadstica I del Cch Sur, se observ la estatura de 16 alumnos y se
obtuvieron los siguientes datos (ya ordenados):
1.52 1.52 1.53 1.53 1.57 1.58 1.58 1.60 1.64 1.64 1.64 1.66 1.66 1.74 1.76
1.79
Rango
Para realizar los clculos de la varianza a mano, resulta conveniente construir una
tabla como la siguiente
Estatura
xi
1.52
Frecuencia
f
2
xi x
( xi x ) 2
( xi x) 2 * f i
-0.1025
0.01051
0.02101
1.53
-0.0925
0.00856
0.01711
1.57
-0.0525
0.00276
0.00276
1.58
-0.0425
0.00181
0.00361
1.6
-0.0225
0.00051
0.00051
1.64
0.0175
0.00031
0.00092
1.66
0.0375
0.00141
0.00281
1.74
0.1175
0.01381
0.01381
1.76
0.1375
0.01891
0.01891
1.79
0.1675
0.02806
0.02806
= 0.1095
x = 1.6225
Varianza
S2
0.1095
= 0.0073
15
Coeficiente de Variacin CV =
0.08544
100 % = 5.266%
1.6225
CV
Medidas de Posicin
Los cuantiles son medidas de posicin no central que se utilizan para resumir o
describir las propiedades de conjuntos grandes de datos numricos. Los cuantiles que
se calculan ms a menudo son: cuartiles, deciles y percentiles.
Cuartiles
Son tres valores numricos que dividen a la muestra ordenada en cuatro partes iguales.
Se denotan por Q1, Q2, Q3.
Primer cuartil, es un valor tal que 25% de las observaciones son menores y 75% son
mayores.
Q1 x n1 .
4
en el conjunto.
Segundo cuartil, es un valor tal que 50% de las observaciones son menores y 50% son
mayores. Coincide con el valor de la mediana.
Q2 x 2 ( n1)
4
Tercer cuartil, es un valor tal que 75% de las observaciones son menores y 25% son
mayores.
Q3 x 3( n1)
4
Ejemplo:
En un grupo de Estadstica I del Cch Sur, se observ la estatura de 16 alumnos y se
obtuvieron los siguientes datos (ya ordenados):
1.52 1.52 1.53 1.53 1.57 1.58 1.58 1.60 1.64 1.64 1.64 1.66 1.66 1.74 1.76
Q1
Q2
1.79
Q3
Q1 x161 = 1.55
4
Q2 x 2 (161) = 1.62
4
Q3 x 3(161) = 1.66
4
Ejercicios 1.3
1. La cuenta de la luz (en pesos) del mes de marzo de 30 familias escogidas
aleatoriamente se muestra a continuacin.
250 560 340 780 890 960 470 340 540 440 120 340
450 450 670 860 430 330 230 810
70
340
550 440
Datos Agrupados
Distribucin de frecuencia
Cuando la muestra es grande (n mayor que 30) resulta conveniente organizar los datos
en intervalos de clase para construir su distribucin de frecuencias.
Para ejemplificar esta situacin, analicemos los datos siguientes correspondientes a la
edad de 55 personas
27
23
41
38
44
29
35
26
18
22
24
25
36
22
52
31
30
22
45
28
18
20
18
28
44
25
29
28
24
36
21
23
32
26
33
25
27
25
34
32
23
54
38
23
31
23
26
48
16
27
27
33
29
29
28
52 16
= 5.30
1 3.322 Log (55)
Tomemos el dato menor como el lmite inferior del primer intervalo, (aunque existen
otros criterios, este es el ms sencillo), y construyamos los intervalos de modo que cada
uno sea de tamao 7, es decir, de manera en cada uno se cuenten 7 enteros.
18
Intervalo de
Clase
16 22
23 29
30 36
37 43
44 50
51 57
Frecuencia
9
23 29
26
30 36
11
37 43
44 50
51 57
19
Frecuencia
9
26
11
3
4
2
Frecuencia
Relativa
9
/55 = 0.1636
0.4727
0.2000
0.0545
0.0727
0.0364
Frecuencia
Relativa
0.1636
23 29
26
0.4727
9 + 26 = 35
30 36
11
0.2000
9+26+11 = 46
37 43
0.0545
49
44 50
0.0727
53
51 57
0.0364
55
Frecuencia
Frecuencia
Acumulada
9
Intervalo de
Clase
16 22
Frecuencia
Relativa
0.1636
Frecuencia
Acumulada
9
23 29
26
0.4727
35
30 36
11
0.2000
46
0.8364
37 43
0.0545
49
0.8909
44 50
0.0727
53
0.9636
51 57
0.0364
55
0.9999
Frecuencia
Frecuencia
Acumulada Relativa
0.1636
0.1636 + 0.4727 = 0.6364
Ejercicios 1.4
1.- Los siguientes datos muestran el nmero de vuelos internacionales recibidos en el
aeropuerto de la ciudad de Mxico durante los dos meses anteriores, construye una
tabla de distribucin de frecuencias.
71
47
66
67
73
38
63
67
29
54
62
70
63
37
68
50
59
60
45
48
52
49
48
56
70
62
61
65
62
45
62
56
63
39
36
43
49
50
39
41
57
49
73
47
38
61
48
31
55
57
72
53
42
70
56
58
39
60
53
36
21
Intervalo de
Clase
Frecuencia
Simple
Frecuencia
Relativa
Frecuencia
Acumulada.
Relativa
Frecuencia
Acumulada
2.- Escribe algunos ejemplos de la informacin que se obtiene a partir de cada tipo de
Frecuencia del ejercicio anterior
a.- ___________________________________________________________________
b.- ___________________________________________________________________
c.- ___________________________________________________________________
d.- ___________________________________________________________________
3.- Los datos siguientes corresponden a un estudio realizado con 40 personas para
conocer la reaccin sistmica a la picadura de abeja. Se toma el tiempo, en minutos, en
el que aparecen las primeras reacciones a la picadura. Construye una tabla de
distribucin de frecuencias. (Observa que la precisin de estos datos es de dcimas)
10.5
11.2
9.9
11.4
12.7
16.5
15.0
10.1
12.7
11.4
11.6
7.9
8.3
10.9
6.2
8.1
3.8
10.5
11.7
12.5
11.2
9.1
8.4
10.4
9.1
13.4
12.3
11.4
8.8
7.4
5.9
8.6
13.6
14.7
11.5
10.9
9.8
12.9
11.5
9.9
Intervalo de
Clase
Frecuencia
Simple
Frecuencia
Relativa
22
Frecuencia
Acumulada
Frecuencia Acumulada
Relativa
4.- Escribe algunos ejemplos de la informacin que se obtiene a partir de cada columna
del ejercicio 3.
a.- ___________________________________________________________________
b.- ___________________________________________________________________
c.- ___________________________________________________________________
d.- ___________________________________________________________________
Intervalo de Clase
Frecuencia
Frecuencia
-------------
-------------
(Ganancia semanal)
-----------
Relativa
-------------
-------------
300 - 499
105
500 - 599
90
600 - 699
45
700 - 799
60
Completa la tabla anterior, y con base en ella proporciona la informacin que falta:
a.- La frecuencia simple del primer intervalo nos dice que: _______________________
_____________________________________________________________________.
b.- El 30% de los estudiantes ganan entre ______________ y ______________.
c.- La frecuencia acumulada de la cuarta clase quiere decir que: __________________
_____________________________________________________________________.
d.- El porcentaje de estudiantes que ganan mximo $699.5 es _______________.
23
15.5
16
22.5
22
23
29.5
29
30
36.5
36
37
Lmites de Clase
17
moda = 22.5
7 26.2
17 15
24
Frecuencia
9
26
11
3
4
2
Mediana
La mediana se defini como el dato central cuando el conjunto se encuentra ordenado,
ahora definimos la Clase Mediana, como aquel intervalo de clase que cubre el 50% de
los datos. Para identificarla busquemos el intervalo cuya frecuencia acumulada relativa
sea igual o mayor a 0.5
Una vez que identificamos la clase mediana, se utiliza la siguiente frmula para calcular
n
Fa 1
~
C
la mediana:
x LRinf 2
f med
Intervalo de
Frecuencia
Frecuencia
Clase
Acumulada
Frecuencia
Acumulada
Relativa
16 22
0.1636
23 29
26
35
0.6364
30 36
11
46
0.8364
37 43
49
0.8909
44 50
53
0.9636
51 57
55
0.9999
55
7 27.5
mediana = 22.5 2
26
El 50% tales personas tienen una edad menor o igual a 27.5 aos y el otro 50% tiene
una edad mayor a 27.5 aos
25
Media
La media igual que antes, se define como el promedio de los datos. Vamos a necesitar
el concepto de marca de clase, el cul es el punto medio de cada intervalo.
No es necesario identificar ninguna clase en particular, y la frmula para calcular la
n
media es:
( xi* )( f i )
i 1
Marca de clase
xi*
Frecuencia
fi
16 22
19
23 29
26
26
676
30 36
33
11
363
37 43
40
120
44 50
47
188
51 57
54
108
( xi* )( f )
19 * 9 = 171
= 1626
n
( xi* )( f i )
i 1
1626
29.6
55
26
S2
( xi* x ) f i
i 1
n 1
Desviacin estndar
n
( xi* x ) f i
i 1
n 1
Coeficiente de Variacin
Se define de la misma forma, como :
S
CV 100%
x
Intervalo
de Clase
Marca de
clase
xi*
Frecuencia
fi
xi* x
( xi* x) 2
( xi* x) 2 * f i
16 22
19
-10.6
112.3600
1011.2400
23 29
26
26
-3.6
12.9600
336.9600
30 36
33
11
3.4
11.5600
127.1600
37 43
40
10.4
108.1600
324.4800
44 50
47
17.4
302.7600
1211.0400
51 57
54
24.4
595.3600
1190.7200
= 4201.60
x = 29.6
27
Rango
57.5 15.5 = 42
Varianza
S2
4201.60
= 77.8074
54
8.8208
100 % = 29.80%
29.6
CV
Consulta la bibliografa recomendada para saber cmo calcular las medidas de posicin
para datos agrupados.
Ejercicios 1.5
1.- Calcula e interpreta las medidas de tendencia central y las medidas de dispersin
para los datos agrupados, correspondientes a
a) el nmero de vuelos internacionales recibidos en el aeropuerto de la ciudad de
Mxico durante los dos meses anteriores (del ejercicio 1.4 - 1)
b) un estudio realizado con 40 personas para conocer la reaccin sistmica a la
picadura de abeja (del ejercicio1.4 - 3)
c) los resultados obtenidos al entrevistar a 300 estudiantes de bachillerato que trabajan
mientras estudian (del ejercicio1.4 - 5)
28
Representacin Grfica
Adems de la distribucin de frecuencias y de las medidas de tendencia central y de
dispersin, resulta conveniente construir alguna representacin grfica de los datos. De
esta manera, se tiene una imagen que describe visualmente el comportamiento de los
datos.
Cuando los datos son de tipo cualitativo es adecuado utilizar grficas de barras o
circulares. Si los datos son de tipo cuantitativo, el polgono de frecuencias o los
histogramas de frecuencias, son los ms tiles.
Toda grfica debe tener: Un ttulo descriptivo, el nombre de la variable que representa,
las unidades de la variable, y en su caso la escala utilizada.
Grafica Circular
Se conoce tambin como Diagrama de pastel, de sectores y otros. Se divide un crculo
de manera proporcional a la distribucin de los valores de la variable. Ayuda a percibir
la importancia relativa de cada categora respecto al total. Se utiliza tambin para
representar datos discretos.
Porcentaje de pacientes atendidos por
cada tipo de enfermedad
9%
20%
Tos
Gripa
Fractura
30%
8%
Diabetes
Males cardiacos
Alta presin
11%
Dolores estomacales
5%
17%
Grfica de barras
En este tipo de grfica se muestran en un sistema de ejes cartesianos los valores de la
variable, y los valores de la frecuencias, absolutas o relativas.
Los valores de la variable se localizan sobre un eje horizontal y las frecuencias sobre
uno vertical. Las barras son rectngulos cuyo ancho es arbitrario, pero debe ser el
mismo para todas las barras, y cuya longitud es la frecuencia o el porcentaje de
observaciones dentro de la categora.
29
La separacin de las barras es arbitraria pero debe ser la misma. Las bases de los
rectngulos deben estar centrados sobre los valores de la variable
Histograma
Consiste en un grfico de barras o rectngulos cuya altura corresponde a la frecuencia
de cada valor o de cada intervalo localizada sobre el eje vertical.
Para datos no agrupados, cada frecuencia se representa por una barra cuya rea sea
proporcional a ella. Tpicamente, el ancho de cada barra se escoge como 1 y as, la
altura y el rea de la barra son iguales a la frecuencia del valor.
Para datos agrupados, el ancho de los rectngulos corresponde al tamao de los
intervalos de clase. Las barras, por lo tanto, son contiguas, y se encuentran centrados
en las marcas de clase.
Edad de personas
30
Frecuencia
25
20
15
10
5
0
16 22 23 29
30 36
37 43 44 50
Edad (aos)
30
51 57
Polgono de Frecuencias
Consiste en una grfico de lneas trazado sobre un sistema de ejes cartesianos.
Para datos no agrupados, se trazan los puntos que corresponden a los valores de la
variable cuantitativa y la frecuencia (absoluta o relativa), a continuacin se unen los
puntos mediante segmentos de recta, los extremos se unen con el eje horizontal con el
primer valor menos una unidad y el extremo derecho mas una unidad.
Para datos agrupados los vrtices tienen como coordenadas las marcas de clase y las
frecuencias correspondientes. Se debe cerrar sobre el eje horizontal en dos puntos que
corresponden a las marcas de clase de dos intervalos, uno anterior y el otro posterior al
primero y al ltimo intervalo, cuya frecuencia es cero.
Edad de personas
Frecuencia
30
25
20
15
10
5
0
16 22 23 29 30 36 37 43 44 50
51 57
Edad (aos)
Ojiva
Consiste en un poligono de frecuencias acumuladas, por lo tanto es una grfica de
lneas generalmente ascendente.
Para datos no agrupados se trazan los puntos que corresponden a los valores de la
variable cuantitativa y la frecuencia (acumulada o relativa acumulada), a continuacin
se unen los puntos mediante segmentos de recta, el extremo derecho no se une con el
eje horizontal.
Para datos agrupados los vrtices tienen como abscisa los valores de la variable
representados por los lmites reales superiores y como ordenada la frecuencia
acumulada o
frecuencia relativa acumulada (ojiva porcentual).
31
Edad de personas
Frecuencia acumulada
60
50
40
30
20
10
0
10
15
20
25
30
35
40
45
50
55
60
Edad (aos)
Ejercicios 1.6
Construye una representacin grfica para:
a) la cuenta de la luz (en pesos) del mes de marzo de 30 familias escogidas
aleatoriamente (del ejercicio 1.1 - 1)
b) el nmero de vuelos internacionales recibidos en el aeropuerto de la ciudad de
Mxico durante los dos meses anteriores (del ejercicio 1.4 - 1)
c) un estudio realizado con 40 personas para conocer la reaccin sistmica a la
picadura de abeja (del ejercicio 1.4 - 3)
d) los resultados obtenidos al entrevistar a 300 estudiantes de bachillerato que trabajan
mientras estudian (del ejercicio 1.4 - 5)
32
Ejercicios adicionales
Nombre
Vernica
Guillermo
Viviana
Nuria
Alfredo
Gerson
Nohem
Alejandra
Viridiana
Elizabeth
Rogelio
Amaranta
Fabiola
Zicar
Karla
Andrea
Alfonso
Rub
Claudia
Wendi
Gnero
( M o F)
F
M
F
F
M
M
F
F
F
F
M
F
F
F
F
F
M
F
F
F
Edad
(aos
cumplidos)
17
16
17
17
17
17
18
16
16
16
17
17
16
18
18
17
17
15
17
17
Tipo
sanguneo
+
O
O+
O+
A+
O+
O+
A+
O+
O+
O+
O+
A+
O+
O+
A+
O+
O+
B+
O+
O+
Color
favorito
Azul
Morado
Azul
Azul
Rojo
Negro
Azul
Blanco
Violeta
Blanco
Azul
Blanco
Morado
Rosa
Turquesa
Negro
Azul
Morado
Violeta
Negro
Nmero de
Hermanos
**
2
1
3
2
3
6
3
2
2
3
3
1
2
3
2
3
3
2
3
3
Peso
(kg)
63
67
60
62
75
74
54
61
50
45
74
54
54
51
55
60
64
62
60
58
**incluyndose a s mismo(a)
33
Los ngeles
Mdica Sur
20 de
Noviembre
Lpez Mateos
Hombres
36
44
43
28
Mujeres
34
50
52
53
34
Los ngeles
Mdica Sur
20 de
Noviembre
Lpez
Mateos
Hombres
36
44
43
28
Mujeres
34
50
52
53
Total
70
Total
189
95
etc.
Frecuencias relativas
Si dividimos todas las celdas de la tabla sobre el tamao de muestra (total de
pacientes), obtenemos una nueva tabla, la cual nos proporciona la Frecuencia Relativa
respecto al total.
Hospital
Gnero
Los
ngeles
Hombres
0.1058
Mujeres
20 de
Noviembre
Mdica Sur
Lpez
Mateos
Total
0.4441
0.1470
Total
0.2794
35
Por otro lado, si dividimos los valores de cada rengln por el total del mismo,
obtenemos la Frecuencia Relativa respecto al Genero.
Hospital
Gnero
Hombres
Los ngeles
36
Mdica Sur
20 de
Noviembre
Lpez Mateos
/151 = 0.2384
50
Mujeres
/189 = 0.2645
Ahora, si dividimos los valores de cada columna sobre el total de la misma, obtenemos
la Frecuencia Relativa respecto al Hospital.
Hospital
Gnero
Hombres
Los ngeles
36
Mdica Sur
20 de
Noviembre
Lpez
Mateos
/70 = 0.5142
52
Mujeres
/95 = 0.5473
Ejercicios 2.1
1.- La tabla de contingencia siguiente representa el Estado Civil y la preferencia por
ciertos peridicos de distintas personas.
Peridico preferido
Soltero
El
Universal
11
Casado
10
10
Viudo
Separado
12
Estado Civil
Exclsior
Reforma
La
Jornada
14
2.- La siguiente tabla 1 muestra los datos obtenidos al observar el tipo sanguneo y el
gnero de 20 personas.
Genero
Tipo
Sang.
O+
O+
O+
A+
O+
O+
A+
O+
O+
O+
O+
A+
O+
O+
A+
O+
O+
B+
O+
O+
37
Alumna
Estatura (m.)
Peso (kg.)
1
2
3
4
5
6
7
8
9
10
11
12
1.60
1.63
1.68
1.67
1.53
1.58
1.57
1.58
1.54
1.60
1.56
1.53
56
59
63
62
50
54
53
58
48
55
54
51
Diagrama de dispersin
Es una grafica donde aparecen los valores muestrales considerados como parejas
ordenadas (x1, y1), (x2, y2), , (xn, yn).
Si los valores muestrales dan una configuracin de puntos como el del diagrama de
dispersin, el modelo se llama de regresin lineal simple.
38
Diagrama de Dispersin
39
Regresando a nuestro ejemplo de estatura y peso de alumnas, para realizar los clculos
es til construir una tabla como la siguiente:
Alumna
Estatura (m) X
Peso (kg) Y
XY
X2
Y2
1
2
3
4
5
6
7
8
9
10
11
12
1.60
1.63
1.68
1.67
1.53
1.58
1.57
1.58
1.54
1.60
1.56
1.53
56
59
63
62
50
54
53
58
48
55
54
51
89.60
96.17
105.84
103.54
76.50
85.32
83.21
91.64
73.92
88.00
84.24
78.03
2.5600
2.6569
2.8224
2.7889
2.3409
2.4964
2.4649
2.4964
2.3716
2.5600
2.4336
2.3409
3136
3481
3969
3844
2500
2916
2809
3364
2304
3025
2916
2601
19.07
663
1056.01
30.3329
36865
m = 87.03 ,
b = - 83.06
Utilizando dicha ecuacin podemos predecir, por ejemplo, el peso de una alumna cuya
estatura es de 1.55 m
Y* = 87.03(1.55) - 83.06 = 51.83
De acuerdo a este modelo, una alumna cuya estatura fuera de 1.55 m., tendra un peso
de 51.8 kg.
Ejercicios 2.2
1.- En una tienda de descuento se tiene la siguiente situacin para un determinado
artculo
No. de piezas
1
3
5
10
12
15
24
(x)
Costo por pieza
55
52
48
36
32
30
25
(Y)
a) El coeficiente de correlacin lineal vale _________
b) La recta de regresin lineal por mnimos cuadrados es _________
c) Si una persona compra 20 piezas de ese artculo, cul sera el costo por pieza?
______________________________________________________________________
41
42
UNIDAD IV : PROBABILIDAD
PROPSITO
Que el estudiante estudie los fenmenos aleatorios, resolviendo problemas utilizando
los tres enfoques, subjetivo, frecuentista y clsico, para comprender conceptos
fundamentales que le permiten interpretar a la probabilidad y a sus reglas relacionadas
directamente con la Inferencia Estadstica.
PROBABILIDAD
La probabilidad tiene un papel crucial en la aplicacin de la inferencia estadstica y la
toma de decisiones bajo incertidumbre. Sin una adecuada comprensin de las leyes
bsicas de la probabilidad, una inferencia (o una decisin), cuyo fundamento es la
informacin proporcionada por una muestra aleatoria, puede estar equivocada.
43
subconjuntos o
Ejemplo
Experimento: Se lanza un dado comn y se observa la cara superior.
= { 1, 2, 3, 4, 5, 6 }
Evento A: el nmero que cae es par. A = { 2, 4, 6 }
Evento B: el nmero que cae es primo.
B = { 1, 2, 3, 5 }
A un evento que contiene un solo elemento, se le llama evento simple o elemental.
A un evento que contiene ms de un elemento, se le llama evento compuesto.
A un evento que contiene el mismo nmero de elementos que , se le llama evento
seguro.
Un evento que no tiene elementos es llamado evento imposible.
Ejemplo:
Experimento: Se lanza una moneda tres veces.
= { (S,S,S), (S,S,A), (S,A,S), (A,S,S), (A,A,S),(A,S,A),(S,A,A), (A,A,A) }
Evento elemental: C: Que salgan tres soles; C ={ (S,S,S) }
Evento compuesto: D: Que salgan dos soles; D = { (S,S,S), (S,S,A), (S,A,S), (A,S,S) },
Evento imposible: E: que salgan cuatro soles
E=
F=
44
Enfoques de Probabilidad
La probabilidad clsica se refiere a situaciones ideales, donde todos los casos o
resultados posibles tienen la misma probabilidad de ocurrencia (son equiprobables). La
probabilidad frecuencial proporciona estimaciones de la probabilidad que pueden variar,
dependiendo del nmero de observaciones realizadas. La frecuencia subjetiva de un
evento es asignada por el investigador con base en su experiencia.
Probabilidad Clsica
Supongamos un espacio muestral = {a1,aN} de manera que los ai son
sucesos elementales igualmente probables y sea un suceso E = {a1,ak} (k N).
Se define la probabilidad P del evento E, como
N (E)
P( E )
N ()
Ejemplo:
Experimento: Se lanza una moneda tres veces.
= { (S,S,S), (S,S,A), (S,A,S), (A,S,S), (A,A,S),(A,S,A),(S,A,A), (A,A,A) }
Evento C: Que salgan tres soles;
P(C) =
1
8
P(D) =
4
8
P(E) = P() =
P(F) =
0
=0
8
8
=1
8
Cmo puedes observar, una funcin de probabilidad tiene las siguientes verdades
bsicas o axiomas.
1. Si E es un evento cualquiera, entonces 0 PE 1
PS 1
2. Si o S, es el evento seguro, entonces P 1 o
3. Si E1, E2,Ek son eventos mutuamente excluyentes, entonces
P(E1 o E2 o . Ek)=P(E1)+P(E2)++P(Ek)
45
INTERSECCION
AB
Interseccin de los eventos originales, es el evento
que sucede si y slo si A y B suceden simultneamente.
DIFERENCIA
A-B
La diferencia de los eventos originales A y B, es el
evento que sucedo solo en A pero no en B.
UNION
Fig. 1
Fig. 2
46
b).- Interseccin:
A B={ 1, 3, 5 } { 3, 4 } = {3}, N(AB) = 1
A C={ 1, 3, 5 } { 2,4,6 } = {}, N(A C) = N{) = 0
c).- Diferencia:
A B = ={ 1, 3, 5 } - { 3, 4 } = { 1, 5 },
d).- Complemento:
Ac = { 2, 4, 6} = C
N(A B) = 2
N( Ac ) = N(C) = 3
1
A
3
5
4
2 ,6
Probabilidad Condicional
Una situacin de inters consiste en determinar la probabilidad de un evento si ha
ocurrido otro. Por ejemplo, si lanzamos un dado, cul es la probabilidad de obtener un
3 si se sabe que cayo un nmero impar?
La informacin se sabe que es impar condiciona la probabilidad de ocurrencia del
evento cae 3, es decir, de las 3 posibles resultados impares solamente nos interesan
aquel que es 3 ; as, la probabilidad (llamada probabilidad condicional), es 1 0.3333
3
1
0.1666 , pero la
6
Definicin
Sean A y E dos eventos de un espacio muestral , con P(E) > 0. La probabilidad de
que ocurra el evento A dado que ha ocurrido E, es decir, la probabilidad condicional
de A dado E, se define como: P( A E )
P( A E )
P( E )
Empleados
Total
Mujeres
800
3200
4000
Hombres
200
3800
4000
Total
Sea los eventos:
E : que la persona seleccionada est empleada
D : que la persona seleccionada est desempleada
M : que la persona seleccionada sea mujer
H : que la persona seleccionada sea hombre
1000
7000
8000
48
P(H) = 0.50
P(E) = 0.875
P(D) = 0.125
= 0.05
49
Ejercicios 3.1
1.- Se ha recibido un cargamento de toronjas con las siguientes caractersticas: 10%
son rosadas sin semilla, 20% son blancas sin semilla, 30% son rosadas con semilla y
40% son blancas con semilla. Se selecciona aleatoriamente una toronja del
cargamento. Calcula la probabilidad de que:
Sea sin semilla
Sea blanca
Sea rosada o sin semilla
Sea rosada dado que es sin semilla
Sea sin semilla dado que es rosada.
2.- En una ciudad hay una alta incidencia de cirrosis entre la poblacin. Se sospecha
que se debe al alto ndice de consumo de alcohol. Se hacen estudios estadsticos que
asocian presencia de la enfermedad con consumo de alcohol. Se encuentra que el
40% de la poblacin consume alcohol, el 20% padece la enfermedad y el 5% consume
alcohol y padece la enfermedad. Se verifica la creencia?
3.- Relaciona ambas columnas, colocando en los parntesis de la derecha la letra que
corresponda a la aseveracin correcta.
A
Distribucin de
frecuencias
) Muestra
) Variable
) Frecuencia
) Poblacin
) Frecuencia relativa
50
Fenmeno
aleatorio
Variable numrica
continua
Fenmeno
determinista
Variable categrica
)
nominal.