Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ACADEMIA DE MATEMTICAS
ESTADSTICA I
GUA PARA EXAMEN EXTRAORDINARIO
Octubre de 2008
1
PROGRAMA DE ESTADSTICA Y PROBABILIDAD I
PRPOSITOS PARTICULARES
BIBLIOGRAFA RECOMENDADA
INTRODUCCION
Nocin y utilidad de la Estadstica
Uso indebido de la Estadstica
Conceptos bsicos
UNIDAD 3. PROBABILIDAD
1.- ___________________________________________________________________
______________________________________________________________________
2.- ___________________________________________________________________
______________________________________________________________________
3.- ___________________________________________________________________
______________________________________________________________________
1
Importancia de la estadstica para los estudiantes
1. Todo ciudadano est en continuo contacto con las estadsticas en todos los medios
de comunicacin. Debe poder comprender la informacin que se le ofrece para detectar
verdades y mentiras y tomar decisiones informadas.
Estadstica descriptiva
En ella se enfatizan los aspectos de presentacin y descripcin de los datos recogidos
en la investigacin. El objetivo de la estadstica descriptiva es la organizacin de los
datos para obtener informacin de ellos que no es obtenible a simple vista
Estadstica Inferencial
Con base en la informacin obtenida de una pequea parte o muestra, se hacen
estimaciones y predicciones de una o varias caractersticas de la poblacin y se realiza
una toma decisiones.
Como el azar afecta tanto a la recoleccin de datos como a su anlisis, debe ser
tomado en cuenta al hacer inferencias, y es aqu donde la estadstica se relaciona con
la probabilidad, la cual puede definirse como el estudio matemtico del azar y los
fenmenos aleatorios.
Seleccin aleatoria
muestra grande
Poblacin
Muestra
Representativa
X
Proporcin poblacional X
Proporcin muestral
extrapolacin
2
Uso indebido y errores en el uso de la Estadstica.
Un error frecuente es tomar una muestra de una poblacin bajo criterios personales del
investigador o sin planificacin rigurosa. Tambin puede darse un uso indebido al
manipular los resultados de algn estudio, por ejemplo para inducir respuestas a
usuarios o comprometer sus decisiones.
Un poco de Historia
La palabra estadstica proviene del vocablo estado, debido a que los gobiernos fueron
los que comenzaron a llevar registros sobre impuestos, habitantes, nacimientos y
defunciones, cosechas y datos astronmicos, etc.
Conceptos Bsicos
Poblacin
Se define como el conjunto completo de individuos (personas, animales o cosas) que
tienen una cierta caracterstica considerada de inters para el estudio estadstico. La
mayor parte de las veces es muy grande, y algunas veces es hipottica
Muestra
La muestra es el subconjunto de la poblacin seleccionado para la investigacin. La
seleccin se hace porque generalmente el costo, el tiempo y los recursos son limitados
para hacer la investigacin con toda la poblacin. A partir de los resultados del estudio
con la muestra (siendo sta representativa de la poblacin), el investigador hace
inferencias sobre la poblacin.
Parmetro
Es una medida (un nmero) utilizada para describir una caracterstica de la poblacin.
(Media, mediana, varianza, etc.). Es un elemento descriptivo de la poblacin.
3
Estadstico (o estadsticas)
Es una medida que se utiliza para describir una caracterstica numrica de la muestra,
no de la poblacin. Es un elemento descriptivo de una muestra
Variables
Las caractersticas de inters en una poblacin o una muestra se llaman variables.
Como estas caractersticas no se mantienen constantes de un individuo a otro, pueden
asumir ms de un valor, (de ah su nombre).
Datos
Son las observaciones, es decir, los valores que asumen las variables en cada uno de
los individuos
EJERCICIOS 0.1
2.- El proceso de utilizar muestras estadsticas para llegar a conclusiones sobre los
parmetros de la poblacin se llama
3.- El total de objetos bajo consideracin o investigacin del que se selecciona una
muestra se llama
4
7.- En una escuela de 1,325 estudiantes el director ha decidido seleccionar un grupo de
80 estudiantes para determinar las preferencias de los estudiantes con respecto a los
servicios de cafetera que ofrece la escuela. Selecciona la opcin que describe ms
adecuadamente lo expresado en los incisos.
Categricas o Cualitativas
Son las variables cuyos posibles valores son nicamente categoras o nombres, los
cuales denotan cualidades o atributos, como sexo, afiliacin poltica, color de los ojos,
etc. Por lo general, estas caractersticas no se pueden describir por medio de nmeros.
Numricas o Cuantitativas
Son aquellas variables que toman valores numricos como resultado de un proceso de
conteo o medicin. Las preguntas que se hacen sobre estas variables se pueden
responder con un nmero. Cunto pesas? Cunto mides? Cunto dinero ganas?
Cuntos hijos tienes? Adems, las variables numricas pueden ser Discretas o
Continuas.
Escalas de medicin
El tipo de anlisis estadstico que se lleva a cabo sobre los datos depende del nivel o
escala de medicin de las variables de la investigacin. La importancia de esta
clasificacin por niveles reside en el hecho de que mientras ms complejo o alto es el
nivel de medicin, ms efectivos son los mtodos estadsticos que se pueden utilizar.
Escala nominal
Se utiliza cuando los datos estn clasificados en categoras en las que no es posible
establecer una relacin de orden. Se refiere a atributos de los sujetos, no a
cantidades. Ejemplos: tez, religin, partido poltico, raza, etc.
Escala ordinal
Como puedes observar las escalas nominal y ordinal corresponden a variables de tipo
Cualitativo o Categrico
Escala intervalar
Los valores de las variables son datos numricos, sin embargo no son
proporcionales. por ejemplo un temblor de 8 es veinte veces mas intenso que uno de
6, y no dos veces adems el cero es arbitrario y no implica ausencia del fenmeno,
por ejemplo: la temperatura cero, en grados Celsius es diferente al cero en grados
Fahrenheit y ninguno implica ausencia de temperatura.
Escala de razn
Los valores de la variables son datos numricos proporcionales y tiene un cero real.
Las operaciones aritmticas de producto y de cociente toman una interpretacin vlida.
Por ejemplo: peso, altura, edad, etc. Tiene sentido hablar de que una persona de 80
aos tiene el doble de aos que otra de 40 aos.
6
Ejercicio 0.2
1.- Selecciona la opcin que representa la escala de medicin para cada variable
7
UNIDAD I : ESTADISTICA DESCRIPTIVA
PROPSITO
Distribucin de Frecuencia
Como recordars del captulo anterior de esta gua, la Estadstica Descriptiva se encarga de la
organizacin, presentacin y descripcin de los datos recolectados, y de obtener informacin a
partir de ellos.
Datos no agrupados
Si los datos estn en una escala por lo menos ordinal, lo primero que podemos hacer es
ordenarlos, en forma ascendente o descendente. Una vez ordenados los datos de la
muestra se organizan en una tabla de frecuencias.
Datos ordenados
1.52 1.52 1.53 1.53 1.57 1.58 1.58 1.6 1.64 1.64 1.64 1.66 1.66 1.74 1.76 1.79
8
Distribucin de Frecuencias
Estatura Frecuencia
xi f
1.52 2
1.53 2
1.57 1
1.58 2
1.60 1
1.64 3
1.66 2
1.74 1
1.76 1
1.79 1
La frecuencia relativa es el nmero de veces que aparece cada valor de la variable Xi,
es decir cada dato, dividida entre el tamao de la muestra. Se representa con fr, y se
f
tiene que: f r
n Frecuencia
Estatura Frecuencia Relativa
xi f fr
2
1.52 2 /16 = 0.1250
1.53 2 0.1250
1.57 1 0.0625
1.58 2 0.1250
1.60 1 0.0625
1.64 3 0.1875
1.66 2 0.1250
1.74 1 0.0625
1.76 1 0.0625
1.79 1 0.0625
9
Frecuencia
Frecuencia Frecuencia
Estatura Frecuencia Relativa Acumulada
Acumulada
xi F Relativa
fr Fa
Far
2
1.52 2 0.1250 2 /16 = 0.1250
4
1.53 2 0.1250 2+2 = 4 /16 = 0.2500
5
1.57 1 0.0625 2+2+1 = 5 /16 = 0.3125
1.58 2 0.1250 2+2+1+2 = 7 0.4375
1.60 1 0.0625 8 0.5000
1.64 3 0.1875 11 0.6875
1.66 2 0.1250 13 0.8125
1.74 1 0.0625 14 0.8750
1.76 1 0.0625 15 0.9375
1.79 1 0.0625 16 1.0000
Ejercicios 1.1
+ 250 560 340 780 890 960 470 340 540 440 120 340 340 550 440
450 450 670 860 430 330 230 810 70 970 360 560 1120 370 840
a.- ___________________________________________________________________
b.- ___________________________________________________________________
c.- ___________________________________________________________________
d.- ___________________________________________________________________
10
Medidas de Tendencia Central
Los parmetros ms tiles son las medidas de Tendencia Central, las cuales ubican el
valor alrededor del cual se concentra un conjunto de datos y las Medidas de Dispersin
que describen la variabilidad o dispersin de los mismos.
Moda
1.- ___________________________________________________________________
______________________________________________________________________
2.- ___________________________________________________________________
______________________________________________________________________
Mediana
1.- ___________________________________________________________________
______________________________________________________________________
2.- ___________________________________________________________________
______________________________________________________________________
Media
1.- ___________________________________________________________________
______________________________________________________________________
2.- ___________________________________________________________________
______________________________________________________________________
Moda
Ejemplos:
En el conjunto de datos: 2, 3, 3, 4, 4, 4, 5, 5, 8, 8, 12, 13 la moda es 4.
En la distribucin 2, 2, 3, 3, 5, 5, 8, 8, 12, 12, 13, 13 no hay moda.
Para el conjunto de datos ordinales: pequea, pequea, mediana, mediana, mediana,
grande, grande, grande, extragrande, extragrande, hay dos modas: mediana y
grande, porque ambos se repiten el mismo numero de veces.
11
Mediana
La mediana se define como el dato central de la distribucin, es decir el dato que queda
justo en el medio, cuando el conjunto de datos se encuentra ordenado. Se denota por
~
x.
La mediana se puede utilizar con variables ordinales (adems de la moda). Si el nmero
de datos es impar, entonces la mediana corresponde al valor que se encuentra en el
medio. Pero si el nmero de observaciones es par, entonces se toman los dos valores
que se hallan en el medio de la distribucin y se dice que la mediana se encuentra entre
esos dos valores, (en el caso de variables numricas se suman esos valores y se
divide entre dos)
Ejemplos:
En el conjunto de datos: a, b, b, c, c, c, d, d, g, g, k, m la mediana esta entre c y d.
La mediana divide al conjunto de datos justo a la mitad por lo que nos proporciona
informacin del estilo: El 50% de los datos esta por debajo de la mediana y el otro 50%
por arriba de ella
Media
Si los datos son numricos (en escala intervalar o de razn), entonces es posible
calcular una tercera medida de tendencia central: la media aritmtica, la cual consiste
en la suma de todos los valores dividida por el nmero de ellos.
n
xi
i 1
Se denota con x y queda expresada como: x .
n
Ejemplos
En el conjunto de datos: 2, 3, 3, 4, 4, 4, 5, 5, 8, 8, 12, 13, la moda es 4, la mediana
es 4.5 y la media es 6.45.
1.52 1.52 1.53 1.53 1.57 1.58 1.58 1.60 1.64 1.64 1.64 1.66 1.66 1.74 1.76 1.79
Informacin proporcionada:
mediana: El 50% de los estudiantes miden menos de 1.62 m y el otro 50% mide
ms de 1.62m
Ejercicios 1.2
250 560 340 780 890 960 470 340 540 440 120 340 340 550 440
450 450 670 860 430 330 230 810 70 970 360 560 1120 370 840
Calcula las tres medidas de tendencia central y escribe la informacin que proporcionan
a.- __________________________________________________________________
b.- __________________________________________________________________
c.- __________________________________________________________________
13
Medidas de Dispersin
Rango
Varianza
La varianza es la suma de los cuadrados de las diferencias de los datos con relacin a
su media aritmtica, dividida entre el tamao de la muestra menos 1.
n
( xi x ) 2
i 1
Se denota por S2, y se tiene S2
n 1
k
( xi x ) 2 * f i
i n
S2 en la cual, k es el nmero de datos distintos en la muestra.
n 1
Desviacin Estndar
n
( xi x ) 2
i 1
Se denota por S, y se tiene S
n 1
k
( xi x ) 2 * f i
i n
De igual manera, existe una expresin equivalente: S
n 1
14
Coeficiente de Variacin
Ejemplo:
1.52 1.52 1.53 1.53 1.57 1.58 1.58 1.60 1.64 1.64 1.64 1.66 1.66 1.74 1.76 1.79
Para realizar los clculos de la varianza a mano, resulta conveniente construir una
tabla como la siguiente
Estatura Frecuencia
xi x ( xi x ) 2 ( xi x) 2 * f i
xi f
1.52 2 -0.1025 0.01051 0.02101
1.53 2 -0.0925 0.00856 0.01711
1.57 1 -0.0525 0.00276 0.00276
1.58 2 -0.0425 0.00181 0.00361
1.6 1 -0.0225 0.00051 0.00051
1.64 3 0.0175 0.00031 0.00092
1.66 2 0.0375 0.00141 0.00281
1.74 1 0.1175 0.01381 0.01381
1.76 1 0.1375 0.01891 0.01891
1.79 1 0.1675 0.02806 0.02806
x = 1.6225 = 0.1095
0.1095
Varianza S2 = 0.0073
15
15
0.08544
Coeficiente de Variacin CV = 100 % = 5.266%
1.6225
Medidas de Posicin
Los cuantiles son medidas de posicin no central que se utilizan para resumir o
describir las propiedades de conjuntos grandes de datos numricos. Los cuantiles que
se calculan ms a menudo son: cuartiles, deciles y percentiles.
Cuartiles
Son tres valores numricos que dividen a la muestra ordenada en cuatro partes iguales.
Se denotan por Q1, Q2, Q3.
Primer cuartil, es un valor tal que 25% de las observaciones son menores y 75% son
mayores. Q1 x n1 . Recuerda que el subndice indica la posicin del dato
4
en el conjunto.
Segundo cuartil, es un valor tal que 50% de las observaciones son menores y 50% son
mayores. Coincide con el valor de la mediana. Q2 x 2 ( n1)
4
Tercer cuartil, es un valor tal que 75% de las observaciones son menores y 25% son
mayores. Q3 x 3( n1)
4
16
Ejemplo:
En un grupo de Estadstica I del Cch Sur, se observ la estatura de 16 alumnos y se
obtuvieron los siguientes datos (ya ordenados):
1.52 1.52 1.53 1.53 1.57 1.58 1.58 1.60 1.64 1.64 1.64 1.66 1.66 1.74 1.76 1.79
Q1 Q2 Q3
Q1 x161 = 1.55
4
Q2 x 2 (161) = 1.62
4
Q3 x 3(161) = 1.66
4
Ejercicios 1.3
250 560 340 780 890 960 470 340 540 440 120 340 340 550 440
450 450 670 860 430 330 230 810 70 970 360 560 1120 370 840
a.- __________________________________________________________________
b.- __________________________________________________________________
c.- __________________________________________________________________
d.- __________________________________________________________________
e.- __________________________________________________________________
f.- __________________________________________________________________
17
Datos Agrupados
Distribucin de frecuencia
Cuando la muestra es grande (n mayor que 30) resulta conveniente organizar los datos
en intervalos de clase para construir su distribucin de frecuencias.
27 23 41 38 44 29 35 26 18 22 24
25 36 22 52 31 30 22 45 28 18 20
18 28 44 25 29 28 24 36 21 23 32
26 33 25 27 25 34 32 23 54 38 23
31 23 26 48 16 27 27 33 29 29 28
Aunque, no existe una regla formal para determinar el nmero de intervalos y el tamao
de los mismos, existen algunas reglas empricas que resultan tiles en esta decisin
52 16
Para nuestro ejemplo, K = 5.30
1 3.322 Log (55)
52 16
Los intervalos sern de tamao, C 7.2 , el cul se redondea hasta la
5
precisin de nuestros datos, es decir a enteros, por lo que C = 7.
Tomemos el dato menor como el lmite inferior del primer intervalo, (aunque existen
otros criterios, este es el ms sencillo), y construyamos los intervalos de modo que cada
uno sea de tamao 7, es decir, de manera en cada uno se cuenten 7 enteros.
18
Intervalo de
Clase
16 22
Por ejemplo, en el intervalo 16 22 hay 7 enteros:
23 29
30 36 16,17,18,19,10,21,22
37 43
44 50
51 57
Intervalo de
Frecuencia
Clase
16 22 9
23 29 26
30 36 11
37 43 3
44 50 4
51 57 2
19
Frecuencia Relativa de los Intervalos de clase.
Se define, igual que en la seccin anterior, como la Frecuencia Simple dividida por el
tamao de muestra.
Intervalo de Frecuencia
Frecuencia
Clase Relativa
16 22 9 9
/55 = 0.1636
23 29 26 0.4727
30 36 11 0.2000
37 43 3 0.0545
44 50 4 0.0727
51 57 2 0.0364
Se construye sumando la frecuencia simple de cada intervalo con las frecuencias de los
intervalos que le preceden.
20
Frecuencia Acumulada Relativa de los Intervalos de clase.
Ejercicios 1.4
1.- Los siguientes datos muestran el nmero de vuelos internacionales recibidos en el
aeropuerto de la ciudad de Mxico durante los dos meses anteriores, construye una
tabla de distribucin de frecuencias.
71 47 66 67 73 38 63 67 29 54 62 70
63 37 68 50 59 60 45 48 52 49 48 56
70 62 61 65 62 45 62 56 63 39 36 43
49 50 39 41 57 49 73 47 38 61 48 31
55 57 72 53 42 70 56 58 39 60 53 36
21
Frecuencia
Intervalo de Frecuencia Frecuencia Frecuencia
Acumulada.
Clase Simple Relativa Acumulada
Relativa
2.- Escribe algunos ejemplos de la informacin que se obtiene a partir de cada tipo de
Frecuencia del ejercicio anterior
a.- ___________________________________________________________________
b.- ___________________________________________________________________
c.- ___________________________________________________________________
d.- ___________________________________________________________________
3.- Los datos siguientes corresponden a un estudio realizado con 40 personas para
conocer la reaccin sistmica a la picadura de abeja. Se toma el tiempo, en minutos, en
el que aparecen las primeras reacciones a la picadura. Construye una tabla de
distribucin de frecuencias. (Observa que la precisin de estos datos es de dcimas)
22
4.- Escribe algunos ejemplos de la informacin que se obtiene a partir de cada columna
del ejercicio 3.
a.- ___________________________________________________________________
b.- ___________________________________________________________________
c.- ___________________________________________________________________
d.- ___________________________________________________________________
500 - 599 90
600 - 699 45
700 - 799 60 1
Completa la tabla anterior, y con base en ella proporciona la informacin que falta:
a.- La frecuencia simple del primer intervalo nos dice que: _______________________
_____________________________________________________________________.
23
Medidas de Tendencia Central para datos agrupados
Moda
La moda se defini como el dato con la mayor frecuencia, de manera similar definimos
ahora la Clase Modal, como aquel intervalo de clase con la mayor frecuencia.
Una vez que identificamos la clase modal, se utiliza la siguiente frmula para calcular la
moda:
1
LRinf C
1 2
Para aclarar lo que son los lmites reales observa y analiza el siguiente esquema
Lmites de Clase
24
Mediana
Una vez que identificamos la clase mediana, se utiliza la siguiente frmula para calcular
n
Fa 1
la mediana: x LRinf 2
~ C
f med
Frecuencia
Intervalo de Frecuencia
Frecuencia Acumulada
Clase Acumulada Relativa
16 22 9 9 0.1636
23 29 26 35 0.6364
30 36 11 46 0.8364
37 43 3 49 0.8909
44 50 4 53 0.9636
51 57 2 55 0.9999
55
9
mediana = 22.5 2 7 27.5
26
El 50% tales personas tienen una edad menor o igual a 27.5 aos y el otro 50% tiene
una edad mayor a 27.5 aos
25
Media
La media igual que antes, se define como el promedio de los datos. Vamos a necesitar
el concepto de marca de clase, el cul es el punto medio de cada intervalo.
Como en otros clculos, resulta conveniente utilizar una tabla como la siguiente:
23 29 26 26 676
30 36 33 11 363
37 43 40 3 120
44 50 47 4 188
51 57 54 2 108
= 1626
n
( xi* )( f i ) 1626
i 1
x = 29.6
n 55
26
Medidas de Dispersin para datos agrupados
Rango
Varianza
Desviacin estndar
n
( xi* x ) f i
i 1
Sigue siendo la raz cuadrada de la varianza: S
n 1
Coeficiente de Variacin
S
Se define de la misma forma, como : CV 100%
x
Marca de
Intervalo Frecuencia
clase xi* x ( xi* x) 2 ( xi* x) 2 * f i
de Clase fi
xi*
16 22 19 9 -10.6 112.3600 1011.2400
x = 29.6 = 4201.60
27
Rango 57.5 15.5 = 42
4201.60
Varianza S2 = 77.8074
54
8.8208
Coeficiente de Variacin CV = 100 % = 29.80%
29.6
Consulta la bibliografa recomendada para saber cmo calcular las medidas de posicin
para datos agrupados.
Ejercicios 1.5
1.- Calcula e interpreta las medidas de tendencia central y las medidas de dispersin
para los datos agrupados, correspondientes a
28
Representacin Grfica
Toda grfica debe tener: Un ttulo descriptivo, el nombre de la variable que representa,
las unidades de la variable, y en su caso la escala utilizada.
Grafica Circular
Se conoce tambin como Diagrama de pastel, de sectores y otros. Se divide un crculo
de manera proporcional a la distribucin de los valores de la variable. Ayuda a percibir
la importancia relativa de cada categora respecto al total. Se utiliza tambin para
representar datos discretos.
9%
20%
Tos
Gripa
Fractura
8% 30% Diabetes
Males cardiacos
Alta presin
11%
Dolores estomacales
5%
17%
Grfica de barras
Los valores de la variable se localizan sobre un eje horizontal y las frecuencias sobre
uno vertical. Las barras son rectngulos cuyo ancho es arbitrario, pero debe ser el
mismo para todas las barras, y cuya longitud es la frecuencia o el porcentaje de
observaciones dentro de la categora.
29
La separacin de las barras es arbitraria pero debe ser la misma. Las bases de los
rectngulos deben estar centrados sobre los valores de la variable
Histograma
Para datos no agrupados, cada frecuencia se representa por una barra cuya rea sea
proporcional a ella. Tpicamente, el ancho de cada barra se escoge como 1 y as, la
altura y el rea de la barra son iguales a la frecuencia del valor.
Edad de personas
30
25
20
Frecuencia
15
10
0
16 22 23 29 30 36 37 43 44 50 51 57
Edad (aos)
30
Polgono de Frecuencias
Para datos no agrupados, se trazan los puntos que corresponden a los valores de la
variable cuantitativa y la frecuencia (absoluta o relativa), a continuacin se unen los
puntos mediante segmentos de recta, los extremos se unen con el eje horizontal con el
primer valor menos una unidad y el extremo derecho mas una unidad.
Para datos agrupados los vrtices tienen como coordenadas las marcas de clase y las
frecuencias correspondientes. Se debe cerrar sobre el eje horizontal en dos puntos que
corresponden a las marcas de clase de dos intervalos, uno anterior y el otro posterior al
primero y al ltimo intervalo, cuya frecuencia es cero.
Edad de personas
30
25
Frecuencia
20
15
10
5
0
16 22 23 29 30 36 37 43 44 50 51 57
Edad (aos)
Ojiva
Para datos agrupados los vrtices tienen como abscisa los valores de la variable
representados por los lmites reales superiores y como ordenada la frecuencia
acumulada o frecuencia relativa acumulada (ojiva porcentual).
31
Edad de personas
60
Frecuencia acumulada
50
40
30
20
10
0
10 15 20 25 30 35 40 45 50 55 60
Edad (aos)
Ejercicios 1.6
32
Ejercicios adicionales
Edad Nmero de
Gnero Tipo Color Peso
Nombre (aos Hermanos
( M o F) cumplidos)
sanguneo favorito ** (kg)
+
Vernica F 17 O Azul 2 63
Guillermo M 16 O+ Morado 1 67
Viviana F 17 O+ Azul 3 60
Nuria F 17 A+ Azul 2 62
Alfredo M 17 O+ Rojo 3 75
Gerson M 17 O+ Negro 6 74
Nohem F 18 A+ Azul 3 54
Alejandra F 16 O+ Blanco 2 61
Viridiana F 16 O+ Violeta 2 50
Elizabeth F 16 O+ Blanco 3 45
Rogelio M 17 O+ Azul 3 74
Amaranta F 17 A+ Blanco 1 54
Fabiola F 16 O+ Morado 2 54
Zicar F 18 O+ Rosa 3 51
Karla F 18 A+ Turquesa 2 55
Andrea F 17 O+ Negro 3 60
Alfonso M 17 O+ Azul 3 64
Rub F 15 B+ Morado 2 62
Claudia F 17 O+ Violeta 3 60
Wendi F 17 O+ Negro 3 58
**incluyndose a s mismo(a)
33
UNIDAD II : DATOS BIVARIADOS
PROPSITO
Que el estudiante comprenda la forma en que se establece una relacin entre dos
variables, a partir de tablas, diagramas, regresiones y correlaciones, y describa la
naturaleza e intensidad de dicha relacin.
Datos bivariados
Se llaman datos bivariados a aquellos que provienen de dos variable medidas al mismo
tiempo sobre cada individuo.
Por ejemplo: Edad y Gnero, Escolaridad e Ingreso, Peso y Estatura, etc.
Hospital
20 de
Gnero Los ngeles Mdica Sur Lpez Mateos
Noviembre
Hombres 36 44 43 28
Mujeres 34 50 52 53
________________________________________________________________
__________________________________________________________________
34
Al sumar las frecuencias absolutas de cada fila y de cada columna, se obtiene la
frecuencia absoluta marginal.
Hospital
20 de Lpez
Gnero Los ngeles Mdica Sur Total
Noviembre Mateos
Hombres 36 44 43 28
Mujeres 34 50 52 53 189
Total 70 95
Claro!, tendramos que sumar todas las celdas, lo que es equivalente a sumar la ltima
columna o el ltimo rengln que agregamos, y concluimos que: Se hizo el estudio con
n = _____ pacientes
Frecuencias relativas
35
Podemos responder la pregunta anterior utilizando la primera celda de la tabla:
____________________________________________________________________
Por otro lado, si dividimos los valores de cada rengln por el total del mismo,
obtenemos la Frecuencia Relativa respecto al Genero.
Hospital
20 de
Gnero Los ngeles Mdica Sur Lpez Mateos
Noviembre
36
Hombres /151 = 0.2384
50
Mujeres /189 = 0.2645
Ahora, si dividimos los valores de cada columna sobre el total de la misma, obtenemos
la Frecuencia Relativa respecto al Hospital.
Hospital
20 de Lpez
Gnero Los ngeles Mdica Sur
Noviembre Mateos
36
Hombres /70 = 0.5142
52
Mujeres /95 = 0.5473
36
Ejercicios 2.1
Peridico preferido
El La
Estado Civil Exclsior Reforma
Universal Jornada
Soltero 11 6 7 14
Casado 6 10 10 8
Viudo 5 6 6 9
Separado 7 8 5 12
2.- La siguiente tabla 1 muestra los datos obtenidos al observar el tipo sanguneo y el
gnero de 20 personas.
Genero F M F F M M F F F F M F F F F F M F F F
Tipo
O+ O+ O+ A+ O+ O+ A+ O+ O+ O+ O+ A+ O+ O+ A+ O+ O+ B+ O+ O+
Sang.
c) Representa grficamente
37
Caso 1: Dos variables Cuantitativas
Cuando los datos bivariados provienen de dos variables cuantitativas resulta de inters
estudiar la relacin que guarda una con la otra. La relacin puede ser de muy distinta
naturaleza: lineal, cuadrtica, exponencial, logartmica, trigonomtrica, etc. En
estadstica la relacin que nos interesa es la Relacin Lineal, por lo que se llevan a
cabo Anlisis de Correlacin Lineal y de Regresin Lineal
El anlisis de correlacin, se usa para medir la fuerza de asociacin entre las variables.
El objetivo medir la covarianza que existe entre esas dos variables numricas.
Ejemplo
Se decidi examinar la relacin entre la estatura, (en metros), y el peso, (en
kilogramos), a partir de una muestra de 12 alumnas de cierta escuela. Los datos se
muestran en la siguiente tabla.
Diagrama de dispersin
Es una grafica donde aparecen los valores muestrales considerados como parejas
ordenadas (x1, y1), (x2, y2), , (xn, yn).
Si los valores muestrales dan una configuracin de puntos como el del diagrama de
dispersin, el modelo se llama de regresin lineal simple.
38
Diagrama de Dispersin
El objetivo es ver si existe o no una relacin de carcter lineal entre las dos variables, y
si existe, entonces medir el grado de intensidad de la linealidad. Esto comnmente se
realiza calculando el coeficiente de correlacin lineal de Pearson:
Un valor cercano a 0, indica que la relacin entre las variables es casi nula, es decir, no
hay relacin entre ellas.
Un valor cercano a 1 significa que la relacin entre las variables es fuertemente lineal.
39
Anlisis de Regresin Lineal
Y*i = mXi + b
donde
Y* = valor pronosticado de Y para cada observacin
Xi = valor de X para cada observacin
Regresando a nuestro ejemplo de estatura y peso de alumnas, para realizar los clculos
es til construir una tabla como la siguiente:
Y* = 87.03 X - 83.06
40
Utilizando dicha ecuacin podemos predecir, por ejemplo, el peso de una alumna cuya
estatura es de 1.55 m
Y* = 87.03(1.55) - 83.06 = 51.83
De acuerdo a este modelo, una alumna cuya estatura fuera de 1.55 m., tendra un peso
de 51.8 kg.
Ejercicios 2.2
c) Si una persona compra 20 piezas de ese artculo, cul sera el costo por pieza?
______________________________________________________________________
41
b) Considerando la recta de regresin de la pregunta anterior, qu efecto causa un
valor de x =2? _____________________________________
42
UNIDAD IV : PROBABILIDAD
PROPSITO
Que el estudiante estudie los fenmenos aleatorios, resolviendo problemas utilizando
los tres enfoques, subjetivo, frecuentista y clsico, para comprender conceptos
fundamentales que le permiten interpretar a la probabilidad y a sus reglas relacionadas
directamente con la Inferencia Estadstica.
PROBABILIDAD
Ejemplo: el resultado probable de una rifa; cul ser el equipo ganador de ftbol en el
prximo campeonato; qu cara quedar arriba al lanzar un dado; si llueve o no llueve
maana; el tiempo que tardar un rbol en alcanzar 3m de altura etc.
43
Espacio Muestral es el conjunto de (todos) los posibles resultados en un
experimento aleatorio. Generalmente se denota con (o con S). A cada uno de estos
resultados, tambin se les llama puntos muestrales.
Ejemplos:
1.- Experimento: Se lanza una moneda y se observa la cara superior (es decir, lo que
cae).
= { s, a }
Ejemplo
Experimento: Se lanza un dado comn y se observa la cara superior.
= { 1, 2, 3, 4, 5, 6 }
Evento A: el nmero que cae es par. A = { 2, 4, 6 }
Evento B: el nmero que cae es primo. B = { 1, 2, 3, 5 }
Ejemplo:
Experimento: Se lanza una moneda tres veces.
Evento compuesto: D: Que salgan dos soles; D = { (S,S,S), (S,S,A), (S,A,S), (A,S,S) },
44
Enfoques de Probabilidad
Probabilidad Clsica
1
Evento C: Que salgan tres soles; P(C) =
8
4
Evento D: Que salgan dos soles; P(D) =
8
0
Evento E que salgan cuatro soles; P(E) = P() = =0
8
8
Evento F: Que salgan entre 0 y 3 soles; P(F) = =1
8
Cmo puedes observar, una funcin de probabilidad tiene las siguientes verdades
bsicas o axiomas.
P(E1 o E2 o . Ek)=P(E1)+P(E2)++P(Ek)
45
Operaciones Bsicas con Eventos
Ya que los eventos aleatorios son subconjuntos del conjunto , espacio muestral, se
pueden aplicar las conocidas operaciones con conjuntos, a los eventos, como son la
unin, la interseccin y la diferencia de eventos.
A A
B B
Fig. 1 Fig. 2
a).- Unin:
46
b).- Interseccin:
c).- Diferencia:
A B = ={ 1, 3, 5 } - { 3, 4 } = { 1, 5 }, N(A B) = 2
d).- Complemento:
Ac = { 2, 4, 6} = C N( Ac ) = N(C) = 3
1
A 3 B
5 4
2 ,6
C
Ejemplo:
La regularidad estadstica en el experimento del lanzamiento de monedas, indica que
las frecuencias relativas del evento: que salga sol {s }, se tiende a estabilizar
aproximadamente en 0.5= 1/2.
Ejemplo:
47
Probabilidad Condicional
Definicin
Ejemplo
En cierta ciudad, las mujeres representan el 50% de la poblacin y los hombres el otro
50%. Se sabe que el 20% de las mujeres y el 5% de hombres estn sin trabajo. Un
economista estudia la situacin de empleo, elige al azar una persona desempleada. Si
la poblacin total es de 8000 personas, Cul es la probabilidad de que la persona
escogida sea?:
48
Cada una de las entradas de la tabla representan:
49
Ejercicios 3.1
2.- En una ciudad hay una alta incidencia de cirrosis entre la poblacin. Se sospecha
que se debe al alto ndice de consumo de alcohol. Se hacen estudios estadsticos que
asocian presencia de la enfermedad con consumo de alcohol. Se encuentra que el
40% de la poblacin consume alcohol, el 20% padece la enfermedad y el 5% consume
alcohol y padece la enfermedad. Se verifica la creencia?
3.- Relaciona ambas columnas, colocando en los parntesis de la derecha la letra que
corresponda a la aseveracin correcta.
50