Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Universidad de
Probabilidad
Estadística
Yolanda Gallardo de Parada
Aurora Inés Gáfaro Rojas
Sandra Patricia Valero Ortega
UNIDAD 1: Probabilidad
Núcleos Temáticos y Problemáticos
Proceso de Información
1.1 GENERALIDADES
1.2 VARIABLES ALEATORIAS
1.3 VALOR ESPERADO
Proceso de Comprensión y Análisis
ANEXO: Tablas
BIBLIOGRAFÍA GENERAL
Probabilidad Estadística 1
Presentación
La educación superior se ha convertido hoy día en prioridad para el gobierno
Nacional y para las universidades públicas, brindando oportunidades de superación
y desarrollo personal y social, sin que la población tenga que abandonar su región
para merecer de este servicio educativo; prueba de ello es el espíritu de las
actuales políticas educativas que se refleja en el proyecto de decreto Estándares
de Calidad en Programas Académicos de Educación Superior a Distancia de la
Presidencia de la República, el cual define: “Que la Educación Superior a
Distancia es aquella que se caracteriza por diseñar ambientes de aprendizaje en
los cuales se hace uso de mediaciones pedagógicas que permiten crear una
ruptura espacio temporal en las relaciones inmediatas entre la institución de
Educación Superior y el estudiante, el profesor y el estudiante, y los estudiantes
entre sí”.
Introducción
La importancia que tiene la matemática en el desarrollo de los procesos
intelectuales del hombre es notoria a través de su historia. Fue así como en la
antigüedad el pensamiento matemático contribuyó a resolver problemas en tareas
económicas y constructoras de diferentes pueblos, dio la base para revelar tos
misterios del mundo, es decir, dar explicaciones razonables para alcanzar la verdad
de los fenómenos que lo suceden. Contrariamente a los griegos, los hombres de la
edad media utilizaron el contenido matemático como una simple rutina para
disciplinar la mente. Sin embargo, a partir de los trabajos de Galileo, la
matemática en la edad moderna ayudó a buscar explicaciones concretas de
problemas que se daban en ingeniería, construcción y otras actividades prácticas
del hombre.
Por tal motivo, gracias al medio, las personas están rodeadas constantemente por
un conjunto de experiencias, que manejan y manipulan de una manera
sorprendente. Es decir, en cierta forma se está efectuando una serie de
operaciones: recoge, organiza, analiza e interpreta esas informaciones mediante
unas representaciones significativas para él y así se obtiene una serie de
conclusiones razonables.
La Estadística es utilizada en casi todas las ramas de la ciencia moderna, así como
en muchos otros campos de la actividad humana. Como dijo Salomón Fabricant
“todo el mundo parece hoy coincidir en que la Estadística puede ser útil para
comprender, evaluar y controlar el funcionamiento de la sociedad”. En nuestra
sociedad, el progreso puede medirse mediante diversos índices numéricos, la
estadística se utiliza para describir, manipular e interpretar estos números.
Aún cuando los tipos de problemas a los cuales puede aplicarse la Estadística como
herramienta fundamental para el análisis e interpretación de resultados son
bastante heterogéneos, en muchos casos los pasos de una investigación
estadística son los siguientes:
Primera etapa: formulación del problema. Para investigar con éxito un problema
dado, primero se tienen que crear conceptos precisos, formular preguntas claras e
imponer limitaciones adecuadas al problema, tomando en cuenta el tiempo, dinero
disponible y la habilidad de los investigadores.
Segunda etapa: diseño del experimento. Nuestro deseo es obtener un máximo de
información empleando un mínimo de costo y tiempo. Esto implica, entre otras
cosas, que se debe determinar el tamaño de la muestra o la cantidad y tipo de
datos que resolverán más eficientemente el problema. A la vez este tamaño será
afectado por el método empleado para la selección de la muestra representativa.
No existe una fórmula mágica ni única en estadística que tome en cuenta todas las
situaciones prácticas concebibles. Por lo cual es necesario adquirir conocimientos
generales de los métodos más importantes para hacer inferencias. En cada caso
práctico debe situarse con cuidado la naturaleza del problema específico, para
estar seguros de que será escogido el método más apropiado.
Con el apoyo del computador los cálculos matemáticos se hacen más fáciles, por lo
tanto se recomienda utilizar e integrar un software apropiado para tal fin. En la
actualidad existen varios paquetes estadísticos sencillos de manejar, tales como el
Statgraphics, Sas, Minitab, Spss.
UNIDAD 1: Probabilidad
Proceso de Información
1.1 GENERALIDADES
Cuando los datos a estudiar son una muestra de una población el problema central
es inferir las propiedades de ésta a partir de la muestra. El instrumento
conceptual que permitirá esta generalización es un modelo de la población, es
decir, una representación simbólica de su comportamiento. Los modelos
estadísticos van a actuar de puente entre lo observado (muestra) y lo
desconocido (población). Su construcción y estudio es el objetivo del cálculo de
probabilidades.
Por lo anterior se nota que el problema central de la estadística es, a partir de una
muestra, hacer inferencia de tipo probabilístico sobre la población. Por ejemplo si
en una muestra de 100 personas, 28 tienen estudios universitarios, se puede decir
que más o menos 2800 de 1000000 de habitantes de una ciudad tienen estudios
universitarios.
Lo importante es precisar este “más o menos”. Por ejemplo se puede decir que
con un 95% de seguridad hay entre 2500 y 3100 personas con estudios
universitarios.
Casos Favorables
P (E) =
Casos Posibles
f
P (E) = = p
n
Ejemplo
• Un 3
• Un 3 o un 4
Como E puede ocurrir de dos formas, se tiene que: P (E) = P (3) + P (4) =
1/6 + 1/6 = 2/6 = 1/3 = p. Entonces la probabilidad que salga un 3 o un 4 al
lanzar el dado es de 1/3. O hay una probabilidad del 33.3% que al lanzar el
dado salga un 3 o un 4.
Ejemplos
P (N) = 0/80 = 0
Una variable X es una variable aleatoria si los valores que toma corresponden a los
distintos resultados posibles de un experimento, y por ello el hecho de que tome
un valor particular es un evento aleatorio.
La variable X as una variable aleatoria, ya que el valor que tomará al llevar a cabo
el experimento no puede predecirse con certeza; esto es, el hecho de que X tome
un valor determinado, por ejemplo el 4, es en si, un evento aleatorio.
El valor esperado de una variable aleatoria discreta se define como el producto del
tamaño de la muestra por la probabilidad.
Ve = n * p
Solución
Lo que quiere decir que se espera que 18 alumnos de los 300 obtendrán un
puntaje superior a 90.
Solución
(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10: entonces
la probabilidad será 10 lanzamientos de 36 posibilidades P = 10/36.
10 9000
Ve = 900 = = 250
36 36
La esperanza es que en 250 de los 900 lanzamientos, la suma de sus caras sea
menor de 6.
Solución
• Suponer que en una fábrica se producen 5000 artículos eléctricos. 200 de ellos
son defectuosos. ¿Cuál es la probabilidad de que al seleccionar un artículo de
esa fábrica, el artículo no sea defectuoso?.
• Suponer que en una fábrica de productos lácteos el 15% de los artículos tienen
fecha de vencimiento fuera de lo normal. ¿Cuál es la probabilidad de que al
seleccionar un artículo lácteo de esta fábrica tenga fecha de vencimiento fuera
de lo normal?
− Aparezca el número 3
− Aparezca un número par
− Aparezca un número múltiplo de 7
− Se devuelve a la baraja.
− Si no se devuelve.
• Sea X la suma de puntos obtenida al lanzar dos dados. Determinar los posibles
valores que puede tomar la variable.
Comerciante A Comerciante B
X P (x) X P (x)
0 0.4 0 0.2
1 0.3 1 0.6
2 0.2 2 0.2
3 0.1 3 0.0
UNIDAD 2: Distribución de
Probabilidades
Proceso de Información
Las probabilidades asignadas a cada uno de los valores que puede tomar una
variable aleatoria discreta X, se denominan distribuciones de probabilidad, si la
suma de las probabilidades es igual a 1.
P (1) = 1/6; P (2) = 1/6; P (3) = 1/6; P (4) = 1/6; P (5) = 1/6; P (6) = 1/6
• Bernoulli
• Binomial
• Poisson
• Uniforme
• Normal
• T - student
• Chi - cuadrado
1
F(x)= e-1/2 (x-µ)2/σ 2
σ√2π
El área total limitada por la curva y el eje X es uno (1); de aquí que el área bajo la
curva entre dos puntos de X a < b, representa la probabilidad de que X se
encuentre entre a y b, se denota: P {a < x < b}.
En la tabla de área bajo la curva normal tipificada Z (que aparece al final como
anexo), están las áreas o probabilidades correspondientes a las variables
tipificadas.
X-µ
Una variable X se tipifica así: Z =
σ
Ejemplo
− ¿Superior a 90?
− ¿Inferior a 60?
− ¿Entre 70 y 90?
Solución
− ¿Superior a 90?
90.5 – 75 15.5
Z = = = 1.55
10 10
− ¿Inferior a 60?
− Entre 70 y 90
69.5 - 75 -5.5
Z1 = = = -0.55
10 10
El área que hay de 0 a - 0.55 es igual al área que hay de 0 a 0.55 puesto que la
gráfica es simétrica con respecto al eje Y. En la tabla anexo corresponde a
0.2088.
90.5 - 75 15.5
Z2 = = = 1.55 = 0.4394
10 10
Lo que quiere decir que el 64.8% de los aspirantes obtuvieron una nota entre 70 y
90 en el examen de admisión.
Así, las variables aleatorias Xy S2, son estimadores de los parámetros
poblacionales µ1 σ 2 . Un valor específico de X, tal como X = 280, es una
estimación de µ . Un valor específico de S2 = 18,2 es una estimación de σ2.
Donde:
Es en donde no nos interesa saber un valor fijo sino solamente calcular dos
valores, dentro de los cuales podemos asegurar con una probabilidad dada, que
está el valor verdadero de nuestro parámetro.
En las estimaciones por intervalo no nos interesa calcular un valor fijo para el
parámetro desconocido, sino más bien buscamos dos valores a y b de los cuales
podemos afirmar con un determinado grado de seguridad que el valor verdadero
del parámetro desconocido está contenido. Es decir, buscamos los valores a y b
tal que con un margen de seguridad, tenemos la probabilidad de que el parámetro
se encuentre en ese intervalo.
σ σ
X ± 1.96 yx ± 2.58 respectivamente.
√n √n
σ
En forma general, los límites de confianza son dados por: x ± Zc
√n
Donde Zc depende del nivel de confianza que en cada caso se desee y puede
obtenerse de la siguiente tabla:
Ejemplo
En una muestra de cinco medidas, un científico anotó 6.33, 6.37, 6.36, 6.32 y 6.37
cm. Determinar estimaciones insesgadas con respecto a la varianza.
N ∑ (X - X)2
S2 = S2 =
N-1 N-1
(6.33 – 6.35)2 + (6.37 – 6.35)2 + (6.36 – 6.35)2 + (6.32 – 6.35)2 + (6.37 – 6.35)2
S2 =
5–1
S2 = 0.00055 cm2
Por otro lado, si la población consiste en elementos muy diferentes entre si, una
muestra pequeña puede ser un reflejo muy deficiente de las características de la
población. En un estudio para estimar la estatura promedio de los estudiantes de
sexo masculino de una determinada universidad, una muestra pequeña de n = 3
estudiantes, puede por azar consistir únicamente en miembros del equipo de
Basketboll. Una muestra aleatoria de n = 100 estudiantes proporciona una
cobertura mucho más amplia y por lo tanto, mayor información sobre las estaturas
de los estudiantes de sexo masculino.
Mzc2P(1 - P)
n =
ME2+Zc2P(1 - P)
Donde:
n = Tamaño de la muestra.
M = Tamaño de la población.
Zc = Valor crítico para la distribución normal según margen de error.
P = Valor de la probabilidad de variabilidad de la población. Se toma 0.5 como
máxima variabilidad.
E = Margen de error
Ejemplo
dado que no dispone del tiempo suficiente para pesar a todos los alumnos,
decide seleccionar una muestra aleatoria por estratos (grados académicos)
con un margen de error del 5% y 95% de confiabilidad.
1800(1.96)2 - (0.5)(0.5)
n = = 316
1800(0.05)2 +(1.96)2(0.5)(0.5)
• Se desea realizar una investigación para conocer los problemas que se vienen
presentando en los colegios y escuelas de Cúcuta con relación a la falta de
motivación para la práctica de la lectura.
120500(1.96)2 – (0.5)(0.5)
n = = 383
120500(0.05)2 + (1.96)2 (0.5)(0.5)
Cualquier hipótesis que difiera de una hipótesis dada se llama hipótesis alternativa;
por ejemplo si la hipótesis de trabajo Ho es que el tiempo promedio de recorrido
en una competencia es de 4 horas; las hipótesis alternativas son que el tiempo
promedio de recorrido es diferente de 4 horas.
Ho: µ = 4 horas
H1: µ ≠ 4 horas
• La distribución normal
• La distribución t - student
• La distribución X2 (chi cuadrado.)
• La distribución F - Fisher
Ejemplo
Grupo de Control
28 35 46 76 24 54
75 52 24 37 46 75
38 45
Grupo Experimental
75 26 48 36 47 54
72 51 26 39 49 80
Solución
Ho = µ A = µβ
H1 = µA ≠ µβ
Decisión: con un 95% de seguridad puedo afirmar que hay diferencia significativa
entre los puntajes de los dos grupos.
Caso 1
√n (x - µ)
Z = con n - 1 grados de libertad
σ
Caso 2
√n(x - µ)
t = con n - 1 grados de libertad
S
Caso 3
(n - 1) S2
X2 = con n – 1 grados de libertad
σ
nA y nB ≥ 30
Parte 2: Si nA y nB < 30
SA 2
F =
SB2
Ejemplo
n = 60
X = 30% = 18
σ = 21
Ho = µ = 24
α = 5% (margen de error)
A = Usar droga
B = No usar droga
XA = 31
XB = 26
SA = 5
SB = 8
NA = 36
NB =70
Solución
Ejemplo
NIVEL DE
HOMBRES MUJERES
ESCOLARIDAD
Analfabetos 3 5
Básica incompleta 22 24
Básica completa 33 37
Media incompleta 18 30
Media completa 15 20
Universidad incompleta 12 10
Universidad completa 6 2
comparar las frecuencias observadas para cada atributo dentro de cada clase con
las esperadas por un modelo que suponga homogeneidad en todas las clases o
categorías.
∑(oi - ei)2
X2 =
ei
Ejemplo
APROBARON NO
Asignatura A 72 17
Asignatura B 64 23
TOTAL 136 40
h=2
K=2
v = (2 – 1) (2 - 1) = 1 (grados de libertad).
Las frecuencias esperadas para los alumnos que APROBARON serán: 136/2 = 68;
las frecuencias esperadas para los alumnos que NO APROBARON serán: 40/2=20.
• Las ventas diarias (de lunes a viernes) en un restaurante pequeño, tienen una
distribución normal, con una media de $53000 por día y una desviación
estándar de $1200.
− ¿Cuál es la probabilidad que las ventas excedan de $70000 en un día dado?
− ¿El restaurante necesita ventas diarias de por lo menos $30000 para cubrir los
gastos. ¿Cuál es la probabilidad de que, en un día dado el establecimiento no
cubra los gastos?
− Seleccionar la población
− Cuantificarla
− Seleccionar una muestra representativa
− Suponer un margen de error
− ¿Qué tamaño debe tener la muestra 7?
− Qué método de muestreo va a utilizar?. ¿Por qué?
67 54 46 78 70 95 45 97 56
16 5 21 19 10 5 8 2 7 2 4 9
• Las mediciones de una muestra de masas dieron 8.3, 10.6, 9.7, 8.8, 10,2 y 9.4
kg respectivamente. Determinar estimaciones sin sesgo de la varianza de la
población.
MARCA A: 24 26 25 22 23
MARCA B: 27 28 25 29 26
• Los salarios diarios de una industria están distribuidos normalmente con una
media de $132000 y una desviación estándar de $25000. Si una empresa de
dicha industria, que cuenta con 4 obreros paga en promedio $122000 ¿puede
acusarse a esta compañía de pagar salarios inferiores al nivel de significancia
del 1%?
• En una muestra de 400 amas de casa, el 20% indicó preferencia por la marca
A de una margarina. Con posterioridad a una compañía de radio y televisión,
se seleccionó una nueva muestra de amas de casa, del mismo tamaño y clase
social. En esta muestra el 22% indicó preferencia por la marca A. De acuerdo
con estos resultados y a un nivel del 5% ¿podría rechazarse la hipótesis de que
la compañía fue inefectiva?
MATEMÁTICAS
NOTAS ALTAS NOTAS MEDIAS NOTAS BAJAS
NOTAS ALTAS 56 71 12
NOTAS MEDIAS 47 463 38
NOTAS BAJAS 14 42 85
• Suponer que se desea investigar los efectos combinados que el nivel de stress
y la dificultad del examen, causan en el rendimiento, en una tarea de solución
de problemas. Para tal fin se seleccionaron cinco sujetos en cada grupo y los
resultados sobre rendimiento son los siguientes:
TENSIÓN
MODERADA INTENSA
20 23
20 22
T SENCILLA 19 21
A 19 20
R 17 19
E 22 18
A 21 16
DIFICIL 20 15
19 14
18 12
• Verificar si:
− Existe o no diferencia significativa entre el rendimiento de los sujetos en
condiciones de tensión moderada y los de tensión intensa.
− Hay una diferencia significativa en el rendimiento de los sujetos a quienes se
les asigna un problema sencillo y los que reciben uno difícil.
− Las dos variables (tensión y dificultad del problema) ejercen o no un efecto
combinado sobre el rendimiento.
• Analizar:
− ¿Entre los cuatro grupos cuál es más homogéneo?
− ¿Al considerar la variable tarea, cuál grupo tiene menor variación?
− Existe diferencia significativa entre los datos observados y los datos esperados?
HABILIDAD HABILIDAD EN
ALUMNOS
MATEMÁTICA LENGUAJE
1 25 40
2 22 71
3 59 79
4 35 48
5 93 61
6 17 30
7 98 88
8 21 49
9 77 45
10 25 62
M LENGUAJE
A
T HABILIDAD ALTA BAJA
E
M
Á
T ALTA
I
C
A BAJA
S
Proceso de Información
Hasta el momento se ha tratado con experimentos aleatorios que incluyen solo
una variable. Ahora se tratará con experimentos aleatorios que incluyen dos o
más variables.
Ejemplo
Suponer que los siguientes datos corresponden a la edad y peso de ocho niños:
Edad en años 12 10 8 6 4 10 9 6
Peso en Kilos 34 30 28 24 20 32 33 25
Si los datos se aproximan bien a una línea recta se dice que entre las variables
existe una relación lineal; si se aproximan a una curva se dice que existe una
relación no lineal. La relación o dependencia de estas variables de la muestra se
conoce con el nombre de análisis de regresión.
Ejemplo
Con base en los datos obtenidos en un muestreo con niños sobre estatura y peso,
se puede construir la recta de regresión tal que, conociendo la estatura del niño se
estime su peso.
Y = mx + b
Ejemplo
Con base en los datos de los últimos 10 años, del número de alumnos que
participan en las actividades deportivas de un determinado colegio, se puede
predecir el número de alumnos que participarán el próximo año en dichas
actividades deportivas.
Cuando los puntos del diagrama de dispersión tienden a estar alrededor de una
línea, se dice que existe correlación lineal y la recta de aproximación por el Método
de mínimos cuadrados se obtiene al reemplazar en la siguiente fórmula:
∑xy
Y= x
∑x2
Donde
x=X–x
y=Y–Y
Ejemplo
∑xy
Y = x
∑x2
84
Y= X
132
Y – 5 = 0.63 (X - 7)
Y – 5 = 0.63X - 4.41
Y = 0.63X + 5 - 4.41
Y = 0.63X + 0.59
3.4 CORRELACIÓN
Si todos los puntos del diagrama de dispersión parecen estar cerca de alguna
curva la correlación se denomina no lineal. Si no existe ninguna relación entre las
variables, se dice que no hay correlación entre ellas, es decir, no están
correlacionadas.
Si r toma un valor negativo se dice que existe correlación lineal inversa; a medida
que r se aproxime a -1 es mayor la relación inversa entre las dos variables. Si r =
0 implica ausencia de correlación lineal.
Una forma de encontrar él valor del coeficiente de correlación lineal r entre dos
variables es aplicando la siguiente fórmula:
∑xy
r =
√(∑x2)(∑y2)
Donde x = X - xy
y = Y - Y
Ejemplo
Esto muestra que hay una correlación lineal positiva entre las variables muy alta,
es decir que al aumentar el puntaje en la primera prueba también aumenta el
puntaje en la segunda prueba.
X Temp. en grados 19 23 25 24 26 21
Y Bultos por Ha 66 74 72 76 78 72
− Con base en la información anterior calcular un modelo lineal para estimar los
gastos en función de la duración.
− Obtener el error estándar del estimado.
l 1 2 3 4 5 6 7 8
X1 15 10 11 13 18 9 14 16
Y1 59 45 48 52 54 41 58 61
• La empresa Todo a Mil, maneja una cadena de 100 almacenes; con el objeto
de medir la eficiencia de las tiendas, se hizo un estudio acerca del volumen de
ventas mensuales (Y) en función del número de empleados (X). Se
obtuvieron los siguientes resultados:
Años Alumnos
1993 125.543
1994 203.569
1995 287.569
1996 256.890
1997 356.983
1998 387.127
1999 403.005
2000 398.127
2001 417.345
2002 482.106
NÚMERO DE
AÑOS
REPROBADOS
1996 12
1997 13
1998 7
1999 10
2000 7
2001 4
2002 5
ANEXO: Tablas
BIBLIOGRAFÍA GENERAL
BERNAL V. Miguel. Estadística Descriptiva: J. Elaboración y Presentación de
Datos Universidad de Pamplona, 1987.
GALLARDO, Yolanda. Estadística: Programa de Sicología Universidad de
Pamplona. 1997.
MARTÍNEZ BENCARDINO, Ciro. Estadística Comercial. Bogotá: Norma, 1981.
MORENO GARZÓN, Adonay. Serie aprender a investigar: Recolección de la
información. Cali: ICFES, 1995.
PARZEN, Emmanuel. Teoría Moderna de Probabilidades y sus Aplicaciones México:
LIMUSA, 1991.
PEÑA SÁNCHEZ, Damel. Estadística Modelos y Métodos I. Fundamentos. Madrid:
Alianza editorial, 1986.
PORTUS GOVINDEN. Lincoyán. Curso Práctico de Estadística. Bogotá: McGRAW
- Hill, 1986.
SPIEGEL Murria R. Estadística. Madrid: McGraw Hill, 1993.