Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
(67$',67,&$,,
Formando Colombianos de Bien
Tabla de Contenido
Presentación
Introducción
UNIDAD 1: Probabilidad
Núcleos Temáticos y Problemáticos
Proceso de Información
1.1 GENERALIDADES
1.2 VARIABLES ALEATORIAS
1.3 VALOR ESPERADO
Proceso de Comprensión y Análisis
ANEXO: Tablas
BIBLIOGRAFÍA GENERAL
Probabilidad Estadística 1
Presentación
Visión: La Universidad de Pamplona al finalizar la primera década del siglo XXI, deberá
ser el primer centro de Educación Superior del Oriente Colombiano.
Luis Armando Portilla Granados. Director CEVDUP
Introducción
Por tal motivo, gracias al medio, las personas están rodeadas constantemente por un
conjunto de experiencias, que manejan y manipulan de una manera sorprendente.
Es decir, en cierta forma se está efectuando una serie de operaciones: recoge,
organiza, analiza e interpreta esas informaciones mediante unas representaciones
significativas para él y así se obtiene una serie de conclusiones razonables.
La Estadística es utilizada en casi todas las ramas de la ciencia moderna, así como en
muchos otros campos de la actividad humana. Como dijo Salomón Fabricant “todo el
mundo parece hoy coincidir en que la Estadística puede ser útil para comprender,
evaluar y controlar el funcionamiento de la sociedad”. En nuestra sociedad, el
progreso puede medirse mediante diversos índices numéricos, la estadística se utiliza
para describir, manipular e interpretar estos números.
Aún cuando los tipos de problemas a los cuales puede aplicarse la Estadística como
herramienta fundamental para el análisis e interpretación de resultados son bastante
heterogéneos, en muchos casos los pasos de una investigación estadística son los
siguientes:
No existe una fórmula mágica ni única en estadística que tome en cuenta todas las
situaciones prácticas concebibles. Por lo cual es necesario adquirir conocimientos
generales de los métodos más importantes para hacer inferencias. En cada caso
práctico debe situarse con cuidado la naturaleza del problema específico, para estar
seguros de que será escogido el método más apropiado.
Con el apoyo del computador los cálculos matemáticos se hacen más fáciles, por lo
tanto se recomienda utilizar e integrar un software apropiado para tal fin. En la
actualidad existen varios paquetes estadísticos sencillos de manejar, tales como el
Statgraphics, Sas, Minitab, Spss.
UNIDAD 1: Probabilidad
• Generalidades
• Variables Aleatorias
• Valor Esperado
Proceso de Información
1.1 GENERALIDADES
Cuando los datos a estudiar son una muestra de una población el problema central es
inferir las propiedades de ésta a partir de la muestra. El instrumento conceptual que
permitirá esta generalización es un modelo de la población, es decir, una
representación simbólica de su comportamiento. Los modelos estadísticos van a
actuar de puente entre lo observado (muestra) y lo desconocido (población). Su
construcción y estudio es el objetivo del cálculo de probabilidades.
Por lo anterior se nota que el problema central de la estadística es, a partir de una
muestra, hacer inferencia de tipo probabilístico sobre la población. Por ejemplo si en
una muestra de 100 personas, 28 tienen estudios universitarios, se puede decir que
Lo importante es precisar este “más o menos”. Por ejemplo se puede decir que con
un 95% de seguridad hay entre 2500 y 3100 personas con estudios universitarios.
El primero que intentó definir la probabilidad matemáticamente fue Laplace. “la
proporción del número de casos favorables al número de casos posibles, siempre que
todos los resultados sean igualmente probables”.
Casos Favorables
P (E) =
Casos Posibles
Esta fórmula quiere decir que si se tiene un suceso E tiene f posibilidades de ocurrir
entre un total de n posibilidades, cada una de las cuales tiene la misma oportunidad
de ocurrir que las demás. Entonces la probabilidad de que ocurra ese evento E (o
sea un éxito) se denota por:
f
P (E) = =pn
Ejemplo
• Un 3
• Un 3 o un 4
Como E puede ocurrir de dos formas, se tiene que: P (E) = P (3) + P (4) =
1/6 + 1/6 = 2/6 = 1/3 = p. Entonces la probabilidad que salga un 3 o un 4 al
lanzar el dado es de 1/3. O hay una probabilidad del 33.3% que al lanzar el dado
salga un 3 o un 4.
Ejemplos
P (N) = 0/80 = 0
Una variable X es una variable aleatoria si los valores que toma corresponden a los
distintos resultados posibles de un experimento, y por ello el hecho de que tome un
valor particular es un evento aleatorio.
La variable X as una variable aleatoria, ya que el valor que tomará al llevar a cabo el
experimento no puede predecirse con certeza; esto es, el hecho de que X tome un
valor determinado, por ejemplo el 4, es en si, un evento aleatorio.
Las variables aleatorias se clasifican en dos tipos: discretas o continuas. Una variable
aleatoria discreta, es aquella que toma valores enteros, como por ejemplo el número
de personas, ciudades, teatros, etc. Una variable aleatoria continua es aquella que
puede tomar valores no necesariamente enteros, por ejemplo las distancias, pesos,
estatura, tiempo, etc.
El valor esperado de una variable aleatoria discreta se define como el producto del
tamaño de la muestra por la probabilidad.
Ve = n * p
Solución
Lo que quiere decir que se espera que 18 alumnos de los 300 obtendrán un puntaje
superior a 90.
Solución
Primero se obtiene la probabilidad de éxito del suceso en un solo ensayo, es decir que
al lanzar los dados la suma de sus valores sean menor de 6:
(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10: entonces la probabilidad
será 10 lanzamientos de 36 posibilidades P = 10/36.
10 9000
Ve = 900 = = 250
36 36
La esperanza es que en 250 de los 900 lanzamientos, la suma de sus caras sea menor
de 6.
• Un boleto de una rifa ofrece dos premios, uno de $5.000.000 y otro de $2000.000,
con probabilidades 0.001 y 0.003. ¿Cuál sería el precio justo a pagar por él?
Solución
Suponer que en una fábrica se producen 5000 artículos eléctricos. 200 de ellos
son defectuosos. ¿Cuál es la probabilidad de que al seleccionar un artículo de esa
fábrica, el artículo no sea defectuoso?.
Suponer que en una fábrica de productos lácteos el 15% de los artículos tienen
fecha de vencimiento fuera de lo normal. ¿Cuál es la probabilidad de que al
seleccionar un artículo lácteo de esta fábrica tenga fecha de vencimiento fuera de
lo normal?
Suponer que un vendedor de seguros ofrece este servicio a 5000 personas de las
cuales el 20% de ellas adquiere el seguro. ¿Cuál es la probabilidad de que al
seleccionar una de estas personas halla comprado el seguro?
Aparezca el número 3
−
Aparezca un número par
−
Aparezca un número múltiplo de 7
−
Suponer que en un grupo de 60 estudiantes, 20 de ellos obtuvieron una nota de
matemática sobresaliente, 30 bueno y los demás insuficiente.
− Se devuelve a la baraja.
− Si no se devuelve.
Sea X la suma de puntos obtenida al lanzar dos dados. Determinar los posibles
valores que puede tomar la variable.
3 0.115
4 0.05
¿Cuántas neveras espera vender en la próxima semana?
Comerciante A Comerciante B
X P (x) X P (x)
En un juego de moneda, entre dos personas, con un premio de $1000 por aparición
de cara. ¿Cuál es la esperanza de ganar con el resultado de cara?
UNIDAD 2: Distribución de
Probabilidades
• Distribución Normal
• Inferencia Estadística
• Tamaño de la Muestra
• Teoría de la Decisión Estadística
• Principales Estadísticos de Prueba
• Tabla de Contingencia o Comparación de Colectivos
Proceso de Información
Las probabilidades asignadas a cada uno de los valores que puede tomar una variable
aleatoria discreta X, se denominan distribuciones de probabilidad, si la suma de las
probabilidades es igual a 1.
P (1) = 1/6; P (2) = 1/6; P (3) = 1/6; P (4) = 1/6; P (5) = 1/6; P (6) = 1/6
• Bernoulli
• Binomial
• Poisson
• Uniforme
• Normal
• T - student
• Chi - cuadrado
Muchas distribuciones de mediciones que se hacen tanto en las ciencias sociales como
en las ciencias naturales, tienden a tener un polígono de frecuencias con una forma
que se asemeja al corte transversal de una campana.
1
F(x)= e-1/2 (x-µ)2/σ 2 σ√2π
El área total limitada por la curva y el eje X es uno (1); de aquí que el área bajo la
curva entre dos puntos de X a < b, representa la probabilidad de que X se encuentre
entre a y b, se denota: P {a < x < b}.
En la tabla de área bajo la curva normal tipificada Z (que aparece al final como
anexo), están las áreas o probabilidades correspondientes a las variables tipificadas.
X-µ
Una variable X se tipifica así: Z = σ
Ejemplo
− ¿Superior a 90? −
¿Inferior a 60?
− ¿Entre 70 y 90?
Solución
• Para aplicar la distribución normal a datos discretos es necesario tratar los datos
como si fuesen continuos, así, un puntaje superior a 90 se considera 90.5.
− ¿Superior a 90?
90.5 – 75 15.5
Z= = = 1.55
10 10
− ¿Inferior a 60?
− Entre 70 y 90
69.5 - 75 -5.5
Z1 = = = -0.55
10 10
El área que hay de 0 a - 0.55 es igual al área que hay de 0 a 0.55 puesto que la
gráfica es simétrica con respecto al eje Y. En la tabla anexo corresponde a 0.2088.
90.5 - 75 15.5
Z2 = = = 1.55 = 0.4394
10 10
Lo que quiere decir que el 64.8% de los aspirantes obtuvieron una nota entre 70 y 90
en el examen de admisión.
2.2 INFERENCIA ESTADÍSTICA
Las variables aleatorias utilizadas para estimar los parámetros poblacionales reciben
el nombre de estimadores en tanto que los valores específicos de estas variables se
llaman estimaciones de los parámetros poblacional.
Así, las variables aleatorias Xy S2, son estimadores de los parámetros poblacionales
µ1 σ 2 . Un valor específico de X, tal como X = 280, es una estimación de µ . Un
valor específico de S2 = 18,2 es una estimación de σ2.
Donde:
Es en donde no nos interesa saber un valor fijo sino solamente calcular dos valores,
dentro de los cuales podemos asegurar con una probabilidad dada, que está el valor
verdadero de nuestro parámetro.
En las estimaciones por intervalo no nos interesa calcular un valor fijo para el
parámetro desconocido, sino más bien buscamos dos valores a y b de los cuales
podemos afirmar con un determinado grado de seguridad que el valor verdadero del
parámetro desconocido está contenido. Es decir, buscamos los valores a y b tal que
con un margen de seguridad, tenemos la probabilidad de que el parámetro se
encuentre en ese intervalo.
σ σ
X ± 1.96 y x ± 2.58 respectivamente.
√n √n
σ En
forma general, los límites de confianza son dados por: x ± Zc
√n
Donde Zc depende del nivel de confianza que en cada caso se desee y puede
obtenerse de la siguiente tabla:
Ejemplo
En una muestra de cinco medidas, un científico anotó 6.33, 6.37, 6.36, 6.32 y 6.37
cm. Determinar estimaciones insesgadas con respecto a la varianza.
N ∑ (X - X)2
S2 = S2 =
N-1 N-1
(6.33 – 6.35)2 + (6.37 – 6.35)2 + (6.36 – 6.35)2 + (6.32 – 6.35)2 + (6.37 – 6.35)2 S2 =
5–1
2 2
S = 0.00055 cm
Uno de los principales problemas que se debe resolver antes de efectuar un trabajo
de investigación que requiere recolección de información muestral es la determinación
Por otro lado, si la población consiste en elementos muy diferentes entre si, una
muestra pequeña puede ser un reflejo muy deficiente de las características de la
población. En un estudio para estimar la estatura promedio de los estudiantes de
sexo masculino de una determinada universidad, una muestra pequeña de n = 3
estudiantes, puede por azar consistir únicamente en miembros del equipo de
Basketboll. Una muestra aleatoria de n = 100 estudiantes proporciona una cobertura
mucho más amplia y por lo tanto, mayor información sobre las estaturas de los
estudiantes de sexo masculino.
Mzc2P(1 - P)
n=
ME2+Zc2P(1 - P)
Donde:
n = Tamaño de la muestra.
M = Tamaño de la población.
Zc = Valor crítico para la distribución normal según margen de error.
Ejemplo
• Se desea realizar una investigación para conocer los problemas que se vienen
presentando en los colegios y escuelas de Cúcuta con relación a la falta de
motivación para la práctica de la lectura.
120500(1.96)2 – (0.5)(0.5)
n= = 383
120500(0.05) + (1.96) (0.5)(0.5)
2 2
Cualquier hipótesis que difiera de una hipótesis dada se llama hipótesis alternativa;
por ejemplo si la hipótesis de trabajo Ho es que el tiempo promedio de recorrido en
una competencia es de 4 horas; las hipótesis alternativas son que el tiempo promedio
de recorrido es diferente de 4 horas.
Ho: µ = 4 horas
H1: µ ≠ 4 horas
Desde el punto de vista del estadístico, el problema que se presenta en una prueba
de hipótesis es determinar cuál estadístico utilizar.
• La distribución normal
Ejemplo
Suponer que sé desea realizar un trabajo para experimentar una nueva metodología
de la enseñanza en el español en 5o. de primaria. Para tal fin se seleccionaron dos
colegios uno experimental y otro de control. Los resultados obtenidos en una prueba,
después de realizar las actividades previstas fueron las siguientes:
Grupo de Control
28 35 46 76 24 54
75 52 24 37 46 75
38 45
Grupo Experimental
75 26 48 36 47 54
72 51 26 39 49 80
Solución
Ho = µ A = µβ
H1 = µA ≠ µβ
Decisión: con un 95% de seguridad puedo afirmar que hay diferencia significativa
entre los puntajes de los dos grupos.
Caso 1
√n ( x - µ)
Z= con n - 1 grados de libertad σ
Caso 2
(n - 1) S2
X2 = con n – 1 grados de libertad σ
√SA2/nB + SB2/nB
Parte 2: Si nA y nB < 30
Ejemplo
n = 60
X = 30% = 18 σ
= 21
Ho = µ = 24
α = 5% (margen de error)
A = Usar droga
B = No usar droga
XA = 31
XB = 26
SA = 5 SB
=8
Solución
Ejemplo
NIVEL DE
HOMBRES MUJERES
ESCOLARIDAD
Analfabetos 3 5
Básica incompleta 22 24
Básica completa 33 37
Media incompleta 18 30
Media completa 15 20
Universidad incompleta 12 10
Universidad completa 6 2
∑(oi - ei)2 X2 =
ei
Ejemplo
APROBARON NO
Asignatura A 72 17
Asignatura B 64 23
TOTAL 136 40
h = 2 K = 2 v = (2 – 1) (2 - 1) = 1 (grados
de libertad).
Las frecuencias esperadas para los alumnos que APROBARON serán: 136/2 = 68; las
frecuencias esperadas para los alumnos que NO APROBARON serán: 40/2=20.
2 2 2 2
1.37
68 68 20 20
Conclusión: con un 95% de confianza no hay discrepancia entre los resultados de los
que aprobaron y los que no aprobaron con relación a las asignaturas A y B.
− Entre Z = O y Z = 1.2
− Entre Z = -0.68 y Z = 0
puntos.
• Las ventas diarias (de lunes a viernes) en un restaurante pequeño, tienen una
distribución normal, con una media de $53000 por día y una desviación estándar
de $1200.
− ¿Cuál es la probabilidad que las ventas excedan de $70000 en un día dado? − ¿El
restaurante necesita ventas diarias de por lo menos $30000 para cubrir los gastos.
¿Cuál es la probabilidad de que, en un día dado el establecimiento no cubra los gastos?
− Dure de 10 a 25 minutos.
− Tarde más de 20 minutos en la ventanilla. − ¿Cuál es el tiempo mínimo que tardan
el 10% de los clientes más demorados?
− Seleccionar la población
− Cuantificarla
− Seleccionar una muestra representativa
¿Bajo qué condiciones el muestreo por cuotas proporciona una muestra aleatoria?
67 54 46 78 70 95 45 97 56
Encontrar un intervalo de confianza del 95% para la media real de los puntajes.
16 5 21 19 10 5 8 2 7 2 4 9
• Las mediciones de una muestra de masas dieron 8.3, 10.6, 9.7, 8.8, 10,2 y 9.4 kg
respectivamente. Determinar estimaciones sin sesgo de la varianza de la
población.
MARCA A: 24 26 25 22 23
MARCA B: 27 28 25 29 26
• Los salarios diarios de una industria están distribuidos normalmente con una
media de $132000 y una desviación estándar de $25000. Si una empresa de
dicha industria, que cuenta con 4 obreros paga en promedio $122000 ¿puede
acusarse a esta compañía de pagar salarios inferiores al nivel de significancia del
1%?
• En una muestra de 400 amas de casa, el 20% indicó preferencia por la marca A
de una margarina. Con posterioridad a una compañía de radio y televisión, se
seleccionó una nueva muestra de amas de casa, del mismo tamaño y clase social.
En esta muestra el 22% indicó preferencia por la marca A. De acuerdo con estos
resultados y a un nivel del 5% ¿podría rechazarse la hipótesis de que la compañía
fue inefectiva?
MATEMÁTICAS
• Suponer que se desea investigar los efectos combinados que el nivel de stress y
la dificultad del examen, causan en el rendimiento, en una tarea de solución de
TENSIÓN
MODERADA INTENSA
20 23
20 22
T SENCILLA 19 21
A 19 20
R 17 19
E 22 18
A 21 16
DIFICIL 20 15
19 14
18 12
• Cuál es el promedio de puntaje del grupo:
− De tensión moderada
− De tensión intensa
− De tarea sencilla
− De tarea difícil
− De tensión moderada y tarea difícil
− De tarea sencilla y tensión intensa
− Total
• Verificar si:
− Existe o no diferencia significativa entre el rendimiento de los sujetos en condiciones
de tensión moderada y los de tensión intensa. − Hay una diferencia significativa en el
rendimiento de los sujetos a quienes se les asigna un problema sencillo y los que
reciben uno difícil.
− Las dos variables (tensión y dificultad del problema) ejercen o no un efecto
combinado sobre el rendimiento.
• Analizar:
− ¿Entre los cuatro grupos cuál es más homogéneo?
− ¿Al considerar la variable tarea, cuál grupo tiene menor variación?
− Existe diferencia significativa entre los datos observados y los datos esperados?
HABILIDAD HABILIDAD EN
ALUMNOS
MATEMÁTICA LENGUAJE
1 25 40
2 22 71
3 59 79
4 35 48
5 93 61
6 17 30
7 98 88
8 21 49
9 77 45
10 25 62
M LENGUAJE
A
T
E HABILIDAD ALTA BAJA
M
Á
T
ALTA
I
C
A
S BAJA
• Diagramas de Dispersión
• Análisis de Regresión
• Método de Mínimos Cuadrados
• Correlación
• Coeficiente de Correlación
Proceso de Información
Hasta el momento se ha tratado con experimentos aleatorios que incluyen solo una
variable. Ahora se tratará con experimentos aleatorios que incluyen dos o más
variables.
Ejemplo
Suponer que los siguientes datos corresponden a la edad y peso de ocho niños:
Si los datos se aproximan bien a una línea recta se dice que entre las variables existe
una relación lineal; si se aproximan a una curva se dice que existe una relación no
lineal. La relación o dependencia de estas variables de la muestra se conoce con el
nombre de análisis de regresión.
Ejemplo
Con base en los datos obtenidos en un muestreo con niños sobre estatura y peso, se
puede construir la recta de regresión tal que, conociendo la estatura del niño se estime
su peso.
Con base en una muestra, donde se relaciona la edad y la presión sanguínea se puede
construir una recta de regresión; de tal forma que conociendo la edad de una persona
se estime el valor de su presión sanguínea.
Y = mx + b
Ejemplo
Con base en los datos de los últimos 10 años, del número de alumnos que participan
en las actividades deportivas de un determinado colegio, se puede predecir el número
de alumnos que participarán el próximo año en dichas actividades deportivas.
Cuando los puntos del diagrama de dispersión tienden a estar alrededor de una línea,
se dice que existe correlación lineal y la recta de aproximación por el Método de
mínimos cuadrados se obtiene al reemplazar en la siguiente fórmula:
∑xy
Y= x
∑x2
Donde x = X – x
y=Y–Y
Ejemplo
∑xy
Y= 2 x
∑x
84
Y=
X 132
Y – 5 = 0.63 (X - 7) Y
– 5 = 0.63X - 4.41
Y = 0.63X + 5 - 4.41
Y = 0.63X + 0.59
Por lo tanto si un alumno obtiene 5 puntos en la primera prueba (X) se espera que
en la segunda obtenga:
3.4 CORRELACIÓN
La correlación mide el grado de relación entre las variables. Cuando se trata de dos
variables, se habla de correlación simple y regresión simple.
Si todos los puntos del diagrama de dispersión parecen estar cerca de alguna curva
la correlación se denomina no lineal. Si no existe ninguna relación entre las variables,
se dice que no hay correlación entre ellas, es decir, no están correlacionadas.
Para encontrar su valor se aplica una fórmula específica. Si r toma un valor positivo
se dice que existe correlación lineal directa; a medida que r se aproxime a 1 es mayor
la relación directa entre las dos variables.
Este coeficiente de correlación se puede aplica a datos que estén agrupados en tablas
de contingencia, aplicando la fórmula específica.
Una forma de encontrar él valor del coeficiente de correlación lineal r entre dos
variables es aplicando la siguiente fórmula:
∑xy
r=
√(∑x2)(∑y2)
Donde x = X - xy
y=Y- Y
Ejemplo
El coeficiente de correlación de los puntajes obtenidos en las dos pruebas del ejemplo
anterior es:
84
r= = 0.977
√132*56
Esto muestra que hay una correlación lineal positiva entre las variables muy alta, es
decir que al aumentar el puntaje en la primera prueba también aumenta el puntaje
en la segunda prueba.
− Estimar las ventas en función del numero de comerciales por medio de la ecuación
de la recta y el error estándar del estimado.
X Temp. en grados 19 23 25 24 26 21
Y Bultos por Ha 66 74 72 76 78 72
− Con base en la información anterior calcular un modelo lineal para estimar los gastos
en función de la duración. − Obtener el error estándar del estimado.
l 1 2 3 4 5 6 7 8
X1 15 10 11 13 18 9 14 16
Y1 59 45 48 52 54 41 58 61
• La empresa Todo a Mil, maneja una cadena de 100 almacenes; con el objeto de
medir la eficiencia de las tiendas, se hizo un estudio acerca del volumen de ventas
mensuales (Y) en función del número de empleados (X). Se obtuvieron los
siguientes resultados:
Años Alumnos
1993 125.543
1994 203.569
1995 287.569
1996 256.890
1997 356.983
1998 387.127
1999 403.005
2000 398.127
NÚMERO DE
AÑOS
REPROBADOS
1996 12
1997 13
1998 7
1999 10
2000 7
2001 4
2002 5
ANEXO: Tablas
BIBLIOGRAFÍA GENERAL