Programa de Probabilidad y Estadística UP

Pamplona
Universidad de
Centro de Educación Virtual y a Distancia
Programas de Educación a Distancia
Probabilidad
Estadística
Yolanda Gallardo de Parada
Aurora Inés Gáfaro Rojas
Sandra Patricia Valero Ortega
Formando Colombianos de Bien

Álvaro González Joves
Rector
María Eugenia Velasco Espitia

Decana Facultad de Estudios Avanzados, Virtuales, a Distancia y Semiescolarizados
Luis Armando Portilla Granados

Director Centro de Educación Virtual y a Distancia
Tabla de Contenido
Presentación
Introducción
UNIDAD 1: Probabilidad
Núcleos Temáticos y Problemáticos
Proceso de Información
1.1 GENERALIDADES
1.2 VARIABLES ALEATORIAS
1.3 VALOR ESPERADO
Proceso de Comprensión y Análisis
UNIDAD 2: Distribución de Probabilidades

2.1 DISTRIBUCIÓN NORMAL
2.2 INFERENCIA ESTADÍSTICA
2.2.1 Estimación Puntual
2.2.2 Estimación por Intervalo
2.2.3 Intervalos de Confianza
2.2.4 Estimas Insesgadas
2.3 TAMAÑO DE LA MUESTRA
2.4 TEORÍA DE LA DECISIÓN ESTADÍSTICA
2.4.1 Hipótesis Estadística
2.4.2 Hipótesis Nula
2.4.3 Hipótesis Alternativa
2.4.4 Prueba de Hipótesis
2.5 ESTADÍSTICOS DE PRUEBA
2.6 TABLA DE CONTINGENCIA O COMPARACIÓN DE COLECTIVOS
2.6.1 Análisis de Tablas de Contingencia
2.6.2 Ensayos de Significación
UNIDAD 3: Regresión y Correlación
3.1 DIAGRAMA DE DISPERSIÓN
3.2 ANÁLISIS DE REGRESIÓN
3.3 MÉTODO DE MÍNIMOS CUADRADOS
3.3.1 Recta de Mínimos Cuadrados
3.4 CORRELACIÓN
3.4.1 Correlación Lineal
3.4.2 Correlación Positiva
3.4.3 Correlación Negativa
3.4.4 Correlación no Lineal
3.5 COEFICIENTE DE CORRELACIÓN
ANEXO: Tablas
BIBLIOGRAFÍA GENERAL
Probabilidad Estadística 1
Presentación
La educación superior se ha convertido hoy día en prioridad para el gobierno
Nacional y para las universidades públicas, brindando oportunidades de superación
y desarrollo personal y social, sin que la población tenga que abandonar su región
para merecer de este servicio educativo; prueba de ello es el espíritu de las
actuales políticas educativas que se refleja en el proyecto de decreto Estándares
de Calidad en Programas Académicos de Educación Superior a Distancia de la
Presidencia de la República, el cual define: “Que la Educación Superior a
Distancia es aquella que se caracteriza por diseñar ambientes de aprendizaje en
los cuales se hace uso de mediaciones pedagógicas que permiten crear una
ruptura espacio temporal en las relaciones inmediatas entre la institución de
Educación Superior y el estudiante, el profesor y el estudiante, y los estudiantes
entre sí”.
La Educación Superior a Distancia ofrece esta cobertura y oportunidad educativa

ya que su modelo está pensado para satisfacer las necesidades de toda nuestra
población, en especial de los sectores menos favorecidos y para quienes las
oportunidades se ven disminuidas por su situación económica y social, con
actividades flexibles acordes a las posibilidades de los estudiantes.
La Universidad de Pamplona gestora de la educación y promotora de llevar

servicios con calidad a las diferentes regiones, y el Centro de Educación Virtual y a
Distancia de la Universidad de Pamplona, presentan los siguientes materiales de
apoyo con los contenidos esperados para cada programa y les saluda como parte
integral de nuestra comunidad universitaria e invita a su participación activa para
trabajar en equipo en pro del aseguramiento de la calidad de la educación superior
y el fortalecimiento permanente de nuestra Universidad, para contribuir
colectivamente a la construcción del país que queremos; apuntando siempre hacia
el cumplimiento de nuestra visión y misión como reza en el nuevo Estatuto
Orgánico:
Misión: Formar profesionales integrales que sean agentes generadores de

cambios, promotores de la paz, la dignidad humana y el desarrollo nacional.
Visión: La Universidad de Pamplona al finalizar la primera década del siglo XXI,

deberá ser el primer centro de Educación Superior del Oriente Colombiano.
Luis Armando Portilla Granados. Director CEVDUP
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Introducción
La importancia que tiene la matemática en el desarrollo de los procesos
intelectuales del hombre es notoria a través de su historia. Fue así como en la
antigüedad el pensamiento matemático contribuyó a resolver problemas en tareas
económicas y constructoras de diferentes pueblos, dio la base para revelar tos
misterios del mundo, es decir, dar explicaciones razonables para alcanzar la verdad
de los fenómenos que lo suceden. Contrariamente a los griegos, los hombres de la
edad media utilizaron el contenido matemático como una simple rutina para
disciplinar la mente. Sin embargo, a partir de los trabajos de Galileo, la
matemática en la edad moderna ayudó a buscar explicaciones concretas de
problemas que se daban en ingeniería, construcción y otras actividades prácticas
del hombre.
Por tal motivo, gracias al medio, las personas están rodeadas constantemente por
un conjunto de experiencias, que manejan y manipulan de una manera
sorprendente. Es decir, en cierta forma se está efectuando una serie de
operaciones: recoge, organiza, analiza e interpreta esas informaciones mediante
unas representaciones significativas para él y así se obtiene una serie de
conclusiones razonables.
Esta información que de cierta manera se manipula, se debe matematizar. Es

decir, seguir un procedimiento para poder tabular la información, presentarla y así
hacer el análisis respectivo para dar las conclusiones pertinentes al estudio que se
está realizando.
La Estadística es utilizada en casi todas las ramas de la ciencia moderna, así como
en muchos otros campos de la actividad humana. Como dijo Salomón Fabricant
“todo el mundo parece hoy coincidir en que la Estadística puede ser útil para
comprender, evaluar y controlar el funcionamiento de la sociedad”. En nuestra
sociedad, el progreso puede medirse mediante diversos índices numéricos, la
estadística se utiliza para describir, manipular e interpretar estos números.
Aún cuando los tipos de problemas a los cuales puede aplicarse la Estadística como
herramienta fundamental para el análisis e interpretación de resultados son
bastante heterogéneos, en muchos casos los pasos de una investigación
estadística son los siguientes:

Primera etapa: formulación del problema. Para investigar con éxito un problema
dado, primero se tienen que crear conceptos precisos, formular preguntas claras e
imponer limitaciones adecuadas al problema, tomando en cuenta el tiempo, dinero
disponible y la habilidad de los investigadores.
Segunda etapa: diseño del experimento. Nuestro deseo es obtener un máximo de
información empleando un mínimo de costo y tiempo. Esto implica, entre otras
cosas, que se debe determinar el tamaño de la muestra o la cantidad y tipo de
datos que resolverán más eficientemente el problema. A la vez este tamaño será
afectado por el método empleado para la selección de la muestra representativa.
Con respecto a la representatividad de la muestra, se debe observar que no es

fácil obtener selecciones que sean completamente aleatorias. Existe el peligro de
que una selección pueda ser preferida en alguna forma. Se han propuesto varios
métodos para vencer esta dificultad y se han usado en la práctica. Se considera
este punto dentro del desarrollo del módulo.
Tercera etapa: experimentación o recolección de datos. En general, ésta es la

parte que más tiempo consume en toda investigación que sea realizada, ésta debe
sujetarse a reglas estrictas. De hecho, cuanto menos opiniones impongamos,
serán mejores los resultados.
Cuarta etapa: tabulación y formulación de la respuesta. Al aplicar el método

estadístico antes mencionado, se obtienen conclusiones a partir de la muestra,
acerca de la población correspondiente. Es decir, se va a inferir sobre la muestra y
se trata de sacar conclusiones para la población. Es esta etapa la que le da el
objetivo final a la estadística, puesto que se van a tomar decisiones con base en
los resultados obtenidos en el estudio descriptivo de la muestra.
No existe una fórmula mágica ni única en estadística que tome en cuenta todas las
situaciones prácticas concebibles. Por lo cual es necesario adquirir conocimientos
generales de los métodos más importantes para hacer inferencias. En cada caso
práctico debe situarse con cuidado la naturaleza del problema específico, para
estar seguros de que será escogido el método más apropiado.
Con el apoyo del computador los cálculos matemáticos se hacen más fáciles, por lo
tanto se recomienda utilizar e integrar un software apropiado para tal fin. En la
actualidad existen varios paquetes estadísticos sencillos de manejar, tales como el
Statgraphics, Sas, Minitab, Spss.
De común acuerdo con su Tutor se pueden desarrollar los ejercicios propuestos al

final de cada tema, se puede utilizar calculadora y computador para facilidad de los
cálculos.

UNIDAD 1: Probabilidad

• Generalidades
• Variables Aleatorias
• Valor Esperado
1.1 GENERALIDADES
En la vida cotidiana, se observa que el hombre está constantemente tomando

decisiones donde intervienen acontecimientos, como son los juegos de azar, el
clima, la genética, etc. Estos sucesos probables, son juicios u opiniones que
pueden ser a la vez probablemente verdaderos y probablemente falsos.
Cuando los datos a estudiar son una muestra de una población el problema central
es inferir las propiedades de ésta a partir de la muestra. El instrumento
conceptual que permitirá esta generalización es un modelo de la población, es
decir, una representación simbólica de su comportamiento. Los modelos
estadísticos van a actuar de puente entre lo observado (muestra) y lo
desconocido (población). Su construcción y estudio es el objetivo del cálculo de
probabilidades.
Por lo anterior se nota que el problema central de la estadística es, a partir de una
muestra, hacer inferencia de tipo probabilístico sobre la población. Por ejemplo si
en una muestra de 100 personas, 28 tienen estudios universitarios, se puede decir
que más o menos 2800 de 1000000 de habitantes de una ciudad tienen estudios
universitarios.
Lo importante es precisar este “más o menos”. Por ejemplo se puede decir que
con un 95% de seguridad hay entre 2500 y 3100 personas con estudios
universitarios.

El primero que intentó definir la probabilidad matemáticamente fue Laplace. “la

proporción del número de casos favorables al número de casos posibles, siempre
que todos los resultados sean igualmente probables”.
Casos Favorables
P (E) =
Casos Posibles
Esta fórmula quiere decir que si se tiene un suceso E tiene f posibilidades de

ocurrir entre un total de n posibilidades, cada una de las cuales tiene la misma
oportunidad de ocurrir que las demás. Entonces la probabilidad de que ocurra ese
evento E (o sea un éxito) se denota por:
f
P (E) =  = p
n
Ejemplo
Sea E el suceso de que al tirar un dado una vez salga:
• Un 3
Hay seis formas de caer el dado: S = {1, 2, 3, 4, 5, 6}; y si el dado es bueno,

se puede suponer que las seis tienen la misma oportunidad de salir. Entonces,
la probabilidad que salga un 3 es: P (3) = 1/6. La probabilidad que al lanzar
el dado una vez salga un tres es de 1/6 = 0.17 o del 17%.
• Un 3 o un 4
Como E puede ocurrir de dos formas, se tiene que: P (E) = P (3) + P (4) =
1/6 + 1/6 = 2/6 = 1/3 = p. Entonces la probabilidad que salga un 3 o un 4 al
lanzar el dado es de 1/3. O hay una probabilidad del 33.3% que al lanzar el
dado salga un 3 o un 4.
NOTA. Para cualquier evento E la probabilidad de E es un número real entre O

y 1. es decir: 0<P (E) <1. Además la probabilidad se expresa en términos
de Porcentaje.

Ejemplos
Suponer que en un supermercado existen 80 productos enlatados, de los cuales 30

de ellos son de color verde y el resto rojos. Si extraemos al azar un producto de
estos enlatados:
• ¿Cuál es la probabilidad de que el producto esté enlatado de color verde?
P (V) = 30/80 = 3/8 = 0.375 = 37.5%
• ¿Cuál es la probabilidad de que el artículo esté enlatado de color rojo?
P (R) = 50/80 = 5/8 = 0.625 = 62.5%
• ¿Cuál es la probabilidad de que el artículo esté enlatado de color negro?
P (N) = 0/80 = 0
• ¿Cual es la probabilidad que salga el enlatado de color verde o de color rojo?
P (VOR) = 3/8 + 5/8 = 1= 100%
NOTA. El evento C es llamado evento imposible y su probabilidad es O. El

evento D es un evento seguro, si la probabilidad es 1.
1.2 VARIABLES ALEATORIAS
Una variable X es una variable aleatoria si los valores que toma corresponden a los
distintos resultados posibles de un experimento, y por ello el hecho de que tome
un valor particular es un evento aleatorio.
Por ejemplo, considérese el muestreo de 20 deportistas a los que se les pregunta

su preferencia por el refresco A o B. El número de deportistas que prefiera el
producto A puede considerarse como una variable aleatoria X, puede tomar
cualquiera de los valores O, 1, 2,..... 20. Cada uno de estos valores corresponde a
un resultado posible del experimento consistente en la extracción de una muestra
de 20 deportistas y el consiguiente registro del número de ellos que prefieren el
producto A.

La variable X as una variable aleatoria, ya que el valor que tomará al llevar a cabo
el experimento no puede predecirse con certeza; esto es, el hecho de que X tome
un valor determinado, por ejemplo el 4, es en si, un evento aleatorio.
Las variables aleatorias se clasifican en dos tipos: discretas o continuas. Una

variable aleatoria discreta, es aquella que toma valores enteros, como por ejemplo
el número de personas, ciudades, teatros, etc. Una variable aleatoria continua es
aquella que puede tomar valores no necesariamente enteros, por ejemplo las
distancias, pesos, estatura, tiempo, etc.
1.3 VALOR ESPERADO
El valor esperado de una variable aleatoria discreta se define como el producto del
tamaño de la muestra por la probabilidad.
Ve = n * p
Al valor esperado se le llama “Esperanza Matemática”. Además, si X denota una

variable aleatoria discreta que puede tomar los valores X1, X2,....Xk con
probabilidades p1, p2,.....pk, la esperanza matemática de X denotada E (X), se
define como:
E (X) = P1X1 + P2X2 +......+ PKXK = ∑pX
Ejemplo: Un examen de admisión fue presentado por 300 estudiantes. ¿Cuántos

estudiantes obtendrán un puntaje superior a 90, con una probabilidad del 6%?
Solución
Se sabe que la probabilidad de obtener un puntaje superior a 90 es del 6%

entonces:
Ve = 300 * O.06 = 18 alumnos
Lo que quiere decir que se espera que 18 alumnos de los 300 obtendrán un
puntaje superior a 90.
• Cuál es la esperanza matemática que un hombre gane un premio de $100000

si su probabilidad es de 1/5?
Ve = 100000* 1/5 = 20000
Significa que el hombre ganará $20000 si sale favorecido para el premio.

• En el lanzamiento 900 veces de dos dados. ¿Cuál es la esperanza de que la

suma de sus caras sea un valor menor a 6?
Solución
Primero se obtiene la probabilidad de éxito del suceso en un solo ensayo, es decir

que al lanzar los dados la suma de sus valores sean menor de 6:
(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10: entonces
la probabilidad será 10 lanzamientos de 36 posibilidades P = 10/36.
Como se lanzan 900 veces los dos dados, se obtiene:
10 9000
Ve = 900  =  = 250
36 36
La esperanza es que en 250 de los 900 lanzamientos, la suma de sus caras sea
menor de 6.
• Un boleto de una rifa ofrece dos premios, uno de $5.000.000 y otro de

$2000.000, con probabilidades 0.001 y 0.003. ¿Cuál sería el precio justo a
pagar por él?
Solución
E (X) = (5.000.000) (0.001 ) + (2000.000) (O.003) = 5000 + 6000 = 11000;

el precio justo a pagar es de $11000.

• En una caja hay 10 bolas rojas y 6 blancas. ¿Si se extrae una bola de la caja,
cuál es la probabilidad de que la bola sea blanca?
• En un colegio hay 25 profesores de los cuales 6 de ellos tienen estudios de

Postgrado. Se ofrece una beca para que uno de los profesores que no tiene
estudios de Postgrado pueda realizarlos. Juan Pérez no tiene estudios de
Postgrado. ¿Qué probabilidad tiene Juan de ganarse la beca?

• En un grupo de 48 estudiantes, 12 de ellos expresan preferencia por el ajedrez;

¿cuál es la probabilidad de que al seleccionar un estudiante éste exprese
preferencias por el ajedrez?
• En una población de 50000 habitantes 7500 son mayores de 60 años. ¿Cuál es

la probabilidad que al seleccionar un habitantes este tenga una edad inferior a
los 60 años?
• Suponer que en una fábrica se producen 5000 artículos eléctricos. 200 de ellos
son defectuosos. ¿Cuál es la probabilidad de que al seleccionar un artículo de
esa fábrica, el artículo no sea defectuoso?.
• Suponer que en una fábrica de productos lácteos el 15% de los artículos tienen
fecha de vencimiento fuera de lo normal. ¿Cuál es la probabilidad de que al
seleccionar un artículo lácteo de esta fábrica tenga fecha de vencimiento fuera
de lo normal?
• Suponer que un vendedor de seguros ofrece este servicio a 5000 personas de

las cuales el 20% de ellas adquiere el seguro. ¿Cuál es la probabilidad de que
al seleccionar una de estas personas halla comprado el seguro?
• Cuál es la probabilidad de que al lanzar un dado:
− Aparezca el número 3
− Aparezca un número par
− Aparezca un número múltiplo de 7
• Suponer que en un grupo de 60 estudiantes, 20 de ellos obtuvieron una nota

de matemática sobresaliente, 30 bueno y los demás insuficiente.
− ¿Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota

Sobresaliente?.
− Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota
insuficiente?.
sobresaliente o bueno?.
sobresaliente, buena o insuficiente?

• Determinar o estimar, la probabilidad de los siguientes sucesos:
− Una tirada de un dado resulte impar.

− Al menos una cara en dos tiradas de una moneda.
− Un as, el 10 de diamantes o el 2 de picas aparezca al sacar una sola carta de
una baraja francesa de 52 naipes.
− La suma de dos dados sea 7.
• De una baraja de 52 naipes, mezclados al azar, se sacan dos naipes. Hallar la

probabilidad de que ambos sean ases si el primer naipe extraído:
− Se devuelve a la baraja.
− Si no se devuelve.
• Clasificar las siguientes variables aleatorias como continuas o discretas:
− Un banco no sabe con exactitud cuantos clientes llegarán un día determinado.

− El peso de las cajas de tomate.
− El número de accidentes que ocurren en una semana.
− El tiempo de duración de una conversación telefónica.
− Número de años que deben transcurrir para que una empresa logre que sus
acciones valgan seis millones de pesos.
− El número de autos que entran a un parqueadero.
− El tiempo que gastamos en ir de la casa al trabajo.
− El número de clientes esperando servicio en la caja de un supermercado.
− Las ventas semanales de una almacén.
− El número de robos ocurridos en un almacén en determinado período de
tiempo.
• Si se llama X a la variable aleatoria que indica el número de hijos varones en

una familia de 3 hijos, ¿cuáles son los posibles valores que toma esta variable?
• Sea X la suma de puntos obtenida al lanzar dos dados. Determinar los posibles
valores que puede tomar la variable.
• El supermercado COOTRUP ha reunido los siguientes datos sobre las ventas

semanales de neveras:
Xj P (Xj)
Cantidad de neveras vendidas
0 0.20
1 0.30
2 0.30
3 0.115
4 0.05

¿Cuántas neveras espera vender en la próxima semana?
• En los concursos para la obtención de contratos, es usual que los contratistas

se sometan a concurso sí sus expectativas, teniendo en cuenta el tipo de
proyecto y al resto de participantes, les indican que sus ganancias estarán por
encima de cierta cantidad. Suponer que un contratista considera un proyecto
en el cual ganará 50 millones de pesos si le es otorgado. El costo de
preparación del proyecto, si lo somete a concurso, es de 5 millones de pesos y
el propio contratista piensa que la probabilidad de que gane el concurso es 0.4.
Finalmente, el contratista ha decidido concursar sí su ganancia esperada es de

por lo menos 12 millones de pesos. ¿Debe someterse a concurso para este
proyecto?
• Un fabricante de llantas para automóviles ha conservado registros sobre la

calidad de su producto y tiene la siguiente tabla sobre el número de
defectuosos encontrados en 100 llantas examinadas:
Número de defectos Número de llantas

0 60
1 22
2 8
3 5
4 3
5 2
− Construir la función de probabilidad.

− Calcular e interpretar el valor esperado.
• Un vendedor de automóviles tiene la oportunidad de trabajar con el

comerciante A o con el comerciante B. El vendedor evalúa los prospectos de
venta de cada comerciante de automóviles de la siguiente manera:
Comerciante A Comerciante B
X P (x) X P (x)
0 0.4 0 0.2
1 0.3 1 0.6
2 0.2 2 0.2
3 0.1 3 0.0
¿Esperaría vender más automóviles con el vendedor A que con el B?

• Una firma aseguradora ha determinado por experiencias, en un período largo

de tiempo, que la probabilidad de que ocurra un robo en una casa asegurada
contra este delito, es de 0,02. Si se tiene una póliza de seguros por
$10'000.000 y si X es la ganancia financiera anual para la compañía de seguros
como resultado de la venta de la póliza y sea C la prima anual desconocida.
Calcular el valor de C de manera que la ganancia esperada E (X), sea igual a

cero. Entonces C es la prima necesaria para cubrir los gastos. A esta cifra la
compañía añadirá los costos administrativos y las utilidades.
• En un juego de moneda, entre dos personas, con un premio de $1000 por

aparición de cara. ¿Cuál es la esperanza de ganar con el resultado de cara?
• En un negocio aventurado, una señora puede ganar $3.000.000 con

probabilidad de 0.6, o perder 1.000.000 con probabilidad de 0.4. Hallar su
esperanza matemática.
• Si llueve, un vendedor de paraguas gana $30.000 al día y si no llueve pierde

$6000 al día. ¿Cuál es su esperanza matemática si la probabilidad de lluvia es
0.3?

UNIDAD 2: Distribución de
Probabilidades

• Distribución Normal
• Inferencia Estadística
• Tamaño de la Muestra
• Teoría de la Decisión Estadística
• Principales Estadísticos de Prueba
• Tabla de Contingencia o Comparación de Colectivos
Las probabilidades asignadas a cada uno de los valores que puede tomar una
variable aleatoria discreta X, se denominan distribuciones de probabilidad, si la
suma de las probabilidades es igual a 1.
Por ejemplo, considerar el evento de lanzar un dado. Entonces la variable

aleatoria X = 1, 2,3, 4, 5, 6. Las probabilidades asignadas a cada valor de X son:
P (1) = 1/6; P (2) = 1/6; P (3) = 1/6; P (4) = 1/6; P (5) = 1/6; P (6) = 1/6
Estas probabilidades forman una distribución de probabilidad, puesto que P (1) +

P (2) + P (3) + P (4) + P (5) + P (6) = 1
Si X es una variable aleatoria discreta las principales distribuciones son:
• Bernoulli
• Binomial
• Poisson

Si X es una variable aleatoria continua las principales distribuciones son:
• Uniforme
• Normal
• T - student
• Chi - cuadrado
Cada una de ellas tiene su comportamiento característico y será objeto de estudio

posteriormente.
2.1 DISTRIBUCIÓN NORMAL
Muchas distribuciones de mediciones que se hacen tanto en las ciencias sociales

como en las ciencias naturales, tienden a tener un polígono de frecuencias con una
forma que se asemeja al corte transversal de una campana.
Esta distribución se observa más cuando el número de observaciones es grande y

cuando en muchos casos las investigaciones se realizan con muestras de
poblaciones grandes; en la mayoría de los casos las distribuciones tienden a
aproximarse a la curva en forma de campana ya mencionada.
El modelo de distribución de probabilidad para variables continuas más importante

es esta, cuya función de densidad es:
1
F(x)= e-1/2 (x-µ)2/σ 2
σ√2π
Donde µ es la media aritmética y σ es la desviación estándar cuya gráfica es la

siguiente:

La distribución normal juega un papel primordial en la Estadística. Sin exagerar se

puede decir que es la más importante. Esto se debe a varias razones:
• Muchas variables que aparecen en experimentos prácticos están distribuidas

normalmente.
• Otras variables están distribuidas aproximadamente a la normal.
• Ciertas distribuciones más complicadas se pueden aproximar por lo normal.
• Algunas variables que son básicas para justificar pruebas estadísticas están
distribuidas normalmente.
El área total limitada por la curva y el eje X es uno (1); de aquí que el área bajo la
curva entre dos puntos de X a < b, representa la probabilidad de que X se
encuentre entre a y b, se denota: P {a < x < b}.
En la tabla de área bajo la curva normal tipificada Z (que aparece al final como
anexo), están las áreas o probabilidades correspondientes a las variables
tipificadas.
X-µ
Una variable X se tipifica así: Z =
σ
Ejemplo
• Los resultados de un examen de admisión en un colegio tienen una distribución

normal con media 75 y desviación estándar 10. ¿Qué fracción de resultado
quedan?
− ¿Superior a 90?
− ¿Inferior a 60?
− ¿Entre 70 y 90?
Solución
• Para aplicar la distribución normal a datos discretos es necesario tratar los

datos como si fuesen continuos, así, un puntaje superior a 90 se considera
90.5.
− ¿Superior a 90?
Es necesario tipificar la variable X = 90.5, por tanto:

90.5 – 75 15.5
Z =  =  = 1.55
10 10
La proporción o fracción pedida corresponde al área sombreada y es igual a:
0.5 - 0.4394 = 0.0606 = 6%. 0.5 es el valor correspondiente a la mitad de la

curva; 0.4394 es el valor tomado de la tabla, área bajo la curva.
Lo que significa que el 6% de los aspirantes obtuvieron una nota superior a 90 en

el examen de admisión.
− ¿Inferior a 60?
59.5 - 7.5 - 15.5

Es necesario tipificar 59.5: z =  =  =1.55
10 10

La proporción o fracción pedida corresponde al área sombreada y es igual a 0.5 -

0.4394 = 0.0606 = 6%. 0.5 es el valor correspondiente a la mitad de la curva;
0.4394 es el valor tomado de la tabla, área bajo la curva.
Lo que significa que el 6% de los aspirantes obtuvieron una nota inferior a 60 en el

examen de admisión.
− Entre 70 y 90
Se hace necesario tipificar los dos valores:
69.5 - 75 -5.5
Z1 = = = -0.55
10 10
El área que hay de 0 a - 0.55 es igual al área que hay de 0 a 0.55 puesto que la
gráfica es simétrica con respecto al eje Y. En la tabla anexo corresponde a
0.2088.
90.5 - 75 15.5
Z2 = = = 1.55 = 0.4394
10 10
La proporción o fracción pedida corresponde al área sombreada y es igual a

0.2088 + 0.4394 = 0.6482 = 64.8%.
Lo que quiere decir que el 64.8% de los aspirantes obtuvieron una nota entre 70 y
90 en el examen de admisión.

2.2 INFERENCIA ESTADÍSTICA
En la mayor parte de los estudios estadísticos, los parámetros poblaciones son

desconocidos y es necesario estimarlos mediante una muestra, ya que no es
posible, o no es práctico (en función del tiempo o del costo), inspeccionar la
totalidad de la población. Por tanto, el desarrollo de métodos para estimar el valor
de los parámetros poblacionales con mayor precisión posible. El que produce
artículos deportivos podría estar interesado en averiguar el promedio de unidades
defectuosas por cada lote de 1000 artículos sin tener que inspeccionar todos y
cada uno de ellos. El psicólogo que desea determinar el cociente medio de
inteligencia de los estudiantes de una universidad tendrá que confiar en una
información muestral. En tales casos hay que usar un estadístico, tal como la
media aritmética, como estimador del parámetro poblacional. Si quiere conocerse
el grado de dispersión de los artículos deportivos defectuosos en los diversos lotes,
o la variabilidad de los cocientes de inteligencia, entonces será necesario estimar
también este parámetro a partir de los datos muéstrales.
Las variables aleatorias utilizadas para estimar los parámetros poblacionales

reciben el nombre de estimadores en tanto que los valores específicos de estas
variables se llaman estimaciones de los parámetros poblacional.
Así, las variables aleatorias Xy S2, son estimadores de los parámetros
poblacionales µ1 σ 2 . Un valor específico de X, tal como X = 280, es una
estimación de µ . Un valor específico de S2 = 18,2 es una estimación de σ2.
Donde:
• X significa media aritmética muestral.

• µ significa media aritmética de la población.
• S desviación estándar muestral.
• σ desviación estándar de la población.
La estimación se puede realizar de dos formas: estimación puntual y estimación

por intervalos.
2.2.1 Estimación Puntual
Es en donde queremos determinar un valor numérico que nos sirva como

aproximación.

Ejemplo: la estimación puntual del puntaje promedio de las pruebas de ICFES

obtenido por los estudiantes de cierto colegio de Pamplona en el último año fue de
280, lo que significa que nuestra mejor estimación de la media poblacional es 280.
2.2.2 Estimación por Intervalo
Es en donde no nos interesa saber un valor fijo sino solamente calcular dos
valores, dentro de los cuales podemos asegurar con una probabilidad dada, que
está el valor verdadero de nuestro parámetro.
Ejemplo: con un 95% de seguridad el puntaje promedio de las pruebas ICFES en

Pamplona está entre 260 y 300 puntos.
Para construir los intervalos de estimación se requiere conocer la distribución de la

cual proviene la muestra y el margen de error o seguridad que se desee. Las
estimaciones por intervalos indican la exactitud de una estima, y por tanto, son
proferidas a las estimas puntuales.
2.2.3 Intervalos de Confianza
En las estimaciones por intervalo no nos interesa calcular un valor fijo para el
parámetro desconocido, sino más bien buscamos dos valores a y b de los cuales
podemos afirmar con un determinado grado de seguridad que el valor verdadero
del parámetro desconocido está contenido. Es decir, buscamos los valores a y b
tal que con un margen de seguridad, tenemos la probabilidad de que el parámetro
se encuentre en ese intervalo.
Si la distribución muestral es aproximadamente normal, el estadístico X (media de

la muestra), los límites de confianza del 95% y 99% para la estimación de la
media poblacional m., vienen dados por:
σ σ
X ± 1.96  yx ± 2.58  respectivamente.
√n √n
σ
En forma general, los límites de confianza son dados por: x ± Zc 
√n
Donde Zc depende del nivel de confianza que en cada caso se desee y puede
obtenerse de la siguiente tabla:

Nivel de 99% 95% 90% 80% 50%

confianza
Z< 2.58 1.96 1.645 1.28 0.6745
2.2.4 Estimas Insesgadas
Un estadístico es insesgado si su esperanza es igual al correspondiente parámetro

poblacional. Así, X yS2 son insesgados porque E{x} = µ y E{s2}=σ2.
• La media muestral X es una estima insesgada de la media poblacional µ

• La desviación estándar muestral dividida por n - 1 es una estima insesgada de
la desviación estándar poblacional σ.
Ejemplo
En una muestra de cinco medidas, un científico anotó 6.33, 6.37, 6.36, 6.32 y 6.37
cm. Determinar estimaciones insesgadas con respecto a la varianza.
Solución: la estimación sin sesgo de la varianza o sea, de la población es
N ∑ (X - X)2
S2 =  S2 = 
N-1 N-1
(6.33 – 6.35)2 + (6.37 – 6.35)2 + (6.36 – 6.35)2 + (6.32 – 6.35)2 + (6.37 – 6.35)2
S2 =
5–1
S2 = 0.00055 cm2
2.3 TAMAÑO DE LA MUESTRA
Uno de los principales problemas que se debe resolver antes de efectuar un

trabajo de investigación que requiere recolección de información muestral es la
determinación del tamaño de la muestra. Dado que el muestreo es costoso y
requiere de tiempo, el objetivo al seleccionar una muestra es obtener una cantidad
especifica de información a un costo mínimo.
Esto se puede llevar a cabo estableciendo un margen de error de estimación (que

mide la cantidad de información) y posteriormente aplicando la fórmula apropiada
para la estimación del tamaño de la muestra.

Cuando la población es uniforme, una muestra pequeña produce la misma

cantidad de información que una muestra grande; por lo tanto un médico puede
basar su diagnóstico en el análisis de una sola gota de sangre del paciente;
seleccionar una muestra en estos casos es un desperdicio de tiempo y dinero.
Por otro lado, si la población consiste en elementos muy diferentes entre si, una
muestra pequeña puede ser un reflejo muy deficiente de las características de la
población. En un estudio para estimar la estatura promedio de los estudiantes de
sexo masculino de una determinada universidad, una muestra pequeña de n = 3
estudiantes, puede por azar consistir únicamente en miembros del equipo de
Basketboll. Una muestra aleatoria de n = 100 estudiantes proporciona una
cobertura mucho más amplia y por lo tanto, mayor información sobre las estaturas
de los estudiantes de sexo masculino.
Las decisiones sobre el tamaño de la muestra se toman de acuerdo a la

variabilidad inherente en la población de mediciones y a la exactitud que se
requiere del estimador.
A mayor variabilidad de la población, mayor es el tamaño de la muestra que se

requiere para mantener un determinado grado de exactitud en la estimación.
Según los criterios expuestos, el tamaño de la muestra se puede obtener aplicando

la siguiente fórmula:
Mzc2P(1 - P)
n = 
ME2+Zc2P(1 - P)
Donde:
n = Tamaño de la muestra.
M = Tamaño de la población.
Zc = Valor crítico para la distribución normal según margen de error.
P = Valor de la probabilidad de variabilidad de la población. Se toma 0.5 como
máxima variabilidad.
E = Margen de error
Ejemplo
• Un profesor de Educación Física del Colegio Provincial de Pamplona, desea

conocer el peso promedio de los estudiantes matriculados durante 2001 en ese
plantel. Según informes de la coordinación hay 1800 alumnos matriculados,

dado que no dispone del tiempo suficiente para pesar a todos los alumnos,
decide seleccionar una muestra aleatoria por estratos (grados académicos)
con un margen de error del 5% y 95% de confiabilidad.
El tamaño de la muestra en este caso será:
1800(1.96)2 - (0.5)(0.5)
n =  = 316
1800(0.05)2 +(1.96)2(0.5)(0.5)
M = 1800, tamaño de la población.

Zc = 1 .96, corresponde al valor crítico para un 5% de error (95% de
seguridad).
P = 0.5 se ha considerado la máxima probabilidad de variabilidad para la
población.
E = 0.05 corresponde al margen de error 5%.
• Se desea realizar una investigación para conocer los problemas que se vienen
presentando en los colegios y escuelas de Cúcuta con relación a la falta de
motivación para la práctica de la lectura.
Según las estadísticas de la Secretaría de Educación hay 120.500 alumnos

matriculados en los niveles de primaria y secundaria, con un margen de error
del 5%, la muestra que se seleccione al azar debe tener un tamaño de:
120500(1.96)2 – (0.5)(0.5)
n =  = 383
120500(0.05)2 + (1.96)2 (0.5)(0.5)
2.4 TEORÍA DE LA DECISIÓN ESTADÍSTICA
Muy a menudo, en la práctica, se tienen que tomar decisiones sobre poblaciones,

partiendo de la información muestral de las mismas. Tales decisiones se llaman
decisiones estadísticas.
Por ejemplo se puede querer decir a partir de los datos de un muestreo, si un

fertilizante es mejor que otro, si el nuevo sistema de evaluación es mejor que el
antiguo, si una vacuna es efectiva, si el índice de desempleo de este año superó el
del año pasado, etc.

Para llegar a tomar decisiones, conviene hacer determinados supuestos o

conjeturas acerca de las poblaciones que se estudian. Tales supuestos que
pueden ser o no ciertos se llaman hipótesis estadísticas.
2.4.1 Hipótesis Estadística
Una hipótesis estadística es una suposición que se hace acerca de la distribución

de una variable aleatoria. Por ejemplo, que cierta distribución tiene una media
aritmética de 20,3.
2.4.2 Hipótesis Nula
Es la hipótesis de trabajo o hipótesis a aprobar. Se denota por Ho. Se construye

artificialmente para que el investigador evalúe su hipótesis de investigación.
2.4.3 Hipótesis Alternativa
Cualquier hipótesis que difiera de una hipótesis dada se llama hipótesis alternativa;
por ejemplo si la hipótesis de trabajo Ho es que el tiempo promedio de recorrido
en una competencia es de 4 horas; las hipótesis alternativas son que el tiempo
promedio de recorrido es diferente de 4 horas.
Ho: µ = 4 horas
H1: µ ≠ 4 horas
2.4.4 Prueba de Hipótesis
El razonamiento que se emplea en la prueba de una hipótesis es muy semejante al

que se emplea en un proceso judicial. Al juzgar a un individuo por robo, la corte
supone que el acusado es inocente mientras no se pruebe su culpabilidad. El fiscal
debe obtener y presentar todas las evidencias disponibles en un intento por
contradecir la hipótesis de “no – culpabilidad”.
Lo que se conoce en la inferencia estadística como pruebas de hipótesis consiste

en verificar, por medio de una prueba, la validez de una determinada proposición.
En un problema estadístico el procedimiento a seguir en una prueba de hipótesis

es el siguiente:
• Formular la hipótesis nula Ho.

• Formular la hipótesis alternativa H1, de tal manera que el rechazo de la
hipótesis nula implique la aceptación de la alternativa.

• Se escoge convenientemente un estadístico de prueba. Esto quiere decir,

elegir con base en una muestra (si no lo hay es necesario efectuarlo), un
estimador sobre el cual estamos efectuando la prueba, de tal manera que
conozcamos su distribución.
• Se elige un margen de error. Este margen se denomina comúnmente el nivel
de significación y se denota por α.
• Se determina la región de aceptación y la de rechazo. Estas regiones se
determinan de acuerdo al estadístico de prueba utilizado y al margen de error
elegido.
• Se toma una decisión. Si como resultado de la realización de un experimento
se obtiene un valor contenido en la región de rechazo, se rechaza la hipótesis
nula, en cuyo caso se acepta H1: si se obtiene un valor contenido en la región
de aceptación, se acepta la hipótesis nula.
Desde el punto de vista del estadístico, el problema que se presenta en una

prueba de hipótesis es determinar cuál estadístico utilizar.
Para seleccionar el estadístico de prueba se debe tener en cuenta la hipótesis nula,

los datos conocidos de la población y de la muestra y el tamaño de la muestra.
2.5 ESTADÍSTICOS DE PRUEBA
Los principales estadísticos de prueba son:
• La distribución normal
• La distribución t - student
• La distribución X2 (chi cuadrado.)
• La distribución F - Fisher
Ejemplo
Suponer que sé desea realizar un trabajo para experimentar una nueva

metodología de la enseñanza en el español en 5o. de primaria. Para tal fin se
seleccionaron dos colegios uno experimental y otro de control. Los resultados
obtenidos en una prueba, después de realizar las actividades previstas fueron las
siguientes:

Grupo de Control
28 35 46 76 24 54
75 52 24 37 46 75
38 45
Grupo Experimental
75 26 48 36 47 54
72 51 26 39 49 80
¿Es significativa la diferencia de los puntajes en los dos grupos?
Solución
• En este caso la hipótesis nula o hipótesis de trabajo es la de que los puntajes

promedios son iguales en los dos casos:
Ho = µ A = µβ
• La hipótesis alternativa H1 es que los puntajes promedios son diferentes:
H1 = µA ≠ µβ
• Para seleccionar el estadístico de prueba apropiado se examinan los datos que

se conocen así:
− Tamaño de la muestra de cada grupo.

− Media aritmética de cada muestra.
− Desviación estándar de cada muestra.
Con base en los datos conocidos se selecciona un estadístico de prueba. En

este caso es la distribución t - student que da un valor específico.
• Elegir un margen de error por ejemplo el 5%.
• Con base en los anteriores datos se determina la región de aceptación o de

rechazo.
• Si el valor queda en la región de rechazo no se acepta que el promedio de

puntajes en los dos grupos es igual, por lo tanto es que el promedio de
puntajes es diferente.

Decisión: con un 95% de seguridad puedo afirmar que hay diferencia significativa
entre los puntajes de los dos grupos.
En algunos casos especiales se pueden utilizar los siguientes estadísticos de

prueba:
Caso 1
• La distribución de la población es normal.

• La hipótesis nula es de la forma Ho: µ = K, significa que el valor de la media
poblacional es K.
• Se conoce σ (desviación de la población).
• Se tiene una muestra de tamaño n, se utiliza como estadístico de prueba la
distribución normal.
√n (x - µ)
Z = con n - 1 grados de libertad
σ
Caso 2
• La distribución de la población es normal.

• La hipótesis nula es de la forma Ho: µ = K, significa que el valor de la media
poblacional es K.
• No se conoce σ, se conoce S (desviación de la muestra).
distribución t – student.
√n(x - µ)
t =  con n - 1 grados de libertad
S
Caso 3
• La distribución de la poblacional es normal.

• La hipótesis nula es de la forma Ho: σ2 = S2, significa que no hay cambio de
variabilidad en la población y la muestra.
distribución “chi cuadrado”.
(n - 1) S2
X2 =  con n – 1 grados de libertad
σ

Caso 4, Comparación de medias aritméticas
• Se tienen dos poblaciones A y B las cuales se distribuyen normalmente.

• Se extraen muestras de A y B de tamaño nA y nB respectivamente.
• La hipótesis nula es de la forma Ho: µA = µB
• Se conoce σA y σB
• Se utiliza como estadístico de prueba la distribución normal.
(xA - XB) - (µA - µB)

Z = 
√σA2/nA + σB2/nB
Caso5, Comparación de Medias Aritméticas
Lo mismo que el caso anterior pero no se conoce σA y σB:
Parte 1. Si nA y nB son suficientemente grandes. En Estadística esta afirmación se

utiliza para muestras de tamaño mayor o igual a 30.
nA y nB ≥ 30
Se utiliza como estadístico de prueba la distribución normal:
(XA - XB) – (µA - µB)

Z = 
√SA2/nB + SB2/nB
Parte 2: Si nA y nB < 30
Se utiliza come estadístico de prueba la distribución t – student:
Con nA + nB – 2 grados de libertad
Caso 6: Inferencia Relativa a Dos varianzas
• Se tienen dos muestras con distribución normal.

• Se conocen las desviaciones standar de las dos muestras SA y SB.
• La hipótesis nula es de la forma Ho: σA2 = sB2.
• Se utiliza como estadístico de prueba la distribución F - Fisher

SA 2
F = 
SB2
Ejemplo
• En una investigación tendiente a comprobar la lectura como medio de ocio

utilizado por los estudiantes de Pamplona se tomaron unas muestras y se
obtuvieron los siguientes resultados:
n = 60
X = 30% = 18
σ = 21
Probar la hipótesis de que en promedio, el número de estudiantes de Pamplona

que utilizan la lectura como medio de ocio es del 40%. Tomar un margen de error
del 5%.
Siguiendo los pasos mencionados anteriormente tenemos:
Ho = µ = 24
α = 5% (margen de error)
Según los datos conocidos utilizamos la distribución normal.

Como -2.2 queda ubicado en la región de rechazo no se acepta la hipótesis nula.
Decisión: con un 95% de seguridad no se puede afirmar que el 40% de los

estudiantes utilizan la lectura como medio de ocio.
• Para comprobar la efectividad de un programa contra la drogadicción se realizó

un trabajo para verificar los efectos de drogas alucinantes sobre el grado de
criminalidad y se obtuvieron los siguientes resultados:
A = Usar droga
B = No usar droga
XA = 31
XB = 26
SA = 5
SB = 8
NA = 36
NB =70
Comprobar la hipótesis de que en promedio, el número de delitos es igual en

ambas poblaciones. Utilizar un margen de error del 1%.
Solución
Ho: µA = µB como nA y nB ≥ 30 utilizamos Z.
El valor critico para un 1% de error es + 2.58.

Decisión: como 2.18 queda en la región de aceptación, se acepta la hipótesis

nula. Por lo tanto con un 99% de seguridad podemos afirmar que no influye la
utilización de droga en el grado de criminalidad.
2.6 TABLA DE CONTINGENCIA O COMPARACIÓN DE COLECTIVOS
Los colectivos a comparar pueden ser subgrupos de una misma población

comunidades, un mismo grupo en dos o más puntos del tiempo, etc.
Existen múltiples procedimientos para hacer comparaciones y éstas se pueden

representar en cuadros que resultan de cruce de variables llamados Tabla de
Contingencia.
Ejemplo
• El siguiente cuadro resume la información obtenida por el Rector de un

Colegio, sobre el nivel de escolaridad y el sexo de los padres de familia:
NIVEL DE
HOMBRES MUJERES
ESCOLARIDAD
Analfabetos 3 5
Básica incompleta 22 24
Básica completa 33 37
Media incompleta 18 30
Media completa 15 20
Universidad incompleta 12 10
Universidad completa 6 2
• El siguiente cuadro presenta el porcentaje de niños, jóvenes, adultos y el grado

de motivación que presentaron en la realización de una actividad musical:
Motivación Niños Jóvenes Adultos

Alto 56% 65% 26%
Medio 28% 31% 38%
Bajo 16% 4% 36%
TOTAL 100% 100% 100%
2.6.1 Análisis de Tablas de Contingencia
El análisis de tablas de contingencia es un procedimiento general para investigar la

homogeneidad de poblaciones cualitativas. En síntesis, el método consiste en

comparar las frecuencias observadas para cada atributo dentro de cada clase con
las esperadas por un modelo que suponga homogeneidad en todas las clases o
categorías.
Una media de la discrepancia entre las frecuencias observadas y esperadas es

suministrada por el estadístico X2 (léase chi - cuadrado) dado por:
∑(oi - ei)2
X2 = 
ei
Donde: oi = Frecuencia observada

ei = Frecuencia esperada
Si X2= 0 las frecuencias observadas teóricas concuerdan exactamente; mientras

que si X2 > 0 no coinciden exactamente, a valores mayores de X2, mayores son las
discrepancias entre las frecuencias observadas y esperadas.
2.6.2 Ensayos de Significación
La hipótesis nula Ho corresponde a que no hay discrepancia entre las frecuencias

observadas y esperadas. Se toman como grados de libertad.
V = (h - 1) (k - 1) donde h corresponde al número de filas y k al número de

columnas.
Ejemplo
La siguiente tabla muestra el número de alumnos que aprobaron las asignaturas A

y B. Mediante un nivel de significación del 5%, ensayar la hipótesis de que no hay
diferencia entre los resultados.
APROBARON NO
Asignatura A 72 17
Asignatura B 64 23
TOTAL 136 40
h=2
K=2
v = (2 – 1) (2 - 1) = 1 (grados de libertad).

Las frecuencias esperadas para los alumnos que APROBARON serán: 136/2 = 68;
las frecuencias esperadas para los alumnos que NO APROBARON serán: 40/2=20.
(72 - 68)2 (64 - 68)2 (17 - 20)2 (23 - 20)2

x2 =  +  +  +  = 1.37
68 68 20 20
Con un nivel de significación del 5% y un grado de libertad no se puede rechazar

la hipótesis.
Conclusión: con un 95% de confianza no hay discrepancia entre los resultados de

los que aprobaron y los que no aprobaron con relación a las asignaturas A y B.

• En un examen final de matemáticas la media fue de 72 y la desviación típica
fue de 15.
− Determinar las referencias tipificadas (es decir, graduaciones en unidades de
desviación típica) de los estudiantes que obtuvieron puntuaciones de: 60, 93
y de 72.
− Hallar las puntuaciones correspondientes a las referencias tipificadas -1 y 1.6.
• Hallar el área bajo la curva en cada uno de los siguientes casos:

− Entre Z = O y Z = 1.2
− Entre Z = -0.68 y Z = 0
− Entre Z = -0.46 y Z = 2.21
• En un examen de estadística, la media fue de 78 y la desviación típica 10.

− Determinar las puntuaciones estándar de dos estudiantes que obtuvieron 62
puntos.

− Hallar las puntuaciones de dos estudiantes cuyas puntuaciones estándar fueron

-0.6 y 1.2.
• Una prueba estandarizada de comprensión de lectura se realiza entre 10000

estudiantes de secundaria. Se observa que las calificaciones están
normalmente distribuidas con unas medidas de 500 y una desviación estándar
de 60. Si se considera una calificación menor que 440 como indicadora de una
grave deficiencia en la lectura, aproximadamente ¿cuántos estudiantes están
catalogados como seriamente deficientes en comprensión de lectura?
• Se midió la estatura de 1000 niñas y se encontró que estaban normalmente

distribuidas con una media de 1.62 m y una desviación estándar de 5.08 cm.
− ¿Aproximadamente cuántas niñas miden más de 1.73 m de altura?

− ¿Aproximadamente cuántas niñas tienen entre 1.52 y 1.62 m de estatura?
− ¿Cuántas están entre 1.57 y 1.67 de estatura?
• El peso de 500 estudiantes varones de cierta universidad es de 151 lb y la

desviación típica es 15 lb. Suponiendo que los pesos están normalmente
distribuidos, hallar cuántos estudiantes pesan:
− Entre 120 y 125 lb

− Más de 185 lb
− Menos de 128 lb
− 128 lb
− No más de 128 lb
• Un programa de capacitación ha sido diseñado con el ánimo de mejorar la

habilidad de los operarios de una línea de producción. El programa es
autoaplicable y por esto los operarios requieren diferentes números de horas
para terminarlo. Un estudio de participantes anteriores revela que el tiempo
promedio dedicado al programa es de 500 horas y que el tiempo se distribuye
normalmente con una desviación estándar de 1000 horas.
− Cuál es la probabilidad de que un participante elegido de forma aleatoria tarde
más de 500 horas en terminar el programa
− Cuál es la probabilidad de que un participante gaste entre 500 y 650 horas en
terminar el programa
− Cuál es la probabilidad de que un participante gaste menos de 580 horas en
terminar el programa.

• La vida útil de cierto tipo de calentador eléctrico tiene una distribución

aproximadamente normal, con media de 3.1 y desviación estándar de 1.2
años. Si este tipo de calentador tiene garantía de un año, ¿que porcentajes de
calentadores necesitarán ser reemplazados?
• Las ventas diarias (de lunes a viernes) en un restaurante pequeño, tienen una
distribución normal, con una media de $53000 por día y una desviación
estándar de $1200.
− ¿Cuál es la probabilidad que las ventas excedan de $70000 en un día dado?
− ¿El restaurante necesita ventas diarias de por lo menos $30000 para cubrir los
gastos. ¿Cuál es la probabilidad de que, en un día dado el establecimiento no
cubra los gastos?
• Se ha comprobado que el tiempo necesario para atender a un contribuyente en

una oficina de recaudación de impuestos está normalmente distribuido, con
una media de 15 minutos y una desviación estándar de 5 minutos. Cuál es la
probabilidad de que un cliente seleccionado aleatoriamente:
− Dure de 10 a 25 minutos.
− Tarde más de 20 minutos en la ventanilla.
− ¿Cuál es el tiempo mínimo que tardan el 10% de los clientes más demorados?
• Plantear un tema de trabajo y:
− Seleccionar la población
− Cuantificarla
− Seleccionar una muestra representativa
− Suponer un margen de error
− ¿Qué tamaño debe tener la muestra 7?
− Qué método de muestreo va a utilizar?. ¿Por qué?
• El muestreo por cuotas es una técnica de uso común en encuestas de opinión

pública. Al usar esta técnica, el entrevistador selecciona, de acuerdo con su
criterio un número determinado de individuos (cuota) de cada uno de varios
sectores de la población. Por ejemplo, se le puede pedir que entreviste a 10
mecánicos, 36 amas de casa o 7 abogados.
¿Bajo qué condiciones el muestreo por cuotas proporciona una muestra

aleatoria?

• En una Universidad, los estudiantes se oponen al nuevo régimen tributario. Se

hizo esta declaración con base en una encuesta para la cual se escogieron al
azar y se entrevistaron 86 estudiantes. El 52% de los entrevistados declararon
que se oponían a la reforma tributaria. A partir de esta información, obtener
un intervalo de confianza del 95% para la proporción real de estudiantes que
se oponen a la reforma tributaria.
• Una prueba de Matemática aplicada a 9 estudiantes arrojó los siguientes

puntajes:
67 54 46 78 70 95 45 97 56
Encontrar un intervalo de confianza del 95% para la media real de los

puntajes.
• Se desea estimar el puntaje promedio de los alumnos de un grupo escolar. Se

pretende que el error de estimación sea menor de 5 puntos con una
probabilidad del 95%. Se sabe que el rango de los puntajes es de 84. ¿Cuál
debe ser el tamaño de la muestra?
• La entidad encargada de la protección infantil reunió información con respecto

al número de niños abandonados que se pueden encontrar probablemente en
una determinada ciudad los doce meses del año. Los resultados fueron los
siguientes:
16 5 21 19 10 5 8 2 7 2 4 9
Estimar el verdadero promedio de niños abandonados con un nivel de

confianza del 90%.
• Según los datos suministrados por el Ministerio de Justicia y la Dirección

General de Prevención y conciliación, en 1996 se registraron por ciudades los
siguientes números de lesiones personales:
Medellín 1866 Barranquilla 1961

Bogotá 4685 Bucaramanga 1152
Cali 1765 Santa marta 394
Cúcuta 392 Popayán 540
Pereira 1739 Pasto 683
Manizales 1018 Arauca 415
Valledupar 480 San Andrés 91
Leticia 177 Quibdo 673

Estimar el promedio de lesiones personales con un nivel de confianza del 95%.
• Suponer que las alturas de 100 estudiantes varones de la Universidad XYZ

representan una muestra aleatoria de las estaturas de los 1546 estudiantes de
esa Universidad. Determinar estimaciones sin sesgo con respecto de la
varianza.
• Las mediciones de una muestra de masas dieron 8.3, 10.6, 9.7, 8.8, 10,2 y 9.4
kg respectivamente. Determinar estimaciones sin sesgo de la varianza de la
población.
• El tiempo promedio empleado para la repartición de 240 camiones de una

empresa es de por lo menos 80 minutos, en base a una muestra sin
reemplazamiento de 40 camiones encontramos: ∑X = 2800 y una desviación
de 11. X: tiempo empleado en la repartición. ¿Con un nivel de significancia
del 5% se podrá rechazar la hipótesis planteada inicialmente?
• El jefe de personal de una gran corporación esta contratando un gran número

de empleados para un trabajo en el extranjero. Durante la realización de
pruebas la gerencia pregunta como marchan las cosas y el jefe de personal
contesta “bien, creo que la puntuación promedio en el test de aptitudes será
90”. Cuando la gerencia revisa 20 de los resultados de la prueba, averigua que
la puntuación media es 84 y la desviación estándar de esta puntuación es 11;
si la gerencia quiere probar la hipótesis del jefe de personal en el nivel de
significancia de 10%, ¿cuál será el procedimiento al que recurra?
• Una muestra de 25 observaciones tiene una media de 42 y una desviación

estándar de 8. Trabajando con un nivel de significancia del 1%. ¿Existe razón
para rechazar la hipótesis de que la media de la población es de 46?
• Un fabricante de cigarrillos, analiza el tabaco de dos marcas diferentes, para

determinar el contenido de nicotina y obtiene los siguientes resultados en
miligramos:
MARCA A: 24 26 25 22 23
MARCA B: 27 28 25 29 26
¿Los resultados anteriores, señalan que existe una diferencia en el contenido

medio de nicotina en ambas marcas?
• Los salarios diarios de una industria están distribuidos normalmente con una
media de $132000 y una desviación estándar de $25000. Si una empresa de

dicha industria, que cuenta con 4 obreros paga en promedio $122000 ¿puede
acusarse a esta compañía de pagar salarios inferiores al nivel de significancia
del 1%?
• Un fabricante de ciertas piezas de proyectiles, sostiene que en condiciones

normales de reparación, tienen una duración media µ = 320 horas. Probar
esta afirmación frente a la alternativa µ ≠ 320, si 16 piezas duran un promedio
de 308 horas, con una desviación de 29 horas. Utilizar un nivel de significancia
del 5%.
• Una compañía esta evaluando el promover a sus empleados, es decir está

determinando la proporción de aquellos cuya habilidad, preparación y
experiencia en la supervisión los califica para un ascenso a niveles superiores.
El director de talento humano le dice al presidente que el 80% de los

empleados son promovibles. El presidente crea un comité especial para
evaluar esta situación. El comité realiza entrevistas en profundidad con 150
empleados y en su juicio se da cuenta que sólo el 70% de la muestra llena los
requisitos de promoción. El presidente quiere probar, en un nivel de
significancia de 0.05 la afirmación del director de talento humano.
• Al jefe de personal se le pide determinar si los sueldos por hora de

trabajadores semiclasificados son iguales en dos ciudades. Se extraen
muestras aleatorias simples de los sueldos por hora que se pagan en ambas
localidades. Los resultados de la encuesta son:
Ciudad 1 X1 = 6.95 S1 = 0.40 n1 = 200

Ciudad 2 X2 = 7.10 S2 = 0.60 n2 = 175
La compañía quiere probar la hipótesis con un nivel del 5% de que no existe

diferencia entre los sueldos por hora que ganan los trabajadores en las dos
ciudades.
• Una compañía ha estado investigando dos programas educativos tendientes a

acrecentar el mejor trato de sus gerentes ante las necesidades de sus
empleados. El programa original estaba compuesto de varias sesiones de
pregunta y respuesta informal con algunos trabajadores. En los últimos años,
se introdujo un programa formal con psicólogos profesionales. El nuevo
programa es mucho más caro y el presidente de la compañía quiere saber con
un nivel de significación del 5% si ese gasto ha mejorado el trato de los
gerentes.

Los datos arrojados con dos muestras son:
Programa Formal n1 = 12 x1 = 92 S1 = 15

Programa Informal n2 = 15 x2 = 84 S2 = 19
• En una muestra de 400 amas de casa, el 20% indicó preferencia por la marca
A de una margarina. Con posterioridad a una compañía de radio y televisión,
se seleccionó una nueva muestra de amas de casa, del mismo tamaño y clase
social. En esta muestra el 22% indicó preferencia por la marca A. De acuerdo
con estos resultados y a un nivel del 5% ¿podría rechazarse la hipótesis de que
la compañía fue inefectiva?
• La siguiente tabla presenta la relación entre las notas de los estudiantes de 5o

grado del Colegio de la Presentación de Bucaramanga en Matemática y
Lenguaje.
Ensayar la hipótesis de que las notas de lenguaje son independientes de las

obtenidas en Matemática, mediante el nivel de significación del 5% y del 1 %.
MATEMÁTICAS
NOTAS ALTAS NOTAS MEDIAS NOTAS BAJAS
NOTAS ALTAS 56 71 12
NOTAS MEDIAS 47 463 38
NOTAS BAJAS 14 42 85
• Suponer que se desea investigar los efectos combinados que el nivel de stress
y la dificultad del examen, causan en el rendimiento, en una tarea de solución
de problemas. Para tal fin se seleccionaron cinco sujetos en cada grupo y los
resultados sobre rendimiento son los siguientes:
TENSIÓN
MODERADA INTENSA
20 23
20 22
T SENCILLA 19 21
A 19 20
R 17 19
E 22 18
A 21 16
DIFICIL 20 15
19 14
18 12

• Cuál es el promedio de puntaje del grupo:

− De tensión moderada
− De tensión intensa
− De tarea sencilla
− De tarea difícil
− De tensión moderada y tarea difícil
− De tarea sencilla y tensión intensa
− Total
• Verificar si:
− Existe o no diferencia significativa entre el rendimiento de los sujetos en
condiciones de tensión moderada y los de tensión intensa.
− Hay una diferencia significativa en el rendimiento de los sujetos a quienes se
les asigna un problema sencillo y los que reciben uno difícil.
− Las dos variables (tensión y dificultad del problema) ejercen o no un efecto
combinado sobre el rendimiento.
• Analizar:
− ¿Entre los cuatro grupos cuál es más homogéneo?
− ¿Al considerar la variable tarea, cuál grupo tiene menor variación?
− Existe diferencia significativa entre los datos observados y los datos esperados?
• Los siguientes datos corresponden al puntaje obtenido por 10 estudiantes, de

un Colegio de Bucaramanga, en pruebas estandarizadas para medir habilidad
matemática y habilidad en el lenguaje:
HABILIDAD HABILIDAD EN
ALUMNOS
MATEMÁTICA LENGUAJE
1 25 40
2 22 71
3 59 79
4 35 48
5 93 61
6 17 30
7 98 88
8 21 49
9 77 45
10 25 62

Distribuirlos en la siguiente tabla de contingencia:
• Alta habilidad (Puntaje mayor de 50)

• Baja Habilidad (Puntaje menor o igual a 50)
M LENGUAJE
A
T HABILIDAD ALTA BAJA
E
M
Á
T ALTA
I
C
A BAJA
S
Probar la hipótesis de que no existe discrepancia entre habilidades de Matemática

y de Lenguaje.

UNIDAD 3: Regresión y Correlación

• Diagramas de Dispersión
• Análisis de Regresión
• Método de Mínimos Cuadrados
• Correlación
• Coeficiente de Correlación
Hasta el momento se ha tratado con experimentos aleatorios que incluyen solo
una variable. Ahora se tratará con experimentos aleatorios que incluyen dos o
más variables.
Un problema de estimación que es particularmente importante en casi todo campo

de estudio es el de pronosticar o predecir el valor de una variable de algún
proceso, a partir de los valores conocidos de otras variables que estén
relacionadas.
3.1 DIAGRAMA DE DISPERSIÓN
Es la representación gráfica sobre un plano cartesiano de los puntos

correspondientes al valor de dos variables.
Ejemplo
Suponer que los siguientes datos corresponden a la edad y peso de ocho niños:
Edad en años 12 10 8 6 4 10 9 6
Peso en Kilos 34 30 28 24 20 32 33 25

Con el diagrama de dispersión es posible frecuentemente representar una línea

recta o curva que aproxime a los datos. Tal curva se llama curva de aproximación.
Si los datos se aproximan bien a una línea recta se dice que entre las variables
existe una relación lineal; si se aproximan a una curva se dice que existe una
relación no lineal. La relación o dependencia de estas variables de la muestra se
conoce con el nombre de análisis de regresión.
3.2 ANÁLISIS DE REGRESIÓN
Basándonos en los datos muéstrales, se puede estimar el valor de una variable

correspondiente a un valor dado de una variable X. Esto se puede conseguir
estimando el valor de la variable y de la recta o curva que se ajusta a los datos
muéstrales.
Existen varios métodos de ajuste, uno de los más utilizados es el de mínimos

cuadrados. La recta o curva resultante se denomina recta de Regresión o Curva
de Regresión.

Ejemplo
Con base en los datos obtenidos en un muestreo con niños sobre estatura y peso,
se puede construir la recta de regresión tal que, conociendo la estatura del niño se
estime su peso.
Con base en una muestra, donde se relaciona la edad y la presión sanguínea se

puede construir una recta de regresión; de tal forma que conociendo la edad de
una persona se estime el valor de su presión sanguínea.
La recta de regresión tiene la ecuación de la siguiente forma:
Y = mx + b
Donde m es la pendiente o inclinación de la línea recta. Si m > O la recta en su

gráfica está inclinada hacia la derecha. Si m < O la recta en su gráfica está
inclinada hacia la izquierda.
Para encontrar la ecuación de la recta de regresión se aplica un procedimiento

especial y muy sencillo de realizar.
Si la variable independiente x es el tiempo, los datos muestran los valores de la

otra variable en diferentes tiempos. Los ordenados en relación con el tiempo se
denominan “series de tiempo”.
La recta o curva de regresión se denomina recta o curva de tendencia y se utiliza

constantemente para fines de estimación, predicción o pronóstico.
Ejemplo
Con base en los datos de los últimos 10 años, del número de alumnos que
participan en las actividades deportivas de un determinado colegio, se puede
predecir el número de alumnos que participarán el próximo año en dichas
actividades deportivas.
3.3 MÉTODO DE MÍNIMOS CUADRADOS
Una forma de aproximar los datos de un diagrama de dispersión a una recta o

curva es por medio del método de mínimos cuadrados.

3.3.1 Recta de Mínimos Cuadrados
Cuando los puntos del diagrama de dispersión tienden a estar alrededor de una
línea, se dice que existe correlación lineal y la recta de aproximación por el Método
de mínimos cuadrados se obtiene al reemplazar en la siguiente fórmula:
∑xy
Y=  x
∑x2
Donde
x=X–x
y=Y–Y
Esta recta se conoce como recta de regresión.
Ejemplo
Suponer que los siguientes datos corresponden al número de preguntas

contestadas correctamente por 8 alumnos en dos pruebas de aptitud verbal;
encontrar la recta de regresión Y sobre X, si un alumno obtiene 5 puntos en la
primera prueba, ¿cuánto se espera obtener en la segunda prueba?
Puntuación Primera Puntuación Segunda

Prueba (x) Prueba (y)
X Y x=X-x y=Y-Y xy x2 y2
1 1 -6 -4 24 36 16
3 2 -4 -3 12 16 9
4 4 -3 -1 3 9 1
6 4 -1 1 1 1 1
8 5 1 0 0 1 0
9 7 2 2 4 4 4
11 8 4 3 12 16 9
14 9 7 4 28 49 16
X=7 Y=5 ∑ = 84 ∑ = 132 ∑ = 56
∑xy
Y =  x
∑x2

84

Y= X
132
Y – 5 = 0.63 (X - 7)
Y – 5 = 0.63X - 4.41
Y = 0.63X + 5 - 4.41
Y = 0.63X + 0.59
Por lo tanto si un alumno obtiene 5 puntos en la primera prueba (X) se espera

que en la segunda obtenga:
Y = 0.63 (5) + 0.59

Y = 3.15 + 059 +3.74
Y=4
3.4 CORRELACIÓN
La correlación mide el grado de relación entre las variables. Cuando se trata de

dos variables, se habla de correlación simple y regresión simple.
Cuando existen más de dos variables se habla de correlación múltiple y regresión

múltiple.
3.4.1 Correlación Lineal
Si todos los puntos de un diagrama de dispersión parecen encontrarse cerca de

una recta la correlación se llama lineal. En tal caso, los pronósticos o estimativos
se dan con base a una recta de regresión. La correlación lineal puede ser positiva
o negativa.
3.4.2 Correlación Positiva
Una variable tiende a incrementarse cuando se incrementa la otra. Por ejemplo la

edad y la presión sanguínea. A esta correlación se le llama también correlación
directa.

3.4.3 Correlación Negativa
Una variable tiende a incrementarse cuando se disminuye la otra. Por ejemplo la

temperatura y la altura sobre el nivel del mar. Esta correlación se llama también
correlación inversa.
3.4.4 Correlación no Lineal
Si todos los puntos del diagrama de dispersión parecen estar cerca de alguna
curva la correlación se denomina no lineal. Si no existe ninguna relación entre las
variables, se dice que no hay correlación entre ellas, es decir, no están
correlacionadas.
3.5 COEFICIENTE DE CORRELACIÓN
Con frecuencia se requiere de un indicador o medida de la fuerza con la que dos

variables se encuentran linealmente relacionadas, de modo que el indicador no
dependa de las escalas en las que cada una de las variables se hallan medido. Un
tal indicador o medida se conoce como una medida de correlación lineal. La más
usada en estadística es el llamado coeficiente de correlación de Pearson. Ésta
cantidad se denota por r.
Para encontrar su valor se aplica una fórmula específica. Si r toma un valor

positivo se dice que existe correlación lineal directa; a medida que r se aproxime a
1 es mayor la relación directa entre las dos variables.
Si r toma un valor negativo se dice que existe correlación lineal inversa; a medida
que r se aproxime a -1 es mayor la relación inversa entre las dos variables. Si r =
0 implica ausencia de correlación lineal.
Este coeficiente de correlación se puede aplica a datos que estén agrupados en

tablas de contingencia, aplicando la fórmula específica.
Una forma de encontrar él valor del coeficiente de correlación lineal r entre dos
variables es aplicando la siguiente fórmula:
∑xy
r = 
√(∑x2)(∑y2)

Donde x = X - xy
y = Y - Y
Ejemplo
El coeficiente de correlación de los puntajes obtenidos en las dos pruebas del

ejemplo anterior es:
84
r =  = 0.977
√132*56
Esto muestra que hay una correlación lineal positiva entre las variables muy alta,
es decir que al aumentar el puntaje en la primera prueba también aumenta el
puntaje en la segunda prueba.

• La compañía Hermanos Luna, cree que sus ingresos anuales (variable y)
dependen de sus gastos (variable x) en publicidad. Para comprobarlo, analiza
la información registrada en los últimos seis años. Gastos en publicidad e
ingresos en millones de pesos.
Gastos e Ingresos de la Compañía Hermanos Luna
Año Gastos (x) Ingresos (y)

1997 2 20
1998 3 25
1999 5 34
2000 4 30
2001 11 40
2002 5 31
− Graficar en un diagrama de dispersión la información conocida.

− Estimar la ecuación de la recta para ver la dependencia o independencia de la
información.
− Predecir los ingresos, si los gastos de publicidad van a ser de 7 millones
− Obtener el error estándar del estimado para verificar la confianza en su modelo
de regresión.

• El jefe de personal de una planta de ensamblaje de utensilios, establece una

relación entre la edad del trabajador (x) y su ausentismo (y). Para esto
recogió la información de una muestra de 10 empleados tomados al azar entre
todas las hojas de vida de los empleados.
Edad (x) 42 27 36 25 22 39 57 119 33 30

Días de Ausencia (y) 2 7 5 9 10 4 4 8 6 5
Empleando un modelo de regresión lineal, se desea predecir el

comportamiento de los empleados en cuanto a la edad y al ausentismo.
• El departamento de publicidad de la compañía T&T, desea saber si existe una

relación entre las ventas y el número de comerciales de televisión transmitidos
por día para una muestra de siete ciudades.
Ventas en Cientos de Unidades Comerciales Trasmitidos por Día

y x
8.4 11
5.2 6
7.1 8
10 9
12.9 12
11.5 15
14.4 14
− Estimar las ventas en función del numero de comerciales por medio de la

ecuación de la recta y el error estándar del estimado.
− Calcular el estimado en ventas para 11 comerciales.
• Un equipo de investigadores de la UMATA han estudiado la relación entre la

cosecha de maíz y la temperatura promedio durante la etapa de crecimiento;
las medidas durante varios años produjeron los siguientes resultados:
X Temp. en grados 19 23 25 24 26 21
Y Bultos por Ha 66 74 72 76 78 72
Estimar los bultos por hectárea en función de la temperatura, predecir el

número de bultos de maíz por hectárea para una temperatura de 20 grados y
el error estándar del estimado.

• Un analista de una compañía vendedora de libros estudió la relación entre

gastos de viajes en miles de pesos para 102 vendedores y la duración de estos
viajes en días, para obtener los siguientes resultados:
Total de duración 510 días

Total de gastos 7.140 Miles de pesos
Producto de gastos por días 54.900
Suma de cuadrados de gastos 740.200
Suma de cuadrados de duración 4.150
− Con base en la información anterior calcular un modelo lineal para estimar los
gastos en función de la duración.
− Obtener el error estándar del estimado.
• Con base en las normas de servicio, se obtuvo la información referente al área

en metros cuadrados (Y) y al número de turistas alojados (X) en ocho
establecimientos. Los datos se presentan en miles:
l 1 2 3 4 5 6 7 8
X1 15 10 11 13 18 9 14 16
Y1 59 45 48 52 54 41 58 61
− Estimar el área contenida en función del número de turistas alojados.

− Estimar el espacio para un total de 18 turistas.
− Establecer el error de estimación.
• La empresa Todo a Mil, maneja una cadena de 100 almacenes; con el objeto
de medir la eficiencia de las tiendas, se hizo un estudio acerca del volumen de
ventas mensuales (Y) en función del número de empleados (X). Se
obtuvieron los siguientes resultados:
∑X = 600 ∑Y = 1.600 ∑X2 = 5.200 ∑Y2 = 37.700

∑XY = 13.600
− Establecer un modelo lineal.

− Estimar las ventas para un almacén con tres empleados.
− Calcular el error estándar del estimado.
• Las estadísticas de la Secretaría de Educación del Departamento Norte de

Santander, registraron durante el año 2002 los siguientes datos relacionados
con el número de alumnos matriculados en Primaria, en Colegios oficiales.

Años Alumnos
1993 125.543
1994 203.569
1995 287.569
1996 256.890
1997 356.983
1998 387.127
1999 403.005
2000 398.127
2001 417.345
2002 482.106
− Construir el diagrama de dispersión de los anteriores datos.

− Encontrar el valor de la recta de regresión de mínimos cuadrados.
− ¿Cuál es el valor del coeficiente de correlación y que significado tiene?
− Con base a los anteriores datos estimar el número de alumnos que se
matricularán en el 2007.
• Suponer que los siguientes datos corresponden al número de alumnos que

reprobaron el Grado Sexto en el Colegio CEMUP de la ciudad de Pamplona
durante los últimos seis años.
NÚMERO DE
AÑOS
REPROBADOS
1996 12
1997 13
1998 7
1999 10
2000 7
2001 4
2002 5
− Construir el diagrama de dispersión.

− Encontrar el valor de la recta de regresión de mínimos cuadrados.
− Calcular el valor del coeficiente de correlación e interpretar el resultado.
− Estimar el número de alumnos que reprobarán en el año 2004.
• La siguiente tabla presenta las notas en Álgebra y Física de 10 estudiantes

elegidos al azar entre un grupo muy numeroso:

Álgebra (X) Física (Y)

75 82
80 78
93 86
65 72
87 91
71 80
− Representar los datos.

− Hallar una recta de mínimos cuadrados que ajuste los datos usando X como
variable independiente.
− Hallar una recta de mínimos cuadrados que ajuste los datos usando Y como
variable independiente.
− ¿Si un estudiante tiene 75 en álgebra, cuál es su nota esperada en física?
− ¿Si un estudiante tiene 95 en física, cuál es su nota esperada en álgebra?

ANEXO: Tablas


BIBLIOGRAFÍA GENERAL
BERNAL V. Miguel. Estadística Descriptiva: J. Elaboración y Presentación de
Datos Universidad de Pamplona, 1987.
GALLARDO, Yolanda. Estadística: Programa de Sicología Universidad de
Pamplona. 1997.
MARTÍNEZ BENCARDINO, Ciro. Estadística Comercial. Bogotá: Norma, 1981.
MORENO GARZÓN, Adonay. Serie aprender a investigar: Recolección de la
información. Cali: ICFES, 1995.
PARZEN, Emmanuel. Teoría Moderna de Probabilidades y sus Aplicaciones México:
LIMUSA, 1991.
PEÑA SÁNCHEZ, Damel. Estadística Modelos y Métodos I. Fundamentos. Madrid:
Alianza editorial, 1986.
PORTUS GOVINDEN. Lincoyán. Curso Práctico de Estadística. Bogotá: McGRAW
- Hill, 1986.
SPIEGEL Murria R. Estadística. Madrid: McGraw Hill, 1993.

Programa de Probabilidad y Estadística UP

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Programa de Probabilidad y Estadística UP

Cargado por

Copyright:

Formatos disponibles

Pamplona

Centro de Educación Virtual y a Distancia

Programas de Educación a Distancia

Formando Colombianos de Bien

María Eugenia Velasco Espitia

Luis Armando Portilla Granados

UNIDAD 2: Distribución de Probabilidades

La Educación Superior a Distancia ofrece esta cobertura y oportunidad educativa

La Universidad de Pamplona gestora de la educación y promotora de llevar

Misión: Formar profesionales integrales que sean agentes generadores de

Visión: La Universidad de Pamplona al finalizar la primera década del siglo XXI,

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Esta información que de cierta manera se manipula, se debe matematizar. Es

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Con respecto a la representatividad de la muestra, se debe observar que no es

Tercera etapa: experimentación o recolección de datos. En general, ésta es la

Cuarta etapa: tabulación y formulación de la respuesta. Al aplicar el método

De común acuerdo con su Tutor se pueden desarrollar los ejercicios propuestos al

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Núcleos Temáticos y Problemáticos

En la vida cotidiana, se observa que el hombre está constantemente tomando

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

El primero que intentó definir la probabilidad matemáticamente fue Laplace. “la

Esta fórmula quiere decir que si se tiene un suceso E tiene f posibilidades de

Sea E el suceso de que al tirar un dado una vez salga:

Hay seis formas de caer el dado: S = {1, 2, 3, 4, 5, 6}; y si el dado es bueno,

NOTA. Para cualquier evento E la probabilidad de E es un número real entre O

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Suponer que en un supermercado existen 80 productos enlatados, de los cuales 30

• ¿Cuál es la probabilidad de que el producto esté enlatado de color verde?

P (V) = 30/80 = 3/8 = 0.375 = 37.5%

• ¿Cuál es la probabilidad de que el artículo esté enlatado de color rojo?

P (R) = 50/80 = 5/8 = 0.625 = 62.5%

• ¿Cuál es la probabilidad de que el artículo esté enlatado de color negro?

• ¿Cual es la probabilidad que salga el enlatado de color verde o de color rojo?

P (VOR) = 3/8 + 5/8 = 1= 100%

NOTA. El evento C es llamado evento imposible y su probabilidad es O. El

1.2 VARIABLES ALEATORIAS

Por ejemplo, considérese el muestreo de 20 deportistas a los que se les pregunta

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Las variables aleatorias se clasifican en dos tipos: discretas o continuas. Una

1.3 VALOR ESPERADO

Al valor esperado se le llama “Esperanza Matemática”. Además, si X denota una

Ejemplo: Un examen de admisión fue presentado por 300 estudiantes. ¿Cuántos

Se sabe que la probabilidad de obtener un puntaje superior a 90 es del 6%

• Cuál es la esperanza matemática que un hombre gane un premio de $100000

Ve = 100000* 1/5 = 20000

Significa que el hombre ganará $20000 si sale favorecido para el premio.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

• En el lanzamiento 900 veces de dos dados. ¿Cuál es la esperanza de que la

Primero se obtiene la probabilidad de éxito del suceso en un solo ensayo, es decir

Como se lanzan 900 veces los dos dados, se obtiene:

• Un boleto de una rifa ofrece dos premios, uno de $5.000.000 y otro de

E (X) = (5.000.000) (0.001 ) + (2000.000) (O.003) = 5000 + 6000 = 11000;

Proceso de Comprensión y Análisis

• En un colegio hay 25 profesores de los cuales 6 de ellos tienen estudios de

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

• En un grupo de 48 estudiantes, 12 de ellos expresan preferencia por el ajedrez;

• En una población de 50000 habitantes 7500 son mayores de 60 años. ¿Cuál es

• Suponer que un vendedor de seguros ofrece este servicio a 5000 personas de

• Cuál es la probabilidad de que al lanzar un dado:

• Suponer que en un grupo de 60 estudiantes, 20 de ellos obtuvieron una nota

− ¿Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota