Está en la página 1de 57

Pamplona

Universidad de

Centro de Educación Virtual y a Distancia

Programas de Educación a Distancia

Probabilidad
Estadística
Yolanda Gallardo de Parada
Aurora Inés Gáfaro Rojas
Sandra Patricia Valero Ortega

Formando Colombianos de Bien


Álvaro González Joves
Rector

María Eugenia Velasco Espitia


Decana Facultad de Estudios Avanzados, Virtuales, a Distancia y Semiescolarizados

Luis Armando Portilla Granados


Director Centro de Educación Virtual y a Distancia
Tabla de Contenido
Presentación
Introducción

UNIDAD 1: Probabilidad
Núcleos Temáticos y Problemáticos
Proceso de Información
1.1 GENERALIDADES
1.2 VARIABLES ALEATORIAS
1.3 VALOR ESPERADO
Proceso de Comprensión y Análisis

UNIDAD 2: Distribución de Probabilidades


Núcleos Temáticos y Problemáticos
Proceso de Información
2.1 DISTRIBUCIÓN NORMAL
2.2 INFERENCIA ESTADÍSTICA
2.2.1 Estimación Puntual
2.2.2 Estimación por Intervalo
2.2.3 Intervalos de Confianza
2.2.4 Estimas Insesgadas
2.3 TAMAÑO DE LA MUESTRA
2.4 TEORÍA DE LA DECISIÓN ESTADÍSTICA
2.4.1 Hipótesis Estadística
2.4.2 Hipótesis Nula
2.4.3 Hipótesis Alternativa
2.4.4 Prueba de Hipótesis
2.5 ESTADÍSTICOS DE PRUEBA
2.6 TABLA DE CONTINGENCIA O COMPARACIÓN DE COLECTIVOS
2.6.1 Análisis de Tablas de Contingencia
2.6.2 Ensayos de Significación
Proceso de Comprensión y Análisis
UNIDAD 3: Regresión y Correlación
Núcleos Temáticos y Problemáticos
Proceso de Información
3.1 DIAGRAMA DE DISPERSIÓN
3.2 ANÁLISIS DE REGRESIÓN
3.3 MÉTODO DE MÍNIMOS CUADRADOS
3.3.1 Recta de Mínimos Cuadrados
3.4 CORRELACIÓN
3.4.1 Correlación Lineal
3.4.2 Correlación Positiva
3.4.3 Correlación Negativa
3.4.4 Correlación no Lineal
3.5 COEFICIENTE DE CORRELACIÓN
Proceso de Comprensión y Análisis

ANEXO: Tablas

BIBLIOGRAFÍA GENERAL
Probabilidad Estadística 1

Presentación
La educación superior se ha convertido hoy día en prioridad para el gobierno
Nacional y para las universidades públicas, brindando oportunidades de superación
y desarrollo personal y social, sin que la población tenga que abandonar su región
para merecer de este servicio educativo; prueba de ello es el espíritu de las
actuales políticas educativas que se refleja en el proyecto de decreto Estándares
de Calidad en Programas Académicos de Educación Superior a Distancia de la
Presidencia de la República, el cual define: “Que la Educación Superior a
Distancia es aquella que se caracteriza por diseñar ambientes de aprendizaje en
los cuales se hace uso de mediaciones pedagógicas que permiten crear una
ruptura espacio temporal en las relaciones inmediatas entre la institución de
Educación Superior y el estudiante, el profesor y el estudiante, y los estudiantes
entre sí”.

La Educación Superior a Distancia ofrece esta cobertura y oportunidad educativa


ya que su modelo está pensado para satisfacer las necesidades de toda nuestra
población, en especial de los sectores menos favorecidos y para quienes las
oportunidades se ven disminuidas por su situación económica y social, con
actividades flexibles acordes a las posibilidades de los estudiantes.

La Universidad de Pamplona gestora de la educación y promotora de llevar


servicios con calidad a las diferentes regiones, y el Centro de Educación Virtual y a
Distancia de la Universidad de Pamplona, presentan los siguientes materiales de
apoyo con los contenidos esperados para cada programa y les saluda como parte
integral de nuestra comunidad universitaria e invita a su participación activa para
trabajar en equipo en pro del aseguramiento de la calidad de la educación superior
y el fortalecimiento permanente de nuestra Universidad, para contribuir
colectivamente a la construcción del país que queremos; apuntando siempre hacia
el cumplimiento de nuestra visión y misión como reza en el nuevo Estatuto
Orgánico:

Misión: Formar profesionales integrales que sean agentes generadores de


cambios, promotores de la paz, la dignidad humana y el desarrollo nacional.

Visión: La Universidad de Pamplona al finalizar la primera década del siglo XXI,


deberá ser el primer centro de Educación Superior del Oriente Colombiano.
Luis Armando Portilla Granados. Director CEVDUP

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 2

Introducción
La importancia que tiene la matemática en el desarrollo de los procesos
intelectuales del hombre es notoria a través de su historia. Fue así como en la
antigüedad el pensamiento matemático contribuyó a resolver problemas en tareas
económicas y constructoras de diferentes pueblos, dio la base para revelar tos
misterios del mundo, es decir, dar explicaciones razonables para alcanzar la verdad
de los fenómenos que lo suceden. Contrariamente a los griegos, los hombres de la
edad media utilizaron el contenido matemático como una simple rutina para
disciplinar la mente. Sin embargo, a partir de los trabajos de Galileo, la
matemática en la edad moderna ayudó a buscar explicaciones concretas de
problemas que se daban en ingeniería, construcción y otras actividades prácticas
del hombre.

Por tal motivo, gracias al medio, las personas están rodeadas constantemente por
un conjunto de experiencias, que manejan y manipulan de una manera
sorprendente. Es decir, en cierta forma se está efectuando una serie de
operaciones: recoge, organiza, analiza e interpreta esas informaciones mediante
unas representaciones significativas para él y así se obtiene una serie de
conclusiones razonables.

Esta información que de cierta manera se manipula, se debe matematizar. Es


decir, seguir un procedimiento para poder tabular la información, presentarla y así
hacer el análisis respectivo para dar las conclusiones pertinentes al estudio que se
está realizando.

La Estadística es utilizada en casi todas las ramas de la ciencia moderna, así como
en muchos otros campos de la actividad humana. Como dijo Salomón Fabricant
“todo el mundo parece hoy coincidir en que la Estadística puede ser útil para
comprender, evaluar y controlar el funcionamiento de la sociedad”. En nuestra
sociedad, el progreso puede medirse mediante diversos índices numéricos, la
estadística se utiliza para describir, manipular e interpretar estos números.

Aún cuando los tipos de problemas a los cuales puede aplicarse la Estadística como
herramienta fundamental para el análisis e interpretación de resultados son
bastante heterogéneos, en muchos casos los pasos de una investigación
estadística son los siguientes:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 3

Primera etapa: formulación del problema. Para investigar con éxito un problema
dado, primero se tienen que crear conceptos precisos, formular preguntas claras e
imponer limitaciones adecuadas al problema, tomando en cuenta el tiempo, dinero
disponible y la habilidad de los investigadores.
Segunda etapa: diseño del experimento. Nuestro deseo es obtener un máximo de
información empleando un mínimo de costo y tiempo. Esto implica, entre otras
cosas, que se debe determinar el tamaño de la muestra o la cantidad y tipo de
datos que resolverán más eficientemente el problema. A la vez este tamaño será
afectado por el método empleado para la selección de la muestra representativa.

Con respecto a la representatividad de la muestra, se debe observar que no es


fácil obtener selecciones que sean completamente aleatorias. Existe el peligro de
que una selección pueda ser preferida en alguna forma. Se han propuesto varios
métodos para vencer esta dificultad y se han usado en la práctica. Se considera
este punto dentro del desarrollo del módulo.

Tercera etapa: experimentación o recolección de datos. En general, ésta es la


parte que más tiempo consume en toda investigación que sea realizada, ésta debe
sujetarse a reglas estrictas. De hecho, cuanto menos opiniones impongamos,
serán mejores los resultados.

Cuarta etapa: tabulación y formulación de la respuesta. Al aplicar el método


estadístico antes mencionado, se obtienen conclusiones a partir de la muestra,
acerca de la población correspondiente. Es decir, se va a inferir sobre la muestra y
se trata de sacar conclusiones para la población. Es esta etapa la que le da el
objetivo final a la estadística, puesto que se van a tomar decisiones con base en
los resultados obtenidos en el estudio descriptivo de la muestra.

No existe una fórmula mágica ni única en estadística que tome en cuenta todas las
situaciones prácticas concebibles. Por lo cual es necesario adquirir conocimientos
generales de los métodos más importantes para hacer inferencias. En cada caso
práctico debe situarse con cuidado la naturaleza del problema específico, para
estar seguros de que será escogido el método más apropiado.

Con el apoyo del computador los cálculos matemáticos se hacen más fáciles, por lo
tanto se recomienda utilizar e integrar un software apropiado para tal fin. En la
actualidad existen varios paquetes estadísticos sencillos de manejar, tales como el
Statgraphics, Sas, Minitab, Spss.

De común acuerdo con su Tutor se pueden desarrollar los ejercicios propuestos al


final de cada tema, se puede utilizar calculadora y computador para facilidad de los
cálculos.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 4

UNIDAD 1: Probabilidad

Núcleos Temáticos y Problemáticos


• Generalidades
• Variables Aleatorias
• Valor Esperado

Proceso de Información
1.1 GENERALIDADES

En la vida cotidiana, se observa que el hombre está constantemente tomando


decisiones donde intervienen acontecimientos, como son los juegos de azar, el
clima, la genética, etc. Estos sucesos probables, son juicios u opiniones que
pueden ser a la vez probablemente verdaderos y probablemente falsos.

Cuando los datos a estudiar son una muestra de una población el problema central
es inferir las propiedades de ésta a partir de la muestra. El instrumento
conceptual que permitirá esta generalización es un modelo de la población, es
decir, una representación simbólica de su comportamiento. Los modelos
estadísticos van a actuar de puente entre lo observado (muestra) y lo
desconocido (población). Su construcción y estudio es el objetivo del cálculo de
probabilidades.

Por lo anterior se nota que el problema central de la estadística es, a partir de una
muestra, hacer inferencia de tipo probabilístico sobre la población. Por ejemplo si
en una muestra de 100 personas, 28 tienen estudios universitarios, se puede decir
que más o menos 2800 de 1000000 de habitantes de una ciudad tienen estudios
universitarios.

Lo importante es precisar este “más o menos”. Por ejemplo se puede decir que
con un 95% de seguridad hay entre 2500 y 3100 personas con estudios
universitarios.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 5

El primero que intentó definir la probabilidad matemáticamente fue Laplace. “la


proporción del número de casos favorables al número de casos posibles, siempre
que todos los resultados sean igualmente probables”.

Casos Favorables
P (E) =
Casos Posibles

Esta fórmula quiere decir que si se tiene un suceso E tiene f posibilidades de


ocurrir entre un total de n posibilidades, cada una de las cuales tiene la misma
oportunidad de ocurrir que las demás. Entonces la probabilidad de que ocurra ese
evento E (o sea un éxito) se denota por:

f
P (E) =  = p
n

Ejemplo

Sea E el suceso de que al tirar un dado una vez salga:

• Un 3

Hay seis formas de caer el dado: S = {1, 2, 3, 4, 5, 6}; y si el dado es bueno,


se puede suponer que las seis tienen la misma oportunidad de salir. Entonces,
la probabilidad que salga un 3 es: P (3) = 1/6. La probabilidad que al lanzar
el dado una vez salga un tres es de 1/6 = 0.17 o del 17%.

• Un 3 o un 4

Como E puede ocurrir de dos formas, se tiene que: P (E) = P (3) + P (4) =
1/6 + 1/6 = 2/6 = 1/3 = p. Entonces la probabilidad que salga un 3 o un 4 al
lanzar el dado es de 1/3. O hay una probabilidad del 33.3% que al lanzar el
dado salga un 3 o un 4.

NOTA. Para cualquier evento E la probabilidad de E es un número real entre O


y 1. es decir: 0<P (E) <1. Además la probabilidad se expresa en términos
de Porcentaje.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 6

Ejemplos

Suponer que en un supermercado existen 80 productos enlatados, de los cuales 30


de ellos son de color verde y el resto rojos. Si extraemos al azar un producto de
estos enlatados:

• ¿Cuál es la probabilidad de que el producto esté enlatado de color verde?

P (V) = 30/80 = 3/8 = 0.375 = 37.5%

• ¿Cuál es la probabilidad de que el artículo esté enlatado de color rojo?

P (R) = 50/80 = 5/8 = 0.625 = 62.5%

• ¿Cuál es la probabilidad de que el artículo esté enlatado de color negro?

P (N) = 0/80 = 0

• ¿Cual es la probabilidad que salga el enlatado de color verde o de color rojo?

P (VOR) = 3/8 + 5/8 = 1= 100%

NOTA. El evento C es llamado evento imposible y su probabilidad es O. El


evento D es un evento seguro, si la probabilidad es 1.

1.2 VARIABLES ALEATORIAS

Una variable X es una variable aleatoria si los valores que toma corresponden a los
distintos resultados posibles de un experimento, y por ello el hecho de que tome
un valor particular es un evento aleatorio.

Por ejemplo, considérese el muestreo de 20 deportistas a los que se les pregunta


su preferencia por el refresco A o B. El número de deportistas que prefiera el
producto A puede considerarse como una variable aleatoria X, puede tomar
cualquiera de los valores O, 1, 2,..... 20. Cada uno de estos valores corresponde a
un resultado posible del experimento consistente en la extracción de una muestra
de 20 deportistas y el consiguiente registro del número de ellos que prefieren el
producto A.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 7

La variable X as una variable aleatoria, ya que el valor que tomará al llevar a cabo
el experimento no puede predecirse con certeza; esto es, el hecho de que X tome
un valor determinado, por ejemplo el 4, es en si, un evento aleatorio.

Las variables aleatorias se clasifican en dos tipos: discretas o continuas. Una


variable aleatoria discreta, es aquella que toma valores enteros, como por ejemplo
el número de personas, ciudades, teatros, etc. Una variable aleatoria continua es
aquella que puede tomar valores no necesariamente enteros, por ejemplo las
distancias, pesos, estatura, tiempo, etc.

1.3 VALOR ESPERADO

El valor esperado de una variable aleatoria discreta se define como el producto del
tamaño de la muestra por la probabilidad.

Ve = n * p

Al valor esperado se le llama “Esperanza Matemática”. Además, si X denota una


variable aleatoria discreta que puede tomar los valores X1, X2,....Xk con
probabilidades p1, p2,.....pk, la esperanza matemática de X denotada E (X), se
define como:
E (X) = P1X1 + P2X2 +......+ PKXK = ∑pX

Ejemplo: Un examen de admisión fue presentado por 300 estudiantes. ¿Cuántos


estudiantes obtendrán un puntaje superior a 90, con una probabilidad del 6%?

Solución

Se sabe que la probabilidad de obtener un puntaje superior a 90 es del 6%


entonces:
Ve = 300 * O.06 = 18 alumnos

Lo que quiere decir que se espera que 18 alumnos de los 300 obtendrán un
puntaje superior a 90.

• Cuál es la esperanza matemática que un hombre gane un premio de $100000


si su probabilidad es de 1/5?

Ve = 100000* 1/5 = 20000

Significa que el hombre ganará $20000 si sale favorecido para el premio.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 8

• En el lanzamiento 900 veces de dos dados. ¿Cuál es la esperanza de que la


suma de sus caras sea un valor menor a 6?

Solución

Primero se obtiene la probabilidad de éxito del suceso en un solo ensayo, es decir


que al lanzar los dados la suma de sus valores sean menor de 6:

(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10: entonces
la probabilidad será 10 lanzamientos de 36 posibilidades P = 10/36.

Como se lanzan 900 veces los dos dados, se obtiene:

10 9000
Ve = 900  =  = 250
36 36

La esperanza es que en 250 de los 900 lanzamientos, la suma de sus caras sea
menor de 6.

• Un boleto de una rifa ofrece dos premios, uno de $5.000.000 y otro de


$2000.000, con probabilidades 0.001 y 0.003. ¿Cuál sería el precio justo a
pagar por él?

Solución

E (X) = (5.000.000) (0.001 ) + (2000.000) (O.003) = 5000 + 6000 = 11000;


el precio justo a pagar es de $11000.

Proceso de Comprensión y Análisis


• En una caja hay 10 bolas rojas y 6 blancas. ¿Si se extrae una bola de la caja,
cuál es la probabilidad de que la bola sea blanca?

• En un colegio hay 25 profesores de los cuales 6 de ellos tienen estudios de


Postgrado. Se ofrece una beca para que uno de los profesores que no tiene
estudios de Postgrado pueda realizarlos. Juan Pérez no tiene estudios de
Postgrado. ¿Qué probabilidad tiene Juan de ganarse la beca?

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 9

• En un grupo de 48 estudiantes, 12 de ellos expresan preferencia por el ajedrez;


¿cuál es la probabilidad de que al seleccionar un estudiante éste exprese
preferencias por el ajedrez?

• En una población de 50000 habitantes 7500 son mayores de 60 años. ¿Cuál es


la probabilidad que al seleccionar un habitantes este tenga una edad inferior a
los 60 años?

• Suponer que en una fábrica se producen 5000 artículos eléctricos. 200 de ellos
son defectuosos. ¿Cuál es la probabilidad de que al seleccionar un artículo de
esa fábrica, el artículo no sea defectuoso?.

• Suponer que en una fábrica de productos lácteos el 15% de los artículos tienen
fecha de vencimiento fuera de lo normal. ¿Cuál es la probabilidad de que al
seleccionar un artículo lácteo de esta fábrica tenga fecha de vencimiento fuera
de lo normal?

• Suponer que un vendedor de seguros ofrece este servicio a 5000 personas de


las cuales el 20% de ellas adquiere el seguro. ¿Cuál es la probabilidad de que
al seleccionar una de estas personas halla comprado el seguro?

• Cuál es la probabilidad de que al lanzar un dado:

− Aparezca el número 3
− Aparezca un número par
− Aparezca un número múltiplo de 7

• Suponer que en un grupo de 60 estudiantes, 20 de ellos obtuvieron una nota


de matemática sobresaliente, 30 bueno y los demás insuficiente.

− ¿Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota


Sobresaliente?.
− Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota
insuficiente?.
− Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota
sobresaliente o bueno?.
− Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota
sobresaliente, buena o insuficiente?

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 10

• Determinar o estimar, la probabilidad de los siguientes sucesos:

− Una tirada de un dado resulte impar.


− Al menos una cara en dos tiradas de una moneda.
− Un as, el 10 de diamantes o el 2 de picas aparezca al sacar una sola carta de
una baraja francesa de 52 naipes.
− La suma de dos dados sea 7.

• De una baraja de 52 naipes, mezclados al azar, se sacan dos naipes. Hallar la


probabilidad de que ambos sean ases si el primer naipe extraído:

− Se devuelve a la baraja.
− Si no se devuelve.

• Clasificar las siguientes variables aleatorias como continuas o discretas:

− Un banco no sabe con exactitud cuantos clientes llegarán un día determinado.


− El peso de las cajas de tomate.
− El número de accidentes que ocurren en una semana.
− El tiempo de duración de una conversación telefónica.
− Número de años que deben transcurrir para que una empresa logre que sus
acciones valgan seis millones de pesos.
− El número de autos que entran a un parqueadero.
− El tiempo que gastamos en ir de la casa al trabajo.
− El número de clientes esperando servicio en la caja de un supermercado.
− Las ventas semanales de una almacén.
− El número de robos ocurridos en un almacén en determinado período de
tiempo.

• Si se llama X a la variable aleatoria que indica el número de hijos varones en


una familia de 3 hijos, ¿cuáles son los posibles valores que toma esta variable?

• Sea X la suma de puntos obtenida al lanzar dos dados. Determinar los posibles
valores que puede tomar la variable.

• El supermercado COOTRUP ha reunido los siguientes datos sobre las ventas


semanales de neveras:
Xj P (Xj)
Cantidad de neveras vendidas
0 0.20
1 0.30
2 0.30
3 0.115
4 0.05

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 11

¿Cuántas neveras espera vender en la próxima semana?

• En los concursos para la obtención de contratos, es usual que los contratistas


se sometan a concurso sí sus expectativas, teniendo en cuenta el tipo de
proyecto y al resto de participantes, les indican que sus ganancias estarán por
encima de cierta cantidad. Suponer que un contratista considera un proyecto
en el cual ganará 50 millones de pesos si le es otorgado. El costo de
preparación del proyecto, si lo somete a concurso, es de 5 millones de pesos y
el propio contratista piensa que la probabilidad de que gane el concurso es 0.4.

Finalmente, el contratista ha decidido concursar sí su ganancia esperada es de


por lo menos 12 millones de pesos. ¿Debe someterse a concurso para este
proyecto?

• Un fabricante de llantas para automóviles ha conservado registros sobre la


calidad de su producto y tiene la siguiente tabla sobre el número de
defectuosos encontrados en 100 llantas examinadas:

Número de defectos Número de llantas


0 60
1 22
2 8
3 5
4 3
5 2

− Construir la función de probabilidad.


− Calcular e interpretar el valor esperado.

• Un vendedor de automóviles tiene la oportunidad de trabajar con el


comerciante A o con el comerciante B. El vendedor evalúa los prospectos de
venta de cada comerciante de automóviles de la siguiente manera:

Comerciante A Comerciante B
X P (x) X P (x)
0 0.4 0 0.2
1 0.3 1 0.6
2 0.2 2 0.2
3 0.1 3 0.0

¿Esperaría vender más automóviles con el vendedor A que con el B?

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 12

• Una firma aseguradora ha determinado por experiencias, en un período largo


de tiempo, que la probabilidad de que ocurra un robo en una casa asegurada
contra este delito, es de 0,02. Si se tiene una póliza de seguros por
$10'000.000 y si X es la ganancia financiera anual para la compañía de seguros
como resultado de la venta de la póliza y sea C la prima anual desconocida.

Calcular el valor de C de manera que la ganancia esperada E (X), sea igual a


cero. Entonces C es la prima necesaria para cubrir los gastos. A esta cifra la
compañía añadirá los costos administrativos y las utilidades.

• En un juego de moneda, entre dos personas, con un premio de $1000 por


aparición de cara. ¿Cuál es la esperanza de ganar con el resultado de cara?

• En un negocio aventurado, una señora puede ganar $3.000.000 con


probabilidad de 0.6, o perder 1.000.000 con probabilidad de 0.4. Hallar su
esperanza matemática.

• Si llueve, un vendedor de paraguas gana $30.000 al día y si no llueve pierde


$6000 al día. ¿Cuál es su esperanza matemática si la probabilidad de lluvia es
0.3?

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 13

UNIDAD 2: Distribución de
Probabilidades

Núcleos Temáticos y Problemáticos


• Distribución Normal
• Inferencia Estadística
• Tamaño de la Muestra
• Teoría de la Decisión Estadística
• Principales Estadísticos de Prueba
• Tabla de Contingencia o Comparación de Colectivos

Proceso de Información
Las probabilidades asignadas a cada uno de los valores que puede tomar una
variable aleatoria discreta X, se denominan distribuciones de probabilidad, si la
suma de las probabilidades es igual a 1.

Por ejemplo, considerar el evento de lanzar un dado. Entonces la variable


aleatoria X = 1, 2,3, 4, 5, 6. Las probabilidades asignadas a cada valor de X son:

P (1) = 1/6; P (2) = 1/6; P (3) = 1/6; P (4) = 1/6; P (5) = 1/6; P (6) = 1/6

Estas probabilidades forman una distribución de probabilidad, puesto que P (1) +


P (2) + P (3) + P (4) + P (5) + P (6) = 1

Si X es una variable aleatoria discreta las principales distribuciones son:

• Bernoulli
• Binomial
• Poisson

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 14

Si X es una variable aleatoria continua las principales distribuciones son:

• Uniforme
• Normal
• T - student
• Chi - cuadrado

Cada una de ellas tiene su comportamiento característico y será objeto de estudio


posteriormente.

2.1 DISTRIBUCIÓN NORMAL

Muchas distribuciones de mediciones que se hacen tanto en las ciencias sociales


como en las ciencias naturales, tienden a tener un polígono de frecuencias con una
forma que se asemeja al corte transversal de una campana.

Esta distribución se observa más cuando el número de observaciones es grande y


cuando en muchos casos las investigaciones se realizan con muestras de
poblaciones grandes; en la mayoría de los casos las distribuciones tienden a
aproximarse a la curva en forma de campana ya mencionada.

El modelo de distribución de probabilidad para variables continuas más importante


es esta, cuya función de densidad es:

1
F(x)= e-1/2 (x-µ)2/σ 2
σ√2π

Donde µ es la media aritmética y σ es la desviación estándar cuya gráfica es la


siguiente:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 15

La distribución normal juega un papel primordial en la Estadística. Sin exagerar se


puede decir que es la más importante. Esto se debe a varias razones:

• Muchas variables que aparecen en experimentos prácticos están distribuidas


normalmente.
• Otras variables están distribuidas aproximadamente a la normal.
• Ciertas distribuciones más complicadas se pueden aproximar por lo normal.
• Algunas variables que son básicas para justificar pruebas estadísticas están
distribuidas normalmente.

El área total limitada por la curva y el eje X es uno (1); de aquí que el área bajo la
curva entre dos puntos de X a < b, representa la probabilidad de que X se
encuentre entre a y b, se denota: P {a < x < b}.

En la tabla de área bajo la curva normal tipificada Z (que aparece al final como
anexo), están las áreas o probabilidades correspondientes a las variables
tipificadas.
X-µ
Una variable X se tipifica así: Z =
σ

Ejemplo

• Los resultados de un examen de admisión en un colegio tienen una distribución


normal con media 75 y desviación estándar 10. ¿Qué fracción de resultado
quedan?

− ¿Superior a 90?
− ¿Inferior a 60?
− ¿Entre 70 y 90?

Solución

• Para aplicar la distribución normal a datos discretos es necesario tratar los


datos como si fuesen continuos, así, un puntaje superior a 90 se considera
90.5.

− ¿Superior a 90?

Es necesario tipificar la variable X = 90.5, por tanto:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 16

90.5 – 75 15.5
Z =  =  = 1.55
10 10

La proporción o fracción pedida corresponde al área sombreada y es igual a:

0.5 - 0.4394 = 0.0606 = 6%. 0.5 es el valor correspondiente a la mitad de la


curva; 0.4394 es el valor tomado de la tabla, área bajo la curva.

Lo que significa que el 6% de los aspirantes obtuvieron una nota superior a 90 en


el examen de admisión.

− ¿Inferior a 60?

59.5 - 7.5 - 15.5


Es necesario tipificar 59.5: z =  =  =1.55
10 10

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 17

La proporción o fracción pedida corresponde al área sombreada y es igual a 0.5 -


0.4394 = 0.0606 = 6%. 0.5 es el valor correspondiente a la mitad de la curva;
0.4394 es el valor tomado de la tabla, área bajo la curva.

Lo que significa que el 6% de los aspirantes obtuvieron una nota inferior a 60 en el


examen de admisión.

− Entre 70 y 90

Se hace necesario tipificar los dos valores:

69.5 - 75 -5.5
Z1 = = = -0.55
10 10

El área que hay de 0 a - 0.55 es igual al área que hay de 0 a 0.55 puesto que la
gráfica es simétrica con respecto al eje Y. En la tabla anexo corresponde a
0.2088.

90.5 - 75 15.5
Z2 = = = 1.55 = 0.4394
10 10

La proporción o fracción pedida corresponde al área sombreada y es igual a


0.2088 + 0.4394 = 0.6482 = 64.8%.

Lo que quiere decir que el 64.8% de los aspirantes obtuvieron una nota entre 70 y
90 en el examen de admisión.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 18

2.2 INFERENCIA ESTADÍSTICA

En la mayor parte de los estudios estadísticos, los parámetros poblaciones son


desconocidos y es necesario estimarlos mediante una muestra, ya que no es
posible, o no es práctico (en función del tiempo o del costo), inspeccionar la
totalidad de la población. Por tanto, el desarrollo de métodos para estimar el valor
de los parámetros poblacionales con mayor precisión posible. El que produce
artículos deportivos podría estar interesado en averiguar el promedio de unidades
defectuosas por cada lote de 1000 artículos sin tener que inspeccionar todos y
cada uno de ellos. El psicólogo que desea determinar el cociente medio de
inteligencia de los estudiantes de una universidad tendrá que confiar en una
información muestral. En tales casos hay que usar un estadístico, tal como la
media aritmética, como estimador del parámetro poblacional. Si quiere conocerse
el grado de dispersión de los artículos deportivos defectuosos en los diversos lotes,
o la variabilidad de los cocientes de inteligencia, entonces será necesario estimar
también este parámetro a partir de los datos muéstrales.

Las variables aleatorias utilizadas para estimar los parámetros poblacionales


reciben el nombre de estimadores en tanto que los valores específicos de estas
variables se llaman estimaciones de los parámetros poblacional.

Así, las variables aleatorias Xy S2, son estimadores de los parámetros
poblacionales µ1 σ 2 . Un valor específico de X, tal como X = 280, es una
estimación de µ . Un valor específico de S2 = 18,2 es una estimación de σ2.

Donde:

• X significa media aritmética muestral.


• µ significa media aritmética de la población.
• S desviación estándar muestral.
• σ desviación estándar de la población.

La estimación se puede realizar de dos formas: estimación puntual y estimación


por intervalos.

2.2.1 Estimación Puntual

Es en donde queremos determinar un valor numérico que nos sirva como


aproximación.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 19

Ejemplo: la estimación puntual del puntaje promedio de las pruebas de ICFES


obtenido por los estudiantes de cierto colegio de Pamplona en el último año fue de
280, lo que significa que nuestra mejor estimación de la media poblacional es 280.

2.2.2 Estimación por Intervalo

Es en donde no nos interesa saber un valor fijo sino solamente calcular dos
valores, dentro de los cuales podemos asegurar con una probabilidad dada, que
está el valor verdadero de nuestro parámetro.

Ejemplo: con un 95% de seguridad el puntaje promedio de las pruebas ICFES en


Pamplona está entre 260 y 300 puntos.

Para construir los intervalos de estimación se requiere conocer la distribución de la


cual proviene la muestra y el margen de error o seguridad que se desee. Las
estimaciones por intervalos indican la exactitud de una estima, y por tanto, son
proferidas a las estimas puntuales.

2.2.3 Intervalos de Confianza

En las estimaciones por intervalo no nos interesa calcular un valor fijo para el
parámetro desconocido, sino más bien buscamos dos valores a y b de los cuales
podemos afirmar con un determinado grado de seguridad que el valor verdadero
del parámetro desconocido está contenido. Es decir, buscamos los valores a y b
tal que con un margen de seguridad, tenemos la probabilidad de que el parámetro
se encuentre en ese intervalo.

Si la distribución muestral es aproximadamente normal, el estadístico X (media de


la muestra), los límites de confianza del 95% y 99% para la estimación de la
media poblacional m., vienen dados por:

σ σ
X ± 1.96  yx ± 2.58  respectivamente.
√n √n
σ
En forma general, los límites de confianza son dados por: x ± Zc 
√n
Donde Zc depende del nivel de confianza que en cada caso se desee y puede
obtenerse de la siguiente tabla:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 20

Nivel de 99% 95% 90% 80% 50%


confianza
Z< 2.58 1.96 1.645 1.28 0.6745

2.2.4 Estimas Insesgadas

Un estadístico es insesgado si su esperanza es igual al correspondiente parámetro


poblacional. Así, X yS2 son insesgados porque E{x} = µ y E{s2}=σ2.

• La media muestral X es una estima insesgada de la media poblacional µ


• La desviación estándar muestral dividida por n - 1 es una estima insesgada de
la desviación estándar poblacional σ.

Ejemplo

En una muestra de cinco medidas, un científico anotó 6.33, 6.37, 6.36, 6.32 y 6.37
cm. Determinar estimaciones insesgadas con respecto a la varianza.

Solución: la estimación sin sesgo de la varianza o sea, de la población es

N ∑ (X - X)2
S2 =  S2 = 
N-1 N-1

(6.33 – 6.35)2 + (6.37 – 6.35)2 + (6.36 – 6.35)2 + (6.32 – 6.35)2 + (6.37 – 6.35)2
S2 =
5–1

S2 = 0.00055 cm2

2.3 TAMAÑO DE LA MUESTRA

Uno de los principales problemas que se debe resolver antes de efectuar un


trabajo de investigación que requiere recolección de información muestral es la
determinación del tamaño de la muestra. Dado que el muestreo es costoso y
requiere de tiempo, el objetivo al seleccionar una muestra es obtener una cantidad
especifica de información a un costo mínimo.

Esto se puede llevar a cabo estableciendo un margen de error de estimación (que


mide la cantidad de información) y posteriormente aplicando la fórmula apropiada
para la estimación del tamaño de la muestra.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 21

Cuando la población es uniforme, una muestra pequeña produce la misma


cantidad de información que una muestra grande; por lo tanto un médico puede
basar su diagnóstico en el análisis de una sola gota de sangre del paciente;
seleccionar una muestra en estos casos es un desperdicio de tiempo y dinero.

Por otro lado, si la población consiste en elementos muy diferentes entre si, una
muestra pequeña puede ser un reflejo muy deficiente de las características de la
población. En un estudio para estimar la estatura promedio de los estudiantes de
sexo masculino de una determinada universidad, una muestra pequeña de n = 3
estudiantes, puede por azar consistir únicamente en miembros del equipo de
Basketboll. Una muestra aleatoria de n = 100 estudiantes proporciona una
cobertura mucho más amplia y por lo tanto, mayor información sobre las estaturas
de los estudiantes de sexo masculino.

Las decisiones sobre el tamaño de la muestra se toman de acuerdo a la


variabilidad inherente en la población de mediciones y a la exactitud que se
requiere del estimador.

A mayor variabilidad de la población, mayor es el tamaño de la muestra que se


requiere para mantener un determinado grado de exactitud en la estimación.

Según los criterios expuestos, el tamaño de la muestra se puede obtener aplicando


la siguiente fórmula:

Mzc2P(1 - P)
n = 
ME2+Zc2P(1 - P)

Donde:

n = Tamaño de la muestra.
M = Tamaño de la población.
Zc = Valor crítico para la distribución normal según margen de error.
P = Valor de la probabilidad de variabilidad de la población. Se toma 0.5 como
máxima variabilidad.
E = Margen de error

Ejemplo

• Un profesor de Educación Física del Colegio Provincial de Pamplona, desea


conocer el peso promedio de los estudiantes matriculados durante 2001 en ese
plantel. Según informes de la coordinación hay 1800 alumnos matriculados,

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 22

dado que no dispone del tiempo suficiente para pesar a todos los alumnos,
decide seleccionar una muestra aleatoria por estratos (grados académicos)
con un margen de error del 5% y 95% de confiabilidad.

El tamaño de la muestra en este caso será:

1800(1.96)2 - (0.5)(0.5)
n =  = 316
1800(0.05)2 +(1.96)2(0.5)(0.5)

M = 1800, tamaño de la población.


Zc = 1 .96, corresponde al valor crítico para un 5% de error (95% de
seguridad).
P = 0.5 se ha considerado la máxima probabilidad de variabilidad para la
población.
E = 0.05 corresponde al margen de error 5%.

• Se desea realizar una investigación para conocer los problemas que se vienen
presentando en los colegios y escuelas de Cúcuta con relación a la falta de
motivación para la práctica de la lectura.

Según las estadísticas de la Secretaría de Educación hay 120.500 alumnos


matriculados en los niveles de primaria y secundaria, con un margen de error
del 5%, la muestra que se seleccione al azar debe tener un tamaño de:

120500(1.96)2 – (0.5)(0.5)
n =  = 383
120500(0.05)2 + (1.96)2 (0.5)(0.5)

2.4 TEORÍA DE LA DECISIÓN ESTADÍSTICA

Muy a menudo, en la práctica, se tienen que tomar decisiones sobre poblaciones,


partiendo de la información muestral de las mismas. Tales decisiones se llaman
decisiones estadísticas.

Por ejemplo se puede querer decir a partir de los datos de un muestreo, si un


fertilizante es mejor que otro, si el nuevo sistema de evaluación es mejor que el
antiguo, si una vacuna es efectiva, si el índice de desempleo de este año superó el
del año pasado, etc.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 23

Para llegar a tomar decisiones, conviene hacer determinados supuestos o


conjeturas acerca de las poblaciones que se estudian. Tales supuestos que
pueden ser o no ciertos se llaman hipótesis estadísticas.

2.4.1 Hipótesis Estadística

Una hipótesis estadística es una suposición que se hace acerca de la distribución


de una variable aleatoria. Por ejemplo, que cierta distribución tiene una media
aritmética de 20,3.

2.4.2 Hipótesis Nula

Es la hipótesis de trabajo o hipótesis a aprobar. Se denota por Ho. Se construye


artificialmente para que el investigador evalúe su hipótesis de investigación.

2.4.3 Hipótesis Alternativa

Cualquier hipótesis que difiera de una hipótesis dada se llama hipótesis alternativa;
por ejemplo si la hipótesis de trabajo Ho es que el tiempo promedio de recorrido
en una competencia es de 4 horas; las hipótesis alternativas son que el tiempo
promedio de recorrido es diferente de 4 horas.

Ho: µ = 4 horas
H1: µ ≠ 4 horas

2.4.4 Prueba de Hipótesis

El razonamiento que se emplea en la prueba de una hipótesis es muy semejante al


que se emplea en un proceso judicial. Al juzgar a un individuo por robo, la corte
supone que el acusado es inocente mientras no se pruebe su culpabilidad. El fiscal
debe obtener y presentar todas las evidencias disponibles en un intento por
contradecir la hipótesis de “no – culpabilidad”.

Lo que se conoce en la inferencia estadística como pruebas de hipótesis consiste


en verificar, por medio de una prueba, la validez de una determinada proposición.

En un problema estadístico el procedimiento a seguir en una prueba de hipótesis


es el siguiente:

• Formular la hipótesis nula Ho.


• Formular la hipótesis alternativa H1, de tal manera que el rechazo de la
hipótesis nula implique la aceptación de la alternativa.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 24

• Se escoge convenientemente un estadístico de prueba. Esto quiere decir,


elegir con base en una muestra (si no lo hay es necesario efectuarlo), un
estimador sobre el cual estamos efectuando la prueba, de tal manera que
conozcamos su distribución.
• Se elige un margen de error. Este margen se denomina comúnmente el nivel
de significación y se denota por α.
• Se determina la región de aceptación y la de rechazo. Estas regiones se
determinan de acuerdo al estadístico de prueba utilizado y al margen de error
elegido.
• Se toma una decisión. Si como resultado de la realización de un experimento
se obtiene un valor contenido en la región de rechazo, se rechaza la hipótesis
nula, en cuyo caso se acepta H1: si se obtiene un valor contenido en la región
de aceptación, se acepta la hipótesis nula.

Desde el punto de vista del estadístico, el problema que se presenta en una


prueba de hipótesis es determinar cuál estadístico utilizar.

Para seleccionar el estadístico de prueba se debe tener en cuenta la hipótesis nula,


los datos conocidos de la población y de la muestra y el tamaño de la muestra.

2.5 ESTADÍSTICOS DE PRUEBA

Los principales estadísticos de prueba son:

• La distribución normal
• La distribución t - student
• La distribución X2 (chi cuadrado.)
• La distribución F - Fisher

Ejemplo

Suponer que sé desea realizar un trabajo para experimentar una nueva


metodología de la enseñanza en el español en 5o. de primaria. Para tal fin se
seleccionaron dos colegios uno experimental y otro de control. Los resultados
obtenidos en una prueba, después de realizar las actividades previstas fueron las
siguientes:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 25

Grupo de Control
28 35 46 76 24 54
75 52 24 37 46 75
38 45
Grupo Experimental

75 26 48 36 47 54
72 51 26 39 49 80

¿Es significativa la diferencia de los puntajes en los dos grupos?

Solución

• En este caso la hipótesis nula o hipótesis de trabajo es la de que los puntajes


promedios son iguales en los dos casos:

Ho = µ A = µβ

• La hipótesis alternativa H1 es que los puntajes promedios son diferentes:

H1 = µA ≠ µβ

• Para seleccionar el estadístico de prueba apropiado se examinan los datos que


se conocen así:

− Tamaño de la muestra de cada grupo.


− Media aritmética de cada muestra.
− Desviación estándar de cada muestra.

Con base en los datos conocidos se selecciona un estadístico de prueba. En


este caso es la distribución t - student que da un valor específico.

• Elegir un margen de error por ejemplo el 5%.

• Con base en los anteriores datos se determina la región de aceptación o de


rechazo.

• Si el valor queda en la región de rechazo no se acepta que el promedio de


puntajes en los dos grupos es igual, por lo tanto es que el promedio de
puntajes es diferente.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 26

Decisión: con un 95% de seguridad puedo afirmar que hay diferencia significativa
entre los puntajes de los dos grupos.

En algunos casos especiales se pueden utilizar los siguientes estadísticos de


prueba:

Caso 1

• La distribución de la población es normal.


• La hipótesis nula es de la forma Ho: µ = K, significa que el valor de la media
poblacional es K.
• Se conoce σ (desviación de la población).
• Se tiene una muestra de tamaño n, se utiliza como estadístico de prueba la
distribución normal.

√n (x - µ)
Z = con n - 1 grados de libertad
σ
Caso 2

• La distribución de la población es normal.


• La hipótesis nula es de la forma Ho: µ = K, significa que el valor de la media
poblacional es K.
• No se conoce σ, se conoce S (desviación de la muestra).
• Se tiene una muestra de tamaño n, se utiliza como estadístico de prueba la
distribución t – student.

√n(x - µ)
t =  con n - 1 grados de libertad
S
Caso 3

• La distribución de la poblacional es normal.


• La hipótesis nula es de la forma Ho: σ2 = S2, significa que no hay cambio de
variabilidad en la población y la muestra.
• Se tiene una muestra de tamaño n, se utiliza como estadístico de prueba la
distribución “chi cuadrado”.

(n - 1) S2
X2 =  con n – 1 grados de libertad
σ

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 27

Caso 4, Comparación de medias aritméticas

• Se tienen dos poblaciones A y B las cuales se distribuyen normalmente.


• Se extraen muestras de A y B de tamaño nA y nB respectivamente.
• La hipótesis nula es de la forma Ho: µA = µB
• Se conoce σA y σB
• Se utiliza como estadístico de prueba la distribución normal.

(xA - XB) - (µA - µB)


Z = 
√σA2/nA + σB2/nB

Caso5, Comparación de Medias Aritméticas

Lo mismo que el caso anterior pero no se conoce σA y σB:

Parte 1. Si nA y nB son suficientemente grandes. En Estadística esta afirmación se


utiliza para muestras de tamaño mayor o igual a 30.

nA y nB ≥ 30

Se utiliza como estadístico de prueba la distribución normal:

(XA - XB) – (µA - µB)


Z = 
√SA2/nB + SB2/nB

Parte 2: Si nA y nB < 30

Se utiliza come estadístico de prueba la distribución t – student:

Con nA + nB – 2 grados de libertad

Caso 6: Inferencia Relativa a Dos varianzas

• Se tienen dos muestras con distribución normal.


• Se conocen las desviaciones standar de las dos muestras SA y SB.
• La hipótesis nula es de la forma Ho: σA2 = sB2.
• Se utiliza como estadístico de prueba la distribución F - Fisher

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 28

SA 2
F = 
SB2

Ejemplo

• En una investigación tendiente a comprobar la lectura como medio de ocio


utilizado por los estudiantes de Pamplona se tomaron unas muestras y se
obtuvieron los siguientes resultados:

n = 60
X = 30% = 18
σ = 21

Probar la hipótesis de que en promedio, el número de estudiantes de Pamplona


que utilizan la lectura como medio de ocio es del 40%. Tomar un margen de error
del 5%.

Siguiendo los pasos mencionados anteriormente tenemos:

Ho = µ = 24
α = 5% (margen de error)

Según los datos conocidos utilizamos la distribución normal.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 29

Como -2.2 queda ubicado en la región de rechazo no se acepta la hipótesis nula.

Decisión: con un 95% de seguridad no se puede afirmar que el 40% de los


estudiantes utilizan la lectura como medio de ocio.

• Para comprobar la efectividad de un programa contra la drogadicción se realizó


un trabajo para verificar los efectos de drogas alucinantes sobre el grado de
criminalidad y se obtuvieron los siguientes resultados:

A = Usar droga
B = No usar droga
XA = 31
XB = 26
SA = 5
SB = 8
NA = 36
NB =70

Comprobar la hipótesis de que en promedio, el número de delitos es igual en


ambas poblaciones. Utilizar un margen de error del 1%.

Solución

Ho: µA = µB como nA y nB ≥ 30 utilizamos Z.

El valor critico para un 1% de error es + 2.58.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 30

Decisión: como 2.18 queda en la región de aceptación, se acepta la hipótesis


nula. Por lo tanto con un 99% de seguridad podemos afirmar que no influye la
utilización de droga en el grado de criminalidad.

2.6 TABLA DE CONTINGENCIA O COMPARACIÓN DE COLECTIVOS

Los colectivos a comparar pueden ser subgrupos de una misma población


comunidades, un mismo grupo en dos o más puntos del tiempo, etc.

Existen múltiples procedimientos para hacer comparaciones y éstas se pueden


representar en cuadros que resultan de cruce de variables llamados Tabla de
Contingencia.

Ejemplo

• El siguiente cuadro resume la información obtenida por el Rector de un


Colegio, sobre el nivel de escolaridad y el sexo de los padres de familia:

NIVEL DE
HOMBRES MUJERES
ESCOLARIDAD
Analfabetos 3 5
Básica incompleta 22 24
Básica completa 33 37
Media incompleta 18 30
Media completa 15 20
Universidad incompleta 12 10
Universidad completa 6 2

• El siguiente cuadro presenta el porcentaje de niños, jóvenes, adultos y el grado


de motivación que presentaron en la realización de una actividad musical:

Motivación Niños Jóvenes Adultos


Alto 56% 65% 26%
Medio 28% 31% 38%
Bajo 16% 4% 36%
TOTAL 100% 100% 100%

2.6.1 Análisis de Tablas de Contingencia

El análisis de tablas de contingencia es un procedimiento general para investigar la


homogeneidad de poblaciones cualitativas. En síntesis, el método consiste en

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 31

comparar las frecuencias observadas para cada atributo dentro de cada clase con
las esperadas por un modelo que suponga homogeneidad en todas las clases o
categorías.

Una media de la discrepancia entre las frecuencias observadas y esperadas es


suministrada por el estadístico X2 (léase chi - cuadrado) dado por:

∑(oi - ei)2
X2 = 
ei

Donde: oi = Frecuencia observada


ei = Frecuencia esperada

Si X2= 0 las frecuencias observadas teóricas concuerdan exactamente; mientras


que si X2 > 0 no coinciden exactamente, a valores mayores de X2, mayores son las
discrepancias entre las frecuencias observadas y esperadas.

2.6.2 Ensayos de Significación

La hipótesis nula Ho corresponde a que no hay discrepancia entre las frecuencias


observadas y esperadas. Se toman como grados de libertad.

V = (h - 1) (k - 1) donde h corresponde al número de filas y k al número de


columnas.

Ejemplo

La siguiente tabla muestra el número de alumnos que aprobaron las asignaturas A


y B. Mediante un nivel de significación del 5%, ensayar la hipótesis de que no hay
diferencia entre los resultados.

APROBARON NO
Asignatura A 72 17
Asignatura B 64 23
TOTAL 136 40

h=2
K=2
v = (2 – 1) (2 - 1) = 1 (grados de libertad).

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 32

Las frecuencias esperadas para los alumnos que APROBARON serán: 136/2 = 68;
las frecuencias esperadas para los alumnos que NO APROBARON serán: 40/2=20.

(72 - 68)2 (64 - 68)2 (17 - 20)2 (23 - 20)2


x2 =  +  +  +  = 1.37
68 68 20 20

Con un nivel de significación del 5% y un grado de libertad no se puede rechazar


la hipótesis.

Conclusión: con un 95% de confianza no hay discrepancia entre los resultados de


los que aprobaron y los que no aprobaron con relación a las asignaturas A y B.

Proceso de Comprensión y Análisis


• En un examen final de matemáticas la media fue de 72 y la desviación típica
fue de 15.
− Determinar las referencias tipificadas (es decir, graduaciones en unidades de
desviación típica) de los estudiantes que obtuvieron puntuaciones de: 60, 93
y de 72.
− Hallar las puntuaciones correspondientes a las referencias tipificadas -1 y 1.6.

• Hallar el área bajo la curva en cada uno de los siguientes casos:


− Entre Z = O y Z = 1.2
− Entre Z = -0.68 y Z = 0
− Entre Z = -0.46 y Z = 2.21

• En un examen de estadística, la media fue de 78 y la desviación típica 10.


− Determinar las puntuaciones estándar de dos estudiantes que obtuvieron 62
puntos.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 33

− Hallar las puntuaciones de dos estudiantes cuyas puntuaciones estándar fueron


-0.6 y 1.2.

• Una prueba estandarizada de comprensión de lectura se realiza entre 10000


estudiantes de secundaria. Se observa que las calificaciones están
normalmente distribuidas con unas medidas de 500 y una desviación estándar
de 60. Si se considera una calificación menor que 440 como indicadora de una
grave deficiencia en la lectura, aproximadamente ¿cuántos estudiantes están
catalogados como seriamente deficientes en comprensión de lectura?

• Se midió la estatura de 1000 niñas y se encontró que estaban normalmente


distribuidas con una media de 1.62 m y una desviación estándar de 5.08 cm.

− ¿Aproximadamente cuántas niñas miden más de 1.73 m de altura?


− ¿Aproximadamente cuántas niñas tienen entre 1.52 y 1.62 m de estatura?
− ¿Cuántas están entre 1.57 y 1.67 de estatura?

• El peso de 500 estudiantes varones de cierta universidad es de 151 lb y la


desviación típica es 15 lb. Suponiendo que los pesos están normalmente
distribuidos, hallar cuántos estudiantes pesan:

− Entre 120 y 125 lb


− Más de 185 lb
− Menos de 128 lb
− 128 lb
− No más de 128 lb

• Un programa de capacitación ha sido diseñado con el ánimo de mejorar la


habilidad de los operarios de una línea de producción. El programa es
autoaplicable y por esto los operarios requieren diferentes números de horas
para terminarlo. Un estudio de participantes anteriores revela que el tiempo
promedio dedicado al programa es de 500 horas y que el tiempo se distribuye
normalmente con una desviación estándar de 1000 horas.
− Cuál es la probabilidad de que un participante elegido de forma aleatoria tarde
más de 500 horas en terminar el programa
− Cuál es la probabilidad de que un participante gaste entre 500 y 650 horas en
terminar el programa
− Cuál es la probabilidad de que un participante gaste menos de 580 horas en
terminar el programa.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 34

• La vida útil de cierto tipo de calentador eléctrico tiene una distribución


aproximadamente normal, con media de 3.1 y desviación estándar de 1.2
años. Si este tipo de calentador tiene garantía de un año, ¿que porcentajes de
calentadores necesitarán ser reemplazados?

• Las ventas diarias (de lunes a viernes) en un restaurante pequeño, tienen una
distribución normal, con una media de $53000 por día y una desviación
estándar de $1200.
− ¿Cuál es la probabilidad que las ventas excedan de $70000 en un día dado?
− ¿El restaurante necesita ventas diarias de por lo menos $30000 para cubrir los
gastos. ¿Cuál es la probabilidad de que, en un día dado el establecimiento no
cubra los gastos?

• Se ha comprobado que el tiempo necesario para atender a un contribuyente en


una oficina de recaudación de impuestos está normalmente distribuido, con
una media de 15 minutos y una desviación estándar de 5 minutos. Cuál es la
probabilidad de que un cliente seleccionado aleatoriamente:
− Dure de 10 a 25 minutos.
− Tarde más de 20 minutos en la ventanilla.
− ¿Cuál es el tiempo mínimo que tardan el 10% de los clientes más demorados?

• Plantear un tema de trabajo y:

− Seleccionar la población
− Cuantificarla
− Seleccionar una muestra representativa
− Suponer un margen de error
− ¿Qué tamaño debe tener la muestra 7?
− Qué método de muestreo va a utilizar?. ¿Por qué?

• El muestreo por cuotas es una técnica de uso común en encuestas de opinión


pública. Al usar esta técnica, el entrevistador selecciona, de acuerdo con su
criterio un número determinado de individuos (cuota) de cada uno de varios
sectores de la población. Por ejemplo, se le puede pedir que entreviste a 10
mecánicos, 36 amas de casa o 7 abogados.

¿Bajo qué condiciones el muestreo por cuotas proporciona una muestra


aleatoria?

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 35

• En una Universidad, los estudiantes se oponen al nuevo régimen tributario. Se


hizo esta declaración con base en una encuesta para la cual se escogieron al
azar y se entrevistaron 86 estudiantes. El 52% de los entrevistados declararon
que se oponían a la reforma tributaria. A partir de esta información, obtener
un intervalo de confianza del 95% para la proporción real de estudiantes que
se oponen a la reforma tributaria.

• Una prueba de Matemática aplicada a 9 estudiantes arrojó los siguientes


puntajes:

67 54 46 78 70 95 45 97 56

Encontrar un intervalo de confianza del 95% para la media real de los


puntajes.

• Se desea estimar el puntaje promedio de los alumnos de un grupo escolar. Se


pretende que el error de estimación sea menor de 5 puntos con una
probabilidad del 95%. Se sabe que el rango de los puntajes es de 84. ¿Cuál
debe ser el tamaño de la muestra?

• La entidad encargada de la protección infantil reunió información con respecto


al número de niños abandonados que se pueden encontrar probablemente en
una determinada ciudad los doce meses del año. Los resultados fueron los
siguientes:

16 5 21 19 10 5 8 2 7 2 4 9

Estimar el verdadero promedio de niños abandonados con un nivel de


confianza del 90%.

• Según los datos suministrados por el Ministerio de Justicia y la Dirección


General de Prevención y conciliación, en 1996 se registraron por ciudades los
siguientes números de lesiones personales:

Medellín 1866 Barranquilla 1961


Bogotá 4685 Bucaramanga 1152
Cali 1765 Santa marta 394
Cúcuta 392 Popayán 540
Pereira 1739 Pasto 683
Manizales 1018 Arauca 415
Valledupar 480 San Andrés 91
Leticia 177 Quibdo 673

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 36

Estimar el promedio de lesiones personales con un nivel de confianza del 95%.

• Suponer que las alturas de 100 estudiantes varones de la Universidad XYZ


representan una muestra aleatoria de las estaturas de los 1546 estudiantes de
esa Universidad. Determinar estimaciones sin sesgo con respecto de la
varianza.

• Las mediciones de una muestra de masas dieron 8.3, 10.6, 9.7, 8.8, 10,2 y 9.4
kg respectivamente. Determinar estimaciones sin sesgo de la varianza de la
población.

• El tiempo promedio empleado para la repartición de 240 camiones de una


empresa es de por lo menos 80 minutos, en base a una muestra sin
reemplazamiento de 40 camiones encontramos: ∑X = 2800 y una desviación
de 11. X: tiempo empleado en la repartición. ¿Con un nivel de significancia
del 5% se podrá rechazar la hipótesis planteada inicialmente?

• El jefe de personal de una gran corporación esta contratando un gran número


de empleados para un trabajo en el extranjero. Durante la realización de
pruebas la gerencia pregunta como marchan las cosas y el jefe de personal
contesta “bien, creo que la puntuación promedio en el test de aptitudes será
90”. Cuando la gerencia revisa 20 de los resultados de la prueba, averigua que
la puntuación media es 84 y la desviación estándar de esta puntuación es 11;
si la gerencia quiere probar la hipótesis del jefe de personal en el nivel de
significancia de 10%, ¿cuál será el procedimiento al que recurra?

• Una muestra de 25 observaciones tiene una media de 42 y una desviación


estándar de 8. Trabajando con un nivel de significancia del 1%. ¿Existe razón
para rechazar la hipótesis de que la media de la población es de 46?

• Un fabricante de cigarrillos, analiza el tabaco de dos marcas diferentes, para


determinar el contenido de nicotina y obtiene los siguientes resultados en
miligramos:

MARCA A: 24 26 25 22 23
MARCA B: 27 28 25 29 26

¿Los resultados anteriores, señalan que existe una diferencia en el contenido


medio de nicotina en ambas marcas?

• Los salarios diarios de una industria están distribuidos normalmente con una
media de $132000 y una desviación estándar de $25000. Si una empresa de

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 37

dicha industria, que cuenta con 4 obreros paga en promedio $122000 ¿puede
acusarse a esta compañía de pagar salarios inferiores al nivel de significancia
del 1%?

• Un fabricante de ciertas piezas de proyectiles, sostiene que en condiciones


normales de reparación, tienen una duración media µ = 320 horas. Probar
esta afirmación frente a la alternativa µ ≠ 320, si 16 piezas duran un promedio
de 308 horas, con una desviación de 29 horas. Utilizar un nivel de significancia
del 5%.

• Una compañía esta evaluando el promover a sus empleados, es decir está


determinando la proporción de aquellos cuya habilidad, preparación y
experiencia en la supervisión los califica para un ascenso a niveles superiores.

El director de talento humano le dice al presidente que el 80% de los


empleados son promovibles. El presidente crea un comité especial para
evaluar esta situación. El comité realiza entrevistas en profundidad con 150
empleados y en su juicio se da cuenta que sólo el 70% de la muestra llena los
requisitos de promoción. El presidente quiere probar, en un nivel de
significancia de 0.05 la afirmación del director de talento humano.

• Al jefe de personal se le pide determinar si los sueldos por hora de


trabajadores semiclasificados son iguales en dos ciudades. Se extraen
muestras aleatorias simples de los sueldos por hora que se pagan en ambas
localidades. Los resultados de la encuesta son:

Ciudad 1 X1 = 6.95 S1 = 0.40 n1 = 200


Ciudad 2 X2 = 7.10 S2 = 0.60 n2 = 175

La compañía quiere probar la hipótesis con un nivel del 5% de que no existe


diferencia entre los sueldos por hora que ganan los trabajadores en las dos
ciudades.

• Una compañía ha estado investigando dos programas educativos tendientes a


acrecentar el mejor trato de sus gerentes ante las necesidades de sus
empleados. El programa original estaba compuesto de varias sesiones de
pregunta y respuesta informal con algunos trabajadores. En los últimos años,
se introdujo un programa formal con psicólogos profesionales. El nuevo
programa es mucho más caro y el presidente de la compañía quiere saber con
un nivel de significación del 5% si ese gasto ha mejorado el trato de los
gerentes.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 38

Los datos arrojados con dos muestras son:

Programa Formal n1 = 12 x1 = 92 S1 = 15


Programa Informal n2 = 15 x2 = 84 S2 = 19

• En una muestra de 400 amas de casa, el 20% indicó preferencia por la marca
A de una margarina. Con posterioridad a una compañía de radio y televisión,
se seleccionó una nueva muestra de amas de casa, del mismo tamaño y clase
social. En esta muestra el 22% indicó preferencia por la marca A. De acuerdo
con estos resultados y a un nivel del 5% ¿podría rechazarse la hipótesis de que
la compañía fue inefectiva?

• La siguiente tabla presenta la relación entre las notas de los estudiantes de 5o


grado del Colegio de la Presentación de Bucaramanga en Matemática y
Lenguaje.

Ensayar la hipótesis de que las notas de lenguaje son independientes de las


obtenidas en Matemática, mediante el nivel de significación del 5% y del 1 %.

MATEMÁTICAS
NOTAS ALTAS NOTAS MEDIAS NOTAS BAJAS
NOTAS ALTAS 56 71 12
NOTAS MEDIAS 47 463 38
NOTAS BAJAS 14 42 85

• Suponer que se desea investigar los efectos combinados que el nivel de stress
y la dificultad del examen, causan en el rendimiento, en una tarea de solución
de problemas. Para tal fin se seleccionaron cinco sujetos en cada grupo y los
resultados sobre rendimiento son los siguientes:

TENSIÓN
MODERADA INTENSA
20 23
20 22
T SENCILLA 19 21
A 19 20
R 17 19
E 22 18
A 21 16
DIFICIL 20 15
19 14
18 12

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 39

• Cuál es el promedio de puntaje del grupo:


− De tensión moderada
− De tensión intensa
− De tarea sencilla
− De tarea difícil
− De tensión moderada y tarea difícil
− De tarea sencilla y tensión intensa
− Total

• Verificar si:
− Existe o no diferencia significativa entre el rendimiento de los sujetos en
condiciones de tensión moderada y los de tensión intensa.
− Hay una diferencia significativa en el rendimiento de los sujetos a quienes se
les asigna un problema sencillo y los que reciben uno difícil.
− Las dos variables (tensión y dificultad del problema) ejercen o no un efecto
combinado sobre el rendimiento.

• Analizar:
− ¿Entre los cuatro grupos cuál es más homogéneo?
− ¿Al considerar la variable tarea, cuál grupo tiene menor variación?
− Existe diferencia significativa entre los datos observados y los datos esperados?

• Los siguientes datos corresponden al puntaje obtenido por 10 estudiantes, de


un Colegio de Bucaramanga, en pruebas estandarizadas para medir habilidad
matemática y habilidad en el lenguaje:

HABILIDAD HABILIDAD EN
ALUMNOS
MATEMÁTICA LENGUAJE
1 25 40
2 22 71
3 59 79
4 35 48
5 93 61
6 17 30
7 98 88
8 21 49
9 77 45
10 25 62

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 40

Distribuirlos en la siguiente tabla de contingencia:

• Alta habilidad (Puntaje mayor de 50)


• Baja Habilidad (Puntaje menor o igual a 50)

M LENGUAJE
A
T HABILIDAD ALTA BAJA
E
M
Á
T ALTA
I
C
A BAJA
S

Probar la hipótesis de que no existe discrepancia entre habilidades de Matemática


y de Lenguaje.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 41

UNIDAD 3: Regresión y Correlación

Núcleos Temáticos y Problemáticos


• Diagramas de Dispersión
• Análisis de Regresión
• Método de Mínimos Cuadrados
• Correlación
• Coeficiente de Correlación

Proceso de Información
Hasta el momento se ha tratado con experimentos aleatorios que incluyen solo
una variable. Ahora se tratará con experimentos aleatorios que incluyen dos o
más variables.

Un problema de estimación que es particularmente importante en casi todo campo


de estudio es el de pronosticar o predecir el valor de una variable de algún
proceso, a partir de los valores conocidos de otras variables que estén
relacionadas.

3.1 DIAGRAMA DE DISPERSIÓN

Es la representación gráfica sobre un plano cartesiano de los puntos


correspondientes al valor de dos variables.

Ejemplo

Suponer que los siguientes datos corresponden a la edad y peso de ocho niños:

Edad en años 12 10 8 6 4 10 9 6
Peso en Kilos 34 30 28 24 20 32 33 25

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 42

Con el diagrama de dispersión es posible frecuentemente representar una línea


recta o curva que aproxime a los datos. Tal curva se llama curva de aproximación.

Si los datos se aproximan bien a una línea recta se dice que entre las variables
existe una relación lineal; si se aproximan a una curva se dice que existe una
relación no lineal. La relación o dependencia de estas variables de la muestra se
conoce con el nombre de análisis de regresión.

3.2 ANÁLISIS DE REGRESIÓN

Basándonos en los datos muéstrales, se puede estimar el valor de una variable


correspondiente a un valor dado de una variable X. Esto se puede conseguir
estimando el valor de la variable y de la recta o curva que se ajusta a los datos
muéstrales.

Existen varios métodos de ajuste, uno de los más utilizados es el de mínimos


cuadrados. La recta o curva resultante se denomina recta de Regresión o Curva
de Regresión.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 43

Ejemplo

Con base en los datos obtenidos en un muestreo con niños sobre estatura y peso,
se puede construir la recta de regresión tal que, conociendo la estatura del niño se
estime su peso.

Con base en una muestra, donde se relaciona la edad y la presión sanguínea se


puede construir una recta de regresión; de tal forma que conociendo la edad de
una persona se estime el valor de su presión sanguínea.

La recta de regresión tiene la ecuación de la siguiente forma:

Y = mx + b

Donde m es la pendiente o inclinación de la línea recta. Si m > O la recta en su


gráfica está inclinada hacia la derecha. Si m < O la recta en su gráfica está
inclinada hacia la izquierda.

Para encontrar la ecuación de la recta de regresión se aplica un procedimiento


especial y muy sencillo de realizar.

Si la variable independiente x es el tiempo, los datos muestran los valores de la


otra variable en diferentes tiempos. Los ordenados en relación con el tiempo se
denominan “series de tiempo”.

La recta o curva de regresión se denomina recta o curva de tendencia y se utiliza


constantemente para fines de estimación, predicción o pronóstico.

Ejemplo

Con base en los datos de los últimos 10 años, del número de alumnos que
participan en las actividades deportivas de un determinado colegio, se puede
predecir el número de alumnos que participarán el próximo año en dichas
actividades deportivas.

3.3 MÉTODO DE MÍNIMOS CUADRADOS

Una forma de aproximar los datos de un diagrama de dispersión a una recta o


curva es por medio del método de mínimos cuadrados.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 44

3.3.1 Recta de Mínimos Cuadrados

Cuando los puntos del diagrama de dispersión tienden a estar alrededor de una
línea, se dice que existe correlación lineal y la recta de aproximación por el Método
de mínimos cuadrados se obtiene al reemplazar en la siguiente fórmula:

∑xy
Y=  x
∑x2
Donde
x=X–x
y=Y–Y

Esta recta se conoce como recta de regresión.

Ejemplo

Suponer que los siguientes datos corresponden al número de preguntas


contestadas correctamente por 8 alumnos en dos pruebas de aptitud verbal;
encontrar la recta de regresión Y sobre X, si un alumno obtiene 5 puntos en la
primera prueba, ¿cuánto se espera obtener en la segunda prueba?

Puntuación Primera Puntuación Segunda


Prueba (x) Prueba (y)
X Y x=X-x y=Y-Y xy x2 y2
1 1 -6 -4 24 36 16
3 2 -4 -3 12 16 9
4 4 -3 -1 3 9 1
6 4 -1 1 1 1 1
8 5 1 0 0 1 0
9 7 2 2 4 4 4
11 8 4 3 12 16 9
14 9 7 4 28 49 16
X=7 Y=5 ∑ = 84 ∑ = 132 ∑ = 56

∑xy
Y =  x
∑x2

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 45

84

Y= X
132

Y – 5 = 0.63 (X - 7)
Y – 5 = 0.63X - 4.41
Y = 0.63X + 5 - 4.41
Y = 0.63X + 0.59

Por lo tanto si un alumno obtiene 5 puntos en la primera prueba (X) se espera


que en la segunda obtenga:

Y = 0.63 (5) + 0.59


Y = 3.15 + 059 +3.74
Y=4

3.4 CORRELACIÓN

La correlación mide el grado de relación entre las variables. Cuando se trata de


dos variables, se habla de correlación simple y regresión simple.

Cuando existen más de dos variables se habla de correlación múltiple y regresión


múltiple.

3.4.1 Correlación Lineal

Si todos los puntos de un diagrama de dispersión parecen encontrarse cerca de


una recta la correlación se llama lineal. En tal caso, los pronósticos o estimativos
se dan con base a una recta de regresión. La correlación lineal puede ser positiva
o negativa.

3.4.2 Correlación Positiva

Una variable tiende a incrementarse cuando se incrementa la otra. Por ejemplo la


edad y la presión sanguínea. A esta correlación se le llama también correlación
directa.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 46

3.4.3 Correlación Negativa

Una variable tiende a incrementarse cuando se disminuye la otra. Por ejemplo la


temperatura y la altura sobre el nivel del mar. Esta correlación se llama también
correlación inversa.

3.4.4 Correlación no Lineal

Si todos los puntos del diagrama de dispersión parecen estar cerca de alguna
curva la correlación se denomina no lineal. Si no existe ninguna relación entre las
variables, se dice que no hay correlación entre ellas, es decir, no están
correlacionadas.

3.5 COEFICIENTE DE CORRELACIÓN

Con frecuencia se requiere de un indicador o medida de la fuerza con la que dos


variables se encuentran linealmente relacionadas, de modo que el indicador no
dependa de las escalas en las que cada una de las variables se hallan medido. Un
tal indicador o medida se conoce como una medida de correlación lineal. La más
usada en estadística es el llamado coeficiente de correlación de Pearson. Ésta
cantidad se denota por r.

Para encontrar su valor se aplica una fórmula específica. Si r toma un valor


positivo se dice que existe correlación lineal directa; a medida que r se aproxime a
1 es mayor la relación directa entre las dos variables.

Si r toma un valor negativo se dice que existe correlación lineal inversa; a medida
que r se aproxime a -1 es mayor la relación inversa entre las dos variables. Si r =
0 implica ausencia de correlación lineal.

Este coeficiente de correlación se puede aplica a datos que estén agrupados en


tablas de contingencia, aplicando la fórmula específica.

Una forma de encontrar él valor del coeficiente de correlación lineal r entre dos
variables es aplicando la siguiente fórmula:

∑xy
r = 
√(∑x2)(∑y2)

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 47

Donde x = X - xy
y = Y - Y

Ejemplo

El coeficiente de correlación de los puntajes obtenidos en las dos pruebas del


ejemplo anterior es:
84
r =  = 0.977
√132*56

Esto muestra que hay una correlación lineal positiva entre las variables muy alta,
es decir que al aumentar el puntaje en la primera prueba también aumenta el
puntaje en la segunda prueba.

Proceso de Comprensión y Análisis


• La compañía Hermanos Luna, cree que sus ingresos anuales (variable y)
dependen de sus gastos (variable x) en publicidad. Para comprobarlo, analiza
la información registrada en los últimos seis años. Gastos en publicidad e
ingresos en millones de pesos.

Gastos e Ingresos de la Compañía Hermanos Luna

Año Gastos (x) Ingresos (y)


1997 2 20
1998 3 25
1999 5 34
2000 4 30
2001 11 40
2002 5 31

− Graficar en un diagrama de dispersión la información conocida.


− Estimar la ecuación de la recta para ver la dependencia o independencia de la
información.
− Predecir los ingresos, si los gastos de publicidad van a ser de 7 millones
− Obtener el error estándar del estimado para verificar la confianza en su modelo
de regresión.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 48

• El jefe de personal de una planta de ensamblaje de utensilios, establece una


relación entre la edad del trabajador (x) y su ausentismo (y). Para esto
recogió la información de una muestra de 10 empleados tomados al azar entre
todas las hojas de vida de los empleados.

Edad (x) 42 27 36 25 22 39 57 119 33 30


Días de Ausencia (y) 2 7 5 9 10 4 4 8 6 5

Empleando un modelo de regresión lineal, se desea predecir el


comportamiento de los empleados en cuanto a la edad y al ausentismo.

• El departamento de publicidad de la compañía T&T, desea saber si existe una


relación entre las ventas y el número de comerciales de televisión transmitidos
por día para una muestra de siete ciudades.

Ventas en Cientos de Unidades Comerciales Trasmitidos por Día


y x
8.4 11
5.2 6
7.1 8
10 9
12.9 12
11.5 15
14.4 14

− Estimar las ventas en función del numero de comerciales por medio de la


ecuación de la recta y el error estándar del estimado.
− Calcular el estimado en ventas para 11 comerciales.

• Un equipo de investigadores de la UMATA han estudiado la relación entre la


cosecha de maíz y la temperatura promedio durante la etapa de crecimiento;
las medidas durante varios años produjeron los siguientes resultados:

X Temp. en grados 19 23 25 24 26 21
Y Bultos por Ha 66 74 72 76 78 72

Estimar los bultos por hectárea en función de la temperatura, predecir el


número de bultos de maíz por hectárea para una temperatura de 20 grados y
el error estándar del estimado.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 49

• Un analista de una compañía vendedora de libros estudió la relación entre


gastos de viajes en miles de pesos para 102 vendedores y la duración de estos
viajes en días, para obtener los siguientes resultados:

Total de duración 510 días


Total de gastos 7.140 Miles de pesos
Producto de gastos por días 54.900
Suma de cuadrados de gastos 740.200
Suma de cuadrados de duración 4.150

− Con base en la información anterior calcular un modelo lineal para estimar los
gastos en función de la duración.
− Obtener el error estándar del estimado.

• Con base en las normas de servicio, se obtuvo la información referente al área


en metros cuadrados (Y) y al número de turistas alojados (X) en ocho
establecimientos. Los datos se presentan en miles:

l 1 2 3 4 5 6 7 8
X1 15 10 11 13 18 9 14 16
Y1 59 45 48 52 54 41 58 61

− Estimar el área contenida en función del número de turistas alojados.


− Estimar el espacio para un total de 18 turistas.
− Establecer el error de estimación.

• La empresa Todo a Mil, maneja una cadena de 100 almacenes; con el objeto
de medir la eficiencia de las tiendas, se hizo un estudio acerca del volumen de
ventas mensuales (Y) en función del número de empleados (X). Se
obtuvieron los siguientes resultados:

∑X = 600 ∑Y = 1.600 ∑X2 = 5.200 ∑Y2 = 37.700


∑XY = 13.600

− Establecer un modelo lineal.


− Estimar las ventas para un almacén con tres empleados.
− Calcular el error estándar del estimado.

• Las estadísticas de la Secretaría de Educación del Departamento Norte de


Santander, registraron durante el año 2002 los siguientes datos relacionados
con el número de alumnos matriculados en Primaria, en Colegios oficiales.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 50

Años Alumnos
1993 125.543
1994 203.569
1995 287.569
1996 256.890
1997 356.983
1998 387.127
1999 403.005
2000 398.127
2001 417.345
2002 482.106

− Construir el diagrama de dispersión de los anteriores datos.


− Encontrar el valor de la recta de regresión de mínimos cuadrados.
− ¿Cuál es el valor del coeficiente de correlación y que significado tiene?
− Con base a los anteriores datos estimar el número de alumnos que se
matricularán en el 2007.

• Suponer que los siguientes datos corresponden al número de alumnos que


reprobaron el Grado Sexto en el Colegio CEMUP de la ciudad de Pamplona
durante los últimos seis años.

NÚMERO DE
AÑOS
REPROBADOS
1996 12
1997 13
1998 7
1999 10
2000 7
2001 4
2002 5

− Construir el diagrama de dispersión.


− Encontrar el valor de la recta de regresión de mínimos cuadrados.
− Calcular el valor del coeficiente de correlación e interpretar el resultado.
− Estimar el número de alumnos que reprobarán en el año 2004.

• La siguiente tabla presenta las notas en Álgebra y Física de 10 estudiantes


elegidos al azar entre un grupo muy numeroso:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 51

Álgebra (X) Física (Y)


75 82
80 78
93 86
65 72
87 91
71 80

− Representar los datos.


− Hallar una recta de mínimos cuadrados que ajuste los datos usando X como
variable independiente.
− Hallar una recta de mínimos cuadrados que ajuste los datos usando Y como
variable independiente.
− ¿Si un estudiante tiene 75 en álgebra, cuál es su nota esperada en física?
− ¿Si un estudiante tiene 95 en física, cuál es su nota esperada en álgebra?

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 52

ANEXO: Tablas

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 53

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia


Probabilidad Estadística 54

BIBLIOGRAFÍA GENERAL
BERNAL V. Miguel. Estadística Descriptiva: J. Elaboración y Presentación de
Datos Universidad de Pamplona, 1987.
GALLARDO, Yolanda. Estadística: Programa de Sicología Universidad de
Pamplona. 1997.
MARTÍNEZ BENCARDINO, Ciro. Estadística Comercial. Bogotá: Norma, 1981.
MORENO GARZÓN, Adonay. Serie aprender a investigar: Recolección de la
información. Cali: ICFES, 1995.
PARZEN, Emmanuel. Teoría Moderna de Probabilidades y sus Aplicaciones México:
LIMUSA, 1991.
PEÑA SÁNCHEZ, Damel. Estadística Modelos y Métodos I. Fundamentos. Madrid:
Alianza editorial, 1986.
PORTUS GOVINDEN. Lincoyán. Curso Práctico de Estadística. Bogotá: McGRAW
- Hill, 1986.
SPIEGEL Murria R. Estadística. Madrid: McGraw Hill, 1993.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

También podría gustarte