P. 1
estadistica_probabilistica

estadistica_probabilistica

|Views: 4.890|Likes:
Publicado porromesu
8 DE SEPTIEMBRE 4.16 AM
8 DE SEPTIEMBRE 4.16 AM

More info:

Published by: romesu on Sep 08, 2012
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

07/31/2013

pdf

text

original

Sections

Centro de Educación Virtual y a Distancia

Pamplona
Universidad de

Programas de Educación a Distancia

Probabilidad Estadística
Yolanda Gallardo de Parada Aurora Inés Gáfaro Rojas Sandra Patricia Valero Ortega

Formando Colombianos de Bien
Álvaro González Joves
Rector

María Eugenia Velasco Espitia

Decana Facultad de Estudios Avanzados, Virtuales, a Distancia y Semiescolarizados

Luis Armando Portilla Granados
Director Centro de Educación Virtual y a Distancia

Tabla de Contenido
Presentación Introducción UNIDAD 1: Probabilidad Núcleos Temáticos y Problemáticos Proceso de Información 1.1 GENERALIDADES 1.2 VARIABLES ALEATORIAS 1.3 VALOR ESPERADO Proceso de Comprensión y Análisis UNIDAD 2: Distribución de Probabilidades Núcleos Temáticos y Problemáticos Proceso de Información 2.1 DISTRIBUCIÓN NORMAL 2.2 INFERENCIA ESTADÍSTICA 2.2.1 Estimación Puntual 2.2.2 Estimación por Intervalo 2.2.3 Intervalos de Confianza 2.2.4 Estimas Insesgadas 2.3 TAMAÑO DE LA MUESTRA 2.4 TEORÍA DE LA DECISIÓN ESTADÍSTICA 2.4.1 Hipótesis Estadística 2.4.2 Hipótesis Nula 2.4.3 Hipótesis Alternativa 2.4.4 Prueba de Hipótesis 2.5 ESTADÍSTICOS DE PRUEBA 2.6 TABLA DE CONTINGENCIA O COMPARACIÓN DE COLECTIVOS 2.6.1 Análisis de Tablas de Contingencia 2.6.2 Ensayos de Significación Proceso de Comprensión y Análisis

UNIDAD 3: Regresión y Correlación Núcleos Temáticos y Problemáticos Proceso de Información 3.1 DIAGRAMA DE DISPERSIÓN 3.2 ANÁLISIS DE REGRESIÓN 3.3 MÉTODO DE MÍNIMOS CUADRADOS 3.3.1 Recta de Mínimos Cuadrados 3.4 CORRELACIÓN 3.4.1 Correlación Lineal 3.4.2 Correlación Positiva 3.4.3 Correlación Negativa 3.4.4 Correlación no Lineal 3.5 COEFICIENTE DE CORRELACIÓN Proceso de Comprensión y Análisis ANEXO: Tablas BIBLIOGRAFÍA GENERAL

Probabilidad Estadística

1

Presentación
La educación superior se ha convertido hoy día en prioridad para el gobierno Nacional y para las universidades públicas, brindando oportunidades de superación y desarrollo personal y social, sin que la población tenga que abandonar su región para merecer de este servicio educativo; prueba de ello es el espíritu de las actuales políticas educativas que se refleja en el proyecto de decreto Estándares de Calidad en Programas Académicos de Educación Superior a Distancia de la Presidencia de la República, el cual define: “Que la Educación Superior a Distancia es aquella que se caracteriza por diseñar ambientes de aprendizaje en los cuales se hace uso de mediaciones pedagógicas que permiten crear una ruptura espacio temporal en las relaciones inmediatas entre la institución de Educación Superior y el estudiante, el profesor y el estudiante, y los estudiantes entre sí”. La Educación Superior a Distancia ofrece esta cobertura y oportunidad educativa ya que su modelo está pensado para satisfacer las necesidades de toda nuestra población, en especial de los sectores menos favorecidos y para quienes las oportunidades se ven disminuidas por su situación económica y social, con actividades flexibles acordes a las posibilidades de los estudiantes. La Universidad de Pamplona gestora de la educación y promotora de llevar servicios con calidad a las diferentes regiones, y el Centro de Educación Virtual y a Distancia de la Universidad de Pamplona, presentan los siguientes materiales de apoyo con los contenidos esperados para cada programa y les saluda como parte integral de nuestra comunidad universitaria e invita a su participación activa para trabajar en equipo en pro del aseguramiento de la calidad de la educación superior y el fortalecimiento permanente de nuestra Universidad, para contribuir colectivamente a la construcción del país que queremos; apuntando siempre hacia el cumplimiento de nuestra visión y misión como reza en el nuevo Estatuto Orgánico: Misión: Formar profesionales integrales que sean agentes generadores de cambios, promotores de la paz, la dignidad humana y el desarrollo nacional. Visión: La Universidad de Pamplona al finalizar la primera década del siglo XXI, deberá ser el primer centro de Educación Superior del Oriente Colombiano. Luis Armando Portilla Granados. Director CEVDUP

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

2

Introducción
La importancia que tiene la matemática en el desarrollo de los procesos intelectuales del hombre es notoria a través de su historia. Fue así como en la antigüedad el pensamiento matemático contribuyó a resolver problemas en tareas económicas y constructoras de diferentes pueblos, dio la base para revelar tos misterios del mundo, es decir, dar explicaciones razonables para alcanzar la verdad de los fenómenos que lo suceden. Contrariamente a los griegos, los hombres de la edad media utilizaron el contenido matemático como una simple rutina para disciplinar la mente. Sin embargo, a partir de los trabajos de Galileo, la matemática en la edad moderna ayudó a buscar explicaciones concretas de problemas que se daban en ingeniería, construcción y otras actividades prácticas del hombre. Por tal motivo, gracias al medio, las personas están rodeadas constantemente por un conjunto de experiencias, que manejan y manipulan de una manera sorprendente. Es decir, en cierta forma se está efectuando una serie de operaciones: recoge, organiza, analiza e interpreta esas informaciones mediante unas representaciones significativas para él y así se obtiene una serie de conclusiones razonables. Esta información que de cierta manera se manipula, se debe matematizar. Es decir, seguir un procedimiento para poder tabular la información, presentarla y así hacer el análisis respectivo para dar las conclusiones pertinentes al estudio que se está realizando. La Estadística es utilizada en casi todas las ramas de la ciencia moderna, así como en muchos otros campos de la actividad humana. Como dijo Salomón Fabricant “todo el mundo parece hoy coincidir en que la Estadística puede ser útil para comprender, evaluar y controlar el funcionamiento de la sociedad”. En nuestra sociedad, el progreso puede medirse mediante diversos índices numéricos, la estadística se utiliza para describir, manipular e interpretar estos números. Aún cuando los tipos de problemas a los cuales puede aplicarse la Estadística como herramienta fundamental para el análisis e interpretación de resultados son bastante heterogéneos, en muchos casos los pasos de una investigación estadística son los siguientes:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

3

Primera etapa: formulación del problema. Para investigar con éxito un problema dado, primero se tienen que crear conceptos precisos, formular preguntas claras e imponer limitaciones adecuadas al problema, tomando en cuenta el tiempo, dinero disponible y la habilidad de los investigadores. Segunda etapa: diseño del experimento. Nuestro deseo es obtener un máximo de información empleando un mínimo de costo y tiempo. Esto implica, entre otras cosas, que se debe determinar el tamaño de la muestra o la cantidad y tipo de datos que resolverán más eficientemente el problema. A la vez este tamaño será afectado por el método empleado para la selección de la muestra representativa. Con respecto a la representatividad de la muestra, se debe observar que no es fácil obtener selecciones que sean completamente aleatorias. Existe el peligro de que una selección pueda ser preferida en alguna forma. Se han propuesto varios métodos para vencer esta dificultad y se han usado en la práctica. Se considera este punto dentro del desarrollo del módulo. Tercera etapa: experimentación o recolección de datos. En general, ésta es la parte que más tiempo consume en toda investigación que sea realizada, ésta debe sujetarse a reglas estrictas. De hecho, cuanto menos opiniones impongamos, serán mejores los resultados. Cuarta etapa: tabulación y formulación de la respuesta. Al aplicar el método estadístico antes mencionado, se obtienen conclusiones a partir de la muestra, acerca de la población correspondiente. Es decir, se va a inferir sobre la muestra y se trata de sacar conclusiones para la población. Es esta etapa la que le da el objetivo final a la estadística, puesto que se van a tomar decisiones con base en los resultados obtenidos en el estudio descriptivo de la muestra. No existe una fórmula mágica ni única en estadística que tome en cuenta todas las situaciones prácticas concebibles. Por lo cual es necesario adquirir conocimientos generales de los métodos más importantes para hacer inferencias. En cada caso práctico debe situarse con cuidado la naturaleza del problema específico, para estar seguros de que será escogido el método más apropiado. Con el apoyo del computador los cálculos matemáticos se hacen más fáciles, por lo tanto se recomienda utilizar e integrar un software apropiado para tal fin. En la actualidad existen varios paquetes estadísticos sencillos de manejar, tales como el Statgraphics, Sas, Minitab, Spss. De común acuerdo con su Tutor se pueden desarrollar los ejercicios propuestos al final de cada tema, se puede utilizar calculadora y computador para facilidad de los cálculos.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

4

UNIDAD 1: Probabilidad
Núcleos Temáticos y Problemáticos
• • • Generalidades Variables Aleatorias Valor Esperado

Proceso de Información
1.1 GENERALIDADES

En la vida cotidiana, se observa que el hombre está constantemente tomando decisiones donde intervienen acontecimientos, como son los juegos de azar, el clima, la genética, etc. Estos sucesos probables, son juicios u opiniones que pueden ser a la vez probablemente verdaderos y probablemente falsos. Cuando los datos a estudiar son una muestra de una población el problema central es inferir las propiedades de ésta a partir de la muestra. El instrumento conceptual que permitirá esta generalización es un modelo de la población, es decir, una representación simbólica de su comportamiento. Los modelos estadísticos van a actuar de puente entre lo observado (muestra) y lo desconocido (población). Su construcción y estudio es el objetivo del cálculo de probabilidades. Por lo anterior se nota que el problema central de la estadística es, a partir de una muestra, hacer inferencia de tipo probabilístico sobre la población. Por ejemplo si en una muestra de 100 personas, 28 tienen estudios universitarios, se puede decir que más o menos 2800 de 1000000 de habitantes de una ciudad tienen estudios universitarios. Lo importante es precisar este “más o menos”. Por ejemplo se puede decir que con un 95% de seguridad hay entre 2500 y 3100 personas con estudios universitarios.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

5

El primero que intentó definir la probabilidad matemáticamente fue Laplace. “la proporción del número de casos favorables al número de casos posibles, siempre que todos los resultados sean igualmente probables”. Casos Favorables P (E) = Casos Posibles Esta fórmula quiere decir que si se tiene un suceso E tiene f posibilidades de ocurrir entre un total de n posibilidades, cada una de las cuales tiene la misma oportunidad de ocurrir que las demás. Entonces la probabilidad de que ocurra ese evento E (o sea un éxito) se denota por: f P (E) =  = p n

Ejemplo
Sea E el suceso de que al tirar un dado una vez salga: • Un 3 Hay seis formas de caer el dado: S = {1, 2, 3, 4, 5, 6}; y si el dado es bueno, se puede suponer que las seis tienen la misma oportunidad de salir. Entonces, la probabilidad que salga un 3 es: P (3) = 1/6. La probabilidad que al lanzar el dado una vez salga un tres es de 1/6 = 0.17 o del 17%. • Un 3 o un 4 Como E puede ocurrir de dos formas, se tiene que: P (E) = P (3) + P (4) = 1/6 + 1/6 = 2/6 = 1/3 = p. Entonces la probabilidad que salga un 3 o un 4 al lanzar el dado es de 1/3. O hay una probabilidad del 33.3% que al lanzar el dado salga un 3 o un 4. NOTA. Para cualquier evento E la probabilidad de E es un número real entre O y 1. es decir: 0<P (E) <1. Además la probabilidad se expresa en términos de Porcentaje.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

6

Ejemplos
Suponer que en un supermercado existen 80 productos enlatados, de los cuales 30 de ellos son de color verde y el resto rojos. Si extraemos al azar un producto de estos enlatados: • ¿Cuál es la probabilidad de que el producto esté enlatado de color verde? P (V) = 30/80 = 3/8 = 0.375 = 37.5% • ¿Cuál es la probabilidad de que el artículo esté enlatado de color rojo? P (R) = 50/80 = 5/8 = 0.625 = 62.5% • ¿Cuál es la probabilidad de que el artículo esté enlatado de color negro? P (N) = 0/80 = 0 • ¿Cual es la probabilidad que salga el enlatado de color verde o de color rojo? P (VOR) = 3/8 + 5/8 = 1= 100% NOTA. El evento C es llamado evento imposible y su probabilidad es O. El evento D es un evento seguro, si la probabilidad es 1. 1.2 VARIABLES ALEATORIAS

Una variable X es una variable aleatoria si los valores que toma corresponden a los distintos resultados posibles de un experimento, y por ello el hecho de que tome un valor particular es un evento aleatorio. Por ejemplo, considérese el muestreo de 20 deportistas a los que se les pregunta su preferencia por el refresco A o B. El número de deportistas que prefiera el producto A puede considerarse como una variable aleatoria X, puede tomar cualquiera de los valores O, 1, 2,..... 20. Cada uno de estos valores corresponde a un resultado posible del experimento consistente en la extracción de una muestra de 20 deportistas y el consiguiente registro del número de ellos que prefieren el producto A.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

7

La variable X as una variable aleatoria, ya que el valor que tomará al llevar a cabo el experimento no puede predecirse con certeza; esto es, el hecho de que X tome un valor determinado, por ejemplo el 4, es en si, un evento aleatorio. Las variables aleatorias se clasifican en dos tipos: discretas o continuas. Una variable aleatoria discreta, es aquella que toma valores enteros, como por ejemplo el número de personas, ciudades, teatros, etc. Una variable aleatoria continua es aquella que puede tomar valores no necesariamente enteros, por ejemplo las distancias, pesos, estatura, tiempo, etc. 1.3 VALOR ESPERADO

El valor esperado de una variable aleatoria discreta se define como el producto del tamaño de la muestra por la probabilidad. Ve = n * p Al valor esperado se le llama “Esperanza Matemática”. Además, si X denota una variable aleatoria discreta que puede tomar los valores X1, X2,....Xk con probabilidades p1, p2,.....pk, la esperanza matemática de X denotada E (X), se define como: E (X) = P1X1 + P2X2 +......+ PKXK = ∑pX Ejemplo: Un examen de admisión fue presentado por 300 estudiantes. ¿Cuántos estudiantes obtendrán un puntaje superior a 90, con una probabilidad del 6%?

Solución
Se sabe que la probabilidad de obtener un puntaje superior a 90 es del 6% entonces: Ve = 300 * O.06 = 18 alumnos Lo que quiere decir que se espera que 18 alumnos de los 300 obtendrán un puntaje superior a 90. • Cuál es la esperanza matemática que un hombre gane un premio de $100000 si su probabilidad es de 1/5? Ve = 100000* 1/5 = 20000 Significa que el hombre ganará $20000 si sale favorecido para el premio.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

8

En el lanzamiento 900 veces de dos dados. ¿Cuál es la esperanza de que la suma de sus caras sea un valor menor a 6?

Solución
Primero se obtiene la probabilidad de éxito del suceso en un solo ensayo, es decir que al lanzar los dados la suma de sus valores sean menor de 6: (1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10: entonces la probabilidad será 10 lanzamientos de 36 posibilidades P = 10/36. Como se lanzan 900 veces los dos dados, se obtiene: Ve = 900 10 9000  =  = 250 36 36

La esperanza es que en 250 de los 900 lanzamientos, la suma de sus caras sea menor de 6. • Un boleto de una rifa ofrece dos premios, uno de $5.000.000 y otro de $2000.000, con probabilidades 0.001 y 0.003. ¿Cuál sería el precio justo a pagar por él?

Solución
E (X) = (5.000.000) (0.001 ) + (2000.000) (O.003) = 5000 + 6000 = 11000; el precio justo a pagar es de $11000.

Proceso de Comprensión y Análisis
• • En una caja hay 10 bolas rojas y 6 blancas. ¿Si se extrae una bola de la caja, cuál es la probabilidad de que la bola sea blanca? En un colegio hay 25 profesores de los cuales 6 de ellos tienen estudios de Postgrado. Se ofrece una beca para que uno de los profesores que no tiene estudios de Postgrado pueda realizarlos. Juan Pérez no tiene estudios de Postgrado. ¿Qué probabilidad tiene Juan de ganarse la beca?

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

9

En un grupo de 48 estudiantes, 12 de ellos expresan preferencia por el ajedrez; ¿cuál es la probabilidad de que al seleccionar un estudiante éste exprese preferencias por el ajedrez? En una población de 50000 habitantes 7500 son mayores de 60 años. ¿Cuál es la probabilidad que al seleccionar un habitantes este tenga una edad inferior a los 60 años? Suponer que en una fábrica se producen 5000 artículos eléctricos. 200 de ellos son defectuosos. ¿Cuál es la probabilidad de que al seleccionar un artículo de esa fábrica, el artículo no sea defectuoso?. Suponer que en una fábrica de productos lácteos el 15% de los artículos tienen fecha de vencimiento fuera de lo normal. ¿Cuál es la probabilidad de que al seleccionar un artículo lácteo de esta fábrica tenga fecha de vencimiento fuera de lo normal? Suponer que un vendedor de seguros ofrece este servicio a 5000 personas de las cuales el 20% de ellas adquiere el seguro. ¿Cuál es la probabilidad de que al seleccionar una de estas personas halla comprado el seguro? Cuál es la probabilidad de que al lanzar un dado:

− Aparezca el número 3 − Aparezca un número par − Aparezca un número múltiplo de 7 • Suponer que en un grupo de 60 estudiantes, 20 de ellos obtuvieron una nota de matemática sobresaliente, 30 bueno y los demás insuficiente.

− ¿Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota Sobresaliente?. − Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota insuficiente?. − Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota sobresaliente o bueno?. − Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota sobresaliente, buena o insuficiente?

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

10

Determinar o estimar, la probabilidad de los siguientes sucesos:

− Una tirada de un dado resulte impar. − Al menos una cara en dos tiradas de una moneda. − Un as, el 10 de diamantes o el 2 de picas aparezca al sacar una sola carta de una baraja francesa de 52 naipes. − La suma de dos dados sea 7. • De una baraja de 52 naipes, mezclados al azar, se sacan dos naipes. Hallar la probabilidad de que ambos sean ases si el primer naipe extraído:

− Se devuelve a la baraja. − Si no se devuelve. • − − − − − − − − − − • • • Clasificar las siguientes variables aleatorias como continuas o discretas: Un banco no sabe con exactitud cuantos clientes llegarán un día determinado. El peso de las cajas de tomate. El número de accidentes que ocurren en una semana. El tiempo de duración de una conversación telefónica. Número de años que deben transcurrir para que una empresa logre que sus acciones valgan seis millones de pesos. El número de autos que entran a un parqueadero. El tiempo que gastamos en ir de la casa al trabajo. El número de clientes esperando servicio en la caja de un supermercado. Las ventas semanales de una almacén. El número de robos ocurridos en un almacén en determinado período de tiempo. Si se llama X a la variable aleatoria que indica el número de hijos varones en una familia de 3 hijos, ¿cuáles son los posibles valores que toma esta variable? Sea X la suma de puntos obtenida al lanzar dos dados. Determinar los posibles valores que puede tomar la variable. El supermercado COOTRUP ha reunido los siguientes datos sobre las ventas semanales de neveras:
Xj Cantidad de neveras vendidas 0 1 2 3 4 P (Xj) 0.20 0.30 0.30 0.115 0.05

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

11

¿Cuántas neveras espera vender en la próxima semana? • En los concursos para la obtención de contratos, es usual que los contratistas se sometan a concurso sí sus expectativas, teniendo en cuenta el tipo de proyecto y al resto de participantes, les indican que sus ganancias estarán por encima de cierta cantidad. Suponer que un contratista considera un proyecto en el cual ganará 50 millones de pesos si le es otorgado. El costo de preparación del proyecto, si lo somete a concurso, es de 5 millones de pesos y el propio contratista piensa que la probabilidad de que gane el concurso es 0.4. Finalmente, el contratista ha decidido concursar sí su ganancia esperada es de por lo menos 12 millones de pesos. ¿Debe someterse a concurso para este proyecto? • Un fabricante de llantas para automóviles ha conservado registros sobre la calidad de su producto y tiene la siguiente tabla sobre el número de defectuosos encontrados en 100 llantas examinadas: Número de defectos 0 1 2 3 4 5 − − • Construir la función de probabilidad. Calcular e interpretar el valor esperado. Un vendedor de automóviles tiene la oportunidad de trabajar con el comerciante A o con el comerciante B. El vendedor evalúa los prospectos de venta de cada comerciante de automóviles de la siguiente manera: Comerciante A X 0 1 2 3 P (x) 0.4 0.3 0.2 0.1 Comerciante B X 0 1 2 3 P (x) 0.2 0.6 0.2 0.0 Número de llantas 60 22 8 5 3 2

¿Esperaría vender más automóviles con el vendedor A que con el B?

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

12

Una firma aseguradora ha determinado por experiencias, en un período largo de tiempo, que la probabilidad de que ocurra un robo en una casa asegurada contra este delito, es de 0,02. Si se tiene una póliza de seguros por $10'000.000 y si X es la ganancia financiera anual para la compañía de seguros como resultado de la venta de la póliza y sea C la prima anual desconocida. Calcular el valor de C de manera que la ganancia esperada E (X), sea igual a cero. Entonces C es la prima necesaria para cubrir los gastos. A esta cifra la compañía añadirá los costos administrativos y las utilidades.

• •

En un juego de moneda, entre dos personas, con un premio de $1000 por aparición de cara. ¿Cuál es la esperanza de ganar con el resultado de cara? En un negocio aventurado, una señora puede ganar $3.000.000 con probabilidad de 0.6, o perder 1.000.000 con probabilidad de 0.4. Hallar su esperanza matemática. Si llueve, un vendedor de paraguas gana $30.000 al día y si no llueve pierde $6000 al día. ¿Cuál es su esperanza matemática si la probabilidad de lluvia es 0.3?

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

13

UNIDAD 2: Distribución de Probabilidades
Núcleos Temáticos y Problemáticos
• • • • • • Distribución Normal Inferencia Estadística Tamaño de la Muestra Teoría de la Decisión Estadística Principales Estadísticos de Prueba Tabla de Contingencia o Comparación de Colectivos

Proceso de Información
Las probabilidades asignadas a cada uno de los valores que puede tomar una variable aleatoria discreta X, se denominan distribuciones de probabilidad, si la suma de las probabilidades es igual a 1. Por ejemplo, considerar el evento de lanzar un dado. Entonces la variable aleatoria X = 1, 2,3, 4, 5, 6. Las probabilidades asignadas a cada valor de X son: P (1) = 1/6; P (2) = 1/6; P (3) = 1/6; P (4) = 1/6; P (5) = 1/6; P (6) = 1/6 Estas probabilidades forman una distribución de probabilidad, puesto que P (1) + P (2) + P (3) + P (4) + P (5) + P (6) = 1 Si X es una variable aleatoria discreta las principales distribuciones son: • • • Bernoulli Binomial Poisson

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

14

Si X es una variable aleatoria continua las principales distribuciones son: • • • • Uniforme Normal T - student Chi - cuadrado

Cada una de ellas tiene su comportamiento característico y será objeto de estudio posteriormente. 2.1 DISTRIBUCIÓN NORMAL

Muchas distribuciones de mediciones que se hacen tanto en las ciencias sociales como en las ciencias naturales, tienden a tener un polígono de frecuencias con una forma que se asemeja al corte transversal de una campana. Esta distribución se observa más cuando el número de observaciones es grande y cuando en muchos casos las investigaciones se realizan con muestras de poblaciones grandes; en la mayoría de los casos las distribuciones tienden a aproximarse a la curva en forma de campana ya mencionada. El modelo de distribución de probabilidad para variables continuas más importante es esta, cuya función de densidad es: 1 F(x)= e-1/2 (x-µ)2/σ 2 σ√2π Donde µ es la media aritmética y σ es la desviación estándar cuya gráfica es la siguiente:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

15

La distribución normal juega un papel primordial en la Estadística. Sin exagerar se puede decir que es la más importante. Esto se debe a varias razones: • • • • Muchas variables que aparecen en experimentos prácticos están distribuidas normalmente. Otras variables están distribuidas aproximadamente a la normal. Ciertas distribuciones más complicadas se pueden aproximar por lo normal. Algunas variables que son básicas para justificar pruebas estadísticas están distribuidas normalmente.

El área total limitada por la curva y el eje X es uno (1); de aquí que el área bajo la curva entre dos puntos de X a < b, representa la probabilidad de que X se encuentre entre a y b, se denota: P {a < x < b}. En la tabla de área bajo la curva normal tipificada Z (que aparece al final como anexo), están las áreas o probabilidades correspondientes a las variables tipificadas. X-µ Una variable X se tipifica así: Z = σ

Ejemplo
• Los resultados de un examen de admisión en un colegio tienen una distribución normal con media 75 y desviación estándar 10. ¿Qué fracción de resultado quedan? ¿Superior a 90? ¿Inferior a 60? ¿Entre 70 y 90?

− − −

Solución
• Para aplicar la distribución normal a datos discretos es necesario tratar los datos como si fuesen continuos, así, un puntaje superior a 90 se considera 90.5. ¿Superior a 90? Es necesario tipificar la variable X = 90.5, por tanto:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

16

90.5 – 75 15.5 Z =  =  = 1.55 10 10

La proporción o fracción pedida corresponde al área sombreada y es igual a: 0.5 - 0.4394 = 0.0606 = 6%. 0.5 es el valor correspondiente a la mitad de la curva; 0.4394 es el valor tomado de la tabla, área bajo la curva. Lo que significa que el 6% de los aspirantes obtuvieron una nota superior a 90 en el examen de admisión. − ¿Inferior a 60?

59.5 - 7.5 - 15.5 Es necesario tipificar 59.5: z =  =  =1.55 10 10

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

17

La proporción o fracción pedida corresponde al área sombreada y es igual a 0.5 0.4394 = 0.0606 = 6%. 0.5 es el valor correspondiente a la mitad de la curva; 0.4394 es el valor tomado de la tabla, área bajo la curva. Lo que significa que el 6% de los aspirantes obtuvieron una nota inferior a 60 en el examen de admisión. − Entre 70 y 90

Se hace necesario tipificar los dos valores: 69.5 - 75 -5.5 Z1 = = = -0.55 10 10 El área que hay de 0 a - 0.55 es igual al área que hay de 0 a 0.55 puesto que la gráfica es simétrica con respecto al eje Y. En la tabla anexo corresponde a 0.2088. 90.5 - 75 15.5 Z2 = = = 1.55 = 0.4394 10 10

La proporción o fracción pedida corresponde al área sombreada y es igual a 0.2088 + 0.4394 = 0.6482 = 64.8%. Lo que quiere decir que el 64.8% de los aspirantes obtuvieron una nota entre 70 y 90 en el examen de admisión.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

18

2.2

INFERENCIA ESTADÍSTICA

En la mayor parte de los estudios estadísticos, los parámetros poblaciones son desconocidos y es necesario estimarlos mediante una muestra, ya que no es posible, o no es práctico (en función del tiempo o del costo), inspeccionar la totalidad de la población. Por tanto, el desarrollo de métodos para estimar el valor de los parámetros poblacionales con mayor precisión posible. El que produce artículos deportivos podría estar interesado en averiguar el promedio de unidades defectuosas por cada lote de 1000 artículos sin tener que inspeccionar todos y cada uno de ellos. El psicólogo que desea determinar el cociente medio de inteligencia de los estudiantes de una universidad tendrá que confiar en una información muestral. En tales casos hay que usar un estadístico, tal como la media aritmética, como estimador del parámetro poblacional. Si quiere conocerse el grado de dispersión de los artículos deportivos defectuosos en los diversos lotes, o la variabilidad de los cocientes de inteligencia, entonces será necesario estimar también este parámetro a partir de los datos muéstrales. Las variables aleatorias utilizadas para estimar los parámetros poblacionales reciben el nombre de estimadores en tanto que los valores específicos de estas variables se llaman estimaciones de los parámetros poblacional. Así, las variables aleatorias Xy S2, son estimadores de los parámetros poblacionales µ1 σ 2 . Un valor específico de X, tal como X = 280, es una estimación de µ . Un valor específico de S2 = 18,2 es una estimación de σ2. Donde: • • • • X significa media aritmética muestral. µ significa media aritmética de la población. S desviación estándar muestral. σ desviación estándar de la población.

La estimación se puede realizar de dos formas: estimación puntual y estimación por intervalos. 2.2.1 Estimación Puntual

Es en donde queremos determinar un valor numérico que nos sirva como aproximación.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

19

Ejemplo: la estimación puntual del puntaje promedio de las pruebas de ICFES obtenido por los estudiantes de cierto colegio de Pamplona en el último año fue de 280, lo que significa que nuestra mejor estimación de la media poblacional es 280. 2.2.2 Estimación por Intervalo

Es en donde no nos interesa saber un valor fijo sino solamente calcular dos valores, dentro de los cuales podemos asegurar con una probabilidad dada, que está el valor verdadero de nuestro parámetro. Ejemplo: con un 95% de seguridad el puntaje promedio de las pruebas ICFES en Pamplona está entre 260 y 300 puntos. Para construir los intervalos de estimación se requiere conocer la distribución de la cual proviene la muestra y el margen de error o seguridad que se desee. Las estimaciones por intervalos indican la exactitud de una estima, y por tanto, son proferidas a las estimas puntuales. 2.2.3 Intervalos de Confianza

En las estimaciones por intervalo no nos interesa calcular un valor fijo para el parámetro desconocido, sino más bien buscamos dos valores a y b de los cuales podemos afirmar con un determinado grado de seguridad que el valor verdadero del parámetro desconocido está contenido. Es decir, buscamos los valores a y b tal que con un margen de seguridad, tenemos la probabilidad de que el parámetro se encuentre en ese intervalo. Si la distribución muestral es aproximadamente normal, el estadístico X (media de la muestra), los límites de confianza del 95% y 99% para la estimación de la media poblacional m., vienen dados por: σ σ X ± 1.96  yx ± 2.58  respectivamente. √n √n

σ En forma general, los límites de confianza son dados por: x ± Zc  √n Donde Zc depende del nivel de confianza que en cada caso se desee y puede obtenerse de la siguiente tabla:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

20

Nivel de confianza Z< 2.2.4

99% 2.58

95% 1.96

90% 1.645

80% 1.28

50% 0.6745

Estimas Insesgadas

Un estadístico es insesgado si su esperanza es igual al correspondiente parámetro poblacional. Así, X yS2 son insesgados porque E{x} = µ y E{s2}=σ2. • • La media muestral X es una estima insesgada de la media poblacional µ La desviación estándar muestral dividida por n - 1 es una estima insesgada de la desviación estándar poblacional σ.

Ejemplo
En una muestra de cinco medidas, un científico anotó 6.33, 6.37, 6.36, 6.32 y 6.37 cm. Determinar estimaciones insesgadas con respecto a la varianza. Solución: la estimación sin sesgo de la varianza o sea, de la población es N ∑ (X - X)2 S2 =  S2 =  N-1 N-1 S2 =
(6.33 – 6.35)2 + (6.37 – 6.35)2 + (6.36 – 6.35)2 + (6.32 – 6.35)2 + (6.37 – 6.35)2 5–1 S2 = 0.00055 cm2

2.3

TAMAÑO DE LA MUESTRA

Uno de los principales problemas que se debe resolver antes de efectuar un trabajo de investigación que requiere recolección de información muestral es la determinación del tamaño de la muestra. Dado que el muestreo es costoso y requiere de tiempo, el objetivo al seleccionar una muestra es obtener una cantidad especifica de información a un costo mínimo. Esto se puede llevar a cabo estableciendo un margen de error de estimación (que mide la cantidad de información) y posteriormente aplicando la fórmula apropiada para la estimación del tamaño de la muestra.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

21

Cuando la población es uniforme, una muestra pequeña produce la misma cantidad de información que una muestra grande; por lo tanto un médico puede basar su diagnóstico en el análisis de una sola gota de sangre del paciente; seleccionar una muestra en estos casos es un desperdicio de tiempo y dinero. Por otro lado, si la población consiste en elementos muy diferentes entre si, una muestra pequeña puede ser un reflejo muy deficiente de las características de la población. En un estudio para estimar la estatura promedio de los estudiantes de sexo masculino de una determinada universidad, una muestra pequeña de n = 3 estudiantes, puede por azar consistir únicamente en miembros del equipo de Basketboll. Una muestra aleatoria de n = 100 estudiantes proporciona una cobertura mucho más amplia y por lo tanto, mayor información sobre las estaturas de los estudiantes de sexo masculino. Las decisiones sobre el tamaño de la muestra se toman de acuerdo a la variabilidad inherente en la población de mediciones y a la exactitud que se requiere del estimador. A mayor variabilidad de la población, mayor es el tamaño de la muestra que se requiere para mantener un determinado grado de exactitud en la estimación. Según los criterios expuestos, el tamaño de la muestra se puede obtener aplicando la siguiente fórmula: Mzc2P(1 - P) n =  ME2+Zc2P(1 - P) Donde: n = Tamaño de la muestra. M = Tamaño de la población. Zc = Valor crítico para la distribución normal según margen de error. P = Valor de la probabilidad de variabilidad de la población. Se toma 0.5 como máxima variabilidad. E = Margen de error

Ejemplo
• Un profesor de Educación Física del Colegio Provincial de Pamplona, desea conocer el peso promedio de los estudiantes matriculados durante 2001 en ese plantel. Según informes de la coordinación hay 1800 alumnos matriculados,

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

22

dado que no dispone del tiempo suficiente para pesar a todos los alumnos, decide seleccionar una muestra aleatoria por estratos (grados académicos) con un margen de error del 5% y 95% de confiabilidad. El tamaño de la muestra en este caso será: 1800(1.96)2 - (0.5)(0.5) n =  = 316 1800(0.05)2 +(1.96)2(0.5)(0.5) M = 1800, tamaño de la población. Zc = 1 .96, corresponde al valor crítico para un 5% de error (95% de seguridad). P = 0.5 se ha considerado la máxima probabilidad de variabilidad para la población. E = 0.05 corresponde al margen de error 5%. • Se desea realizar una investigación para conocer los problemas que se vienen presentando en los colegios y escuelas de Cúcuta con relación a la falta de motivación para la práctica de la lectura. Según las estadísticas de la Secretaría de Educación hay 120.500 alumnos matriculados en los niveles de primaria y secundaria, con un margen de error del 5%, la muestra que se seleccione al azar debe tener un tamaño de: 120500(1.96)2 – (0.5)(0.5) n =  = 383 120500(0.05)2 + (1.96)2 (0.5)(0.5) 2.4 TEORÍA DE LA DECISIÓN ESTADÍSTICA

Muy a menudo, en la práctica, se tienen que tomar decisiones sobre poblaciones, partiendo de la información muestral de las mismas. Tales decisiones se llaman decisiones estadísticas. Por ejemplo se puede querer decir a partir de los datos de un muestreo, si un fertilizante es mejor que otro, si el nuevo sistema de evaluación es mejor que el antiguo, si una vacuna es efectiva, si el índice de desempleo de este año superó el del año pasado, etc.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

23

Para llegar a tomar decisiones, conviene hacer determinados supuestos o conjeturas acerca de las poblaciones que se estudian. Tales supuestos que pueden ser o no ciertos se llaman hipótesis estadísticas. 2.4.1 Hipótesis Estadística

Una hipótesis estadística es una suposición que se hace acerca de la distribución de una variable aleatoria. Por ejemplo, que cierta distribución tiene una media aritmética de 20,3. 2.4.2 Hipótesis Nula

Es la hipótesis de trabajo o hipótesis a aprobar. Se denota por Ho. Se construye artificialmente para que el investigador evalúe su hipótesis de investigación. 2.4.3 Hipótesis Alternativa

Cualquier hipótesis que difiera de una hipótesis dada se llama hipótesis alternativa; por ejemplo si la hipótesis de trabajo Ho es que el tiempo promedio de recorrido en una competencia es de 4 horas; las hipótesis alternativas son que el tiempo promedio de recorrido es diferente de 4 horas. Ho: µ = 4 horas H1: µ ≠ 4 horas 2.4.4 Prueba de Hipótesis

El razonamiento que se emplea en la prueba de una hipótesis es muy semejante al que se emplea en un proceso judicial. Al juzgar a un individuo por robo, la corte supone que el acusado es inocente mientras no se pruebe su culpabilidad. El fiscal debe obtener y presentar todas las evidencias disponibles en un intento por contradecir la hipótesis de “no – culpabilidad”. Lo que se conoce en la inferencia estadística como pruebas de hipótesis consiste en verificar, por medio de una prueba, la validez de una determinada proposición. En un problema estadístico el procedimiento a seguir en una prueba de hipótesis es el siguiente: • • Formular la hipótesis nula Ho. Formular la hipótesis alternativa H1, de tal manera que el rechazo de la hipótesis nula implique la aceptación de la alternativa.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

24

Se escoge convenientemente un estadístico de prueba. Esto quiere decir, elegir con base en una muestra (si no lo hay es necesario efectuarlo), un estimador sobre el cual estamos efectuando la prueba, de tal manera que conozcamos su distribución. Se elige un margen de error. Este margen se denomina comúnmente el nivel de significación y se denota por α. Se determina la región de aceptación y la de rechazo. Estas regiones se determinan de acuerdo al estadístico de prueba utilizado y al margen de error elegido. Se toma una decisión. Si como resultado de la realización de un experimento se obtiene un valor contenido en la región de rechazo, se rechaza la hipótesis nula, en cuyo caso se acepta H1: si se obtiene un valor contenido en la región de aceptación, se acepta la hipótesis nula.

• •

Desde el punto de vista del estadístico, el problema que se presenta en una prueba de hipótesis es determinar cuál estadístico utilizar. Para seleccionar el estadístico de prueba se debe tener en cuenta la hipótesis nula, los datos conocidos de la población y de la muestra y el tamaño de la muestra. 2.5 ESTADÍSTICOS DE PRUEBA

Los principales estadísticos de prueba son: • • • • La La La La distribución distribución distribución distribución normal t - student X2 (chi cuadrado.) F - Fisher

Ejemplo
Suponer que sé desea realizar un trabajo para experimentar una nueva metodología de la enseñanza en el español en 5o. de primaria. Para tal fin se seleccionaron dos colegios uno experimental y otro de control. Los resultados obtenidos en una prueba, después de realizar las actividades previstas fueron las siguientes:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

25

Grupo de Control

28 75 38 75 72

35 52 45 26 51

46 24

76 37

24 46

54 75

Grupo Experimental 48 26 36 39 47 49 54 80

¿Es significativa la diferencia de los puntajes en los dos grupos?

Solución
• En este caso la hipótesis nula o hipótesis de trabajo es la de que los puntajes promedios son iguales en los dos casos: Ho = µ A = µβ • La hipótesis alternativa H1 es que los puntajes promedios son diferentes: H1 = µA ≠ µβ • − − − Para seleccionar el estadístico de prueba apropiado se examinan los datos que se conocen así: Tamaño de la muestra de cada grupo. Media aritmética de cada muestra. Desviación estándar de cada muestra. Con base en los datos conocidos se selecciona un estadístico de prueba. En este caso es la distribución t - student que da un valor específico. • • • Elegir un margen de error por ejemplo el 5%. Con base en los anteriores datos se determina la región de aceptación o de rechazo. Si el valor queda en la región de rechazo no se acepta que el promedio de puntajes en los dos grupos es igual, por lo tanto es que el promedio de puntajes es diferente.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

26

Decisión: con un 95% de seguridad puedo afirmar que hay diferencia significativa entre los puntajes de los dos grupos. En algunos casos especiales se pueden utilizar los siguientes estadísticos de prueba:

Caso 1
• • • • La distribución de la población es normal. La hipótesis nula es de la forma Ho: µ = K, significa que el valor de la media poblacional es K. Se conoce σ (desviación de la población). Se tiene una muestra de tamaño n, se utiliza como estadístico de prueba la distribución normal. √n (x - µ) Z = con n - 1 grados de libertad σ

Caso 2
• • • •

La distribución de la población es normal. La hipótesis nula es de la forma Ho: µ = K, significa que el valor de la media poblacional es K. No se conoce σ, se conoce S (desviación de la muestra). Se tiene una muestra de tamaño n, se utiliza como estadístico de prueba la distribución t – student. √n(x - µ) t =  con n - 1 grados de libertad S

Caso 3
• • •

La distribución de la poblacional es normal. La hipótesis nula es de la forma Ho: σ2 = S2, significa que no hay cambio de variabilidad en la población y la muestra. Se tiene una muestra de tamaño n, se utiliza como estadístico de prueba la distribución “chi cuadrado”. (n - 1) S2 X2 =  con n – 1 grados de libertad σ

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

27

Caso 4, Comparación de medias aritméticas
• • • •

Se tienen dos poblaciones A y B las cuales se distribuyen normalmente. Se extraen muestras de A y B de tamaño nA y nB respectivamente. La hipótesis nula es de la forma Ho: µA = µB Se conoce σA y σB Se utiliza como estadístico de prueba la distribución normal. (xA - XB) - (µA - µB) Z =  √σA2/nA + σB2/nB

Caso5, Comparación de Medias Aritméticas
Lo mismo que el caso anterior pero no se conoce σA y σB: Parte 1. Si nA y nB son suficientemente grandes. En Estadística esta afirmación se utiliza para muestras de tamaño mayor o igual a 30. nA y nB ≥ 30 Se utiliza como estadístico de prueba la distribución normal: (XA - XB) – (µA - µB) Z =  √SA2/nB + SB2/nB Parte 2: Si nA y nB < 30 Se utiliza come estadístico de prueba la distribución t – student:

Con nA + nB – 2 grados de libertad

Caso 6: Inferencia Relativa a Dos varianzas
• • • • Se tienen dos muestras con distribución normal. Se conocen las desviaciones standar de las dos muestras SA y SB. La hipótesis nula es de la forma Ho: σA2 = sB2. Se utiliza como estadístico de prueba la distribución F - Fisher
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

28

SA 2 F =  SB2

Ejemplo
• En una investigación tendiente a comprobar la lectura como medio de ocio utilizado por los estudiantes de Pamplona se tomaron unas muestras y se obtuvieron los siguientes resultados:

n = 60 X = 30% = 18 σ = 21 Probar la hipótesis de que en promedio, el número de estudiantes de Pamplona que utilizan la lectura como medio de ocio es del 40%. Tomar un margen de error del 5%. Siguiendo los pasos mencionados anteriormente tenemos: Ho = µ = 24 α = 5% (margen de error) Según los datos conocidos utilizamos la distribución normal.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

29

Como -2.2 queda ubicado en la región de rechazo no se acepta la hipótesis nula. Decisión: con un 95% de seguridad no se puede afirmar que el 40% de los estudiantes utilizan la lectura como medio de ocio. • Para comprobar la efectividad de un programa contra la drogadicción se realizó un trabajo para verificar los efectos de drogas alucinantes sobre el grado de criminalidad y se obtuvieron los siguientes resultados:

A = Usar droga B = No usar droga XA = 31 XB = 26 SA = 5 SB = 8 NA = 36 NB =70 Comprobar la hipótesis de que en promedio, el número de delitos es igual en ambas poblaciones. Utilizar un margen de error del 1%. Solución Ho: µA = µB como nA y nB ≥ 30 utilizamos Z.

El valor critico para un 1% de error es + 2.58.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

30

Decisión: como 2.18 queda en la región de aceptación, se acepta la hipótesis nula. Por lo tanto con un 99% de seguridad podemos afirmar que no influye la utilización de droga en el grado de criminalidad. 2.6 TABLA DE CONTINGENCIA O COMPARACIÓN DE COLECTIVOS

Los colectivos a comparar pueden ser subgrupos de una misma población comunidades, un mismo grupo en dos o más puntos del tiempo, etc. Existen múltiples procedimientos para hacer comparaciones y éstas se pueden representar en cuadros que resultan de cruce de variables llamados Tabla de Contingencia.

Ejemplo
• El siguiente cuadro resume la información obtenida por el Rector de un Colegio, sobre el nivel de escolaridad y el sexo de los padres de familia: NIVEL DE ESCOLARIDAD Analfabetos Básica incompleta Básica completa Media incompleta Media completa Universidad incompleta Universidad completa • HOMBRES 3 22 33 18 15 12 6 MUJERES 5 24 37 30 20 10 2

El siguiente cuadro presenta el porcentaje de niños, jóvenes, adultos y el grado de motivación que presentaron en la realización de una actividad musical: Motivación Alto Medio Bajo TOTAL Niños 56% 28% 16% 100% Jóvenes 65% 31% 4% 100% Adultos 26% 38% 36% 100%

2.6.1

Análisis de Tablas de Contingencia

El análisis de tablas de contingencia es un procedimiento general para investigar la homogeneidad de poblaciones cualitativas. En síntesis, el método consiste en
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

31

comparar las frecuencias observadas para cada atributo dentro de cada clase con las esperadas por un modelo que suponga homogeneidad en todas las clases o categorías. Una media de la discrepancia entre las frecuencias observadas y esperadas es suministrada por el estadístico X2 (léase chi - cuadrado) dado por: ∑(oi - ei)2 X2 =  ei Donde: oi = Frecuencia observada ei = Frecuencia esperada

Si X2= 0 las frecuencias observadas teóricas concuerdan exactamente; mientras que si X2 > 0 no coinciden exactamente, a valores mayores de X2, mayores son las discrepancias entre las frecuencias observadas y esperadas. 2.6.2 Ensayos de Significación

La hipótesis nula Ho corresponde a que no hay discrepancia entre las frecuencias observadas y esperadas. Se toman como grados de libertad. V = (h - 1) (k - 1) donde h corresponde al número de filas y k al número de columnas.

Ejemplo
La siguiente tabla muestra el número de alumnos que aprobaron las asignaturas A y B. Mediante un nivel de significación del 5%, ensayar la hipótesis de que no hay diferencia entre los resultados. Asignatura A Asignatura B TOTAL APROBARON 72 64 136 NO 17 23 40

h=2 K=2 v = (2 – 1) (2 - 1) = 1 (grados de libertad).

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

32

Las frecuencias esperadas para los alumnos que APROBARON serán: 136/2 = 68; las frecuencias esperadas para los alumnos que NO APROBARON serán: 40/2=20. (72 - 68)2 (64 - 68)2 (17 - 20)2 (23 - 20)2 x2 =  +  +  +  = 1.37 68 68 20 20 Con un nivel de significación del 5% y un grado de libertad no se puede rechazar la hipótesis.

Conclusión: con un 95% de confianza no hay discrepancia entre los resultados de los que aprobaron y los que no aprobaron con relación a las asignaturas A y B.

Proceso de Comprensión y Análisis
• − En un examen final de matemáticas la media fue de 72 y la desviación típica fue de 15. Determinar las referencias tipificadas (es decir, graduaciones en unidades de desviación típica) de los estudiantes que obtuvieron puntuaciones de: 60, 93 y de 72. Hallar las puntuaciones correspondientes a las referencias tipificadas -1 y 1.6. Hallar el área bajo la curva en cada uno de los siguientes casos: Entre Z = O y Z = 1.2 Entre Z = -0.68 y Z = 0 Entre Z = -0.46 y Z = 2.21 En un examen de estadística, la media fue de 78 y la desviación típica 10. Determinar las puntuaciones estándar de dos estudiantes que obtuvieron 62 puntos.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

− • − − − • −

Probabilidad Estadística

33

− •

Hallar las puntuaciones de dos estudiantes cuyas puntuaciones estándar fueron -0.6 y 1.2. Una prueba estandarizada de comprensión de lectura se realiza entre 10000 estudiantes de secundaria. Se observa que las calificaciones están normalmente distribuidas con unas medidas de 500 y una desviación estándar de 60. Si se considera una calificación menor que 440 como indicadora de una grave deficiencia en la lectura, aproximadamente ¿cuántos estudiantes están catalogados como seriamente deficientes en comprensión de lectura? Se midió la estatura de 1000 niñas y se encontró que estaban normalmente distribuidas con una media de 1.62 m y una desviación estándar de 5.08 cm. ¿Aproximadamente cuántas niñas miden más de 1.73 m de altura? ¿Aproximadamente cuántas niñas tienen entre 1.52 y 1.62 m de estatura? ¿Cuántas están entre 1.57 y 1.67 de estatura? El peso de 500 estudiantes varones de cierta universidad es de 151 lb y la desviación típica es 15 lb. Suponiendo que los pesos están normalmente distribuidos, hallar cuántos estudiantes pesan: Entre 120 y 125 lb Más de 185 lb Menos de 128 lb 128 lb No más de 128 lb Un programa de capacitación ha sido diseñado con el ánimo de mejorar la habilidad de los operarios de una línea de producción. El programa es autoaplicable y por esto los operarios requieren diferentes números de horas para terminarlo. Un estudio de participantes anteriores revela que el tiempo promedio dedicado al programa es de 500 horas y que el tiempo se distribuye normalmente con una desviación estándar de 1000 horas. Cuál es la probabilidad de que un participante elegido de forma aleatoria tarde más de 500 horas en terminar el programa Cuál es la probabilidad de que un participante gaste entre 500 y 650 horas en terminar el programa Cuál es la probabilidad de que un participante gaste menos de 580 horas en terminar el programa.

• − − − •

− − − − − •

− − −

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

34

La vida útil de cierto tipo de calentador eléctrico tiene una distribución aproximadamente normal, con media de 3.1 y desviación estándar de 1.2 años. Si este tipo de calentador tiene garantía de un año, ¿que porcentajes de calentadores necesitarán ser reemplazados? Las ventas diarias (de lunes a viernes) en un restaurante pequeño, tienen una distribución normal, con una media de $53000 por día y una desviación estándar de $1200. ¿Cuál es la probabilidad que las ventas excedan de $70000 en un día dado? ¿El restaurante necesita ventas diarias de por lo menos $30000 para cubrir los gastos. ¿Cuál es la probabilidad de que, en un día dado el establecimiento no cubra los gastos? Se ha comprobado que el tiempo necesario para atender a un contribuyente en una oficina de recaudación de impuestos está normalmente distribuido, con una media de 15 minutos y una desviación estándar de 5 minutos. Cuál es la probabilidad de que un cliente seleccionado aleatoriamente: Dure de 10 a 25 minutos. Tarde más de 20 minutos en la ventanilla. ¿Cuál es el tiempo mínimo que tardan el 10% de los clientes más demorados? Plantear un tema de trabajo y: Seleccionar la población Cuantificarla Seleccionar una muestra representativa Suponer un margen de error ¿Qué tamaño debe tener la muestra 7? Qué método de muestreo va a utilizar?. ¿Por qué? El muestreo por cuotas es una técnica de uso común en encuestas de opinión pública. Al usar esta técnica, el entrevistador selecciona, de acuerdo con su criterio un número determinado de individuos (cuota) de cada uno de varios sectores de la población. Por ejemplo, se le puede pedir que entreviste a 10 mecánicos, 36 amas de casa o 7 abogados. ¿Bajo qué condiciones el muestreo por cuotas proporciona una muestra aleatoria?

− −

− − − • − − − − − − •

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

35

En una Universidad, los estudiantes se oponen al nuevo régimen tributario. Se hizo esta declaración con base en una encuesta para la cual se escogieron al azar y se entrevistaron 86 estudiantes. El 52% de los entrevistados declararon que se oponían a la reforma tributaria. A partir de esta información, obtener un intervalo de confianza del 95% para la proporción real de estudiantes que se oponen a la reforma tributaria. Una prueba de Matemática aplicada a 9 estudiantes arrojó los siguientes puntajes: 67 54 46 78 70 95 45 97 56

Encontrar un intervalo de confianza del 95% para la media real de los puntajes. • Se desea estimar el puntaje promedio de los alumnos de un grupo escolar. Se pretende que el error de estimación sea menor de 5 puntos con una probabilidad del 95%. Se sabe que el rango de los puntajes es de 84. ¿Cuál debe ser el tamaño de la muestra? La entidad encargada de la protección infantil reunió información con respecto al número de niños abandonados que se pueden encontrar probablemente en una determinada ciudad los doce meses del año. Los resultados fueron los siguientes: 16 5 21 19 10 5 8 2 7 2 4 9

Estimar el verdadero promedio de niños abandonados con un nivel de confianza del 90%. • Según los datos suministrados por el Ministerio de Justicia y la Dirección General de Prevención y conciliación, en 1996 se registraron por ciudades los siguientes números de lesiones personales: Medellín Bogotá Cali Cúcuta Pereira Manizales Valledupar Leticia 1866 4685 1765 392 1739 1018 480 177 Barranquilla Bucaramanga Santa marta Popayán Pasto Arauca San Andrés Quibdo 1961 1152 394 540 683 415 91 673

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

36

Estimar el promedio de lesiones personales con un nivel de confianza del 95%. • Suponer que las alturas de 100 estudiantes varones de la Universidad XYZ representan una muestra aleatoria de las estaturas de los 1546 estudiantes de esa Universidad. Determinar estimaciones sin sesgo con respecto de la varianza. Las mediciones de una muestra de masas dieron 8.3, 10.6, 9.7, 8.8, 10,2 y 9.4 kg respectivamente. Determinar estimaciones sin sesgo de la varianza de la población. El tiempo promedio empleado para la repartición de 240 camiones de una empresa es de por lo menos 80 minutos, en base a una muestra sin reemplazamiento de 40 camiones encontramos: ∑X = 2800 y una desviación de 11. X: tiempo empleado en la repartición. ¿Con un nivel de significancia del 5% se podrá rechazar la hipótesis planteada inicialmente? El jefe de personal de una gran corporación esta contratando un gran número de empleados para un trabajo en el extranjero. Durante la realización de pruebas la gerencia pregunta como marchan las cosas y el jefe de personal contesta “bien, creo que la puntuación promedio en el test de aptitudes será 90”. Cuando la gerencia revisa 20 de los resultados de la prueba, averigua que la puntuación media es 84 y la desviación estándar de esta puntuación es 11; si la gerencia quiere probar la hipótesis del jefe de personal en el nivel de significancia de 10%, ¿cuál será el procedimiento al que recurra? Una muestra de 25 observaciones tiene una media de 42 y una desviación estándar de 8. Trabajando con un nivel de significancia del 1%. ¿Existe razón para rechazar la hipótesis de que la media de la población es de 46? Un fabricante de cigarrillos, analiza el tabaco de dos marcas diferentes, para determinar el contenido de nicotina y obtiene los siguientes resultados en miligramos: MARCA A: 24 MARCA B: 27 26 28 25 25 22 29 23 26

¿Los resultados anteriores, señalan que existe una diferencia en el contenido medio de nicotina en ambas marcas? • Los salarios diarios de una industria están distribuidos normalmente con una media de $132000 y una desviación estándar de $25000. Si una empresa de

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

37

dicha industria, que cuenta con 4 obreros paga en promedio $122000 ¿puede acusarse a esta compañía de pagar salarios inferiores al nivel de significancia del 1%? • Un fabricante de ciertas piezas de proyectiles, sostiene que en condiciones normales de reparación, tienen una duración media µ = 320 horas. Probar esta afirmación frente a la alternativa µ ≠ 320, si 16 piezas duran un promedio de 308 horas, con una desviación de 29 horas. Utilizar un nivel de significancia del 5%. Una compañía esta evaluando el promover a sus empleados, es decir está determinando la proporción de aquellos cuya habilidad, preparación y experiencia en la supervisión los califica para un ascenso a niveles superiores. El director de talento humano le dice al presidente que el 80% de los empleados son promovibles. El presidente crea un comité especial para evaluar esta situación. El comité realiza entrevistas en profundidad con 150 empleados y en su juicio se da cuenta que sólo el 70% de la muestra llena los requisitos de promoción. El presidente quiere probar, en un nivel de significancia de 0.05 la afirmación del director de talento humano. • Al jefe de personal se le pide determinar si los sueldos por hora de trabajadores semiclasificados son iguales en dos ciudades. Se extraen muestras aleatorias simples de los sueldos por hora que se pagan en ambas localidades. Los resultados de la encuesta son: Ciudad 1 Ciudad 2 X1 = 6.95 X2 = 7.10 S1 = 0.40 S2 = 0.60 n1 = 200 n2 = 175

La compañía quiere probar la hipótesis con un nivel del 5% de que no existe diferencia entre los sueldos por hora que ganan los trabajadores en las dos ciudades. • Una compañía ha estado investigando dos programas educativos tendientes a acrecentar el mejor trato de sus gerentes ante las necesidades de sus empleados. El programa original estaba compuesto de varias sesiones de pregunta y respuesta informal con algunos trabajadores. En los últimos años, se introdujo un programa formal con psicólogos profesionales. El nuevo programa es mucho más caro y el presidente de la compañía quiere saber con un nivel de significación del 5% si ese gasto ha mejorado el trato de los gerentes.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

38

Los datos arrojados con dos muestras son: Programa Formal Programa Informal • n1 = 12 n2 = 15 x1 = 92 x2 = 84 S1 = 15 S2 = 19

En una muestra de 400 amas de casa, el 20% indicó preferencia por la marca A de una margarina. Con posterioridad a una compañía de radio y televisión, se seleccionó una nueva muestra de amas de casa, del mismo tamaño y clase social. En esta muestra el 22% indicó preferencia por la marca A. De acuerdo con estos resultados y a un nivel del 5% ¿podría rechazarse la hipótesis de que la compañía fue inefectiva? La siguiente tabla presenta la relación entre las notas de los estudiantes de 5o grado del Colegio de la Presentación de Bucaramanga en Matemática y Lenguaje. Ensayar la hipótesis de que las notas de lenguaje son independientes de las obtenidas en Matemática, mediante el nivel de significación del 5% y del 1 %. MATEMÁTICAS NOTAS ALTAS NOTAS MEDIAS NOTAS BAJAS 56 71 12 47 463 38 14 42 85

NOTAS ALTAS NOTAS MEDIAS NOTAS BAJAS •

Suponer que se desea investigar los efectos combinados que el nivel de stress y la dificultad del examen, causan en el rendimiento, en una tarea de solución de problemas. Para tal fin se seleccionaron cinco sujetos en cada grupo y los resultados sobre rendimiento son los siguientes: TENSIÓN MODERADA INTENSA 20 23 20 22 19 21 19 20 17 19 22 18 21 16 20 15 19 14 18 12

T A R E A

SENCILLA

DIFICIL

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

39

• − − − − − − − •

Cuál es el promedio de puntaje del grupo: De tensión moderada De tensión intensa De tarea sencilla De tarea difícil De tensión moderada y tarea difícil De tarea sencilla y tensión intensa Total Verificar si:

− Existe o no diferencia significativa entre el rendimiento de los sujetos en condiciones de tensión moderada y los de tensión intensa. − Hay una diferencia significativa en el rendimiento de los sujetos a quienes se les asigna un problema sencillo y los que reciben uno difícil. − Las dos variables (tensión y dificultad del problema) ejercen o no un efecto combinado sobre el rendimiento. • Analizar:

− ¿Entre los cuatro grupos cuál es más homogéneo? − ¿Al considerar la variable tarea, cuál grupo tiene menor variación? − Existe diferencia significativa entre los datos observados y los datos esperados? • Los siguientes datos corresponden al puntaje obtenido por 10 estudiantes, de un Colegio de Bucaramanga, en pruebas estandarizadas para medir habilidad matemática y habilidad en el lenguaje: ALUMNOS 1 2 3 4 5 6 7 8 9 10 HABILIDAD MATEMÁTICA 25 22 59 35 93 17 98 21 77 25 HABILIDAD EN LENGUAJE 40 71 79 48 61 30 88 49 45 62

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

40

Distribuirlos en la siguiente tabla de contingencia: • • Alta habilidad (Puntaje mayor de 50) Baja Habilidad (Puntaje menor o igual a 50)
M A T E M Á T I C A S

LENGUAJE HABILIDAD ALTA BAJA ALTA BAJA

Probar la hipótesis de que no existe discrepancia entre habilidades de Matemática y de Lenguaje.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

41

UNIDAD 3: Regresión y Correlación
Núcleos Temáticos y Problemáticos
• • • • • Diagramas de Dispersión Análisis de Regresión Método de Mínimos Cuadrados Correlación Coeficiente de Correlación

Proceso de Información
Hasta el momento se ha tratado con experimentos aleatorios que incluyen solo una variable. Ahora se tratará con experimentos aleatorios que incluyen dos o más variables. Un problema de estimación que es particularmente importante en casi todo campo de estudio es el de pronosticar o predecir el valor de una variable de algún proceso, a partir de los valores conocidos de otras variables que estén relacionadas. 3.1 DIAGRAMA DE DISPERSIÓN

Es la representación gráfica sobre un plano cartesiano de los puntos correspondientes al valor de dos variables.

Ejemplo
Suponer que los siguientes datos corresponden a la edad y peso de ocho niños: Edad en años Peso en Kilos 12 34 10 30 8 28 6 24 4 20 10 32 9 33 6 25

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

42

Con el diagrama de dispersión es posible frecuentemente representar una línea recta o curva que aproxime a los datos. Tal curva se llama curva de aproximación. Si los datos se aproximan bien a una línea recta se dice que entre las variables existe una relación lineal; si se aproximan a una curva se dice que existe una relación no lineal. La relación o dependencia de estas variables de la muestra se conoce con el nombre de análisis de regresión. 3.2 ANÁLISIS DE REGRESIÓN

Basándonos en los datos muéstrales, se puede estimar el valor de una variable correspondiente a un valor dado de una variable X. Esto se puede conseguir estimando el valor de la variable y de la recta o curva que se ajusta a los datos muéstrales. Existen varios métodos de ajuste, uno de los más utilizados es el de mínimos cuadrados. La recta o curva resultante se denomina recta de Regresión o Curva de Regresión.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

43

Ejemplo
Con base en los datos obtenidos en un muestreo con niños sobre estatura y peso, se puede construir la recta de regresión tal que, conociendo la estatura del niño se estime su peso. Con base en una muestra, donde se relaciona la edad y la presión sanguínea se puede construir una recta de regresión; de tal forma que conociendo la edad de una persona se estime el valor de su presión sanguínea. La recta de regresión tiene la ecuación de la siguiente forma: Y = mx + b Donde m es la pendiente o inclinación de la línea recta. Si m > O la recta en su gráfica está inclinada hacia la derecha. Si m < O la recta en su gráfica está inclinada hacia la izquierda. Para encontrar la ecuación de la recta de regresión se aplica un procedimiento especial y muy sencillo de realizar. Si la variable independiente x es el tiempo, los datos muestran los valores de la otra variable en diferentes tiempos. Los ordenados en relación con el tiempo se denominan “series de tiempo”. La recta o curva de regresión se denomina recta o curva de tendencia y se utiliza constantemente para fines de estimación, predicción o pronóstico.

Ejemplo
Con base en los datos de los últimos 10 años, del número de alumnos que participan en las actividades deportivas de un determinado colegio, se puede predecir el número de alumnos que participarán el próximo año en dichas actividades deportivas. 3.3 MÉTODO DE MÍNIMOS CUADRADOS

Una forma de aproximar los datos de un diagrama de dispersión a una recta o curva es por medio del método de mínimos cuadrados.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

44

3.3.1

Recta de Mínimos Cuadrados

Cuando los puntos del diagrama de dispersión tienden a estar alrededor de una línea, se dice que existe correlación lineal y la recta de aproximación por el Método de mínimos cuadrados se obtiene al reemplazar en la siguiente fórmula: ∑xy  ∑x2

Y= Donde x=X–x y=Y–Y

x

Esta recta se conoce como recta de regresión.

Ejemplo
Suponer que los siguientes datos corresponden al número de preguntas contestadas correctamente por 8 alumnos en dos pruebas de aptitud verbal; encontrar la recta de regresión Y sobre X, si un alumno obtiene 5 puntos en la primera prueba, ¿cuánto se espera obtener en la segunda prueba? Puntuación Primera Prueba (x) X Y 1 1 3 2 4 4 6 4 8 5 9 7 11 8 14 9 X=7 Y=5 Puntuación Segunda Prueba (y) x=X-x y=Y-Y -6 -4 -4 -3 -3 -1 -1 1 1 0 2 2 4 3 7 4

xy 24 12 3 1 0 4 12 28 ∑ = 84

x2 36 16 9 1 1 4 16 49 ∑ = 132

y2 16 9 1 1 0 4 9 16 ∑ = 56

∑xy Y =  x ∑x2

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

45

Y= Y Y Y Y

84  132

X

– 5 = 0.63 (X - 7) – 5 = 0.63X - 4.41 = 0.63X + 5 - 4.41 = 0.63X + 0.59

Por lo tanto si un alumno obtiene 5 puntos en la primera prueba (X) se espera que en la segunda obtenga: Y = 0.63 (5) + 0.59 Y = 3.15 + 059 +3.74 Y=4 3.4 CORRELACIÓN

La correlación mide el grado de relación entre las variables. Cuando se trata de dos variables, se habla de correlación simple y regresión simple. Cuando existen más de dos variables se habla de correlación múltiple y regresión múltiple. 3.4.1 Correlación Lineal

Si todos los puntos de un diagrama de dispersión parecen encontrarse cerca de una recta la correlación se llama lineal. En tal caso, los pronósticos o estimativos se dan con base a una recta de regresión. La correlación lineal puede ser positiva o negativa. 3.4.2 Correlación Positiva

Una variable tiende a incrementarse cuando se incrementa la otra. Por ejemplo la edad y la presión sanguínea. A esta correlación se le llama también correlación directa.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

46

3.4.3

Correlación Negativa

Una variable tiende a incrementarse cuando se disminuye la otra. Por ejemplo la temperatura y la altura sobre el nivel del mar. Esta correlación se llama también correlación inversa. 3.4.4 Correlación no Lineal

Si todos los puntos del diagrama de dispersión parecen estar cerca de alguna curva la correlación se denomina no lineal. Si no existe ninguna relación entre las variables, se dice que no hay correlación entre ellas, es decir, no están correlacionadas. 3.5 COEFICIENTE DE CORRELACIÓN

Con frecuencia se requiere de un indicador o medida de la fuerza con la que dos variables se encuentran linealmente relacionadas, de modo que el indicador no dependa de las escalas en las que cada una de las variables se hallan medido. Un tal indicador o medida se conoce como una medida de correlación lineal. La más usada en estadística es el llamado coeficiente de correlación de Pearson. Ésta cantidad se denota por r. Para encontrar su valor se aplica una fórmula específica. Si r toma un valor positivo se dice que existe correlación lineal directa; a medida que r se aproxime a 1 es mayor la relación directa entre las dos variables. Si r toma un valor negativo se dice que existe correlación lineal inversa; a medida que r se aproxime a -1 es mayor la relación inversa entre las dos variables. Si r = 0 implica ausencia de correlación lineal. Este coeficiente de correlación se puede aplica a datos que estén agrupados en tablas de contingencia, aplicando la fórmula específica. Una forma de encontrar él valor del coeficiente de correlación lineal r entre dos variables es aplicando la siguiente fórmula: ∑xy r =  √(∑x2)(∑y2)

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

47

Donde

x = X - xy y = Y - Y

Ejemplo
El coeficiente de correlación de los puntajes obtenidos en las dos pruebas del ejemplo anterior es: 84 r =  = 0.977 √132*56 Esto muestra que hay una correlación lineal positiva entre las variables muy alta, es decir que al aumentar el puntaje en la primera prueba también aumenta el puntaje en la segunda prueba.

Proceso de Comprensión y Análisis
• La compañía Hermanos Luna, cree que sus ingresos anuales (variable y) dependen de sus gastos (variable x) en publicidad. Para comprobarlo, analiza la información registrada en los últimos seis años. Gastos en publicidad e ingresos en millones de pesos. Gastos e Ingresos de la Compañía Hermanos Luna Año 1997 1998 1999 2000 2001 2002 − − − − Gastos (x) 2 3 5 4 11 5 Ingresos (y) 20 25 34 30 40 31

Graficar en un diagrama de dispersión la información conocida. Estimar la ecuación de la recta para ver la dependencia o independencia de la información. Predecir los ingresos, si los gastos de publicidad van a ser de 7 millones Obtener el error estándar del estimado para verificar la confianza en su modelo de regresión.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

48

El jefe de personal de una planta de ensamblaje de utensilios, establece una relación entre la edad del trabajador (x) y su ausentismo (y). Para esto recogió la información de una muestra de 10 empleados tomados al azar entre todas las hojas de vida de los empleados.
Edad Días de Ausencia (x) (y)

42 2

27 7

36 5

25 9

22 10

39 4

57 4

119 33 8 6

30 5 el

Empleando un modelo de regresión lineal, se desea predecir comportamiento de los empleados en cuanto a la edad y al ausentismo. •

El departamento de publicidad de la compañía T&T, desea saber si existe una relación entre las ventas y el número de comerciales de televisión transmitidos por día para una muestra de siete ciudades. Ventas en Cientos de Unidades Comerciales Trasmitidos por Día y x 8.4 11 5.2 6 7.1 8 10 9 12.9 12 11.5 15 14.4 14

− − •

Estimar las ventas en función del numero de comerciales por medio de la ecuación de la recta y el error estándar del estimado. Calcular el estimado en ventas para 11 comerciales. Un equipo de investigadores de la UMATA han estudiado la relación entre la cosecha de maíz y la temperatura promedio durante la etapa de crecimiento; las medidas durante varios años produjeron los siguientes resultados: X Temp. en grados Y Bultos por Ha 19 66 23 74 25 72 24 76 26 78 21 72

Estimar los bultos por hectárea en función de la temperatura, predecir el número de bultos de maíz por hectárea para una temperatura de 20 grados y el error estándar del estimado.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

49

Un analista de una compañía vendedora de libros estudió la relación entre gastos de viajes en miles de pesos para 102 vendedores y la duración de estos viajes en días, para obtener los siguientes resultados: Total de duración Total de gastos Producto de gastos por días Suma de cuadrados de gastos Suma de cuadrados de duración 510 días 7.140 Miles de pesos 54.900 740.200 4.150

− − •

Con base en la información anterior calcular un modelo lineal para estimar los gastos en función de la duración. Obtener el error estándar del estimado. Con base en las normas de servicio, se obtuvo la información referente al área en metros cuadrados (Y) y al número de turistas alojados (X) en ocho establecimientos. Los datos se presentan en miles: l X1 Y1 1 15 59 2 10 45 3 11 48 4 13 52 5 18 54 6 9 41 7 14 58 8 16 61

− − − •

Estimar el área contenida en función del número de turistas alojados. Estimar el espacio para un total de 18 turistas. Establecer el error de estimación. La empresa Todo a Mil, maneja una cadena de 100 almacenes; con el objeto de medir la eficiencia de las tiendas, se hizo un estudio acerca del volumen de ventas mensuales (Y) en función del número de empleados (X). Se obtuvieron los siguientes resultados: ∑X = 600 ∑Y = 1.600 ∑X2 = 5.200 ∑XY = 13.600 ∑Y2 = 37.700

− − − •

Establecer un modelo lineal. Estimar las ventas para un almacén con tres empleados. Calcular el error estándar del estimado. Las estadísticas de la Secretaría de Educación del Departamento Norte de Santander, registraron durante el año 2002 los siguientes datos relacionados con el número de alumnos matriculados en Primaria, en Colegios oficiales.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

50

Años 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 − − − − •

Alumnos 125.543 203.569 287.569 256.890 356.983 387.127 403.005 398.127 417.345 482.106

Construir el diagrama de dispersión de los anteriores datos. Encontrar el valor de la recta de regresión de mínimos cuadrados. ¿Cuál es el valor del coeficiente de correlación y que significado tiene? Con base a los anteriores datos estimar el número de alumnos que se matricularán en el 2007. Suponer que los siguientes datos corresponden al número de alumnos que reprobaron el Grado Sexto en el Colegio CEMUP de la ciudad de Pamplona durante los últimos seis años. AÑOS 1996 1997 1998 1999 2000 2001 2002 NÚMERO DE REPROBADOS 12 13 7 10 7 4 5

− − − − •

Construir el diagrama de dispersión. Encontrar el valor de la recta de regresión de mínimos cuadrados. Calcular el valor del coeficiente de correlación e interpretar el resultado. Estimar el número de alumnos que reprobarán en el año 2004. La siguiente tabla presenta las notas en Álgebra y Física de 10 estudiantes elegidos al azar entre un grupo muy numeroso:

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

51

Álgebra (X) 75 80 93 65 87 71 − − − − −

Física (Y) 82 78 86 72 91 80

Representar los datos. Hallar una recta de mínimos cuadrados que ajuste los datos usando X como variable independiente. Hallar una recta de mínimos cuadrados que ajuste los datos usando Y como variable independiente. ¿Si un estudiante tiene 75 en álgebra, cuál es su nota esperada en física? ¿Si un estudiante tiene 95 en física, cuál es su nota esperada en álgebra?

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

52

ANEXO: Tablas

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

53

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

Probabilidad Estadística

54

BIBLIOGRAFÍA GENERAL
BERNAL V. Miguel. Estadística Descriptiva: J. Elaboración y Presentación de Datos Universidad de Pamplona, 1987. GALLARDO, Yolanda. Pamplona. 1997. Estadística: Programa de Sicología Universidad de

MARTÍNEZ BENCARDINO, Ciro. Estadística Comercial. Bogotá: Norma, 1981. MORENO GARZÓN, Adonay. Serie aprender a investigar: información. Cali: ICFES, 1995. Recolección de la

PARZEN, Emmanuel. Teoría Moderna de Probabilidades y sus Aplicaciones México: LIMUSA, 1991. PEÑA SÁNCHEZ, Damel. Estadística Modelos y Métodos I. Fundamentos. Madrid: Alianza editorial, 1986. PORTUS GOVINDEN. Lincoyán. Curso Práctico de Estadística. Bogotá: McGRAW - Hill, 1986. SPIEGEL Murria R. Estadística. Madrid: McGraw Hill, 1993.

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->