Está en la página 1de 43

UNIVERSIDAD PRIVADA SAN JUAN BAUTISTA

FACULTAD DE CIENCIAS DE LA SALUD


ESCUELA PROFESIONAL DE ENFERMERÍA

GUIA DE PRACTICA

ESTADÍSTICA Y
DEMOGRAFIA EN
SALUD

2020-2
GUÍA PRÁCTICA – Nº 1

I. EN CADA UNO DE LOS SIGUIENTES PROBLEMAS, IDENTIFICAR LOS ELEMENTOS

INDICADOS:

1. Se desea hacer un estudio acerca del tiempo que los alumnos de la UCV usan internet. Para tal efecto

se eligió en forma aleatoria a un grupo de 58 estudiantes correspondientes a las diferentes especialidades

de la Carrera Profesional de Administración a quienes se les preguntó cuántas horas usaron Internet

durante la semana anterior a la entrevista, el estudio se realizó en agosto 2016.

Población : ..............Alumnos de la UCV .....................


Muestra : .................representativa...............................................
Unidad análisis : ........Carrera Profesional de Administración....................................
Variable(s) : ...............Cuantitativa discreta .........................

2. Se desea hacer un estudio en setiembre 2016 acerca de la efectividad de los técnicos de una gran tienda

de computadoras con tal motivo se han registrado el número de computadoras reparadas durante el

transcurso de cinco años por un grupo de 35 técnicos seleccionados al azar.

Población : ........................Tecnicos de computadoras .........................................


Muestra : ......................representativa...........................
Unidad análisis : .....numero de computadoras reparadas ..........................................
Variable(s) : .........cuantitativa discreta .....................................................................

3. Interesa realizar un estudio acerca de la cantidad de clientes por día que visitan una tienda que vende

computadoras. Para tal efecto se ha tomado una muestra al azar durante el semestre pasado (20 días).

Población : ..........................clientes ...................................................................


Muestra : ..................representativa ...............................................................
Unidad análisis : ....clientes que visitan la tienda de computadoras......................
Variable(s) : ......................cuantitativa discreta .................................

4. La Municipalidad de Independencia, desea estimar el promedio de residuos sólidos diario que genera

una vivienda en el distrito, este indicador será muy importante en el Sistema de Costos que tiene

implementado y poder establecer un tarifa adecuada en el servicio de recojo de basura. La municipalidad

ha encargado este trabajo a una consultora, y esta ha creído conveniente seleccionar al azar 80 viviendas

de diferentes sectores del distrito y durante 5 días personal especializado pesará la basura recolectada.

Población : ...........Viviendas del distrito de Independencia ...............


Muestra : ..................representativa..........................................
Unidad análisis : .......................servicio de recojo de basura ................
Variable(s) : ..................cuantitativa discreta ........................

5. “MILKA” fabricante de productos lácteos, cuenta actualmente con 1200 trabajadores. Para la aplicación

efectiva de una filosofía de administración para la calidad total (TQM) en toda la compañía e

incrementar así la productividad, el consejo de directores de la empresa ha puesto en marcha un estudio


del perfil de los trabajadores para medir su satisfacción con el trabajo, parte del estudio considera tomar

una encuesta a una muestra de 250 trabajadores, el cuestionario considera una serie de preguntas en la

que considera variables.

Población : .............................1200 trabajadores.............................


Muestra : .........................................................
Unidad análisis : ...............medir su satisfacción con el trabajo ....................
Variable(s) : .....................cualitativa..................................................

6. El Director de la IEP San Juan Bautista está interesado en averiguar si los estudiantes con altos

coeficientes de inteligencia son los que tienen los mejores rendimientos académicos. Encarga el estudio

a un equipo de investigadores, los cuales deciden seleccionar una muestra aleatoria de alumnos para

aplicar un test que les permita determinar el coeficiente de inteligencia de los estudiantes para que sean

relacionados con el rendimiento académico. El rendimiento académico es observado a través de las

notas en los cursos de Lógico Matemática y Comunicación.

Población : ....................Estudiantes de la IEP San Juan Bautista........


Muestra : .........................representativa..................................
Unidad análisis : ..........................nivel académico..............................
Variable(s) : .....................................cualitativa....................................

7. Un investigador realiza un diagnóstico de la situación actual del pandillaje con los factores que influyen

en el distrito de los olivos, según fuentes de la municipalidad del distrito se sabe que en esta población

el 43% de los jóvenes tienen padres separados. El investigador decide trabajar con 1500 jóvenes para el

estudio. Al final de la investigación encontró que el tipo de familia, el nivel socioeconómico y el

consumo de drogas influyen que el joven sea pandillero.

Población : .......................Distrito de los Olivos...........................................


Muestra : ..1500 jovenes del distrito de los olivos ....................................
Unidad análisis : ..............................un joven del distrito de los olivos ............
Variable(s) : .............cualitativa .....................................................................
Parámetro(s) : ...43% de los jóvenes que tienen padres separados ........................
Estadístico(s) : ............................................................................................

8. Se evaluó la calidad del llenado de los certificados de defunción que se extienden en el Hospital

Nacional “Almanzor Aguinaga Ausejo” de Chiclayo. Se estudió una muestra de 287 certificados

emitidos entre julio y septiembre del 2013, calificándolos como buenos, regulares, malos y pésimos.

Sólo 33,8% tuvieron un buen llenado, 44,6% fueron malos y 21.6% pésimos. Los servicios de cuidados

intensivos (61,2%) y medicina interna (41,4%) tuvieron mayor porcentaje de certificados buenos,

mientras que los de pésima calidad fueron emitidos con mayor frecuencia en los servicios de pediatría
y neonatología (88,9%), cirugía y afines (55,6%), especialidades médicas (50,0%) y emergencia

(42,5%).

Población : ..................Hospital nacional Almanzor Aguinaga Ausejo (Chiclayo).


Muestra : ...............................representativa..............................
Unidad análisis : ..............................llenado de certificados de defuncion.....
Variable(s) : ...................................cualitativas ........................
Parámetro(s) : ....................................287 certificados emitidos entre julio y setiembre ...........
Estadístico(s) : .............................................................................................

II. Clasifique adecuadamente las siguientes variables estadísticas:

VARIABLE TIPO DE VARIABLE SEGÚN SU


NATURALEZA
Gastos en publicidad V.CONTINUA
Rubro de la empresa V. CUALITATIVA
Precio de un producto V. CONTINUA
Escuela a la que pertenece el estudiante V.CUALITATIVA
Material del que está hecho una casa V.CUALITATIVA
Especialidad de un Ingeniero V.CUALITATIVA
Producción diaria de leche (Litros) V. CUANTITATIVA DISCRETA
Tiempo de uso de la maquinaria de una empresa. V.CUANTITATIVA CONTINUA
Número de anuncios emitidos en un intermedio V. CUANTITATIVA DISCRETA
publicitario en una cadena de TV.
Pulsaciones por minuto de una mecanógrafa. V.CUANTITATIVA CONTINUA
Peso de los terneros de una granja. V.CUANTITATIVA DISCRETA
Nivel cultural de los habitantes de una población. V. CUALITATIVA
Remuneración de los trabajadores de la empresa V.CUANTITATIVA CONTINUA
Goldex

III. Asocie con cada concepto de la derecha aquella afirmación de la izquierda que corresponda, asignando la

letra mayúscula:

A. Población ____ Variable cuantitativa discreta


B. Marca de tablet ____ Recolección información
C. Grado de instrucción ____ Parámetro
D. Presión sanguínea ____ Variable cualitativa ordinal
E. Etapa método estadístico ____ Estadística inferencial
F. Número de estudiantes por aula ____ Dicotómica
G. Unidad de análisis ____ Variable cuantitativa continua
H. Rama de la estadística ____ Estadístico
I. Género ____ Variable cualitativa nominal
J. Muestra ____ Un estudiante de la UCV
GUÍA PRÁCTICA – Nº 2

PIRAMIDE POBLACIONAL

CREACIÓN DE LA HOJA DE DATOS

1. Abre una nueva hoja de cálculo Excel para introducir los datos.
2. Escribe en la primera fila el título de la tabla de Datos: España 2001.
3. Introduce los grupos de edad en la primera columna:
• En la cabecera de la columna escribe: Edad
• A continuación escribe los grupos de Edad: 0-4, 5-9, ..., 90 y más
• Al final de la columna escribe: Total

4. En las siguientes columnas escribe los datos, en el siguiente orden: Hombres, Mujeres.
Nota: Los datos de que aparezcan en la columna izquierda de la pirámide (Hombres)
deben ser representados con números negativos. Simplemente inserta el signo - antes de
cada valor o crea una nueva columna y multiplica la población masculina por –1.

5. Ya que estas trabajando con grandes poblaciones, debes ajustar la escala de la figura,
expresando los datos en miles. Puedes hacer esto dividiendo cada celda de datos por
1.000.

6. También puedes transformar los datos de los distintos grupos de edades


en porcentaje respecto a la población total. En una nueva columna divide el valor del
grupo de edad entre el total de la población.

CREACIÓN DEL GRÁFICO


1. Selecciona todos los datos -excepto el título y la fila Total- haciendo clic con el ratón
y arrastrando a lo largo de los datos de la tabla (A3:C22).

2. Haz clic en el botón Asistente para gráficos.

• Paso 1. Elige Tipo de gráfico: Barras, y selecciona el subtipo Barra agrupada.


Pulsa el botón Siguiente.
• Paso2. Verás la pirámide. Deja los datos como están y pulsa Siguiente.
• Paso3. Escribe el título de tu gráfico (p.e., Ayacucho 2015). Deja los otros
cuadros en blanco, y pulsa el botón Siguiente.
• Paso 4. Selecciona el botón En una hoja nueva (llama a esta hoja como desees)
y pulsa el botón Finalizar.

3. Ya tienes tu pirámide. Es hora de mejorar su apariencia:

• Arreglar las barras. Haz doble clic en una de las barras del gráfico. En el cuadro
de diálogo Formato de la serie de datos, selecciona la pestaña Opciones.
Configura Superposición a 100 y pulsa Ancho del rango a 0 y pulsa el botón
OK. No cambies nada más. Las barras del gráfico deben aparecer juntas, sin
agujeros.
• Arreglar el eje vertical (desplazar las etiquetas de edades hacia la izquierda).
Haz doble click en los datos del eje vertical. En el cuadro de diálogo Formato de
ejes, elige la pestaña Tramas y configura los botones de marca de
graduación a Ninguno y el botón de rótulos a Inferior.
• Arreglar el eje horizontal (eliminar los valores negativos del eje hombres). Haz
doble clic sobre los datos del eje horizontal. En la
pestaña Número selecciona Categoría: Personalizada y escribe en Tipo: 0;0.
• Aplica cualquier otro formato para mejorar la apariencia de la pirámide: colores
de las barras, tamaño y tipo de fuentes y títulos, eliminación de rejilla y fondo...
AYACUCHO 2015
GUIA PRACTICA Nº 3

DISTRIBUCION DE FRECUENCIAS DE UNA VARIABLE


CUALITATIVA

Frecuencia Porcentaje

CASI NUNCA 4 30,77

A VECES 3 23,08

CASI SIEMPRE 2 15,38

SIEMPRE 4 30,77

Total 13 100,0
DISTRIBUCIÓN DE FRECUENCIAS.

Después de recoger toda la información que necesitamos, es decir, al agotar todo el trabajo de
campo, existe un cúmulo de datos y cifras desordenadas los cuales, al ser tomados como
observaciones individuales, dicen muy poco sobre la población estudiada; es, entonces, tarea del
investigador “hacer hablar las cifras”, comenzando por la clasificación y ordenación,
consignando la información en tablas inteligibles que denominamos distribuciones de frecuencias
(Guarín, 2002).

“Una distribución de frecuencia es una tabla resumen en la que se disponen los datos divididos
en grupos ordenados numéricamente y que se denominan clases o categorías”. (Morales, 2012)

Según la forma en que se expresan las variables, tenemos:

• Variables cualitativas

• Variables cuantitativas discretas

• Variables cuantitativas continuas

En esta sesión presentaremos el caso para variables cualitativas.

DISTRIBUCIÓN DE FRECUENCIAS: VARIABLE CUALITATIVA

La estructura general de una tabla de distribución de frecuencias para datos de tipo cualitativo es
simple y será como sigue:

Tabla N°___

Titulo: ___________________________________________

NOMBRE Frecuencia Frecuencia Frecuencia


DE absoluta simple relativa simple porcentual simple
VARIABLE fi hi pi
Atributo 1 f1 h1= f1/ n p1 =(h1*100)%
Atributo 2 f2 h2= f2/ n p2 =(h2*100)%
. . . .
. . . .
Atributo k fk hk= fk/ n pk =(hk*100)%
Total n 1 100%

Fuente: _____________________________________

fi
Donde: hi =
n
pi = (hi *100 )%
k

 f
i =1
i
=n

h
i =1
i
=1

p
i =1
i
= 100 %

n: Tamaño de la muestra, es el número de observaciones.

fi: Frecuencia absoluta simple o simplemente frecuencia, es el número de veces que se


repite un atributo de la variable; así f1, es el número de veces que se repite el atributo 1, f2
el número de veces que se repite el atributo 2, etc.

hi: Frecuencia relativa simple; es el resultado de dividir c/u de las frecuencias absolutas
simples por el tamaño de la muestra.

pi: Frecuencia porcentual simple; se obtiene multiplicando cada frecuencia relativa simple
por 100%

REPRESENTACIONES GRÁFICAS:

A menudo es necesario presentar la información de manera gráfica a fin de entender con mayor
claridad el comportamiento de la información. La construcción de un gráfico estadístico son
similares a los gráficos de funciones, las variables independientes, se ubican en las abscisas y las
dependientes en las ordenadas. Entre las representaciones graficas más importantes tenemos:
• Gráfico de barras

• Gráfico Circular

Estos gráficos los podemos obtener utilizando la función gráficos del programa SPSS, tal como
se muestra en los siguientes esquemas:

a) GRÁFICO DE BARRAS
b) GRÁFICO CIRCULAR

Título: Distribución Porcentual de la muestra de alumnos según especialidad

Facultad a la que perte nece


Administración en Hoteleria y Turismo
Arquitectura
Artes Contemporáneas
Ciencias de la Salud
Ciencias Humanas
Comunicaciones
Derecho
Economía
Ingeniería
Negocios

Fuente. Encuesta - Mayo 2010

Fuente: Encuesta -Mayo 2010


Ejemplos:

1. Según la Asociación de lucha contra la Bulimia y la Anorexia - ALUBA, las pautas culturales
han determinado que la delgadez sea sinónimo de éxito social. Muchos jóvenes luchan para
conseguir el “físico ideal” motivados por modelos, artistas o por la publicidad comercial.
Durante el mes de Agosto del año 2016, en el colegio Carlos Cueto Fernandini del Distrito
de Los Olivos, después de las cortas vacaciones de Julio, se observó con precaución a 27
alumnos con síntomas de anorexia, registrándose los siguientes signos visibles:

Dieta Severa Miedo a Engordar Hiperactividad


Uso de Ropa Holgada Dieta Severa Uso de Laxantes
Miedo a Engordar Dieta Severa Uso de Ropa Holgada
Dieta Severa Uso de Ropa Holgada Dieta Severa
Dieta Severa Dieta Severa Uso de Ropa Holgada
Hiperactividad Uso de Laxantes Miedo a Engordar
Uso de Laxantes Dieta Severa Uso de Ropa Holgada
Uso de Laxantes Hiperactividad Uso de Laxantes
Uso de Ropa Holgada Hiperactividad Dieta Severa
a. Elaborar la tabla de distribución de frecuencias con sus partes y la interpretación
respectiva.

b. Construya un gráfico adecuado para resumir la información.

Respuesta:

a.- Tabla de Frecuencia

Tabla Nº 1. Tabla de frecuencias de alumnos con síntomas de Anorexia, según signos


visibles Colegio Carlos Cueto Fernandini del Distrito de Los Olivos, Agosto 2016

En el titulo debe contener el QUE, COMO, DONDE Y CUANDO


Frecuencia Frecuencia Frecuencia
Signo visible absoluta relativa porcentual
simple (fi) simple (h i) simple (pi)
Dieta severa 9 0.333 33.3%
Miedo a engordar 3 0.111 11.1%
Hiperactividad 4 0.148 14.8%
Uso de laxantes 5 0.185 18.5%
Uso de ropa holgada 6 0.222 22.2%
Total 27 1.000 100.0%
Fuente: Elaboración propia -HMQ

h2= f2/n p5= (h5*100)%


Interpretación: El signo visible que
h =se3/27
observa con mayor frecuencia
=0.111 es el de la dieta
p = (0.222*100)%=22.2%
2 5
severa, que representa el 33.3% de un total de los 27 alumnos observados.

b.- Grafico adecuado

Grafico 1
Gráfico de barras de alumnos con síntomas de Anorexia, según signos visibles
Colegio Carlos Cueto Fernandini del Distrito de Los Olivos, Agosto 2016

2. Se desea conocer la proporción de bebidas de mayor venta según sus marcas en


Hipermercado “Metro” de Los Olivos durante el mes de Febrero del 2017.
Inca Inca
Sprite Pepsi Fanta Pepsi Pepsi Sprite
Cola Cola
Inca Coca Coca
Inca Cola Fanta Sprite Pepsi Pepsi
Cola Cola Cola
Construya un cuadro de distribución de frecuencias y un gráfico adecuado:
Solución:
Frecuencia Frecuencia
Frecuencia relativa
Bebidas absoluta simple porcentual
simple (h i)
(fi) simple (pi)
Inca Cola 4 4/16 25.00%
Sprite 3 3/16 18.75%
Pepsi 5 5/16 31.25%
Coca Cola 2 2/16 12.50%
Fanta 2 2/16 12.50%
Total 16 16/16 100.00%
Entonces el cuadro de distribución de frecuencias quedaría de la siguiente manera:
Tabla Nº 2. Distribución de frecuencias de la venta de bebidas gaseosas, según marca
Hipermercado “Metro” del distrito de Los Olivos, Febrero 2017
Frecuencia Frecuencia
Frecuencia relativa
Bebidas absoluta simple porcentual
simple (h i)
(fi) simple (pi)
Inca Cola 4 0.2500 25.00%
Sprite 3 0.1875 18.75%
Pepsi 5 0.3125 31.25%
Coca Cola 2 0.1250 12.50%
Fanta 2 0.1250 12.50%
Total 16 1.0000 100.00%
Fuente: Hipermercado “Plaza Vea”

Gráfico 2: Distribución de las bebidas gaseosas las cuales fueron vendidas en


Hipermercado “Metro” del distrito de Los Olivos, Febrero 2017

3. Los siguientes datos corresponden a los alumnos de la sección C del cuarto de primaria del
IE 3053 del Distrito de los Olivos, 2016. Como observamos en la siguiente tabla.

Nº Nombre Genero(*) Nº Nombre Genero


1 Kiara 2 11 Ángelo 1
2 Bruno 1 12 Fabián 1
3 Giampiere 1 13 Maricielo 2
4 Thais 2 14 Dayana 2
5 Emerson 1 15 Pedro 1
6 Christian 1 16 Walter 1
7 Ivana 2 17 Maricielo 2
8 Antonella 2 18 Sebastián 1
9 Alexis 1 19 Rodrigo 1
Julio
10 1 20 Víctor 1
César
(*): 1 corresponde al género masculino y 2 al femenino.

Se pide elaborar la tabla de distribución de frecuencia de la variable Género.


Nº Genero fi hi pi
1 Masculino 13 13/20 65%
2 Femenino 7 7/20 35%
Total 20 1 100%
Entonces el cuadro de distribución de frecuencias quedaría de la siguiente manera:

Tabla 3 Distribuci{on de frecuencias de alumnos de la sección C de Educación Primaria,


según género
IE 3053 del Distrito de los Olivos, 2016
Nº Genero fi hi pi
1 Masculino 13 0.65 65%
2 Femenino 7 0.35 35%
Total 20 1 100%
Fuente: Dirección Académica del IE 3053 del Distrito de los Olivos
GUIA - Nº 4
MEDIDAS DE TENDENCIA CENTRAL
1. La siguiente tabla muestra los tiempos de reacción (en seg) de 250 perros sometidos
a anestésico inyectado. Calcule las medidas estadísticas que representen mejor esta
información e interprételas.

Tiempo reacción
Frecuencia
(seg.)
[120 – 170> 20
[170 - 220> 35
[220 – 270> 85
[270 – 320> 50
[320 – 370> 30
[370- 420> 20
[420 - 470] 10
Total 250

2. La tabla siguiente representa la distribución de frecuencias de las vidas medias de


400 ampolletas probadas en la Empresa “Lima Sur” de Chorrillos.

Vida Media (horas) N ampolletas


[300 – 399> 14
[400 – 499> 46
[500 – 599> 58
[600 – 699> 76
[700 – 799> 68
[800 – 899> 62
[900 – 999> 48
[1000 – 1099> 22
[1100 – 1199] 6

Determina
r:

a) Límite inferior de la quinta clase.

b) Marca de clase de la tercera clase.

c) La frecuencia de la cuarta clase.

d) Porcentaje de ampolletas cuya vida media es de al menos 500 horas, pero menos de
1000 horas.

e) Número de ampolletas cuya vida media es superior a 600 horas.


f) Calcule moda, media y mediana.

4. La siguiente información representa la distribución de los gastos semanales en


alimentación que realizaron un conjunto de familias de Santiago durante el año 2015.

Gastos en soles
Nº de familias

[150 – 250> 15

[250 – 350> 27

[350 – 450> 32

[450 – 550> 21

[550 – 650] 10

5. Se administra un antibiótico al ganado para combatir cierta enfermedad, el peso (en


gramos) del antibiótico depende del peso del animal, el cual debe ser medido con mucha
precisión, puesto que una sobredosis puede ser perjudicial para el animal. A continuación
se muestra la distribución de frecuencia del peso de las dosis.

Peso (gramos) fi

[15 – 20> 7

[20 – 25> 25

[25 – 30> 31

[30 – 35> 20

[35 – 40] 11

i.Calcular los estadígrafos de tendencia central. Interprete.

6. La siguiente tabla de frecuencias absolutas representa el número de facturas erradas por


cada uno de las 15 distribuidoras de una empresa durante un año.

Nº de errores 1 3 5 6 7 11
Frecuencia 2 1 3 5 3 1
absoluta

a) Calcular el número promedio de facturas erradas por distribuidoras.


b) ¿Cuál ha sido el número de facturas erradas más frecuente?

c) ¿Cuál es el número mediano de facturas erradas?


GUIA - Nº 5
MEDIDAS DE POSICIÓN

1. Se desea saber el tiempo de duración de llantas de una determinada


marca. Se selecciona una muestra y se registran los siguientes millajes,
la información que se da a continuación está en miles.

34 ; 36 ; 41 ; 56 ; 48 ; 45 ; 36 ; 39 ; 52 ; 53 ; 55 ; 58

35 ; 34 ; 39 ; 45 ; 43 ; 52 ; 50 ; 54 ; 58 ; 59 ; 49 ; 43

48 ; 49 ; 52 ; 56 ; 55 ; 53 ; 58 ; 54 ; 50 ; 51

a. Determine el promedio.

b. Determine la varianza del recorrido de las llantas.

2. Una distribuidora de llantas proporciona la siguiente información:

Tipo de llanta Número vendido Precio

F – 33 radial 300 $ 50

Tiempo radial 1 000 $ 43.5

Arriva radial 420 $ 45

Vector radial 560 $ 47

a. Calcular el valor promedio de ingreso por llanta.

b. Calcular la varianza y la desviación estándar.

c. Determinar el tipo de llanta que se vendió más


3. La siguiente información se refiere al número de hijos en2 distritos de
la provincia Constitucional del Callao.

Nro. de hijos Nro. De mujeres Nro. De mujeres

Distrito I Distrito II

1 7 9

2 10 15

3 30 25

4 15 12

5 5 8

a. Determine el promedio del número de hijos en ambos distritos.

b. Calcular la varianza del número de hijos en ambos distritos.

c. Determine el coeficiente de variación e intérprete los resultados.

4. Una compañía de producción de artículos de cómputo ha vendido


durante dos semanas como sigue:

Semana 1: 6 500 8 200 6500 3 300 4 950 5 150

Semana 2: 7 200 6 800 4 420 4 980 7 600 6 500

a. ¿Cuál fue la cantidad promedio vendida en la primera semana?

b. ¿Cuál fue la cantidad promedio vendida en la segunda semana?

c. ¿Cuál es la varianza en las 2 semanas?

d. ¿Cuál de las semanas ha obtenido mayor rendimiento?

e. ¿Cuál de las 2 semanas es más variable en las ventas?

5. Dada la distribución de frecuencias de la edad de los trabajadores de la empresa


Goldex calcular la varianza, desviación estándar y coeficiente de variación.
Edad fi

28 – 38 2

38 – 48 7

48 – 58 7

58 - 68 14

6. Los siguientes datos son los puntajes obtenidos por 50 estudiantes en un examen
de Estadística general, recogidos del registro de notas en Abril del 2014

33 35 35 39 41 41 42 45 47 48
50 52 53 54 55 55 57 59 60 60
61 64 65 65 65 66 66 66 67 68
69 71 73 73 74 74 76 77 77 78
80 81 84 85 85 88 89 91 94 97

Clasificar estos datos convenientemente en intervalos de clase, hacer


sus interpretaciones y construir los gráficos respectivos.

7. Se han tomado peso en kilogramos de 30 niños, del hospital Arzobispo Loayza en


Marzo del 2013 de los registros de ingreso obteniéndose.

24 25 35 34 23 25 21 25 26 22
30 22 26 21 21 34 31 25 25 27
23 32 28 34 23 31 24 26 21 22
Guía - Nº 6

Medidas de Posición
1) Se tienen los siguientes valores:
1 2 4 5 1 3 0 2 4 1 5 2 0 1 3
a) Calcular: Cuartil 1, Decil 7 y Percentil 80.

2) Los siguientes datos representan el valor de la hemoglobina (en g/100ml) de 10 niños que
recibieron tratamiento contra la anemia hemolítica.

9.1 10.0 11.4 12.4 9.8 8.3 9.9 9.1 7.5 6.7

a) Calcular: Cuartil 3, Decil 9 y Percentil 70.

3) Calcular el tercer cuartil, sexto decil y nonagésimo percentil de la distribución:

xi 50–100 100–150 150–200 200–250


fi 90 140 150 120

4) La siguiente tabla muestra el consumo diario de grasas (en gramos) de una muestra de 60
hombres adultos en un país en vías de desarrollo.

35 42 37 38 46 63 51 52 68 67 62 53
65 68 68 62 56 69 77 89 85 80 70 79
75 85 72 73 75 79 77 78 82 81 88 81
88 76 82 76 77 72 83 89 82 84 73 93
94 99 94 98 95 96 92 96 91 92 95 96

Calcular el Cuartil 3, Decil 6, y Percentil 65

5) A aquellos pacientes que sienten mejoría todos los días del tratamiento se les realiza un estudio
sobre el tiempo de reacción del medicamento (en minutos), encontrándose recogido los datos en
la siguiente tabla:

Tiempo de reacción Nº de pacientes


0-10 100
10-20 150
20-30 100
30-40 250
40-60 200

Calcular Q1, P90, D9 e intérprete


Guía - Nº 7

PROBABILIDADES

1) SUPONGAMOS QUE UNA FAMILIA TIENE CUATRO HIJOS.


a) Hallar la probabilidad de que exactamente dos sean varones. 6/16
b) ¿Cuál es la probabilidad de que exactamente dos sean varones si el nacido en primer lugar es
varón? 2/8
c) Hallar la probabilidad de que el último hijo nazca varón. 1/2
d) ¿Cuál es la probabilidad de que el último hijo nazca varón si los tres primeros son mujeres? ½

2) Un estudio indica que el 10% de la población de estados unidos tiene 65 o más años, y que el
1% de la población total padece insuficiencia cardiaca moderada. Además, el 10,4% de la
población tiene 65 o más años o padece insuficiencia cardiaca moderada.
Eligiendo a un individuo al azar:
a) Hallar la probabilidad de que el individuo tenga 65 o más años y padezca de insuficiencia
cardiaca moderada. 0,006
b) Utilizar la solución del apartado a) para organizar los datos en un diagrama de Venn.
c) Si un individuo tiene 65 o más. ¿Cuál es la probabilidad de que padezca de insuficiencia
cardiaca moderada? 0,0638
d) Si un individuo es menor de 65 años, ¿Cuál es la probabilidad de que padezca de insuficiencia
cardiaca moderada? 0,0044
Guía -Nº 8
INTERVALOS DE CONFIANZA Y TAMAÑO
MUESTRAL
1.2. INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL (  ) DE UNA

POBLACIÓN NORMAL CON 2 CONOCIDA


El intervalo de Confianza con Coeficiente de confianza  = 1 −  de la media poblacional  con
varianza poblacional  2
conocida es expresado como:
   
X − Z    X + Z entonces   X − Z ; X + Z
2 n 2 n 2 n 2 n
Dónde:
1 n
X =  X i es la media muestral
n i =1
Z  es el valor crítico de la distribución Normal Estándar correspondiente a una confianza del
2

100. % = 100(1 −  )% , es decir P Z  − Z  = ( 2


) 
2
Observación
n
Si la población es finita de tamaño N y  0.05 , entonces el Intervalo de confianza
N
correspondiente para la media poblacional  está dado por

 N −n  N −n
  X − Z . ; X + Z .
2 n N −1 2 n N −1

B) SI LA VARIANZA POBLACIONAL  ES DESCONOCIDA


2

CASO I. MUESTRAS GRANDES ( n  30 )


El intervalo de Confianza con Coeficiente de confianza  = 1 −  de la media poblacional 
con varianza poblacional  2
desconocida es expresado como:
s s
  X − Z ; X + Z
2 n 2 n
Donde:
n

2
X i2 − nX
i =1
s2 = es la Varianza Muestral
n−1
Observación
n
Si la población es finita de tamaño N y  0.05 , entonces el Intervalo de confianza
N
correspondiente para la media poblacional  está dado por
s N −n s N −n
  X − Z . ; X + Z .
2 n N −1 2 n N −1

CASO II. MUESTRAS PEQUEÑAS ( n  30 )


s s
X − t  n-1    X + t  n-1 .Entonces
2( ) n 2( ) n
s s
  X − t ; X + t  n-1
2 ( n-1) n 2( ) n
Dónde:
t n-1 es el valor crítico de la distribución t− Student con n−1 grados de libertad
2( )
correspondiente a un nivel de confianza del 100. % , es decir

P  T  − t n-1  =
 2 ( )  2
Observación
n
Si la población es finita de tamaño N y  0.05 , entonces el Intervalo de confianza para
N
la media poblacional  cuando la varianza poblacional es desconocida, está dado por:

s N −n s N −n
  X − t . ; X + t  n-1 .
n N −1 2 ( n-1)
2( ) n N −1
1.3. INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN
POBLACIONAL
El intervalo de Confianza para la proporción poblacional está dado por:
ˆˆ
pq ˆˆ
pq
p  pˆ − Z  ; pˆ − Z  , donde qˆ = 1 − pˆ
2 n 2 n
n
 Xi
Dónde: ˆ=
p i =1 =
Número de éxitos en la muestra
n n
Observación
Cuando el muestreo es sin reemplazamiento de una población finita de tamaño N y
n
 0.05 , el Intervalo de confianza para la proporción poblacional es:
N
ˆ ˆ N −n
pq ˆˆ
pq N −n
p p ˆ − Z ; p ˆ + Z
2 n N −1 2 n N −1

2.1. TAMAÑO DE LA MUESTRA PARA LA ESTIMACIÓN DE UNA MEDIA


i) Si el muestreo es con reemplazo resuelva la ecuación d = Z  para despejar n
2 n
Z 2  2
n = 2

d2

ii) Si el muestreo es sin reemplazo se hace uso de la corrección por población finita y se
 N −n
debe resolver: d = Z  . para hallar n
2 n N −1

N . Z 2 . 2
n= 2

d 2 ( N − 1) + Z 2 . 2
2

2.1.1 ESTIMACION DE 2

i) Se extrae una muestra piloto o preliminar de la población y se calcula su


varianza. Luego se toma esta varianza como una estimación de  .
2

ii) También a partir de estudios anteriores o similares es posible obtener


estimaciones de 2
2.2. TAMAÑO DE LA MUESTRA PARA LA ESTIMACIÓN DE UNA
PROPORCION

El procedimiento para seleccionar el tamaño de muestra es:


i) Elija d el error máximo permisible y un coeficiente de confianza  = 1 − 

ii) Hallar el valor de Z  en la tabla estadística para la distribución normal


2

pq
iii) Si el muestreo es con reemplazo resuelva la ecuación d = Z  para despejar
2 n
n
Z 2 pq
n = 2

d2
iv) Si el muestreo es sin reemplazo se hace uso de la corrección por población finita y se
obtiene la fórmula:
N . Z 2 . pq
n= 2

d 2 ( N − 1) + Z 2 . pq
2

Donde:
N : Tamaño poblacional
p : Proporción estimada de característica principal de la variable en estudio
q : Proporción estimada de característica secundaria de la variable en estudio
d : Error máximo tolerable
Z 2 : Valor tabular correspondiente a la distribución normal estándar

considerando una confianza 100(1 −  )%


2.2.1 ESTIMACION DE p :
Si p se desconoce la solución para este problema puede ser de dos formas:
i) Una forma será tomar una muestra piloto y calcular una estimación para el valor
p.

ii) Otra forma seria igualar el valor p = 0, 5 solamente si es imposible obtener una
mejor estimación de p ya que la muestra puede ser mas grande de lo necesario.

EJEMPLO 1: Para determinar la estatura media de los varones adultos peruanos, se tomó una
muestra al azar de 10 de ellos en la que se obtuvo los valores:
162, 176, 169, 165, 171, 169, 172, 168, 167 y 175 cm.
a) Calcule una estimación puntual para la media poblacional µ
b) Determinar un intervalo de confianza para la estatura media de la población con una
confianza del 95%

Solución:

a) La estimación puntual para µ es : _____=_______

b) Como n=______ y es menor a 30 con ______ desconocida se aplicará la formula


s s
X − t  n-1    X + t  n-1 dónde:
2( ) n 2 ( ) n

 = ________ t n-1 = _________; X = ________; s2 = ________


2( )
s s
X − t n-1 =___________ ; X + t n-1 =_______________
2 ( ) n 2 ( ) n
Entonces el intervalo de confianza para   ________ ; _________
Interpretación: __________________________________________________________________

EJEMPLO2: En una muestra de 100 personas hay 60 alérgicas a la aspirina AA. Calcular un
Intervalo de confianza para la proporción poblacional con un nivel de: a) 95% b) 99%
Solución: El intervalo pedido es:

ˆˆ
pq ˆˆ
pq
p  pˆ − Z  ; pˆ − Z 
2 n 2 n

a) IC 95% :  = ______ Z  = _______; pˆ = ________; qˆ = ________ ; n=______


2

Entonces el intervalo de confianza para p  ________ ; _________


Interpretación: __________________________________________________________________
b) IC 99% :  = ______ Z  = _______
2

Entonces el intervalo de confianza para p  ________ ; _________


Interpretación: __________________________________________________________________

EJEMPLO 3:
Un médico desea conocer el valor medio de glucosa en la sangre en ayunas (mg/100ml) de
pacientes atendidos en una clínica para diabéticos durante el transcurso de los últimos 10 años.
Determine el número de registros que el médico debe examinar para obtener un intervalo de
confianza de 90% para µ si la dimensión requerida para el intervalo es de 6 unidades y una muestra
piloto presenta una varianza de 60.

Solución: Analizando el enunciado completar lo siguiente:


 = ________ Z 2 = _________;  2 = ________ ; d = _________

Z 2  2 ( )(
2
)
2

n = 2
= = ___________ ; Redondeando n =
d2 32
_________

EJEMPLO 4: El administrador de un hospital desea saber qué proporción de pacientes


dados de alta están inconformes con la atención recibida durante su hospitalización. Si
d=0.05, el coeficiente de confianza es de 90% y no se dispone de ninguna otra
información, a) ¿Qué tan grande debe ser la muestra? b) ¿Qué tamaño debe tener si el
valor de p es de aproximadamente 0.25?

Solución: Si se omite la corrección por población finita, completar para los casos:

a)  = ______  = ______ Z 2 = ________; p = ______ ; q = _______ y d = ________

Z 2 pq ( ) ( )( ) = ________
2

n = 2
= Redondeando, n es de:
d 2
( )
__________

b)  = ______  = ______ Z 2 = ________; p = ______ ; q = _______ y d = ________

Z 2 pq ( ) ( )( ) = _________
2

n = 2
= Redondeando, n es de:
d 2
( )
__________
ACTIVIDAD
1. En un hospital se desea hacer un estudio sobre los pesos de los recién nacidos. Por
estudios anteriores se sabe que media poblacional =3 kg y una desviación estándar
=0.25 Para comprobar si esto ocurre realmente se recogen los datos de 20 bebes
elegidos aleatoriamente y se tiene:

3.2 3.7 4.2 4.6 3.7 3.0 2.9 3.1 3.0 4.5
4.1 3.8 3.9 3.6 3.2 3.5 3.0 2.5 2.7 2.8

a) Hallar la Media y Varianza de los pesos: X = __________ S2=________

b) Calcule un intervalo de confianza del 95% para la media poblacional con la


muestra obtenida suponiendo que la varianza poblacional se desconoce.

c) Calcule el tamaño de muestra al 99% de confianza para estimar la media con un


error permisible de 0.4 kg. con varianza poblacional conocida.

2. Una muestra de 100 familias escogidas al azar de una población de 1000 familias reveló
el siguiente número de hijos por familias:

N° de hijos 0 1 2 3 4
N° familias 20 25 30 15 10

a) Calcule un intervalo de confianza del 95% para la proporción de familias que tienen
a los más un hijo ¿Se puede confiar que el 50% de todas las familias tiene a lo más
un hijo?
b) Calcule un intervalo de confianza del 95% para el número medio de hijos por familia
¿Es seguro que el número medio de hijos por familia sea uno?
3. Un equipo de investigación médica está seguro sobre un suero que han desarrollado el cual
curará cerca del 75% de los pacientes que sufren de ciertas enfermedades.
a) Establezca un intervalo de confianza del 95% para la proporción de pacientes que se
curaran según los médicos.
b) ¿Qué tamaño debe ser la muestra para que el grupo pueda estar seguro en un 98% que la
proporción muestral de los que se curan está dentro de más o menos 0.04 de la proporción
de todos los casos que el suero curará?

4. Acabas de completar un estudio sobre una patente médica para jugadores de baloncesto,
diseñado para que mejoren su salto, driblen más rápido, y engañen a sus oponentes mirando
como suben y bajan al mismo tiempo. Se llama elixir MJ y está aprobado por Shaquille
O'Neal, Pau Gasol y Michael Jordan. Si hacemos un test encuentras que una muestra de 16
jugadores federados que tomaron el elixir durante 2 semanas pueden saltar una media de 56
cm. Los datos de toda la población reunidos por entrenadores universitarios de todo el país
dan un salto medio de 50 cm con una desviación típica de 15 cm.
a) ¿Qué tamaño de muestra se necesitaría para tener un 90% de confianza al estimar la
media poblacional con un error de 3 cm?
b) ¿Qué tamaño de muestra se necesitaría para un nivel de confianza del 99% con una
amplitud de intervalo de 8 cm?

5. Los tiempos de reacción, en mili segundos, de 17 sujetos frente a una matriz de


15 estímulos fueron los siguientes:

448, 460, 514, 488, 592, 490, 507, 513, 492, 534, 523, 452, 464, 562, 584, 507,
461.
Suponiendo que el tiempo de reacción se distribuye Normalmente, determine un
intervalo de confianza para la media a un nivel de significancia de 8%.
GUÍA - Nº 9
HIPOTESIS PARA DIFERENCIA DE MEDIAS Y
PROPORCIONES POBLACIONAL

CASO DE DOS MUESTRAS INDEPENDIENTES


Se siguen los siguientes pasos o etapas:
1) Planteamiento de la hipótesis
a) Prueba bilateral b) Prueba unilateral c) Prueba unilateral
o de 2 colas a la izquierda o de 1 cola a la derecha o de 1
cola
Ho: 1 = 2 ó ( 1 − 2 = 0 ) Ho: 1  2 Ho: 1  2
H1 : 1  2 H1 : 1  2 H1 : 1  2

2) Fijar el nivel de significación


 = 0.01, 0.05, ó 0.10 (el más utilizado es 0.05) .

3) Determinar la estadística de prueba


X 1 − X 2 − ( 1 − 2 )
Si las Varianzas (  12 y  22 ) son conocidas: usar Z=
 12  22
+
n1 n2
Si las Varianzas (  y  ) son desconocidas:
2
1
2
2

Se sup one iguales


( 12 =  22 =  2 )
 X 1 − X 2 − ( 1 −  2 )
 n1 + n2  30 usar t = t  t( n1 + n2 − 2 )
 n + n2
Sp 1
 n1 n2



 ( n1 − 1) S12 + ( n2 − 1) S 22
 con S p =
 n1 + n2 − 2


 X 1 − X 2 − ( 1 −  2 )
 n1 + n2  30 usar Z =
 S12 S 22
+
 n1 n2

 X 1 − X 2 − ( 1 −  2 )
 n1 + n2  30 usar t = t  t( r )
 S12 S22
 +
 n1 n2
 2
  S12 S22 
Se sup one diferentes  n + n 
 con r =  12 2 
r : grados de libertad
( 1   2 )
2 2
  S1 
2
 S22 
2

 n  n 
  1 
+ 2
 n1 − 1 n2 − 1

 n + n  30 X 1 − X 2 − ( 1 −  2 )
usar Z=
 1 2
S12 S22
 +
 n1 n2

4) Establecer las regiones de Rechazo (R.R) y de Aceptación (R.A.)

a) Prueba bilateral b) Prueba unilateral a la izquierda c) Prueba unilateral a la


derecha

5) Calculo de la estadística de prueba

6) Decisión: Decidir si el valor calculado ( VCAL ) de la estadística de prueba pertenece o


no a
la región de rechazo (R.R.).
Si VCAL  R.R. , entonces Rechazar Ho.
Si VCAL  R.R. , entonces No Rechazar Ho.

7) Conclusión: Expresar la conclusión en términos del problema de investigación.

Ejemplo:

El nivel de hemoglobina de un paciente con anemia puede variar dependiendo de la


dieta nutricional recomendada por el medico especialista.
Para comparar el nivel de hemoglobina de los pacientes, resultado de las dietas
nutricionales se analizó la hemoglobina de seis pacientes que fueron sometidos a dieta A
y dieta B. Los datos fueron los siguientes.

Dieta nutricional A 6.1 9.2 8.7 7.5 6.0 7.3


Dieta nutricional B 10.2 9.7 10.9 8.9 9.5 9.0

¿Presentan los datos suficiente evidencia para poder asegurar que existe diferencia
entre
Los niveles de hemoglobina medias de los pacientes con dietas nutricionales A y B?
Empléese un nivel de significancia del 0.05.
(Suponer que las varianzas poblacionales son desconocidas pero iguales y que las dos
muestras provienen de poblaciones normales)

Solución:
Se desea poder concluir de que:
Hipótesis: Existe diferencia entre las elasticidades medias entre los dos procesos.

Sean, 1 : nivel de hemoglobina media, aplicando dieta nutricional A.


2 : nivel de hemoglobina media, aplicando dieta nutricional B.

Datos:
n1 =6
n2 =6

Nivel de significación =0.05 . (  = 0.05 ) .

PASOS:
1) Planteamiento de la hipótesis
Ho: 1 ….. 2
H1 : 1 ….. 2

2) Nivel de significación
=

3) La estadística de prueba

Analizando, como la varianzas (  12 y  22 ) son desconocidas y las muestras son


pequeñas
( n1 + n2  30 ) , utilizaremos:
X 1 − X 2 − ( 1 −  2 )
t= t  t( n1 + n2 − 2 )
n1 + n2
Sp
n1 n2
( n1 − 1) S12 + ( n2 − 1) S 22
con S p =
2

n1 + n2 − 2

4) Establecer las regiones de Rechazo (R.R) y de Aceptación (R.A.)

5) Calculo de la estadística de prueba

X 1 − X 2 − ( 1 −  2 )
tCAL = =
n1 + n2
Sp
n1 n2

( n1 − 1) S12 + ( n2 − 1) S 22
Sp = =
n1 + n2 − 2

6) Decisión: Decidir si el valor calculado ( t CAL ) de la estadística de prueba pertenece o


no a la región de rechazo (R.R.).
Como …………….. , entonces …………………. .

7) Conclusión:
Se puede concluir que
…………………………………………………...
PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE
PROPORCIONES

Sean X 1 , X 2 , ......., X n una m. a. extraída de una población Bernouilli B ( 1 ; p1 ) y


1
Y1 , Y2 , ......., Yn otra m. a. extraída de una población Bernouli B (1 ; p2 ) . Supóngase
2
también que las poblaciones son independientes.

Sean
n1
 Xi 1, éxito
pˆ 1 = i =1 =
Número de éxitos en la muestra
Xi = 
,
n1 n1  0, fracaso
n1
 Yi 1, éxito
pˆ 2 = i =1 =
Número de éxitos en la muestra
Yi = 
,
n2 n2  0, fracaso

Entonces tenemos

 H 0 : p1 = p2  H 0 : p1  p2
Hipótesis:  ó  ó
 H 1 : p1  p2  H 1 : p1  p2
 H 0 : p1  p2

 H 1 : p1  p2

pˆ 1 − pˆ 2 n1 pˆ 1 + n2 pˆ 2
Estadístico de prueba: Z= , pˆ = ,
1 1 n
pˆ (1 − pˆ )  + 
 n1 n2 
n = n1 + n2

Reglas de decisiones

 H 0 : p1 = p2
Caso A:  . Si Z  Z 2 , se rechaza H 0 .
 H 1 : p1  p2

 H 0 : p1  p2
Caso B:  Si Z  Z se rechaza H 0 .
 H 1 : p1  p2 .

 H 0 : p1  p2
Caso C:  Si Z  − Z se rechaza H 0 .
 H 1 : p1  p2 .
Donde
Z 2 y Z son los valores tabulares de la Distribución Normal Estándar a un nivel de

significancia  de dos colas y una cola respectivamente.

Desarrollar Tarea N° 10

1) ¿Es posible concluir que los niños crónicamente enfermos tienden, en promedio a tener
menos confianza en sí mismos que los niños sanos?. Se aplicó una prueba diseñada para
estimar la confianza en sí mismos a 13 niños crónicamente enfermos y a 21 sanos. Las
calificaciones medias y desviaciones estándar fueron los siguientes:

X S
Niños enfermos 22.5 4.1
Niños sanos 26.9 3.2

Utilice un nivel de significación de 0.05 .


(Suponer que las varianzas poblacionales son desconocidas pero iguales y que las dos
muestras provienen de poblaciones normales)

2) Los siguientes datos dan el aumento de peso de 20 conejos, de las cuales la mitad
recibió su proteína de maní crudo y la otra mitad de maní tostado. Probar si el maní tostado
ha tenido un menor efecto en el aumento del peso de los conejos. Los aumentos de peso
están registrados en gramos. Utilice un nivel de significancia del 5%. (Varianzas
poblacionales desconocidas pero iguales)

CRUDO : 61 60 56 63 56 63 59 56 44 61
TOSTADO : 55 54 47 59 51 61 57 54 62 58
Rpta. Ho: u1=u2 , H1: u1<u2

3) Se estudia el contenido de nicotina en los cigarros de dos marcas A y B, obteniéndose


los siguientes resultados:

A: 17 20 20 23 22
B: 18 20 21 22 24

Determinar si es posible llegar a la conclusión que el contenido de nicotina en ambas


marcas es diferente. (Considerar Varianzas poblacionales desconocidas pero diferentes)
Rpta. Ho: u1=u2 , H1: u1≠u2
4) Para comparar la efectividad de un programa de seguridad en el trabajo, se observó en
6 distintas plantas el número de accidentes por mes antes y después del programa. Los
datos aparecen en la tabla siguiente. ¿Proporcionan estos datos evidencia suficiente para
indicar que el programa ha sido efectivo al reducir el número de accidentes laborales por
mes?
Utilice un nivel de significancia del 5%.
Planta Nº.
1 2 3 4 5 6
Antes del programa 38 64 42 70 58 30
Después del programa 31 58 43 65 52 29

Rpta. Ho: d = 0 , H1: d  0 , t_cal = 3.04 > t_tab = 1.4759. Se rechaza Ho

5) Una firma fabricante de cigarros distribuye dos marcas de cigarrillos. En una encuesta
se encuentra que 56 de 200 fumadores prefieren la marca A y que 29 de 150 fumadores
encuestados prefieren la marca B. ¿Se puede concluir al nivel de significancia del 6%,
que la marca A se vende más rápidamente que la marca B?

Rpta. Ho: pA=pB , H1: pA>pB , Z_cal = 1.875 > Z_tab = 1.55. Se rechaza Ho

6) El laboratorio GRUNENTHAL distribuye dos tipos de multivitaminicos . En una


encuesta se encuentra que 56 de 200 consumidores prefieren el multivitaminico A y que
29 de 150 consumidores encuestados prefieren el multivitaminico B. ¿Se puede concluir
al nivel de significancia del 6%, que el multivitaminico A tiene mejor aceptación que el
multivitaminico B?

Rpta. Ho: pA=pB , H1: pA>pB , Z_cal = 1.875 > Z_tab = 1.55. Se rechaza Ho
GUÍA - Nº 10 y 11
REGRESION Y CORRELACION
En la investigación científica es muy frecuente encontrar variables que están relacionadas
o asociadas entre sí de alguna manera, por ejemplo: El gasto familiar depende del ingreso.
Existen muchas variables, en especial cuantitativas, que dependen en algún grado de
otras, entonces es posible que una de las variables pueda ser relacionada matemáticamente
en función de otra. Por ejemplo:
- El peso de las personas depende en general de la estatura.
- El tiempo de servicio de trabajo activo depende de la edad del trabajador
- El ingreso o salario depende frecuentemente del nivel educativo.
- El ahorro familiar tiene relación con los ingresos.
- La demanda dependerá de los precios.
- El peso depende de la estatura, etc
- Ventas depende de la publicidad

En el estudio estadístico de las relaciones entre dos variables se presentan dos aspectos
fundamentales:

1) CORRELACION: Mide el grado de asociación o relación entre dos variables (X, Y).

2) REGRESION: Determina la relación funcional entre dos variables, con el fin de que
se pueda predecir el valor de una variable en base a la otra. (Por ejemplo: Y = a + bX ).
La Variable que se va a predecir se denomina VARIABLE DEPENDIENTE (Y) y la
variables que es la base de la predicción se denomina VARIABLE INDEPENDIENTE
(X).

DIAGRAMA DE DISPERSIÓN
Es la representación grafica de los distintos valores de la variable estadística
bidimensional (Xi, Yi) en el sistema cartesiano. Esta representación da origen a una
NUBE DE PUNTOS que se denomina DIAGRAMA DE DISPERSIÓN O
ESPARCIMIENTO.

Y Y Y Y

X X X X
a) lineal positiva b) lineal negativa c) no lineal d) ninguna
relación

Observación:
a), b) los datos visualizan una relación lineal entre las variables X e Y
c) los datos visualizan una relación, pero, una relación no lineal
d) los datos visualizan ninguna relación válida en regresión entre las variables X e Y.
Ejemplo: Los datos que se presentan en la tabla adjunta, se refieren a ingresos mensuales
en miles de soles y los gastos en alimentación mensual en miles de soles de 5 familias, en
base a esta información, construir el diagrama de dispersión.

Ingreso (X) 3 5 6 7 7
Gasto (Y) 2 3 4 6 5
Solución:

CORRELACION

La correlación mide el grado de asociación o relación que existe entre dos variables.
Esta correlación se mide por el coeficiente de correlación que expresa o mide el grado
de asociación o afinidad entre las variables relacionadas.

El coeficiente de correlación, o llamado también coeficiente de correlación de


Pearson,
se denota por: “ r ” ,

y se define como:
n XY −  X  Y
r=
[n X 2 −(  X )2 ][ n Y 2 − (  Y )2 ]

El valor de “ r ” varía como sigue: − 1  r  1

Clases de correlación:

1) Por el signo
Interpretación

r  0 : Correlación positiva ( o directa )

r = 0 : Correlación Nula

r  0 : Correlación negativa ( o inversa )

2) Por el grado o valor que toma

“r” Interpretación

0 Correlación nula
± 0.01 , ± 0.19 Correlación muy baja + ó –
± 0.20 , ± 0.39 Correlación baja + ó –
± 0.40 , ± 0.69 Correlación moderada + ó –
± 0.70 , ± 0.89 Correlación alta + ó –
± 0.90 , ± 0.99 Correlación muy alta + ó –
±1 Correlación perfecta + ó –
Ejemplo: Los datos que se presentan en la tabla adjunta, se refieren a ingresos mensuales
en miles de soles y los gastos en alimentación mensual en miles de soles de 5 familias, en
base a esta información:

Ingreso (X) 3 5 6 7 7
Gasto (Y) 2 3 4 6 5

Hallar el coeficiente de correlación, e interprete.

Solución:

X Y XY X2 Y2
3 2 6 9 4
5 3 15 25 9
6 4 24 36 16
7 6 42 49 36
7 5 35 49 25
∑X=28 ∑Y=20 ∑XY=122 ∑ X2=168 ∑Y2=90

Reemplazando en la fórmula del coeficiente de correlación:

n XY −  X  Y
r=
[n X −(  X )2 ][ n Y 2 − (  Y )2 ]
2

5(122) − ( 28)( 20) 610 − 560


r= =
[5(168) − ( 28) ][5(90) - (20) ]
2 2
[840 − 784][450 - 400]

50 50
r= =
(56)(50) 52.91

r = 0.945

Interpretación: Se tiene una correlación positiva (o directa), muy alta, en el cual el grado
de correlación es de 0.945 .

REGRESION
El propósito de la regresión (lineal simple) es estimar la relación funcional que existe
entre dos variables X e Y , con el fin de predecir o estimar el valor de una variable en
base a la otra.
En la regresión lineal simple la relación funcional es de la forma:

Y = a + bX (ecuación de la recta)

donde:
Y: Variable Dependiente
X: Variable Independiente
a , b : Parámetros

El proceso de predecir o estimar Y a partir de la variables X, es la regresión.


Hallar la relación funcional Y = a + bX , consiste en determinar los valores de “ a ” y “
b ” a partir de los datos de la muestra.

Estimación de parámetros de la recta de regresión


Una tarea principal en el análisis e regresión, es estimar los parámetros “ a ” y “ b ” de la
recta de regresión Y = a + bX que mejor se ajuste a los datos de la muestra.

Para esto, se utiliza el método de los mínimos cuadrados, obteniéndose las expresiones:

n(  XY ) − (  X )(  Y )  Y − bˆ ( X )
bˆ = ; aˆ =
n(  X ) − (  X )
2 2
n n

Interpretación del coeficiente de regresión b


- El coeficiente b es la pendiente o el coeficiente de la regresión lineal. La constante a es
la ordenada en el origen.
- Si b  0, entonces, la tendencia lineal es creciente, es decir, a mayores valores de X
corresponde mayores valores de Y. También, a menores valores de X corresponde
menores valores de Y.
- Si b  0, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X
corresponden menores valores de Y. También, a menores valores de X corresponden
mayores valores de Y.
- Si b = 0, entonces, Y = a. Luego, Y permanece estacionario para cualquier valor de X.
En este caso se dice que, no hay regresión.

Ejemplo: Los datos que se presentan en la tabla adjunta, se refieren a ingresos mensuales
en miles de soles y los gastos en alimentación mensual en miles de soles de 5 familias, en
base a esta información:
Ingreso (X) 3 5 6 7 7
Gasto (Y) 2 3 4 6 5

Ajustar dicha información a una regresión lineal de Y sobre X .

Solución:
El primer paso es analizar el diagrama de dispersión de los datos.
Al analizar el diagrama de dispersión de los datos, obtenido en un ejemplo anterior, se
evidenció que hay una dependencia lineal de los valores de X e Y , entonces podemos
ajustar un modelo de regresión lineal simple (ecuación de la recta) de Y sobre X.

El modelo de regresión lineal ha ajustar, será de la forma:

Y = a + bX

estimando los parámetros del modelo de regresión, se tiene:

n(  XY ) − (  X )(  Y )
bˆ =
n(  X 2 ) − (  X )2

5(122) − ( 28)( 20) 610 − 560 50


bˆ = = = = 0.893
5(168) − ( 28)2 840 − 784 56

aˆ =
 Y − bˆ ( X )
n n

20 ( 28)
aˆ = − 0.893 = 4 − 5 = −1
5 5

entonces, las estimaciones de los parámetros son: aˆ = −1 y bˆ = 0.893


luego, reemplazando las estimaciones en el modelo de regresión: Y = a + bX

se obtiene, Yˆ = −1 + 0.893X que es el modelo estimado de regresión.

Predicción en el modelo de Regresión


La predicción en el modelo de regresión, es encontrar el valor de Y (variable dependiente)
en función a un valor dado de X (variable independiente).

Ejemplo: Los datos que se presentan en la tabla adjunta, se refieren a ingresos mensuales
en miles de soles y los gastos en alimentación mensual en miles de soles de 5 familias, en
base a esta información:
Ingreso (X) 3 5 6 7 7
Gasto (Y) 2 3 4 6 5

Predecir el gasto de alimentación de una familia cuyo ingreso es de 10 .

Solución:
Utilizamos el modelo estimado de regresión, obtenido en el ejemplo anterior:
Yˆ = −1 + 0.893X
Como nos piden predecir el gasto de alimentación de una familia cuyo ingreso es 10,
entonces, X=10 .
Ahora, reemplazando en el modelo estimado: Yˆ = −1 + 0.893(10)
Yˆ = 7.93

Luego, concluimos que para una familia con un ingreso de 10 mil soles se tendrá un gasto
de alimentación de 7.93 mil soles (7,930) .

ERROR ESTANDAR DE ESTIMACIÓN


El error estándar de estimación es una medida de esparcimiento alrededor de una línea
de regresión.
La medida de la variabilidad en torno a la línea de regresión se llama el error estándar
de la estimación.
  
Para la recta de regresión y = a+ b x

El error estándar de estimación de y sobre x será:

s yx =
 (Y − y)2
n

Otra forma de expresar:

s yx =
Y 2
− a  Y − b XY
n

También podría gustarte