Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GUIA DE PRACTICA
ESTADÍSTICA Y
DEMOGRAFIA EN
SALUD
2020-2
GUÍA PRÁCTICA – Nº 1
INDICADOS:
1. Se desea hacer un estudio acerca del tiempo que los alumnos de la UCV usan internet. Para tal efecto
de la Carrera Profesional de Administración a quienes se les preguntó cuántas horas usaron Internet
2. Se desea hacer un estudio en setiembre 2016 acerca de la efectividad de los técnicos de una gran tienda
de computadoras con tal motivo se han registrado el número de computadoras reparadas durante el
3. Interesa realizar un estudio acerca de la cantidad de clientes por día que visitan una tienda que vende
computadoras. Para tal efecto se ha tomado una muestra al azar durante el semestre pasado (20 días).
4. La Municipalidad de Independencia, desea estimar el promedio de residuos sólidos diario que genera
una vivienda en el distrito, este indicador será muy importante en el Sistema de Costos que tiene
ha encargado este trabajo a una consultora, y esta ha creído conveniente seleccionar al azar 80 viviendas
de diferentes sectores del distrito y durante 5 días personal especializado pesará la basura recolectada.
5. “MILKA” fabricante de productos lácteos, cuenta actualmente con 1200 trabajadores. Para la aplicación
efectiva de una filosofía de administración para la calidad total (TQM) en toda la compañía e
una encuesta a una muestra de 250 trabajadores, el cuestionario considera una serie de preguntas en la
6. El Director de la IEP San Juan Bautista está interesado en averiguar si los estudiantes con altos
coeficientes de inteligencia son los que tienen los mejores rendimientos académicos. Encarga el estudio
a un equipo de investigadores, los cuales deciden seleccionar una muestra aleatoria de alumnos para
aplicar un test que les permita determinar el coeficiente de inteligencia de los estudiantes para que sean
7. Un investigador realiza un diagnóstico de la situación actual del pandillaje con los factores que influyen
en el distrito de los olivos, según fuentes de la municipalidad del distrito se sabe que en esta población
el 43% de los jóvenes tienen padres separados. El investigador decide trabajar con 1500 jóvenes para el
8. Se evaluó la calidad del llenado de los certificados de defunción que se extienden en el Hospital
Nacional “Almanzor Aguinaga Ausejo” de Chiclayo. Se estudió una muestra de 287 certificados
emitidos entre julio y septiembre del 2013, calificándolos como buenos, regulares, malos y pésimos.
Sólo 33,8% tuvieron un buen llenado, 44,6% fueron malos y 21.6% pésimos. Los servicios de cuidados
intensivos (61,2%) y medicina interna (41,4%) tuvieron mayor porcentaje de certificados buenos,
mientras que los de pésima calidad fueron emitidos con mayor frecuencia en los servicios de pediatría
y neonatología (88,9%), cirugía y afines (55,6%), especialidades médicas (50,0%) y emergencia
(42,5%).
III. Asocie con cada concepto de la derecha aquella afirmación de la izquierda que corresponda, asignando la
letra mayúscula:
PIRAMIDE POBLACIONAL
1. Abre una nueva hoja de cálculo Excel para introducir los datos.
2. Escribe en la primera fila el título de la tabla de Datos: España 2001.
3. Introduce los grupos de edad en la primera columna:
• En la cabecera de la columna escribe: Edad
• A continuación escribe los grupos de Edad: 0-4, 5-9, ..., 90 y más
• Al final de la columna escribe: Total
4. En las siguientes columnas escribe los datos, en el siguiente orden: Hombres, Mujeres.
Nota: Los datos de que aparezcan en la columna izquierda de la pirámide (Hombres)
deben ser representados con números negativos. Simplemente inserta el signo - antes de
cada valor o crea una nueva columna y multiplica la población masculina por –1.
5. Ya que estas trabajando con grandes poblaciones, debes ajustar la escala de la figura,
expresando los datos en miles. Puedes hacer esto dividiendo cada celda de datos por
1.000.
• Arreglar las barras. Haz doble clic en una de las barras del gráfico. En el cuadro
de diálogo Formato de la serie de datos, selecciona la pestaña Opciones.
Configura Superposición a 100 y pulsa Ancho del rango a 0 y pulsa el botón
OK. No cambies nada más. Las barras del gráfico deben aparecer juntas, sin
agujeros.
• Arreglar el eje vertical (desplazar las etiquetas de edades hacia la izquierda).
Haz doble click en los datos del eje vertical. En el cuadro de diálogo Formato de
ejes, elige la pestaña Tramas y configura los botones de marca de
graduación a Ninguno y el botón de rótulos a Inferior.
• Arreglar el eje horizontal (eliminar los valores negativos del eje hombres). Haz
doble clic sobre los datos del eje horizontal. En la
pestaña Número selecciona Categoría: Personalizada y escribe en Tipo: 0;0.
• Aplica cualquier otro formato para mejorar la apariencia de la pirámide: colores
de las barras, tamaño y tipo de fuentes y títulos, eliminación de rejilla y fondo...
AYACUCHO 2015
GUIA PRACTICA Nº 3
Frecuencia Porcentaje
A VECES 3 23,08
SIEMPRE 4 30,77
Total 13 100,0
DISTRIBUCIÓN DE FRECUENCIAS.
Después de recoger toda la información que necesitamos, es decir, al agotar todo el trabajo de
campo, existe un cúmulo de datos y cifras desordenadas los cuales, al ser tomados como
observaciones individuales, dicen muy poco sobre la población estudiada; es, entonces, tarea del
investigador “hacer hablar las cifras”, comenzando por la clasificación y ordenación,
consignando la información en tablas inteligibles que denominamos distribuciones de frecuencias
(Guarín, 2002).
“Una distribución de frecuencia es una tabla resumen en la que se disponen los datos divididos
en grupos ordenados numéricamente y que se denominan clases o categorías”. (Morales, 2012)
• Variables cualitativas
La estructura general de una tabla de distribución de frecuencias para datos de tipo cualitativo es
simple y será como sigue:
Tabla N°___
Titulo: ___________________________________________
Fuente: _____________________________________
fi
Donde: hi =
n
pi = (hi *100 )%
k
f
i =1
i
=n
h
i =1
i
=1
p
i =1
i
= 100 %
hi: Frecuencia relativa simple; es el resultado de dividir c/u de las frecuencias absolutas
simples por el tamaño de la muestra.
pi: Frecuencia porcentual simple; se obtiene multiplicando cada frecuencia relativa simple
por 100%
REPRESENTACIONES GRÁFICAS:
A menudo es necesario presentar la información de manera gráfica a fin de entender con mayor
claridad el comportamiento de la información. La construcción de un gráfico estadístico son
similares a los gráficos de funciones, las variables independientes, se ubican en las abscisas y las
dependientes en las ordenadas. Entre las representaciones graficas más importantes tenemos:
• Gráfico de barras
• Gráfico Circular
Estos gráficos los podemos obtener utilizando la función gráficos del programa SPSS, tal como
se muestra en los siguientes esquemas:
a) GRÁFICO DE BARRAS
b) GRÁFICO CIRCULAR
1. Según la Asociación de lucha contra la Bulimia y la Anorexia - ALUBA, las pautas culturales
han determinado que la delgadez sea sinónimo de éxito social. Muchos jóvenes luchan para
conseguir el “físico ideal” motivados por modelos, artistas o por la publicidad comercial.
Durante el mes de Agosto del año 2016, en el colegio Carlos Cueto Fernandini del Distrito
de Los Olivos, después de las cortas vacaciones de Julio, se observó con precaución a 27
alumnos con síntomas de anorexia, registrándose los siguientes signos visibles:
Respuesta:
Grafico 1
Gráfico de barras de alumnos con síntomas de Anorexia, según signos visibles
Colegio Carlos Cueto Fernandini del Distrito de Los Olivos, Agosto 2016
3. Los siguientes datos corresponden a los alumnos de la sección C del cuarto de primaria del
IE 3053 del Distrito de los Olivos, 2016. Como observamos en la siguiente tabla.
Tiempo reacción
Frecuencia
(seg.)
[120 – 170> 20
[170 - 220> 35
[220 – 270> 85
[270 – 320> 50
[320 – 370> 30
[370- 420> 20
[420 - 470] 10
Total 250
Determina
r:
d) Porcentaje de ampolletas cuya vida media es de al menos 500 horas, pero menos de
1000 horas.
Gastos en soles
Nº de familias
[150 – 250> 15
[250 – 350> 27
[350 – 450> 32
[450 – 550> 21
[550 – 650] 10
Peso (gramos) fi
[15 – 20> 7
[20 – 25> 25
[25 – 30> 31
[30 – 35> 20
[35 – 40] 11
Nº de errores 1 3 5 6 7 11
Frecuencia 2 1 3 5 3 1
absoluta
34 ; 36 ; 41 ; 56 ; 48 ; 45 ; 36 ; 39 ; 52 ; 53 ; 55 ; 58
35 ; 34 ; 39 ; 45 ; 43 ; 52 ; 50 ; 54 ; 58 ; 59 ; 49 ; 43
48 ; 49 ; 52 ; 56 ; 55 ; 53 ; 58 ; 54 ; 50 ; 51
a. Determine el promedio.
F – 33 radial 300 $ 50
Distrito I Distrito II
1 7 9
2 10 15
3 30 25
4 15 12
5 5 8
28 – 38 2
38 – 48 7
48 – 58 7
58 - 68 14
6. Los siguientes datos son los puntajes obtenidos por 50 estudiantes en un examen
de Estadística general, recogidos del registro de notas en Abril del 2014
33 35 35 39 41 41 42 45 47 48
50 52 53 54 55 55 57 59 60 60
61 64 65 65 65 66 66 66 67 68
69 71 73 73 74 74 76 77 77 78
80 81 84 85 85 88 89 91 94 97
24 25 35 34 23 25 21 25 26 22
30 22 26 21 21 34 31 25 25 27
23 32 28 34 23 31 24 26 21 22
Guía - Nº 6
Medidas de Posición
1) Se tienen los siguientes valores:
1 2 4 5 1 3 0 2 4 1 5 2 0 1 3
a) Calcular: Cuartil 1, Decil 7 y Percentil 80.
2) Los siguientes datos representan el valor de la hemoglobina (en g/100ml) de 10 niños que
recibieron tratamiento contra la anemia hemolítica.
9.1 10.0 11.4 12.4 9.8 8.3 9.9 9.1 7.5 6.7
4) La siguiente tabla muestra el consumo diario de grasas (en gramos) de una muestra de 60
hombres adultos en un país en vías de desarrollo.
35 42 37 38 46 63 51 52 68 67 62 53
65 68 68 62 56 69 77 89 85 80 70 79
75 85 72 73 75 79 77 78 82 81 88 81
88 76 82 76 77 72 83 89 82 84 73 93
94 99 94 98 95 96 92 96 91 92 95 96
5) A aquellos pacientes que sienten mejoría todos los días del tratamiento se les realiza un estudio
sobre el tiempo de reacción del medicamento (en minutos), encontrándose recogido los datos en
la siguiente tabla:
PROBABILIDADES
2) Un estudio indica que el 10% de la población de estados unidos tiene 65 o más años, y que el
1% de la población total padece insuficiencia cardiaca moderada. Además, el 10,4% de la
población tiene 65 o más años o padece insuficiencia cardiaca moderada.
Eligiendo a un individuo al azar:
a) Hallar la probabilidad de que el individuo tenga 65 o más años y padezca de insuficiencia
cardiaca moderada. 0,006
b) Utilizar la solución del apartado a) para organizar los datos en un diagrama de Venn.
c) Si un individuo tiene 65 o más. ¿Cuál es la probabilidad de que padezca de insuficiencia
cardiaca moderada? 0,0638
d) Si un individuo es menor de 65 años, ¿Cuál es la probabilidad de que padezca de insuficiencia
cardiaca moderada? 0,0044
Guía -Nº 8
INTERVALOS DE CONFIANZA Y TAMAÑO
MUESTRAL
1.2. INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL ( ) DE UNA
N −n N −n
X − Z . ; X + Z .
2 n N −1 2 n N −1
s N −n s N −n
X − t . ; X + t n-1 .
n N −1 2 ( n-1)
2( ) n N −1
1.3. INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN
POBLACIONAL
El intervalo de Confianza para la proporción poblacional está dado por:
ˆˆ
pq ˆˆ
pq
p pˆ − Z ; pˆ − Z , donde qˆ = 1 − pˆ
2 n 2 n
n
Xi
Dónde: ˆ=
p i =1 =
Número de éxitos en la muestra
n n
Observación
Cuando el muestreo es sin reemplazamiento de una población finita de tamaño N y
n
0.05 , el Intervalo de confianza para la proporción poblacional es:
N
ˆ ˆ N −n
pq ˆˆ
pq N −n
p p ˆ − Z ; p ˆ + Z
2 n N −1 2 n N −1
i) Si el muestreo es con reemplazo resuelva la ecuación d = Z para despejar n
2 n
Z 2 2
n = 2
d2
ii) Si el muestreo es sin reemplazo se hace uso de la corrección por población finita y se
N −n
debe resolver: d = Z . para hallar n
2 n N −1
N . Z 2 . 2
n= 2
d 2 ( N − 1) + Z 2 . 2
2
2.1.1 ESTIMACION DE 2
pq
iii) Si el muestreo es con reemplazo resuelva la ecuación d = Z para despejar
2 n
n
Z 2 pq
n = 2
d2
iv) Si el muestreo es sin reemplazo se hace uso de la corrección por población finita y se
obtiene la fórmula:
N . Z 2 . pq
n= 2
d 2 ( N − 1) + Z 2 . pq
2
Donde:
N : Tamaño poblacional
p : Proporción estimada de característica principal de la variable en estudio
q : Proporción estimada de característica secundaria de la variable en estudio
d : Error máximo tolerable
Z 2 : Valor tabular correspondiente a la distribución normal estándar
ii) Otra forma seria igualar el valor p = 0, 5 solamente si es imposible obtener una
mejor estimación de p ya que la muestra puede ser mas grande de lo necesario.
EJEMPLO 1: Para determinar la estatura media de los varones adultos peruanos, se tomó una
muestra al azar de 10 de ellos en la que se obtuvo los valores:
162, 176, 169, 165, 171, 169, 172, 168, 167 y 175 cm.
a) Calcule una estimación puntual para la media poblacional µ
b) Determinar un intervalo de confianza para la estatura media de la población con una
confianza del 95%
Solución:
EJEMPLO2: En una muestra de 100 personas hay 60 alérgicas a la aspirina AA. Calcular un
Intervalo de confianza para la proporción poblacional con un nivel de: a) 95% b) 99%
Solución: El intervalo pedido es:
ˆˆ
pq ˆˆ
pq
p pˆ − Z ; pˆ − Z
2 n 2 n
EJEMPLO 3:
Un médico desea conocer el valor medio de glucosa en la sangre en ayunas (mg/100ml) de
pacientes atendidos en una clínica para diabéticos durante el transcurso de los últimos 10 años.
Determine el número de registros que el médico debe examinar para obtener un intervalo de
confianza de 90% para µ si la dimensión requerida para el intervalo es de 6 unidades y una muestra
piloto presenta una varianza de 60.
Z 2 2 ( )(
2
)
2
n = 2
= = ___________ ; Redondeando n =
d2 32
_________
Solución: Si se omite la corrección por población finita, completar para los casos:
Z 2 pq ( ) ( )( ) = ________
2
n = 2
= Redondeando, n es de:
d 2
( )
__________
Z 2 pq ( ) ( )( ) = _________
2
n = 2
= Redondeando, n es de:
d 2
( )
__________
ACTIVIDAD
1. En un hospital se desea hacer un estudio sobre los pesos de los recién nacidos. Por
estudios anteriores se sabe que media poblacional =3 kg y una desviación estándar
=0.25 Para comprobar si esto ocurre realmente se recogen los datos de 20 bebes
elegidos aleatoriamente y se tiene:
3.2 3.7 4.2 4.6 3.7 3.0 2.9 3.1 3.0 4.5
4.1 3.8 3.9 3.6 3.2 3.5 3.0 2.5 2.7 2.8
2. Una muestra de 100 familias escogidas al azar de una población de 1000 familias reveló
el siguiente número de hijos por familias:
N° de hijos 0 1 2 3 4
N° familias 20 25 30 15 10
a) Calcule un intervalo de confianza del 95% para la proporción de familias que tienen
a los más un hijo ¿Se puede confiar que el 50% de todas las familias tiene a lo más
un hijo?
b) Calcule un intervalo de confianza del 95% para el número medio de hijos por familia
¿Es seguro que el número medio de hijos por familia sea uno?
3. Un equipo de investigación médica está seguro sobre un suero que han desarrollado el cual
curará cerca del 75% de los pacientes que sufren de ciertas enfermedades.
a) Establezca un intervalo de confianza del 95% para la proporción de pacientes que se
curaran según los médicos.
b) ¿Qué tamaño debe ser la muestra para que el grupo pueda estar seguro en un 98% que la
proporción muestral de los que se curan está dentro de más o menos 0.04 de la proporción
de todos los casos que el suero curará?
4. Acabas de completar un estudio sobre una patente médica para jugadores de baloncesto,
diseñado para que mejoren su salto, driblen más rápido, y engañen a sus oponentes mirando
como suben y bajan al mismo tiempo. Se llama elixir MJ y está aprobado por Shaquille
O'Neal, Pau Gasol y Michael Jordan. Si hacemos un test encuentras que una muestra de 16
jugadores federados que tomaron el elixir durante 2 semanas pueden saltar una media de 56
cm. Los datos de toda la población reunidos por entrenadores universitarios de todo el país
dan un salto medio de 50 cm con una desviación típica de 15 cm.
a) ¿Qué tamaño de muestra se necesitaría para tener un 90% de confianza al estimar la
media poblacional con un error de 3 cm?
b) ¿Qué tamaño de muestra se necesitaría para un nivel de confianza del 99% con una
amplitud de intervalo de 8 cm?
448, 460, 514, 488, 592, 490, 507, 513, 492, 534, 523, 452, 464, 562, 584, 507,
461.
Suponiendo que el tiempo de reacción se distribuye Normalmente, determine un
intervalo de confianza para la media a un nivel de significancia de 8%.
GUÍA - Nº 9
HIPOTESIS PARA DIFERENCIA DE MEDIAS Y
PROPORCIONES POBLACIONAL
n n
1
+ 2
n1 − 1 n2 − 1
n + n 30 X 1 − X 2 − ( 1 − 2 )
usar Z=
1 2
S12 S22
+
n1 n2
Ejemplo:
¿Presentan los datos suficiente evidencia para poder asegurar que existe diferencia
entre
Los niveles de hemoglobina medias de los pacientes con dietas nutricionales A y B?
Empléese un nivel de significancia del 0.05.
(Suponer que las varianzas poblacionales son desconocidas pero iguales y que las dos
muestras provienen de poblaciones normales)
Solución:
Se desea poder concluir de que:
Hipótesis: Existe diferencia entre las elasticidades medias entre los dos procesos.
Datos:
n1 =6
n2 =6
PASOS:
1) Planteamiento de la hipótesis
Ho: 1 ….. 2
H1 : 1 ….. 2
2) Nivel de significación
=
3) La estadística de prueba
n1 + n2 − 2
X 1 − X 2 − ( 1 − 2 )
tCAL = =
n1 + n2
Sp
n1 n2
( n1 − 1) S12 + ( n2 − 1) S 22
Sp = =
n1 + n2 − 2
7) Conclusión:
Se puede concluir que
…………………………………………………...
PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE
PROPORCIONES
Sean
n1
Xi 1, éxito
pˆ 1 = i =1 =
Número de éxitos en la muestra
Xi =
,
n1 n1 0, fracaso
n1
Yi 1, éxito
pˆ 2 = i =1 =
Número de éxitos en la muestra
Yi =
,
n2 n2 0, fracaso
Entonces tenemos
H 0 : p1 = p2 H 0 : p1 p2
Hipótesis: ó ó
H 1 : p1 p2 H 1 : p1 p2
H 0 : p1 p2
H 1 : p1 p2
pˆ 1 − pˆ 2 n1 pˆ 1 + n2 pˆ 2
Estadístico de prueba: Z= , pˆ = ,
1 1 n
pˆ (1 − pˆ ) +
n1 n2
n = n1 + n2
Reglas de decisiones
H 0 : p1 = p2
Caso A: . Si Z Z 2 , se rechaza H 0 .
H 1 : p1 p2
H 0 : p1 p2
Caso B: Si Z Z se rechaza H 0 .
H 1 : p1 p2 .
H 0 : p1 p2
Caso C: Si Z − Z se rechaza H 0 .
H 1 : p1 p2 .
Donde
Z 2 y Z son los valores tabulares de la Distribución Normal Estándar a un nivel de
Desarrollar Tarea N° 10
1) ¿Es posible concluir que los niños crónicamente enfermos tienden, en promedio a tener
menos confianza en sí mismos que los niños sanos?. Se aplicó una prueba diseñada para
estimar la confianza en sí mismos a 13 niños crónicamente enfermos y a 21 sanos. Las
calificaciones medias y desviaciones estándar fueron los siguientes:
X S
Niños enfermos 22.5 4.1
Niños sanos 26.9 3.2
2) Los siguientes datos dan el aumento de peso de 20 conejos, de las cuales la mitad
recibió su proteína de maní crudo y la otra mitad de maní tostado. Probar si el maní tostado
ha tenido un menor efecto en el aumento del peso de los conejos. Los aumentos de peso
están registrados en gramos. Utilice un nivel de significancia del 5%. (Varianzas
poblacionales desconocidas pero iguales)
CRUDO : 61 60 56 63 56 63 59 56 44 61
TOSTADO : 55 54 47 59 51 61 57 54 62 58
Rpta. Ho: u1=u2 , H1: u1<u2
A: 17 20 20 23 22
B: 18 20 21 22 24
5) Una firma fabricante de cigarros distribuye dos marcas de cigarrillos. En una encuesta
se encuentra que 56 de 200 fumadores prefieren la marca A y que 29 de 150 fumadores
encuestados prefieren la marca B. ¿Se puede concluir al nivel de significancia del 6%,
que la marca A se vende más rápidamente que la marca B?
Rpta. Ho: pA=pB , H1: pA>pB , Z_cal = 1.875 > Z_tab = 1.55. Se rechaza Ho
Rpta. Ho: pA=pB , H1: pA>pB , Z_cal = 1.875 > Z_tab = 1.55. Se rechaza Ho
GUÍA - Nº 10 y 11
REGRESION Y CORRELACION
En la investigación científica es muy frecuente encontrar variables que están relacionadas
o asociadas entre sí de alguna manera, por ejemplo: El gasto familiar depende del ingreso.
Existen muchas variables, en especial cuantitativas, que dependen en algún grado de
otras, entonces es posible que una de las variables pueda ser relacionada matemáticamente
en función de otra. Por ejemplo:
- El peso de las personas depende en general de la estatura.
- El tiempo de servicio de trabajo activo depende de la edad del trabajador
- El ingreso o salario depende frecuentemente del nivel educativo.
- El ahorro familiar tiene relación con los ingresos.
- La demanda dependerá de los precios.
- El peso depende de la estatura, etc
- Ventas depende de la publicidad
En el estudio estadístico de las relaciones entre dos variables se presentan dos aspectos
fundamentales:
1) CORRELACION: Mide el grado de asociación o relación entre dos variables (X, Y).
2) REGRESION: Determina la relación funcional entre dos variables, con el fin de que
se pueda predecir el valor de una variable en base a la otra. (Por ejemplo: Y = a + bX ).
La Variable que se va a predecir se denomina VARIABLE DEPENDIENTE (Y) y la
variables que es la base de la predicción se denomina VARIABLE INDEPENDIENTE
(X).
DIAGRAMA DE DISPERSIÓN
Es la representación grafica de los distintos valores de la variable estadística
bidimensional (Xi, Yi) en el sistema cartesiano. Esta representación da origen a una
NUBE DE PUNTOS que se denomina DIAGRAMA DE DISPERSIÓN O
ESPARCIMIENTO.
Y Y Y Y
X X X X
a) lineal positiva b) lineal negativa c) no lineal d) ninguna
relación
Observación:
a), b) los datos visualizan una relación lineal entre las variables X e Y
c) los datos visualizan una relación, pero, una relación no lineal
d) los datos visualizan ninguna relación válida en regresión entre las variables X e Y.
Ejemplo: Los datos que se presentan en la tabla adjunta, se refieren a ingresos mensuales
en miles de soles y los gastos en alimentación mensual en miles de soles de 5 familias, en
base a esta información, construir el diagrama de dispersión.
Ingreso (X) 3 5 6 7 7
Gasto (Y) 2 3 4 6 5
Solución:
CORRELACION
La correlación mide el grado de asociación o relación que existe entre dos variables.
Esta correlación se mide por el coeficiente de correlación que expresa o mide el grado
de asociación o afinidad entre las variables relacionadas.
y se define como:
n XY − X Y
r=
[n X 2 −( X )2 ][ n Y 2 − ( Y )2 ]
Clases de correlación:
1) Por el signo
Interpretación
r = 0 : Correlación Nula
“r” Interpretación
0 Correlación nula
± 0.01 , ± 0.19 Correlación muy baja + ó –
± 0.20 , ± 0.39 Correlación baja + ó –
± 0.40 , ± 0.69 Correlación moderada + ó –
± 0.70 , ± 0.89 Correlación alta + ó –
± 0.90 , ± 0.99 Correlación muy alta + ó –
±1 Correlación perfecta + ó –
Ejemplo: Los datos que se presentan en la tabla adjunta, se refieren a ingresos mensuales
en miles de soles y los gastos en alimentación mensual en miles de soles de 5 familias, en
base a esta información:
Ingreso (X) 3 5 6 7 7
Gasto (Y) 2 3 4 6 5
Solución:
X Y XY X2 Y2
3 2 6 9 4
5 3 15 25 9
6 4 24 36 16
7 6 42 49 36
7 5 35 49 25
∑X=28 ∑Y=20 ∑XY=122 ∑ X2=168 ∑Y2=90
n XY − X Y
r=
[n X −( X )2 ][ n Y 2 − ( Y )2 ]
2
50 50
r= =
(56)(50) 52.91
r = 0.945
Interpretación: Se tiene una correlación positiva (o directa), muy alta, en el cual el grado
de correlación es de 0.945 .
REGRESION
El propósito de la regresión (lineal simple) es estimar la relación funcional que existe
entre dos variables X e Y , con el fin de predecir o estimar el valor de una variable en
base a la otra.
En la regresión lineal simple la relación funcional es de la forma:
Y = a + bX (ecuación de la recta)
donde:
Y: Variable Dependiente
X: Variable Independiente
a , b : Parámetros
Para esto, se utiliza el método de los mínimos cuadrados, obteniéndose las expresiones:
n( XY ) − ( X )( Y ) Y − bˆ ( X )
bˆ = ; aˆ =
n( X ) − ( X )
2 2
n n
Ejemplo: Los datos que se presentan en la tabla adjunta, se refieren a ingresos mensuales
en miles de soles y los gastos en alimentación mensual en miles de soles de 5 familias, en
base a esta información:
Ingreso (X) 3 5 6 7 7
Gasto (Y) 2 3 4 6 5
Solución:
El primer paso es analizar el diagrama de dispersión de los datos.
Al analizar el diagrama de dispersión de los datos, obtenido en un ejemplo anterior, se
evidenció que hay una dependencia lineal de los valores de X e Y , entonces podemos
ajustar un modelo de regresión lineal simple (ecuación de la recta) de Y sobre X.
Y = a + bX
n( XY ) − ( X )( Y )
bˆ =
n( X 2 ) − ( X )2
aˆ =
Y − bˆ ( X )
n n
20 ( 28)
aˆ = − 0.893 = 4 − 5 = −1
5 5
Ejemplo: Los datos que se presentan en la tabla adjunta, se refieren a ingresos mensuales
en miles de soles y los gastos en alimentación mensual en miles de soles de 5 familias, en
base a esta información:
Ingreso (X) 3 5 6 7 7
Gasto (Y) 2 3 4 6 5
Solución:
Utilizamos el modelo estimado de regresión, obtenido en el ejemplo anterior:
Yˆ = −1 + 0.893X
Como nos piden predecir el gasto de alimentación de una familia cuyo ingreso es 10,
entonces, X=10 .
Ahora, reemplazando en el modelo estimado: Yˆ = −1 + 0.893(10)
Yˆ = 7.93
Luego, concluimos que para una familia con un ingreso de 10 mil soles se tendrá un gasto
de alimentación de 7.93 mil soles (7,930) .
s yx =
(Y − y)2
n
s yx =
Y 2
− a Y − b XY
n