Está en la página 1de 51

1

MATERIAL DEL TERCER CORTE

1.- Estimaciones por Intervalos para Medias

Se utilizará la siguiente fórmula:

X -Z σ ≤ µ ≤ X +Z σ
√n √n

X = Media de la muestra

Z = Distribución normal Z, se obtiene según nivel de confianza dado en el


problema.(se utiliza tabla vista anteriormente, para hallar z)

σ = desviación típica

n= Tamaño de la muestra

OBSERVACIÓN 1: Si n≥30 se usa la distribución normal Z y si n < 30 se usa la t


– de students. Los valores de Z son dados de acuerdo al nivel de confianza dado
en el enunciado del problema, los cuales se dan en la siguiente tabla:
2

NIVEL DE CONFIANZA (%) COEFICIENTE DE CONFIANZA (Z)

99,74 3,00

99,00 2,58

98,00 2,33

97,50 2,24

96,00 2,05

95,45 2,00

95,00 1,96

90,00 1,645

80,00 1,28

68,27 1,00

50,00 0,6745
3

OBSERVACIÓN 2: Si n < 30 se usa la t – de students, y se utiliza la siguiente


formula:

X - t∝/𝟐 s ≤ µ ≤ X + t∝/𝟐 s
(n – 1) √n (n – 1) √n

X = Media de la muestra

t∝/𝟐 = Distribución t – de students


(n – 1)

1 - ∝ = Nivel de confianza

S = Desviación estándar

EJEMPLO 1:

Se ha calculado que la media de las puntuaciones de una muestra aleatoria de


36 estudiantes es de 2,6. Se sabe que la población se distribuye normal con una
desviación típica igual a 0,3. Encuentra los intervalos de confianza al 95% y al
99% para la media de todo el grupo de estudiantes.

SOLUCIÓN

DATOS:

X = 2,6

n = 36

σ = 0,3

Z Para la parte a con el 95% se entra a la tabla y se obtiene un Z = 1,96


4

Z Para la parte b con el 99% se entra a la tabla y se obtiene un Z = 2,58

a) µ con un nivel de confianza del 95%

b) µ con un nivel de confianza del 99%

a) µ con un nivel de confianza del 95%

X -Z σ ≤ µ ≤ X + Z σ
√n √n
2,6 - 1,96 0,3 ≤ µ ≤ 2,6 + 1,96. 0,3
√36 √36

2,50 ≤ µ ≤ 2,70

b) µ con un nivel de confianza del 99%

X -Z σ ≤ µ ≤ X + Z σ
√n √n
2,6 - 2,58 0,3 ≤ µ ≤ 2,6 + 2,58 0,3
√36 √36

2,47 ≤ µ ≤ 2,73

EJEMPLO 2

Los contenidos de acido sulfúrico en 7 recipientes similares presentan un


promedio de: 9,8; 10,2; 10,4; 9,8; 10,0; 10,2; y 9,6 litros, con una desviación
estándar de 0,283. Encuentre un intervalo de confianza al 95% para la media de
todos los recipientes, suponiendo una distribución aproximadamente normal.
5

SOLUCIÓN

DATOS

X = 9,8 + 10,2 + 10,4 + 9,8 + 10,0 + 10,2 + 9,6 = 10

n=7

S = 0,283

Nivel de Confianza = 95%

Se utiliza la t – de students, ya que n ≤ 30 en este caso n = 7

Recuerde v = n - 1

n = 7 y NC = 95% se busca

tα/2 = ?
v

SOLUCIÓN

Para entrar a la tabla t – de students se necesita 1 - ∝ = Nivel de confianza

(HACER LA DIVISIÓN CON 3 DECIMALES)

1 - ∝ = 95% ∝ = 1- 0,95 ∝ = 0,05 ∝ / 2 = 0,025 y

también necesitamos los grado de libertad o sea n – 1 = 7 – 1 = 6


6

Con 0,025 y n = 6 entramos a la tabla t – de students y obtenemos

t∝/2 = Distribución t – de students


(n – 1)
t0,025 = 2,447
6

t – de students

v 0,40 0,30 0,20 0,10 0,05 0,025

6 2,447

.
7

X - t∝/2 s ≤ µ ≤ X +t 2 s
∝/
(n – 1) √n (n – 1) √n

10 - (2,447) 0,283 ≤ µ ≤ 10 + (2,447) 0,283


√7 √7

9,74 ≤ µ ≤ 10,26
8

EJERCICIOS DE INTERVALOS DE CONFIANZA


Ejemplo 1.

Se ha obtenido una muestra de 25 alumnos de una Facultad para estimar la


calificación media de los expedientes de los alumnos en la Facultad. Se Sabe
por otros cursos que la desviación estándar de las puntuaciones en dicha
Facultad es de 2.01 puntos. La media de la muestra fue de 4.9.
1. Intervalo de confianza al 90 %.
2. Intervalo de confianza al 99 %.

Ejemplo 2.

Se ha obtenido una muestra de 15 vendedores de una Editorial para estimar el


valor medio de las ventas por trabajador en la Empresa. La media y varianza de
la muestra son 5 y 2, respectivamente. 1. Intervalo de confianza para la venta
media por trabajador en la Editorial al 90 %. 2. Intervalo de confianza para la
varianza de las ventas por trabajador en la Editorial al 99 %.

Ejemplo 3.

La lectura de 50 muestra aleatoria mostraron una media de 174.5 cm y una


desviación típica de 6.9 cm. Determine un intervalo de confianza del 98% para la
altura promedio de todos los estudiantes.

2.- Estimaciones por Intervalos para una proporción poblacional

Las decisiones dependen con frecuecuencia de parámetros que son binarios,


parámetros con solo dos posible categorías dentro de las cuales pueden
clasificarse las respuestas. En este evento, el parámetro de interés es la
PROPORCIÓN POBLACIONAL. Una empresa puede desear saber que
9

proporción de cliente pagan a crédito o que proporción de clientes pagan en


efectivo. Una corporación con frecuencia esta interesada en saber en que
porcentaje sus empleados renuncian después de un año, en oposición a que no
renuncian después de un año, asi como también la proporción de artículos
defectuosos en oposición a artículos no defectuosos. En cada uno de estos
casos existen dos posibles resultados, por lo tanto la preocupación se concentra
en la proporción de respuestas que queda dentro de uno resultados. Se utilizará
la siguiente formula:

p-z pq ≤ µ ≤ p +z pq
n n

Notación

µ = Distribución proporcional poblacional

p = Proporción de la muestra

q=1–p

z= se consigue en el cuadro dado anteriormente

n = Tamaño de la muestra
10

Ejemplo 1

El rector de una universidad desea saber el porcentaje de alumnos que trabajan


y estudian. Una muestra aleatoria de 384 estudiantes revela que 120 estudiantes
trabajan y estudian. Cual es el intervalo de proporción para la población del 95%
de los estudiantes que trabajan y estudian.

p-z pq ≤ µ ≤ p +z pq
n n

p = 120 = 0,313 q=1–p q = 1 – 0,313 = 0,688


384

z = se consigue en el cuadro anterior con 95% de confianza z = 1,96

n = 384

0,313 - (1,96) (0,313)(0,688) ≤ µ ≤ 0,313 + (1,96) (0,313)(0,688)

384 384

0,313 – 0,046 ≤ µ ≤ 0,313 + 0,046

0,267 ≤ µ ≤ 0,359

26,70% ≤ µ ≤ 35,90%

Conclusión: Con un 95% de confianza podemos afirmar que los estudiantes que
trabajan y estudian se encuentran en un intervalo de proporción entre 26,70% y
35,90%
11

Ejemplo 2

En cierta población se seleccionó aleatoriamente una muestra de 300 personas


a las que se les sometió a cierto test cultural. De ellas, 225 resultaron aprobadas.
Teniendo en cuenta esta información, estimar el porcentaje de persona de esa
población que resultaría aprobada si se las sometiera a dicho test cultural.
Obtener, con un nivel de confianza del 97,50%, un intervalo de confianza para la
proporción

p-z pq ≤ µ ≤ p +z pq
n n

p = 225 = 0,750 q=1–p q = 1 – 0,750 = 0,250


300

z = se consigue en el cuadro anterior con 97,50% de confianza z = 2,24

n = 300

0,750 - (2,24) (0,750)(0,250) ≤ µ ≤ 0,750 + (2,24) (0,750)(0,250)

300 300

0,750 – 0,056 ≤ µ ≤ 0,750 + 0,056

0,694 ≤ µ ≤ 0,806

69,40% ≤ µ ≤ 80,60%

Conclusión: Con un 97,50% de confianza podemos afirmar que las personas que
aprobarían el test cultural se encuentran en un intervalo de proporción entre
69,40% y 80,60%
12

EJERCICIOS DE ESTIMACIÓN DE INTERVALO PARA UNA PROPORCIÓN

Ejercicio 1

El gerente de una estación de televisión debe determinar en la ciudad que


porcentajes de casas tienen mas de un televisor. Una muestra aleatoria de 500
casas revelan que 275 tienen dos o mas televisores. ¿ Cual es el intervalo de
confianza del 99,74% para estimar la proporción de todas las casas que tienen
dos o más televisores.

Ejercicio 2

Tomada, al azar, una muestra de 120 estudiantes de una Universidad, se


encontró que 54 de ellos hablaban inglés. Halle, con un nivel de confianza del
95,45%, un intervalo de confianza para estimar la proporción de estudiantes que
hablan el idioma inglés entre los estudiantes de esa Universidad.

Ejercicio 3

Una televisión Venezolana informa que todos los estudiantes de primaria tienen
una computadora. Si una muestra de 1020 estudiantes revela que 673 tienen
computadores caseros. ¿Determine un intervalo de proporción para la población
con un nivel de confianza del 99,74%?

2.- Pruebas de Hipótesis para medias

1) Hipótesis estadística:

a) Definición de Hipótesis Estadística: Es un enunciado provisional referente a


uno o más parámetros de una población o grupos de poblaciones.

b) Tipos de Hipótesis Estadisticas:

1. Hipótesis nula (H0): La Hipótesis nula es la que se quiere verificar o


someter a prueba. Cuando resulte rechazada se supone que se aceptan otras
hipótesis alternas propuestas.

2. Hipótesis alternativa (Ha): Siempre señala lo contrario de la hipótesis nula.


13

c) Nivel de significación: El que realiza la investigación debe establecer a priori


(con anterioridad) un nivel de significación o probabilidad respecto de la cual se
va a poner a prueba la hipotesis.

Los niveles de significación son linderos entre aceptar, o no, la hipotesis nula.

VALORES CRITICOS DE Zt CORRESPONDIENTES A LOS NIVELES DE


SIGNIFICACIÓN

NIVEL DE SIGNIFICACIÓN VALOR CRITICO DE Zt

UNILATERAL BILATERAL

10% -1,28 1,28 1,645

5% -1,645 1,645 1,96

1% -2,33 2,33 2,58

0,5% -2,58 2,58 2,81

0,2% -2,88 2,88 3,08

2.- TIPOS DE ERRORES:

a) Error tipo I: (o riesgo de primera especie ∝): El error tipo I es aquel que se
comete al rechazar la hipótesis nula (H0) a nivel de la muestra, siendo verdadera
14

a nivel de la población. Dicho de otra forma, cuando una hipótesis, que


habíamos descartado, creyéndola falsa, resulte verdadera.

b) Error tipo II (o riesgo de segunda especie 𝛽): El error tipo II ocurre cuando a
nivel de la muestra se acepta la hipótesis nula(H0), siendo esta falsa a nivel de la
población. Dicho de otra manera cuando una hipotesis, aceptada como buena,
resulte que es falsa.

c) Contrastes:

1) Bilateral

H0 : µ1 = 𝜇 2

Ha : µ1 ≠ 𝜇 2

2) Unilateral

H0 : µ1 = 𝜇 2

Ha : µ1 > 𝜇2

H0 : µ1 = 𝜇 2

Ha : µ1 < 𝜇2
15

1) Bilateral

H0 : µ1 = 𝜇 2

Ha : µ1 ≠ 𝜇 2

Zona de rechazo de H0 Zona de

Aceptación Zona de rechazo de H0

De H0

Zc zt zt zc

2) Unilateral

H0 : µ1 = 𝜇 2

Ha : µ1 > 𝜇2

Zona de

Aceptación Zona de rechazo de H0

De H0

zt zc
16

2) Unilateral

H0 : µ1 = 𝜇 2

Ha : µ1 < 𝜇2

Zona de rechazo de H0 Zona de

Aceptación

De H0

Zc zt
17

PARTE PRACTICA

EJEMPLO 1: Un modelo de test de inteligencia con una puntuación promedio de


87 puntos y desviación típica de 8 puntos, ha sido suministrada durante varios
años. Un grupo de 36 estudiantes tomados al azar, son sometidos al test
obteniendo una media de 90 puntos. Se desea saber con un nivel de riesgo del
5% si el promedio de inteligencia a aumentado.

SOLUCIÓN

1) Planteamiento de las hipotesis

H0: µ1 = 87
UNILATERAL
Ha: µ1 > 87

2) Calculo del error típico de la muestra

𝜎x = 𝜎 = 8 = 8 = 1,33
√n √36 6
3) Calculo de Zc

Zc = X – 𝜇 = 90 – 87 = Z = 2,26
𝜎x 1,33

4) Se busca en la tabla el valor critico de Zt con un nivel de riesgo del 5% y


contraste unilateral, obtenemos Zt = 1,645
18

Zona de

Aceptación Zona de rechazo de H0

De H0

1,645 2,26

5) Conclusión: Se rechaza la hipotesis nula (H0), o sea que se acepta Ha, lo que
significa que la media aritmética de inteligencia de los estudiantes de ese nivel
ha aumentado.

EJEMPLO 2:

La experiencia ha demostrado que el tiempo promedio de reacción, ha


determinado estimulo, en contadores públicos, es de 65 milimetrosxseg, con una
desviación estándar de 15 mseg. Un equipo de Psicólogos cree que si los
contadores públicos reciben cierto tipo de entrenamiento, entonces muestran en
promedio, un tiempo de respuesta más corto.

Para aclarar esto, se tomó una muestra aleatoria de 20 contadores públicos y se


obtuvo una media igual a 55,5. Se supone que esta población está normalmete
distribuida. Realice la prueba correspondiente usando un nivel de significación
del 1%.
19

SOLUCIÓN

1) Planteamiento de las hipótesis

H0 : µ1 = 65

Ha : µ1 < 65

2) Calculo del error típico de la muestra

𝜎x = 𝑠 = 15 = 3,35
√n √20

3) Calculo de tc (se utiliza t de student ya que n < 30)

tc = X – 𝜇 = 55,5 – 65 = tc = -2,84
𝜎x 3,35
4) Se busca en la tabla el valor critico de t con n – 1 = 20 – 1 = 19 con un nivel de
riesgo del 1%(0,01) t0,01 tt = 2,539
19
20

t - students

v 0,01

19 2,539
21

Zona de rechazo de H0 Zona de

Aceptación

De H0

-2,84 2,539

5) Conclusión: Se rechaza la hipótesis nula (H0), o sea que se acepta Ha, lo que
significa que el tiempo promedio de respuesta ha determinado estimulo, para los
contadores es más corto a 65mseg.
22

EJEMPLO 3

Un fabricante de equipos deportivos a desarrollado un nuevo hilo sintético para


pescar, del cual afirma que tiene un coeficiente de ruptura de 8 kg, con una
desviación tipica de 0,5 kg. Probar la hipótesis de 8kg en contra de la alternativa
µ ≠ 8kg. Si se prueba una muestra aleatoria de 50 kilos y se encuentra que tiene
un coeficiente medio de 7,8 kg. Usar un nivel de significación del 0,01.

SOLUCIÓN

1) Planteamiento de las hipotesis

H0 : µ1 = 8
BILATERAL
Ha : µ1 ≠ 8

Ejemplo 4

Vamos a suponer que en un hato, los becerros de la raza pardo suizo suelen
pesar al nacer 80 kg en promedio, siendo alimentadas las madres con pangolas
únicamente. Luego de haber sido sometido este mismo ganado a una
sobrealimentación de concentrado, durante cierto tiempo, se toman varias
muestras del mismo de 9 vacas preñadas, estas escogidas al azar y de peso
talla y salud normal: encontrándose que sus becerritos pesan ahora al nacer
84kg en promedio, con una aproximación de + o – 6kg.
23

Se desea averiguar si este aumento de peso es debido a la sobrealimentación


prenatal de las vacas, o azares del muestreo. En otras palabras ¿Se desea
averiguar si el peso de las vacas aumento con un nivel de significación del
10%?

SOLUCIÓN

DATOS

𝜇 = 80kg

n = 9 vacas

X = 84kg

𝑠 = 6kg

NS = 10%

1) Planteamiento de las hipotesis

H0 : µ1 = 80
UNILATERAL
Ha : µ1 > 80

2) Calculo del error típico de la muestra

𝜎x = 𝑠 / √n = 6 / √9 = 6/ 3 = 2,00

3) Calculo de tc (se utiliza t de student ya que n < 30)

Tc = X – 𝜇 / 𝜎x = 84 – 80 / 2 = 4 / 2 = tc = 2,00

4) Se busca en la tabla el valor critico de t con n – 1 = 9 – 1 = 8 con un nivel de


riesgo del 10%(0,10) t0,10 tt = 1,397
8
24

t - students

v 0,40 0,30 0,20 0,10 0,05 0,025

8 1,397

.
25

Zona de

Aceptación Zona de rechazo de H0

De H0

1,397 2,00

5) Conclusión: Se rechaza la hipótesis nula (H0), o sea que se acepta Ha, lo que
significa que hubo un aumento de peso y se debió a la sobrealimentación
prenatal de las vacas

3.- Prueba de hipótesis para proporción poblacional(Se recomiendan 3


decimales, ya que se trabajan con números muy pequeños)

Se estudiará el problema referente a la prueba de hipótesis de una proporción de


éxitos en un experimento binomial.

Las hipótesis estadísticas pueden ser:

1) Bilateral

H0 : p= 𝑃0

Ha : p≠𝑃0

2) Unilateral

H0 : p= 𝑃0
26

Ha : p< 𝑃0

H0 : p= 𝑃0

Ha : p> 𝑃0

El estadístico apropiado en el cual se basa el criterio de decisión es la variable


aleatoria binomial X, aunque se puede usar en la misma forma el estadístico

̂p = X / n los valores de X que están alejados de la media µ = np 0 conducirán al


rechazo de la hipótesis nula.

Solo se estudiará el caso en que la muestra aleatoria es grande (n ≥ 30), esto es,
el caso en el cual existe una aproximación normal de la distribución binomial. El
estadístico de prueba es:

Zc = ̂p – P0

̂p ̂q
n

Hay investigadores que prefieren usar:

Zc = ̂p – P0 / √ p0 q0 / n Z = X – np0 / √ Np0q0

Arguyendo que si H0 es verdadera, entonces p0 q0 / n es la varianza de ̂p.

Se puede observar que la prueba, en este caso, está basada en la aproximación


normal de la distribución binomial. Esta aproximación mejora al aumentar n.
27

Se deben recordar las siguientes definiciones:

X = número de éxitos

̂p = x proporción muestral de éxito


n

̂q = 1 - ̂p proporción muestral de fracasos

El éxito está asociado con las observaciones que se desean estudiar.

EJEMPLO PRUEBA DE HIPOTESIS PARA UNA PROPORCIÓN(Se


recomiendan 3 decimales, ya que se trabajan con números muy pequeños)

Ejemplo 1

Una compañía manufacturera ha encontrado que el 90% de los artículos


producidos mediante ciertos procesos no están defectuosos. Se está
considerando la conveniencia de introducir una modificación en él, que se cree
disminuirá la proporción de artículos defectuosos a menos del 10% actual. En un
experimento de 100 artículos producidos con el nuevo proceso se encuentran 5
defectuosos. ¿Es esta evidencia suficiente para afirmar que el procedimiento
modificado es mejor?. Use un nivel de significación de 0,05.

SOLUCIÓN
28

DATOS

X = Número de artículos no defectuosos.

X = 95 Ya que se encuentran 5 defectuosos de los 100

n = 100

α = Nivel de significación

α = 0,05 o lo que es lo mismo 5%, con este valor voy a la tabla vista
anteriormente y obtengo un Z = 1,645

1) Planteamiento de las hipotesis

H0 : p= 𝑃0 H0 : p= 0.9
UNILATERAL
Ha : p> 𝑃0 Ha : p> 0.9

𝑃0 = 0,9

2) Calculo de Zc

Zc = ̂p – P0

̂p ̂q
n
̂p = x ̂p = 95 ̂p = 0,950
n 100

̂q = 1 - ̂p ̂q = 1 – 0,950 ̂q = 0,050

Zc = ̂p – P0

̂p ̂q
n

Zc = 0,950 – 0,90
29

(0,950)(0,050)
100

Zc = 0,050
0,022

Zc = 2,273

3) Se busca en la tabla el valor critico de Zt con un nivel de riesgo del 5% y


contraste unilateral, obtenemos Z = 1,645

Zona de

Aceptación Zona de rechazo de H0

De H0

1,645 2,273

4) Conclusión: Se rechaza la hipótesis nula (H0), o sea que se acepta Ha, lo que
significa que el proceso ha mejorado, ya que el proceso modificado ha reducido
la proporción de artículos defectuosos.

Ejemplo 2

Una empresa está interesada en lanzar un nuevo producto al mercado. Tras


realizar una campaña publicitaria, se toma la muestra de 1 000 habitantes, de los
cuales, 25 no conocían el producto. A un nivel de significación del 1% ¿apoya el
estudio las siguientes hipótesis?
30

a. Más del 3% de la población no conoce el nuevo producto.


b. Menos del 2% de la población no conoce el nuevo producto

n = 1000

X = 25

α = Nivel de significación

α = 0,01 o lo que es lo mismo 1%, con este valor voy a la tabla vista
anteriormente y obtengo un Z =

a. Más del 3% de la población no conoce el nuevo producto.

1) Planteamiento de las hipotesis

H0 : p= 𝑃0 H0 : p= 0.030
UNILATERAL
Ha : p> 𝑃0 Ha : p> 0.030

𝑃0 = 0,030

2) Calculo de Zc

Zc = ̂p – P0

̂p ̂q
n

̂p = x ̂p = 25 ̂p = 0,025
n 1000

̂q = 1 - ̂p ̂q = 1 – 0,03 ̂q = 0,975
31

Zc = ̂p – P0

̂p ̂q
n

Zc = 0,025 – 0,030

(0,025)(0,975)
1000

Zc = -0,005
0,005

Zc = - 1,00

3) Se busca en la tabla el valor critico de Zt con un nivel de riesgo del 1% y


contraste unilateral, obtenemos Z = 2,33

Zona de

Aceptación Zona de rechazo de H0

De H0

- 1,00 2,33
32

4) Conclusión: Se acepta la hipótesis nula (H0), lo que significa que solo el 3%


de la población conoce el producto

b. Menos del 2% de la población no conoce el nuevo producto

1) Planteamiento de las hipotesis

H0 : p= 𝑃0 H0 : p= 0.020
UNILATERAL
Ha : p< 𝑃0 Ha : p< 0.020

𝑃0 = 0,020
33

4.- Diagrama de dispersión

Es la representación gráfica del grado de relación entre 2 variables cuantitativas,


permitiendo establecer la tendencia lineal o no lineal entre las variables, el
análisis de datos mediante esta herramienta proporciona mayor información que
el simple análisis matemático de correlación, sugiriendo posibilidades y
alternativas de estudio, basados en la necesidad de conjugar datos y procesos
en su utilización, Veamos a continuación algunos tipos de diagrama de
dispersión:

Y Y Y Y

X X X X

Tendencia lineal + Tendencia lineal - Tendencia no lineal Tendencia no lineal

6.- REGRESIÓN LINEAL SIMPLE

ASOCIACIÓN ENTRE VARIABLES

En esta unidad estudiaremos observaciones que dependen de dos


variables que denominaremos distribuciones bivariables donde una de las
variables que llamaremos X es independiente y la otra que llamaremos Y
constituye la variable dependiente, entre ambas existirá una relación lineal o no
lineal.

MODELO DE REGRESIÓN LINEAL SIMPLE


34

Se utiliza para medir la relación lineal de dos variables y su formulación


matemática es la siguiente:

Y  a  bX que representa la recta estimada

Donde:

Y Es la variable dependiente

X Es la variable independiente y conocida

a Representan el intercepto

b Representan la pendiente de la recta que puede ser positiva o negativa


como se ilustra.

Y
PENDIENTE POSITIVA a
Y2 Y2
,b
PENDIENTE NEGATIVA
Y1 ,b

Y1

X X1
X1 X2 X2
35

Los valores de los parámetros de la recta estimada se calculan a través de la

formulación matemática siguiente: Y  a  bX


n XY   X  Y
b
n X 2   X 
2

Obtenido este valor se obtiene (a) a través de la ecuación:

a= Σy - bΣx
n

6.- ANÁLISIS DE CORRELACIÓN

COEFICIENTE DE CORRELACIÓN LINEAL


36

En probabilidad y estadística, la correlación indica la fuerza y la dirección

de una relación lineal entre dos variables aleatorias. Se considera que dos

variables cuantitativas están correlacionadas cuando los valores de una de ellas

varían sistemáticamente con respecto a los valores homónimos de la otra: si

tenemos dos variables (A y B) existe correlación si al aumentar los valores de A

lo hacen también los de B y viceversa. Se denota por r y se calcula a través de la

formulación matemática:

n XY   X Y
r
n X   X  nY  Y  
2 2 2 2

Si r 1 la correlación es positiva perfecta

Entre  0.70 y  0.99 Alta

Entre  0.30 y  0.69 Media, recomendable con precaución

Entre  0.01 y  0.29 Baja no recomendable (no hay un buen ajuste de datos)

0 No hay correlación (independencia entre variables)


37

Ejemplo Nº 1

La tabla siguiente nos da las notas del test de aptitud (x) de 6 individuos para
llevar a cabo las ventas del primer mes de prueba(y) en cientos de dólares

APTITUD (X) 25 42 33 54 29 36

PRUEBAS (Y) 42 72 50 90 45 48

a) Realice el diagrama de dispersión

b) Determine la ecuación de la recta (Y)

c)¿Predecir las ventas de un vendedor que obtenga 47 en el test ?

d) Determine el coeficiente de correlación

SOLUCIÓN

APTITUD(X) PRUEBAS(Y) X2 Y2 XY

25 42 625 1764 1050

42 72 1764 5184 3024

33 50 1089 2500 1650

54 90 2916 8100 4860

29 45 841 2025 1305

36 48 1296 2304 1728

∑x =219 ∑y = 347 ∑x2= 8.531 ∑y2= 21.877 ∑xy =13.617


38

a) Realice el diagrama de dispersión

94
90
89
84
79
74
72
69
64
59
52
50
48 47
45
42 x

25 30 35 40 45 50 55

29 33 36 42 54

Tendencia Lineal +
∑x =219

b) Determine la ecuación de la recta (Y) ∑y = 347

Y  a  bX ∑x2= 8.531

∑y2= 21.877
Para obtener la ecuación de la recta de ajuste, vamos a
calcular la pendiente y el intercepto: ∑xy =13.617

n=6

n XY   X  Y 613.617   219347  5.709


b  b  b  1,77
n X   X  68.531  219
2 2
2 3.225
39

347  1.77219
a   Y  b x  a   a  6,77 Por tanto la expresión de la
n6
n

ecuación de la recta ajustada es:

Y  a  bX
Y  6,77  1,77 X

c)¿Predecir las ventas de un vendedor que obtenga 47 en el test ?

Y  6,77  1,77 X

Y  6,77  1,77(47)  76,42

d) Determine el coeficiente de correlación

n XY   X Y 5709
r r 
n X 2 2

  X  nY 2   y 
2
 68.531  (219) 621.877  347 
2 2

5709 5709
r   0,96 Alta
(56,79)(104,18) 5916,38

r = 0,96 Alta

Ejemplo Nº 2
40

La tabla mostrada a continuación visualiza el sueldo ganado por horas


trabajadas de 12 trabajadores de una empresa de vigilancia:
a) Realice el diagrama de dispersión
b) Determine la ecuación de la recta (Y)
c) ¿Estime cuanto ganaría un empleado que trabajase 12 horas?
d) Determine el coeficiente de correlación

Horas de trabajo(X) Salario(Y)

10 200

15 320

20 475

25 500

30 535

35 860

40 750

45 860

50 900

55 1000

60 1100

65 1300
41

Horas de trabajo(X) Salario(Y) X2 Y2 XY

10 200 100 40000 2000

15 320 225 102400 4800

20 475 400 225625 9500

25 500 625 250000 12500

30 535 900 286225 16050

35 860 1225 739600 30100

40 750 1600 562500 30000

45 860 2025 739600 38700

50 900 2500 810000 45000

55 1000 3025 1000000 55000

60 1100 3600 1210000 66000

65 1300 4225 1690000 84500

450 8800 20450 7655950 394150


42

a) Realice el diagrama de dispersión

b) Determine la ecuación de la recta (Y)

Y  a  bX
Para obtener la ecuación de la recta de ajuste, vamos a calcular la pendiente y el
intercepto:

n XY   X  Y 12394150  4508800 769.800


b  b  b  17.94
n X   X  1220450  450
2 2
2 42.900

8800  17.94450
a   Y  b x  a   a  60.5 Por tanto la expresión de la
n  12
n

ecuación de la recta ajustada es:

Y  a  bX
Y  60,5  17,94 X
43

c) ¿Estime cuanto ganaría un empleado que trabajase 12 horas?

Un trabajador que labore 12 horas obtendrá un sueldo estimado de:

Y  60.5  17.94(12)  Y  275.78

d) Determine el coeficiente de correlación ( r)

Para calcular el coeficiente de correlación lineal tenemos que:

n XY   X Y 12394150  4508800
r r 
n X 2 2

  X  nY 2   y 
2
 1220450  450 127655950  8800 
2 2

Se concluye que la correlación entre las variables horas trabajadas y sueldo


tiene una muy alta correlación positiva.
44

PROBLEMAS PROPUESTOS

1.- Aplicamos a los estudiantes de la asignatura una prueba de dibujo y otra de


imaginación creadora. Nos interesa buscar la correlación que existe entre estas
2 variables.

DIBUJO (X) 13 12 10 10 8 6 6 5 3 2

INMAGINACIÓN 11 14 11 7 9 11 3 7 6 1
(Y)
45

a) Realice el diagrama de dispersión

b) Determine la ecuación de la recta (Y)

c) Estime para 11 estudiantes de dibujo ¿Cuánto es su imaginación creadora?

d) Determine el coeficiente de correlación

2.-

3.- En la tabla siguiente se pueden visualizar las presiones sanguíneas sistólicas


de mujeres entre 20 y 26 años, tomadas al azar:

INDIVIDUO 1 2 3 4 5 6 7 8 9 10 11 12 13

PESO 55 57 70 55 75 51 53 44 48 59 56 51 57

PRESIÓN 13 13 15 14 15 12 15 12 12 13 14 12 14
0 3 0 6 1 8 0 1 0 9 8 5 9

a) Realice el diagrama de dispersión

b) Determine la ecuación de la recta (Y)

c) ¿Predecir las ventas de un vendedor que obtenga 47 en el test ?

d) Determine el coeficiente de correlación

4.- Un estudio trata de relacionar la satisfacción laboral con los años de servicio,
los trabajadores evaluaron la satisfacción del 1 al 10, se obtuvieron los datos
siguientes:
46

AÑOS DE SATISFACCION
TRABAJO

8 5.6

4 6.3

12 6.8

9 6.7

16 7.0

14 7.7

10 7.0

15 8.0

22 7.8

a) Realice el diagrama de dispersión

b) Determine la ecuación de la recta (Y)

c) ¿Si un trabajador tiene 10 años de servicios ¿Cuanto sería su satisfacción


laboral ?

d) Determine el coeficiente de correlación


47

4.-Un estudio trata de relacionar la antigüedad con el ingreso en miles, se


obtuvieron los datos siguientes:

AÑOS DE INGRESO
TRABAJO

8 27

4 22

12 34

9 28

16 36

14 39

10 33

15 42

22 46

a) Realice el diagrama de dispersión

b) Determine la ecuación de la recta (Y)

c) ¿Estime el ingreso para un trabajador que tuvo 17 años de antigüedad ?

d) Determine el coeficiente de correlación


48

5.- Se toma una muestra de 16 personas y se les somete a un régimen dietético,


durante un año y se mide su perdida de peso, obteniéndose la siguiente tabla:
49

Ingesta diaria de Pérdida de peso


calorías
(Kg)

1600 23

1800 28

2000 26

2500 10

3000 5

1850 16

1950 17

1500 30

1650 14

1550 11

1880 16

2100 4

2900 3

1700 19

2200 7

2350 6
50

a) Realice el diagrama de dispersión

b) Determine la ecuación de la recta (Y)

c) ¿Cuántas personas pueden perder pesos con una ingesta diaria de 2400
calorías ?

d) Determine el coeficiente de correlación

FORMULARIO TERCER CORTE

Y  a  bX Recta estimada

n XY   X  Y
b
n X 2   X 
2

a= Σy - bΣx
n
COEFICIENTE DE CORRELACIÓN LINEAL

n XY   X  Y
r
n X   X  nY  Y  
2 2 2 2
51

También podría gustarte