Está en la página 1de 22

ESTADÍSTICA

INFERENCIAL
𝑇𝑡 = 𝑏0 + 𝑏𝑡 t
Gastos por período ONG
−19.6
16.00
= = - 0.7
14.00 28
12.00
10.00
8.00
Ojo al signo
6.00 y = -0.7x + 13.8
4.00
2.00 = 11 – (- 0.7)*(5.4) = 13.8
0.00
0 1 2 3 4 5 6 7 8

b) Ecuación recta
Año Período % Gastos t - 𝑡ҧ 𝑌𝑡 - 𝑌ത ത
(t - 𝑡)ҧ (𝑌𝑡 - 𝑌) ҧ
(t - 𝑡)^2
2003 1 13.90 -3 2.90 -8.7 9 T = 13.8 – 0.7t
2004 2 12.20 -2 1.20 -2.4 4
2005 3 10.50 -1 -0.50 0.5 1
2006 4 10.40 0 -0.60 0 0 C) Pronóstico para el 2010
2007 5 11.50 1 0.50 0.5 1
2008 6 10.00 2 -1.00 -2 4
2009 7 8.50 3 -2.50 -7.5 9 𝑇8 = 13.8 – 0.7*8 = 8.2
-19.6 28

𝑡ҧ = σ 𝑡 /n =28/ 7 = 4 D) Tiempo que la ONG alcance un nivel de 5% o menos


𝑌ത = σ 𝑦𝑡 /n = 77/ 7 = 11
Por tanteo vemos que se alcanza en el año 2015 t =13 𝑇13 = 13.8 – 0.7*13 = 4.7
Recordemos el caso del géiser de Old Faithful

El géiser Old Faithful es la atracción más visitada del Parque Está ubicado cerca del hotel Old Faithful Inn
Nacional Yellowstone.
Cuando el Old Faithful hace erupción, se registran las siguientes mediciones: duración (en segundos) de la erupción, el intervalo
de tiempo (en minutos) entre la erupción anterior y la erupción actual, el intervalo de tiempo (en minutos) entre la erupción
actual y la siguiente, y la altura (en pies) de la erupción

Erupciones del géiser Old Faithful


¿qué harían
primero para
examinar el
caso?

Al examinar los patrones de los puntos en los tres diagramas de dispersión, podemos plantear las
siguientes conclusiones subjetivas:
a) Al parecer hay una relación entre el intervalo de tiempo b) Parece que no existe una relación entre el intervalo de
posterior a una erupción y la duración de la erupción tiempo posterior a una erupción y la altura de la erupción

a) Intervalo posterior- duración


b) Intervalo posterior - altura
110
100 120
90 100
80
80
70
60 60
100 150 200 250 300 100 110 120 130 140 150 160

c) Intervalo posterior- Intevalo previo


110
100
90 c) Parece que no existe una relación entre el intervalo de tiempo
80 posterior a una erupción y el intervalo de tiempo previo a la erupción
70
60
80 85 90 95 100 105 110
Puesto que el examen visual de los diagramas de dispersión es muy subjetivo, necesitamos medidas más precisas
y objetivas

Empleamos el coeficiente de correlación lineal r, que sirve para detectar patrones lineales

El coeficiente de correlación lineal r mide la fuerza de la relación lineal entre los valores cuantitativos apareados
x y y en una muestra (r se puede calcular usando Excel en otras opciones de igual forma que la ecuación de la
línea recta)

Calculamos el valor de r (generalmente con la ayuda de recursos tecnológicos) y luego utilizamos este valor para
concluir que existe (o no) una relación entre las dos variables
R = 0.7648 = 0.875
Cuando Si los datos van
examinamos un hacia arriba, esto
diagrama de sugiere que cuando
dispersión, una variable
debemos aumenta, la otra
estudiar el también lo hace.
patrón general
de los puntos
graficados. Si
existe un patrón,
es necesario Si los datos van hacia
observar su abajo, esto sugiere que
dirección. cuando una variable
aumenta, la otra
disminuye
r
Puesto que el coeficiente de correlación lineal r se calcula utilizando datos muestrales, se trata de un estadístico
muestral empleado para medir la fuerza de la correlación lineal entre x y y.

Si tuviéramos cada par de los valores poblacionales de x y y, el resultado de la fórmula sería un parámetro
poblacional, representado por 𝜌 (rho griega).

Dado cualquier conjunto de datos muestrales apareados, siempre se puede calcular el coeficiente de correlación lineal
r, pero se deben satisfacer los siguientes requisitos cuando se prueban hipótesis o cuando se hacen inferencias acerca
de r

1. La muestra de datos apareados (x, y) es una muestra aleatoria de datos cuantitativos. (Es importante que los datos
muestrales no se hayan reunido por medio de algún método inapropiado, como una muestra de respuesta voluntaria).
2. El examen visual del diagrama de dispersión debe confirmar que los puntos se acercan al patrón de una línea recta.

3. Es necesario eliminar cualquier valor extremo, si se sabe que se trata de un error. Los efectos de cualquier otro valor
extremo deben tomarse en cuenta calculando r con y sin el valor extremo incluido

Los requisitos 2 y 3 se simplifican al verificar el siguiente requisito formal:


¿cómo es una
distribución
normal?
Los pares de datos (x, y) tienen una distribución normal bivariada.

(Las distribuciones normales se estudiaron en probabilidad y estadística, pero este supuesto requiere que, para
cualquier valor fijo de x, los valores correspondientes de y tengan una distribución con forma de campana, y que para
cualquier valor fijo de y, los valores de x tengan también una distribución con forma de campana)

Suele ser difícil verificar este supuesto, así que, por ahora, usaremos los requisitos 2 y 3 descritos arriba
Formula del coeficiente de correlación r

Esta fórmula abreviada simplifica los cálculos manuales

Su formato la hace fácil de usar en una hoja de cálculo o en un programa de cómputo


Se puede demostrar que, si todos los puntos de un conjunto de datos caen en una línea recta inclinada con
pendiente positiva, el valor del coeficiente de correlación muestral es +1; es decir, un coeficiente de correlación
muestral de +1 corresponde a una relación lineal positiva perfecta entre x y y

Por otra parte, si los puntos del conjunto de datos caen en una recta con pendiente negativa, el valor del
coeficiente de correlación muestral es -1; es decir, corresponde a una relación lineal negativa perfecta entre x y y.

-1 ≤ r ≤ +1

El estadístico r, que en ocasiones se llama producto momento de Pearson, fue creado por Karl Pearson. Se basa en la
sumatoria de los productos (x - 𝑥)(y
ҧ - 𝑦)ത

El estadístico r, que en ocasiones se llama producto momento de Pearson, fue creado por Karl Pearson. Se basa
en la sumatoria de los productos (x -𝑥)(y
ҧ - 𝑦)

Denominado centroide de los puntos muestrales Veamos un punto como ejemplo

Para (𝑥ҧ , 𝑦ത ) = (3,11) El punto (7,23)


En cualquier diagrama de dispersión, las líneas vertical y horizontal que pasan a través del centroide dividen el diagrama en cuatro
cuadrantes
Si los puntos del diagrama de
dispersión tienden a
Si los puntos del diagrama aproximarse a una línea
de dispersión se ascendente (como en la
aproximan a una línea figura), los valores individuales
descendente, la mayoría del producto (x -𝑥)(y
ҧ - 𝑦)ത
de los puntos se tienden a ser positivos ya que
encuentran en el segundo la mayoría de los puntos se
y cuarto cuadrantes, encuentran en el primer y
donde (x -𝑥)ҧ y (y - 𝑦)
ത tercer cuadrantes, donde los
tienen el signo opuesto, productos (x -𝑥)ҧ y (y - 𝑦)
ത tienen
de manera que signos iguales
σ (x −𝑥)(y
ҧ − 𝑦)ത es
Una suma positiva grande sugiere
negativo
que los puntos están
predominantemente en el primer y
una suma negativa grande en el tercer cuadrante (lo que
sugiere que los puntos corresponde a una correlación lineal
están predominantemente positiva)
en el segundo y en el
y una suma cercana a cero sugiere que
cuarto cuadrantes los puntos se dispersan en los cuatro
(correlación lineal negativa) cuadrantes (y no existe una correlación
lineal).
Interpretación de r por medio de la tabla A-6 (Apéndice A del libro de texto)

TEXTO BASE: Triola, Mario (2013) “Estadística”. Decimoprimera edición. Editorial Pearson. México

Capitulo 10 Correlación y Regresión del libro de texto

Si el valor absoluto del valor calculado de r excede el valor de la tabla de A-6, concluya que existe una correlación
lineal significativa. De lo contrario, no existe evidencia suficiente para sustentar la conclusión de una correlación lineal

Redondeo del coeficiente de correlación lineal

Redondeen el coeficiente de correlación lineal r a tres decimales (de manera que su valor pueda compararse
directamente con los valores críticos de la tabla de A-6). Al calcular a mano r y otros estadísticos, hacer un redondeo a la
mitad de un cálculo suele generar errores importantes, así que, traten de utilizar la memoria de su calculadora para
almacenar los resultados inmediatos y redondeen sólo al final.
n tamaño de la muestra
∝ lo veremos más adelante en
el curso. Por ahora sólo
diremos que
Recordemos que estamos
hablando de distribuciones
normales
𝛼 es la probabilidad relativamente
pequeña que tienen las
proporciones muestrales de caer
∝ = 1 – 0.95 (95%) y fuera del nivel de confianza de la
∝ = 1 - 0.90 (90%) distribución normal
Nivel de confianza

|r| > que el valor de la tabla dado un 𝜶


Si el valor absoluto del valor calculado de r excede el valor de la tabla
A6, concluya que existe una correlación lineal significativa

|r| < que el valor de la tabla dado un 𝜶


No existe evidencia suficiente para sustentar la conclusión de una
correlación lineal.
Recordemos EJEMPLO Old Faithful

Erupciones del géiser Old Faithful

Utilicemos los datos apareados de la duración y el intervalo de tiempo posterior a la erupción para calcular el valor
del coeficiente de correlación lineal r

Después veamos en la tabla A-6 si existe una correlación lineal significativa entre la duración y los intervalos de
tiempo posteriores a las erupciones. En la tabla A-6, utilizaremos el valor crítico para a 0.05.
n=8

x y xy x^2 y^2 a) Intervalo posterior- duración


1 240 92 22,080 57,600 8,464 110
2 120 65 7,800 14,400 4,225 100
3 178 72 12,816 31,684 5,184 90
4 234 94 21,996 54,756 8,836 80
5 235 83 19,505 55,225 6,889 70
6 269 94 25,286 72,361 8,836 60
7 255 101 25,755 65,025 10,201 100 150 200 250 300
8 220 87 19,140 48,400 7,569
1751 688 154,378 399,451 60,204

8*154,378 – 1,751*688 .
r=
[ 8*399,451 – (1,751)2 ]1/2 [8*60,204 – (688)2 ]1/2

30,336 = 0.925591
r = 360.01∗91.0384534
Calculemos r con Excel
Duración – intervalo posterior
120

100 y = 0.2341x + 34.77


R² = 0.8567
80

60
r = 𝑅2 = 0.8567 = 0.925581
40

20

0
0 50 100 150 200 250 300

30,336 = 0.925591
r=
360.01∗91.0384534
En la tabla A-6, con valor crítico para a 0.05

n=8

Como |r| > que el valor de la tabla para


r = 0.925591
𝜶 = 0.05 Concluimos que existe una
correlación lineal significativa
r = 0.926

También podría gustarte