Está en la página 1de 25

ESTADISTICA II

Unidad III
REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE

Tema: Prueba de hipótesis para el coeficiente de


correlación. Modelos no lineales.

Semana 11
Objetivos de aprendizaje

• Probar hipótesis acerca del coeficiente de


correlación poblacional .
• Estimar modelos no lineales mediante la
regression lineal aplicada a variables
transformadas.
El coeficiente de correlación de Pearson
El coeficiente de correlación muestral mide cuán fuerte los valores de
y en una muestra de pares están linealmente relacionadas unos a
otros.
Existe una medida análoga de cuán fuerte y están linealmente
relacionados en la población entera de pares. Este es llamado
coeficiente de correlación poblacional y es denotado por .
El coeficiente de correlación muestral puede ser usado para hacer
inferencia sobre .
Prueba de independencia en una población
normal bivariada
1. Definir la característica poblacional: .
2. Establecer la hipótesis nula: .
3. Establecer la hipótesis alternativa: , , .
4. Fijar el nivel de significancia.
5. Definir el estadístico de prueba , que tiene una distribución t-student con
grados de libertad.
6. Verificar que las muestras para y son normalmente distribuidas.
7. Calcular el estadístico de prueba
8. Calcular el P-valor.
9. Tomar la decisión.
Ejemplo 1: Noches de insomnio
La relación entre la duración del sueño y el nivel de la
hormona leptina (una hormona relacionada con la
ingesta de energía y el gasto de energía) en la sangre se
investigó en el artículo “Short Sleep Duration is
Associated with Reduced Leptin, Elevated Ghrelin, and
Increased Body Mass Index” (Public Library of Science
Medicine, [December 2004]: 210–217). El promedio de
sueño nocturno (, en horas) y el nivel de leptina en la
sangre () se registraron para cada persona en una
muestra de 716 participantes en el Estudio de Cohorte
del Sueño de Wisconsin. El coeficiente de correlación
muestral fue . ¿Apoya esto la afirmación del título del
artículo de que la corta duración de sueño se asocia con
leptina reducida? Haga una prueba usando un nivel de
significancia de 0.01.
Solución:
Ejercicio propuesto 1
Las cantidades resumidas adjuntas para contaminación por partículas () y luminancia ()
se calcularon a partir de una muestra representativa de datos que apareció en el
artículo “Luminance and Polarization of the Sky Light at Seville (Spain) Measured in
White Light” (Atmospheric Environment [1988]: 595–599).

a) Pruebe si existe dependencia lineal entre la contaminación por partículas y la


luminancia en la población de la que se seleccionaron los datos.
b) ¿Qué proporción de la variación observada en la luminancia se puede atribuir a la
relación lineal aproximada entre la luminancia y la contaminación por partículas?
Ejemplo 2: Edad y tiempos de maratón
El artículo “Master’s Performance in the New York City Marathon” (British Journal
of Sports Medicine [2004]: 408–412) proporcionó los siguientes datos sobre el
tiempo promedio de finalización por grupo de edad para las mujeres participantes
en el maratón de la ciudad de Nueva York.
Comparando dos modelos
Regresión cuadrática
El modelo de regression cuadrática es . Para la regresión cuadrática, los estimadores de
mínimos cuadrados , y son los valores que minimizan la suma de desviaciones
cuadráticas donde . Las sumas de cuadrados de los residuos y el coeficiente de
determinación son:
Transformaciones
Ejemplo 2: Colimbos en lagos ácidos
Una estudio de los factores que afectan la
supervivencia de los polluelos colimbos se describe en
el artículo “Does Prey Biomass or Mercury Exposure
Affect Loon Chick Survival in Wisconsin?” (The Journal
of Wildlife Management [2005]: 57 -67). En este
estudio, una relación entre el pH del agua del lago y el
nivel de mercurio en la sangre en polluelos colimbos
fue observado. Los investigadores pensaron que esto
podría deberse a que el pH del agua del lago podría
estar relacionado con el tipo de pescado que comían
los colimbos. Los datos (leídos del artículo) para pH del
lago y nivel de mercurio en la sangre () para 37
polluelos colimbos de diferentes lagos en Wisconsin,
son mostrados en la siguiente tabla:
a) Encuentre el modelo lineal estimado para y .
b) Deduzca un modelo exponencial estimado para y .
c) ¿Cuán bueno es el ajuste del modelo exponencial a la data?
Ejercicio propuesto 2
El procesamiento de carbón sin tratar implica el “lavado”, en donde se elimina la ceniza de carbón
(no orgánico, material incombustible). El artículo “Quantifying Sampling Precision for Coal Ash
Using Gy’s Discrete Model of the Fundamental Error” (Journal of Coal Quality, 1989:33-39)
proporciona los datos relacionados con los porcentajes de ceniza con el volumen de una partícula
de carbón. Se midieron los porcentajes promedio de ceniza para seis volúmenes de partículas de
carbón. Los datos son los siguientes:

a) Dibuje un diagrama de dispersión del porcentaje de ceniza () y el volumen (). ¿Qué tendencia
se observa?
b) Ajuste la data a los siguientes modelos: Lineal: , Potencia: , Exponencial: , Logaritmico: .
También calcule los coeficientes de determinación para cada modelo. ¿Cuál de los modelos es
el que mejor se ajusta a los datos? Explique.
c) Utilizando el modelo más adecuado, pronostique el porcentaje de ceniza para partículas con un
volumen de 50 .
Ejercicio propuesto 3
Bibliografía

También podría gustarte