Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlación y Regresión
Correlación y Regresión
LINEAL SIMPLE
Claudio Cerrón Landeo
Propósito de la Clase
Correlación
Existe una correlación entre dos variables cuando los valores de una variable están de alguna manera
asociados con los valores de la otra variable.
Correlación lineal
Existe una correlación lineal entre dos variables cuando existe una correlación y los puntos graficados
de los datos pareados dan como resultado un patrón que se puede aproximar mediante una línea recta.
Es posible establecer qué tanto es el grado de asociación estadística entre dos variables. Generalmente
se trata de determinar el grado de correlación lineal entre dos variables, es decir, qué tanto se aproxima
la relación entre las variables a una línea recta.
La naturaleza o
dirección de la
asociación entre
las variables
La fuerza o
intensidad de la
asociación entre
las variables
Correlación Lineal Simple
La siguiente figura resume los conceptos expuestos anteriormente sobre la interpretación del
coeficiente de correlación lineal de Pearson r:
Correlación Lineal Simple
Correlación Lineal Simple
Prueba de hipótesis formal para la correlación
Correlación Lineal Simple
Pruebas de una cola
Por lo general, los ejemplos y ejercicios en esta sección involucran pruebas de
dos colas, pero se pueden tener pruebas de una cola con afirmaciones de una
correlación lineal positiva o negativa. En tales casos, las hipótesis serán como
sigue:
Causalidad Correlación Lineal Simple
Es importante indicar que algunas investigaciones son de nivel correlacional, y por tanto solo buscan establecer
la existencia de correlación entre las variables de estudio. Pero otras investigaciones son de nivel explicativo, y
por tanto buscan determinar no solo correlación, sino la existencia de relaciones causa – efecto. Cuando se
trata de establecer causalidad entre las variables resulta importante emplear algunos criterios que permitan
diferencias aquellas correlaciones debidas al azar o debidas a otras variables intervinientes. Algunos criterios
de causalidad son:
1. La asociación entre X y Y debe ser fuerte. Esto es que haya un coeficiente de correlación alto
entre las variables X y Y.
2. La asociación entre X y Y debe ser consistente y replicable. La relación entre las variables debe
poder constatarse en diferentes épocas y lugares.
3. Mayores “dosis” de X deben producir mayor efecto en Y. Mayores cambios en la variable X
debería asociarse sistemáticamente con cambios mayores (positivos o negativos) en la variable
Y.
4. Relación temporal, es decir, la causa X debe preceder en el tiempo al efecto Y.
5. Coherencia o plausibilidad teórica o biológica. La relación entre las variables debe poder
sustentarse en la teoría disponible.
6. Especificidad. Los cambios en una variable deben provocar cambios específicos en la otra
variable.
Correlación Lineal de Pearson
Asume:
Relación Lineal
Sin outliers
Suficientes datos
No ordinal
Correlación Lineal de Pearson
Aplicación en R:
Correlación Lineal Simple
Función cor()
Para calcular el coeficiente de correlación utilizaremos la función cor() que viene instalada por defecto en
los paquetes básicos de R.
• En el modelo: Yi=β0+β1Xi+ϵi,
β0 y β1 son los parámetros del modelo que son desconocidos, β1 mide el incremento que se
producirá en la variable Y (en las unidades en que esté medida Y) al incrementarse en una unidad a
variable X (en las unidades en que esté medida X). β0 es el valor que predice el modelo Y cuando X
toma el valor de cero.
La línea de regresión (o línea de mejor ajuste, o línea de mínimos cuadrados) es la línea recta
que “mejor” se ajusta al diagrama de dispersión de los datos.
La ecuación de regresión describe algebraicamente la línea de regresión.
La ecuación de regresión expresa una relación entre X (llamada variable explicativa, variable
predictora, o variable independiente) y Y (llamada variable de respuesta o variable dependiente).
Ecuación de regresión estimada
^ =𝑏 +𝑏 𝑋
𝑌 0 1
Procedimiento general
1. Describir las variables a analizar, calcular su correlación y graficar. Al describir las variables debemos
identificar posibles valores ausentes y valores atípicos. Además, al graficar las variables y calcular su
correlación podremos determinar si existe o no una relación (lineal) entre ellas.
2. Estimar el modelo, evaluar su validez (bondad de ajuste) e interpretarlo
3. Evaluar la utilidad (diagnóstico y generalización) del modelo.
Regresión Lineal Simple
Medida de Bondad de Ajuste
Coeficiente de determinación:
Indica el porcentaje (proporción) de la variabilidad de Y que
es explicada por la ecuación de regresión ajustada.
Coeficiente de no determinación:
Porcentaje (proporción) de la variabilidad de Y que no es
explicada por el modelo
Validación del coeficiente de regresión
Formulación de hipótesis:
Estadístico de prueba:
Decisión estadística:
Donde Se es el error
estándar de estimación:
Regresión Lineal Simple
Cuando se utiliza un valor específico x0 para predecir la media de todos los valores de y, el intervalo
de confianza es el siguiente:
Donde:
Regresión Lineal Simple
Aplicación en R
Datos marketing
Utilizaremos los datos marketing del paquete datarium sobre el número de ventas de un producto en
relación con el presupuesto invertido en publicidad en Youtube, Facebook y en el periódico.
Comenzaremos por analizar la relación entre las ventas (sales) y el presupuesto en euros en
publicidad en Youtube (youtube).
Mediante el modelo de regresión lineal simple vamos a responder a las siguientes preguntas:
• ¿Existe una relación entre el presupuesto publicitario invertido en youtube y las ventas de nuestro
producto?
• ¿Cómo es la relación? Es decir, por cada dólar gastado en publicidad en youtube, ¿en qué
cantidad aumentarán las ventas?
• ¿Con qué precisión podemos predecir esta cantidad de aumento?
Regresión Lineal Simple
No tenemos valores ausentes que aparecerían marcados con NA en el resumen de los datos, ni
valores atípicos (outliers) que se apartarían mucho del comportamiento general de los datos
aumentando el rango de la variable.
Regresión Lineal Simple
Para realizar el diagrama de dispersión de las ventas (sales) y el presupuesto en Youtube (youtube),
utilizamos la función ggplot() del paquete ggplot2. Mediante el argumento estético aes() indicamos la variable
respuesta y = sales, y la variable explicativa x = youtube. Podemos seleccionar method = ”lm” en la función
geom_smooth() para representar el modelo lineal (línea azul). Esta función, por defecto, permite visualizar el
error estándar del modelo (su incertidumbre) mediante un intervalo de confianza del 95% (banda gris).
Puedes usar se = FALSE si no deseas mostrar el intervalo de confianza de las predicciones. También
puedes usar level = 0.99 si deseas obtener un intervalo de confianza del 99% en lugar del 95%.
Regresión Lineal Simple
Función lm()
Función summary()
Regresión Lineal Simple
Coeficiente de determinación
El coeficiente de determinación es una medida relativa de qué tan bien se ajusta el modelo a los
datos. Representa el porcentaje de información en los datos que puede ser explicado por el modelo.
Dicho de otro modo, es la cantidad de variación en la variable respuesta que es explicada por el
modelo en relación con la variación total. Varía de 0 a 1, y se puede expresar como un porcentaje si
lo multiplicamos por 100. En general, cuanto mayor sea el , mejor se ajustará el modelo a nuestros
datos.
Obtenemos un = 61.2%.
Regresión Lineal Simple
• El intercepto β0 vale 8.44. Este
Tabla de coeficientes valor corresponde a las unidades
de ventas prevista cuando no
invertimos en publicidad de
youtube. Esto significa que, para
un presupuesto publicitario de
youtube igual a cero, podemos
esperar una venta de 8440
Coeficientes β y modelo final dólares.
• La pendiente β1 de la variable
Recuerda que el modelo de nuestro ejemplo es: youtube vale 0.048. Esto significa
que, para un presupuesto de
sales = β0 + β1 ∗ youtube publicidad de youtube igual a 1000
Para obtener el modelo final debemos reemplazar los valores β dólares, podemos esperar un
estimados en la ecuación lineal: aumento de 48 unidades en las
ventas (0.048 ∗ 1000) = 48. Es
sales = 8.44 + 0.048 ∗ youtube decir, con 1000 dólares invertidos
en publicidad en youtube ganamos
48000 dólares más en ventas.
Regresión Lineal Simple
Aquí obtenemos que hay aproximadamente un 95% de probabilidad de que el intervalo [0.042,
0.053] contenga el valor verdadero de la pendiente.
Regresión Lineal Simple
Predicciones e Intervalos
Para indicarle a la función los valores de la variable explicativa para los cuales queremos estimar la
variable respuesta, debemos crear un data frame que contenga los nuevos valores que queremos
evaluar. Imaginemos que queremos predecir el número de ventas que tendremos si invertimos 10, 100
o 300 mil dólares en publicidad en youtube. Entonces escribimos:
Utilizamos la función predict() para predecir la respuesta según estos nuevos valores:
Regresión Lineal Simple
Predicciones e Intervalos
Para los intervalos tenemos dos opciones:
• El intervalo de confianza, que refleja la incertidumbre en torno a las predicciones medias.
• El intervalo de predicción, que nos da la incertidumbre alrededor de un solo valor de predicción.
Un intervalo de predicción refleja la incertidumbre en torno a un solo valor, mientras que un intervalo
de confianza refleja la incertidumbre en torno a los valores de predicción promedio. Por lo tanto, un
intervalo de predicción será generalmente mucho más amplio que un intervalo de confianza para el
mismo valor.
Regresión Lineal Simple
Pasos para el análisis de correlación y regresión
- Gráfico de dispersión
- Coeficiente de correlación
- Prueba de hipótesis para la correlación
- Cálculo del modelo
- Cálculo del error estándar
- Cálculo del intervalo de predicción
- Cálculo del intervalo de confianza
- Prueba de hipótesis para la pendiente
- Intervalos de confianza para el intercepto y para la pendiente
Usando la data stackloss, realiza el análisis completo de correlación y regresión lineal simple para
pronosticar a) La temperatura del agua cuando la pérdida de pila es 30 y b) El flujo de aire cuando
la concentración de ácido es de 90.
Hora de entrega: 12:00 horas en el aula virtual
Referencias Bibliográficas