Correlación y Regresión

CORRELACIÓN Y REGRESIÓN
LINEAL SIMPLE
Claudio Cerrón Landeo
Propósito de la Clase
Al finalizar la unidad, el estudiante será capaz de realizar el

análisis de correlación y regresión lineal simple y múltiple, e
interpretar sus resultados a partir de data contextualizada a su
carrera.
Actividad
• Revisamos los siguientes casos concretos.

TOKIO, Japón.- El beneficio neto del grupo
japonés Sony se redujo un 36.5 % interanual hasta
582 mil 191 millones de yenes (cinco mil millones
de euros) en el ejercicio de 2019 (cerrado en
marzo), debido en gran parte a una disminución en
las ventas de su consola PlayStation 4.
Sus ingresos por ventas disminuyeron un 6.16 %
en dicho período, hasta 6.85 billones de yenes (58
mil 960 millones de euros).
El conglomerado tecnológico, cuyo beneficio
operativo bajó un 5.45 %, hasta 845 mil 459
Conforme se reducen las ventas, el millones de yenes (siete mil 270 millones de
beneficio tiende a disminuir. euros), destacó en su informe financiero que los
ingresos operativos de sus segmentos de música
y videojuegos, ejes en su estrategia,
experimentaron una disminución "significativa", del
38.8 % y 23.4 %.
Sony también aludió como motivo de su caída del
beneficio a un aumento del pago de impuestos
vinculado a la suma que ahorró en el año previo
gracias a la reforma fiscal de Estados Unidos, con
una tasa impositiva efectiva del 22.2 % para el
recién concluido ejercicio, comparada con el 4.5 %
del anterior.
CIUDAD DE MÉXICO.- En el acumulado, enero a
mayo, la producción automotriz presentó una caída
de 43%, con la fabricación de 934 mil 234 vehículos.
Después de ser declarada como actividad esencial, la
industria automotriz retomó paulatinamente la
fabricación de vehículos en el país durante mayo.
En total, se produjeron 22 mil 119 vehículos en mayo,
cuando en abril se fabricaron solo 3 mil 722 unidades,
según cifras del Instituto Nacional de Estadística y
Geografía (Inegi).
El objetivo de las automotrices es reactivar el sector y
Conforme disminuyen los precios lo único que queda es aplicar estrategias agresivas
de los automóviles, aumenta el que incluyan la disminución de los precios para
volumen de venta. aumentar las ventas.
Las redes sociales, tales como Facebook, fueron
creadas para mantenerse en contacto con amigos
y familiares. Sin embargo, también pueden
convertirse en un dolor de cabeza al aumentar los
celos entre parejas e incluso causar divorcios.
Un reciente estudio por la Academia Americana de
Abogados Matrimoniales reveló que el 80% de las
pruebas de infidelidad que se presentan son
muestras de interacción de los acusados de
infidelidad dentro de las redes sociales; y
Facebook es la causa de 1 de cada 5 divorcios en
los EE. UU. Otro estudio llevado a cabo por
Cyberpsychology and Behaviour Journal revela
que en el mundo se registraron 28 millones de
separaciones solo en el último año a causa de las
redes sociales.
Es muy fácil seguir los movimientos de la pareja a
través de esta red social. Las múltiples opciones
que ofrece la página permiten, por ejemplo, ver los
A medida que se incrementa el eventos y fiestas a las que se ha asistido y detalla
uso del Facebook, se incrementa con suma precisión dónde y con quién se estuvo.
el número de divorcios. Se Para las parejas esto puede convertirse en un
observa una relación lineal detonante que conduzca a una pelea e incluso una
directa. ruptura.
De acuerdo a una encuesta de satisfacción
laboral realizada por Supera, casi la mitad de
empleados no se encuentra feliz en su centro
de trabajo, lo cual podría afectar su
compromiso frente a las tareas
encomendadas.
El 45% de personas que participaron en el
estudio admitió no sentirse feliz en su centro
de labores y la mayoría sostuvo que dicha
condición se debe a problemas vinculados
con el clima de trabajo.
Así, el 52% de encuestados afirmó sentir que
Conforme disminuye la sus ideas y opiniones son "poco valoradas"
satisfacción laboral, disminuye en la empresa donde trabajan, en contraparte
también la productividad. con el 7% que considera "muy valoradas" sus
propuestas.
La claridad de la comunicación con el jefe
directo es otro aspecto considerado negativo
por la mayoría de encuestados. El 52%
considera que es "bajo", mientras que el 40%
lo califica de "bueno" y solo el 8% de
"excelente".
Los profesionales de las adicciones llevan años hablando de
lo importante que es rebajar la edad de inicio en el consumo
de alcohol. Parece, según se observa en als encuestas del
Plan Nacional Sobre Drogas, que esa edad de inicio está
más o menos estancada desde hace algunos años, con
pequeñas fluctuaciones. En este momento la edad de inicio
en el consumo de alcohol es de 13’7 años, lo que significa
que jóvenes de 11 años pero también de 14 o 15 se están
A medida que disminuye la edad iniciando en el consumo. ¿Por qué es tan importante que
de inicio de consumo de alcohol, esa edad se rebaje? Según Laura Orío Ortiz, Doctora en
aumenta el riesgo de generar unaFarmacología por la Universidad Complutense de Madrid
adicción. (UCM) y Director del Máster en Drogodependencias de la
UCM, explicaba en la I Jornadas Informativas de la
Federación Riojana de Alcohólicos en Rehabilitación
(FRAAR), que las personas que se inician con 13 años
tienen hasta un 20% más de posibilidades de desarrollar
una adicción. Mientras que esa probabilidad disminuye
conforme aumenta la edad de inicio. Por ejemplo, si el
consumo de alcohol se inicia a los 18 años, las
probabilidades de desarrollar la adicción se reducen al 15% y
si se empieza el consumo a los 21 años, la posibilidad es tan
solo del 2%.
Correlación Lineal Simple
Correlación
Existe una correlación entre dos variables cuando los valores de una variable están de alguna manera
asociados con los valores de la otra variable.
Correlación lineal
Existe una correlación lineal entre dos variables cuando existe una correlación y los puntos graficados
de los datos pareados dan como resultado un patrón que se puede aproximar mediante una línea recta.
Es posible establecer qué tanto es el grado de asociación estadística entre dos variables. Generalmente
se trata de determinar el grado de correlación lineal entre dos variables, es decir, qué tanto se aproxima
la relación entre las variables a una línea recta.
Coeficiente de Correlación de Pearson

Es un coeficiente que mide la fuerza o intensidad de la relación lineal entre dos variables cuantitativas.
Coeficiente de Correlación de Pearson
El coeficiente de correlación lineal r mide la fuerza de la correlación lineal entre los valores cuantitativos
pareados x y y en una muestra. El coeficiente de correlación lineal r (-1≤ r < 0 para correlación negativa
y 0 ≤r ≤ 1 para correlación positiva)
n número de pares de datos muestrales.

∑ expresa la suma de los elementos indicados
∑x suma de todos los valores x.
∑ indica que cada valor x debe elevarse al cuadrado y después esos cuadrados deben sumarse.
(∑ indica que los valores de x deben sumarse y el total debe elevarse al cuadrado. Evite confundir ∑ y
(∑.
∑xy indica que cada valor x debe multiplicarse por su correspondiente valor y. Después se debe obtener
la suma de todos esos productos.
r coeficiente de correlación lineal para los datos muestrales.
ρ coeficiente de correlación lineal para una población de datos pareados.
RELACIÓN O ASOCIACIÓN ESTADÍSTICA ENTRE DOS VARIABLES
La naturaleza o
dirección de la
asociación entre
las variables
La fuerza o
intensidad de la
asociación entre
las variables
La siguiente figura resume los conceptos expuestos anteriormente sobre la interpretación del
coeficiente de correlación lineal de Pearson r:
Prueba de hipótesis formal para la correlación
Pruebas de una cola
Por lo general, los ejemplos y ejercicios en esta sección involucran pruebas de
dos colas, pero se pueden tener pruebas de una cola con afirmaciones de una
correlación lineal positiva o negativa. En tales casos, las hipótesis serán como
sigue:
Causalidad Correlación Lineal Simple
Es importante indicar que algunas investigaciones son de nivel correlacional, y por tanto solo buscan establecer
la existencia de correlación entre las variables de estudio. Pero otras investigaciones son de nivel explicativo, y
por tanto buscan determinar no solo correlación, sino la existencia de relaciones causa – efecto. Cuando se
trata de establecer causalidad entre las variables resulta importante emplear algunos criterios que permitan
diferencias aquellas correlaciones debidas al azar o debidas a otras variables intervinientes. Algunos criterios
de causalidad son:
1. La asociación entre X y Y debe ser fuerte. Esto es que haya un coeficiente de correlación alto
entre las variables X y Y.
2. La asociación entre X y Y debe ser consistente y replicable. La relación entre las variables debe
poder constatarse en diferentes épocas y lugares.
3. Mayores “dosis” de X deben producir mayor efecto en Y. Mayores cambios en la variable X
debería asociarse sistemáticamente con cambios mayores (positivos o negativos) en la variable
Y.
4. Relación temporal, es decir, la causa X debe preceder en el tiempo al efecto Y.
5. Coherencia o plausibilidad teórica o biológica. La relación entre las variables debe poder
sustentarse en la teoría disponible.
6. Especificidad. Los cambios en una variable deben provocar cambios específicos en la otra
variable.
Correlación Lineal de Pearson
Asume:
Relación Lineal
Sin outliers
Suficientes datos
No ordinal
Correlación Lineal de Pearson
Aplicación en R:
Función cor()
Para calcular el coeficiente de correlación utilizaremos la función cor() que viene instalada por defecto en
los paquetes básicos de R.
Podemos ingresar las variables como vectores con cor(x, y)

Recuerda, no importa cuál es “x” y cuál es “y”, porque la relación es simétrica.
Aquí seguimos con el ejemplo de los datos de la fábrica de oxidación de compuestos y calculamos la
correlación entre las variables Air.Flow y stack.loss.
EJERCICIO: Calcula el coeficiente de correlación
de Pearson combinando las variables del archivo
stackloss de dos en dos.
Presentar:
Gráfico (Conclusión)
Pruebas de normalidad (hipótesis y conclusión)
Prueba de correlación (hipótesis y conclusión)
Prueba de hipótesis para la correlación:
Función cor.test()
Utilizaremos las siguientes hipótesis:
• H0 : ρ=0 (no existe relación)
• H1 : ρ≠0 (sí existe relación)
Si el nivel de confianza es 95% y obtenemos que p <0.05, rechazamos la H0 y decimos que existe una
correlación significativa (H1). En caso contrario, no podemos rechazar la hipótesis nula, y no podemos afirmar
que la correlación difiera significativamente de 0.
Esta prueba se puede aplicar cuando se cumplen ciertos supuestos:
• La relación entre las dos variables numéricas debe ser lineal (en el caso de la correlación de Pearson) o
monótona (en el caso de la correlación de Spearman).
• No existen valores atípicos • Tenemos suficientes datos para realizar la prueba (principalmente en el caso
de Pearson).
• Los datos siguen una distribución normal (en el caso de la correlación de Pearson). Para asegurarnos que
cumpla esta condición, utilizaremos la prueba de normalidad de Shapiro-Wilk cuya hipótesis nula es que los
datos se distribuyen normalmente. También se puede utilizar el gráfico de normalidad Q-Q.
Queremos realizar una prueba de hipótesis para la correlación entre la medida de la producción de la
fábrica (el flujo del aire; AirFlow) y la medida de su ineficiencia (la pérdida de ácido a través de la pila;
stack.loss).
El primer paso será probar los supuestos mediante el diagrama de dispersión.
Aquí vemos una tendencia

lineal entre ambas variables y
no detectamos datos atípicos
de importancia.
Probamos además si las variables siguen una distribución normal (la hipótesis nula) mediante la
función Shapiro-Wilks.
En este caso como el p-valor es < .05 rechazamos

la normalidad en ambas variables. Lo ideal
entonces sería utilizar la correlación de Spearman
en lugar de la de Pearson. Por motivos didácticos
comenzaremos con la prueba de hipótesis para la
correlación de Pearson, luego realizaremos la de
Spearman.
Utilizamos la función cor.test() donde indicamos las dos variables que queremos analizar.
Aquí podemos decir que la
correlación lineal entre la
producción de la fábrica y su
ineficiencia es
estadísticamente significativa,
positiva y alta t(19)=10.208,
p<0.001, r=0.92
Verifica ahora con:
EJERCICIO: Calcula el coeficiente de correlación de

Pearson y/o de combinando las variables del
archivo stackloss de dos en dos.
Presentar:
Gráfico (Conclusión) Air.Flow vs Water.Temp
Pruebas de normalidad (hipótesis y conclusión) Air.Flow vs Acid.Conc.
Prueba de correlación (hipótesis y conclusión) Water.Temp vs Acid.Conc.
Todos los pasos trabajdos.
REGRESIÓN LINEAL
El gerente de marketing de un supermercado, desea predecir el
tiempo que demoran las cajeras en atender a un cliente.
¿Qué variable puede explicar el tiempo
de atención?
• La edad de la cajera
• Número de productos comprados
• Años de experiencia
El tiempo de atención puede ser
explicado por el número de productos
comprados.
Se definen las variables:

Y = Tiempo de atención
X = Número de productos comprados
Regresión Lineal Simple
Modelo estadístico
En el modelo de regresión simple se trata de analizar el comportamiento de una variable a la que
denominaremos dependiente como función lineal de una variable explicativa. Se puede escribir de dos
formas como se muestra a continuación.
1. En esta forma la variable respuesta y se expresa como una suma de β0+β1xi y un error aleatorio ϵi el
cual tiene distribución N(0, ). El modelo en esta forma se puede expresar como sigue.
Yi=β0+β1Xi+ϵi,
ϵi∼N(0, )
2. En esta forma la variable respuesta y tiene distribución normal con media que cambia en función de
la variable x pero con varianza constante. El modelo en esta forma se puede expresar como sigue.
Yi∼N(μi, ),
μi=β0+β1Xi,
=constante
• En el modelo: Yi=β0+β1Xi+ϵi,
La variable Y designa a la variable dependiente o endógena, mientras que X designa a la variable

explicativa exógena o independiente. La variable ϵ se ha introducido para recoger todos aquellos
factores distintos de X que afectan a Y, se denomina error o perturbación aleatoria.
β0 y β1 son los parámetros del modelo que son desconocidos, β1 mide el incremento que se
producirá en la variable Y (en las unidades en que esté medida Y) al incrementarse en una unidad a
variable X (en las unidades en que esté medida X). β0 es el valor que predice el modelo Y cuando X
toma el valor de cero.
La línea de regresión (o línea de mejor ajuste, o línea de mínimos cuadrados) es la línea recta
que “mejor” se ajusta al diagrama de dispersión de los datos.
La ecuación de regresión describe algebraicamente la línea de regresión.
La ecuación de regresión expresa una relación entre X (llamada variable explicativa, variable
predictora, o variable independiente) y Y (llamada variable de respuesta o variable dependiente).
Ecuación de regresión estimada
^ =𝑏 +𝑏 𝑋
𝑌 0 1
𝑏0 : Intercepto con el eje. Es el valor de Y que se obtiene

cuando x = 0.
𝑏1 : Pendiente de la recta. Mide el cambio que se producirá

en la variable dependiente Y, cuando la variable
independiente X varía en una unidad.
La relación entre X e Y puede ser:

Directa : 𝑏1 >0(pendiente positiva )
Inversa: 𝑏1 <0(pendiente negativa)
Podemos utilizar la regresión lineal principalmente para 3 tipos de objetivos específicos:
1. Describir la relación lineal entre dos o más variables. Así podremos descubrir patrones (Nuevas
perspectivas), reconocer y corregir errores en la toma de decisiones (Corrección de errores).
2. Cuantificar, determinar qué cantidad de la variación en la respuesta puede ser explicada por su relación
lineal con cada predictor. Este punto nos permitirá elegir las variables correctas para tomar decisiones
más informadas (Decisiones de apoyo) y optimizar procesos (Eficacia operativa).
3. Predecir nuevos valores de la respuesta a partir de nuevos valores de los predictores. Lo cual nos
permitirá prever oportunidades y riesgos futuros (Análisis predictivo).
Procedimiento general
1. Describir las variables a analizar, calcular su correlación y graficar. Al describir las variables debemos
identificar posibles valores ausentes y valores atípicos. Además, al graficar las variables y calcular su
correlación podremos determinar si existe o no una relación (lineal) entre ellas.
2. Estimar el modelo, evaluar su validez (bondad de ajuste) e interpretarlo
3. Evaluar la utilidad (diagnóstico y generalización) del modelo.
Medida de Bondad de Ajuste
Coeficiente de determinación:
Indica el porcentaje (proporción) de la variabilidad de Y que
es explicada por la ecuación de regresión ajustada.
Coeficiente de no determinación:
Porcentaje (proporción) de la variabilidad de Y que no es
explicada por el modelo
Validación del coeficiente de regresión
Formulación de hipótesis:
Estadístico de prueba:
Decisión estadística:
𝑆𝑒 𝑅𝑒𝑐h𝑎𝑧𝑎𝐻𝑜:𝑡𝑐 <−𝑡 𝛼 ó𝑡 𝑐>𝑡 𝛼

,𝑛−2 ,𝑛 −2
2 2
Intervalos de predicción y variación
Un intervalo de predicción es un rango de valores utilizados para estimar una variable (como un
valor predicho de y en una ecuación de regresión).
Un intervalo de confianza es un rango de valores utilizados para estimar un parámetro poblacional.
Donde Se es el error
estándar de estimación:
Intervalo de confianza para el valor medio predicho
Cuando se utiliza un valor específico x0 para predecir la media de todos los valores de y, el intervalo
de confianza es el siguiente:
Donde:
Intervalo de confianza en la respuesta media

Al estimar la respuesta media, la incertidumbre sólo proviene de la incertidumbre en
nuestras estimaciones de la pendiente e intercepto.
"Con un 95% de confianza, estimamos que la respuesta media está entre ..."
Intervalo de predicción para una nueva respuesta

Al predecir una nueva respuesta, la incertidumbre también proviene de la variación sobre
la media.
"Un intervalo de predicción del 95% para la respuesta es ..."
Intervalo de Confianza para β1 y βo

Aplicación en R
Datos marketing
Utilizaremos los datos marketing del paquete datarium sobre el número de ventas de un producto en
relación con el presupuesto invertido en publicidad en Youtube, Facebook y en el periódico.
Comenzaremos por analizar la relación entre las ventas (sales) y el presupuesto en euros en
publicidad en Youtube (youtube).
Mediante el modelo de regresión lineal simple vamos a responder a las siguientes preguntas:
• ¿Existe una relación entre el presupuesto publicitario invertido en youtube y las ventas de nuestro
producto?
• ¿Cómo es la relación? Es decir, por cada dólar gastado en publicidad en youtube, ¿en qué
cantidad aumentarán las ventas?
• ¿Con qué precisión podemos predecir esta cantidad de aumento?
Para acceder al encabezado de los datos

utilizamos la función head() y mediante la función
dim() podemos observar la dimensión de la base
de datos (el número de filas -casos u
observaciones- y el número de columnas -
variables- que tenemos).
Describimos los datos con la función summary:
No tenemos valores ausentes que aparecerían marcados con NA en el resumen de los datos, ni
valores atípicos (outliers) que se apartarían mucho del comportamiento general de los datos
aumentando el rango de la variable.
Para realizar el diagrama de dispersión de las ventas (sales) y el presupuesto en Youtube (youtube),
utilizamos la función ggplot() del paquete ggplot2. Mediante el argumento estético aes() indicamos la variable
respuesta y = sales, y la variable explicativa x = youtube. Podemos seleccionar method = ”lm” en la función
geom_smooth() para representar el modelo lineal (línea azul). Esta función, por defecto, permite visualizar el
error estándar del modelo (su incertidumbre) mediante un intervalo de confianza del 95% (banda gris).
Puedes usar se = FALSE si no deseas mostrar el intervalo de confianza de las predicciones. También
puedes usar level = 0.99 si deseas obtener un intervalo de confianza del 99% en lugar del 95%.
Función lm()
Función summary()
La salida muestra 4 componentes:

• Call. Muestra la llamada a la función utilizada para calcular el modelo de regresión. Nos recuerda el
modelo que hemos ajustado.
• Residuals. Proporciona una vista rápida de la distribución de los residuos, que por definición tienen
una media cero. Por lo tanto, la mediana no debe estar lejos de cero, y el mínimo y el máximo deben
ser aproximadamente iguales en valor absoluto.
• Coefficients. Muestra los valores de los coeficientes β y su significación estadística. Las variables
predictoras, que están significativamente asociadas a la variable respuesta, están marcadas con
asteriscos en el margen derecho de la tabla.
• Residual standard error (RSE), R-squared (R2 ) y la prueba F, son métricas que se utilizan para
verificar qué tan bien se ajusta el modelo a nuestros datos.
Error Estándar Residual (RSE)
El Error Estándar Residual (Residual standard error, RSE o sigma) representa la variación promedio de
los puntos alrededor de la línea de regresión ajustada. Nos da una medida absoluta (en las unidades de
la variable de respuesta) de la falta de ajuste del modelo a los datos o del error de predicción. Es decir,
indica qué tan incorrecto es el modelo de regresión en promedio. Cuanto más bajo sea el RSE (más
cercano a 0), mejor se ajusta el modelo a nuestros datos (i.e. las observaciones están más cerca de la
línea ajustada).
Aquí RSE = 3.91, lo que significa que los valores de

ventas predichos por el modelo se alejan 3.91 unidades
del verdadero valor.
Coeficiente de determinación
El coeficiente de determinación es una medida relativa de qué tan bien se ajusta el modelo a los
datos. Representa el porcentaje de información en los datos que puede ser explicado por el modelo.
Dicho de otro modo, es la cantidad de variación en la variable respuesta que es explicada por el
modelo en relación con la variación total. Varía de 0 a 1, y se puede expresar como un porcentaje si
lo multiplicamos por 100. En general, cuanto mayor sea el , mejor se ajustará el modelo a nuestros
datos.
Obtenemos un = 61.2%.
• El intercepto β0 vale 8.44. Este
Tabla de coeficientes valor corresponde a las unidades
de ventas prevista cuando no
invertimos en publicidad de
youtube. Esto significa que, para
un presupuesto publicitario de
youtube igual a cero, podemos
esperar una venta de 8440
Coeficientes β y modelo final dólares.
• La pendiente β1 de la variable
Recuerda que el modelo de nuestro ejemplo es: youtube vale 0.048. Esto significa
que, para un presupuesto de
sales = β0 + β1 ∗ youtube publicidad de youtube igual a 1000
Para obtener el modelo final debemos reemplazar los valores β dólares, podemos esperar un
estimados en la ecuación lineal: aumento de 48 unidades en las
ventas (0.048 ∗ 1000) = 48. Es
sales = 8.44 + 0.048 ∗ youtube decir, con 1000 dólares invertidos
en publicidad en youtube ganamos
48000 dólares más en ventas.
Intervalos de confianza (IC) de los coeficientes

El error estándar (SE) mide la variabilidad o precisión de los coeficientes β. Mientras más alto menos
preciso será su estimación. El error estándar nos permite calcular el intervalos de confianza para el
coeficiente de regresión, que evalúa la fiabilidad de la estimación de dicho coeficiente. Mientras más
amplio sea el intervalo de confianza, menos precisa será su estimación.
Aquí obtenemos que hay aproximadamente un 95% de probabilidad de que el intervalo [0.042,
0.053] contenga el valor verdadero de la pendiente.
Predicciones e Intervalos
Para indicarle a la función los valores de la variable explicativa para los cuales queremos estimar la
variable respuesta, debemos crear un data frame que contenga los nuevos valores que queremos
evaluar. Imaginemos que queremos predecir el número de ventas que tendremos si invertimos 10, 100
o 300 mil dólares en publicidad en youtube. Entonces escribimos:
Utilizamos la función predict() para predecir la respuesta según estos nuevos valores:
Predicciones e Intervalos
Para los intervalos tenemos dos opciones:
• El intervalo de confianza, que refleja la incertidumbre en torno a las predicciones medias.
• El intervalo de predicción, que nos da la incertidumbre alrededor de un solo valor de predicción.
Un intervalo de predicción refleja la incertidumbre en torno a un solo valor, mientras que un intervalo
de confianza refleja la incertidumbre en torno a los valores de predicción promedio. Por lo tanto, un
intervalo de predicción será generalmente mucho más amplio que un intervalo de confianza para el
mismo valor.
Pasos para el análisis de correlación y regresión
- Gráfico de dispersión
- Coeficiente de correlación
- Prueba de hipótesis para la correlación
- Cálculo del modelo
- Cálculo del error estándar
- Cálculo del intervalo de predicción
- Cálculo del intervalo de confianza
- Prueba de hipótesis para la pendiente
- Intervalos de confianza para el intercepto y para la pendiente
Usando la data stackloss, realiza el análisis completo de correlación y regresión lineal simple para
pronosticar a) La temperatura del agua cuando la pérdida de pila es 30 y b) El flujo de aire cuando
la concentración de ácido es de 90.
Hora de entrega: 12:00 horas en el aula virtual
Referencias Bibliográficas
• Aldas, J. y Uriel, E. (2017). Análisis multivariante aplicado con R.

Madrid: Paraninfo.
• Montgomery y Runger. (2012). Probabilidad y estadística aplicada a la
ingeniería. México: Limusa.
• Jhonson,R. (2012). Probabilidad y estadística para ingenieros. México:
Pearson.
• Triola,M. (2018). Estadística. México: Pearson
• Teetor,P (2011). R Cookbook. EEUU: O’really Media

Correlación y Regresión

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Correlación y Regresión

Cargado por

Copyright:

Formatos disponibles

CORRELACIÓN Y REGRESIÓN

Al finalizar la unidad, el estudiante será capaz de realizar el

• Revisamos los siguientes casos concretos.

Coeficiente de Correlación de Pearson

n número de pares de datos muestrales.

Podemos ingresar las variables como vectores con cor(x, y)

Aquí vemos una tendencia

En este caso como el p-valor es < .05 rechazamos

EJERCICIO: Calcula el coeficiente de correlación de

Se definen las variables:

La variable Y designa a la variable dependiente o endógena, mientras que X designa a la variable

𝑏0 : Intercepto con el eje. Es el valor de Y que se obtiene

𝑏1 : Pendiente de la recta. Mide el cambio que se producirá

La relación entre X e Y puede ser:

𝑆𝑒 𝑅𝑒𝑐h𝑎𝑧𝑎𝐻𝑜:𝑡𝑐 <−𝑡 𝛼 ó𝑡 𝑐>𝑡 𝛼

Intervalo de confianza para el valor medio predicho

Intervalo de confianza en la respuesta media

Intervalo de predicción para una nueva respuesta

Intervalo de Confianza para β1 y βo

Para acceder al encabezado de los datos

Describimos los datos con la función summary:

La salida muestra 4 componentes:

Aquí RSE = 3.91, lo que significa que los valores de

Intervalos de confianza (IC) de los coeficientes

• Aldas, J. y Uriel, E. (2017). Análisis multivariante aplicado con R.

También podría gustarte