Unidad 5 PyE

INSTITUTO TECNOLÓGICO DE CHETUMAL
Carrera: Ingeniería Civil
Grupo: V2B
Probabilidad y Estadística
Unidad V: Análisis de regresión y correlación.
CONTENIDO:
5.1 Regresión lineal simple, curvilínea y múltiple.
5.2 Correlación.
5.3 Regresión y correlación para datos

agrupados.
5.4 Correlación por rangos.
5.5 Coeficiente de correlación para datos

nominales.
Instructor: Fernández Y Che Mario
Nombre del alumno: Meráz Lizarraga Ángel René
Miércoles 15 de Junio del 2022

Introducción
La correlación lineal y la regresión lineal simple son métodos estadísticos que
estudian la relación lineal existente entre dos variables. Antes de profundizar en
cada uno de ellos, conviene destacar algunas diferencias:
La correlación cuantifica como de relacionadas están dos variables, mientras que
la regresión lineal consiste en generar una ecuación (modelo) que, basándose en
la relación existente entre ambas variables, permita predecir el valor de una a
partir de la otra.
El cálculo de la correlación entre dos variables es independiente del orden o
asignación de cada variable a X e Y, mide únicamente la relación entre ambas sin
considerar dependencias. En el caso de la regresión lineal, el modelo varía según
qué variable se considere dependiente de la otra (lo cual no implica causa-efecto).
A nivel experimental, la correlación se suele emplear cuando ninguna de las
variables se ha controlado, simplemente se han medido ambas y se desea saber
si están relacionadas. En el caso de estudios de regresión lineal, es más común
que una de las variables se controle (tiempo, concentración de reactivo,
temperatura…) y se mida la otra.
Por norma general, los estudios de correlación lineal preceden a la generación de
modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de
regresión.
5.1 Regresión lineal simple, curvilínea y
múltiple.
Regresión Lineal
La Regresión Lineal es una técnica paramétrica utilizada para predecir variables
continuas, dependientes, dado un conjunto de variables independientes. Es de
naturaleza paramétrica porque hace ciertas suposiciones basadas en el conjunto
de datos. Si el conjunto de datos sigue esas suposiciones, la regresión arroja
resultados increíbles, de lo contrario, tiene dificultades para proporcionar una
precisión convincente.
Matemáticamente, la regresión usa una función lineal para aproximar o predecir la
variable dependiente dada como:
Donde:
y – es la variable dependiente o la variable a predecir.
x – es la variable independiente o la variable que usamos para hacer una
predicción.
a – es la pendiente o el valor que debe ser determinado, se le conoce como
coeficiente y es una especie de magnitud de cambio que pasa por y cuando x
cambia.
b – es la constante que debe ser determinada, se le conoce como intercepto
porque cuando x es igual a 0, entonces y = b.
Esta es la ecuación de Regresión Lineal Simple. Se llama simple porque solo hay
una variable independiente involucrada, que vendría siendo “x”.
El objetivo con Regresión Lineal Simple es minimizar la distancia vertical entre
todos los datos y nuestra línea, por lo tanto, para determinar la mejor línea,
debemos minimizar la distancia entre todos los puntos y la distancia de nuestra
línea.
El error es una parte inevitable del proceso de predicción, no importa cuán
poderoso sea el algoritmo que elijamos, siempre habrá un error irreductible.
Sabemos que no podemos eliminar por completo el error, pero aún podemos
intentar reducirlo al nivel más bajo. Es en estos momentos en que se usa la
técnica conocida como mínimos cuadrados.
La técnica de mínimos cuadrado intenta reducir la suma de los errores al
cuadrado, buscando el mejor valor posible de los coeficientes de regresión.
Los mínimos cuadrados no es la única técnica para usar en Regresión Lineal, pero
se selecciona debido a:
• Utiliza un error cuadrado que tiene buenas propiedades matemáticas, por lo que
es más fácil diferencias y calcular el descenso del gradiente.
• Es fácil de analizar y computacionalmente más rápido, es decir, puede aplicarse
rápidamente a conjuntos de datos que tienen miles de características.
• La interpretación es mucho más fácil que otras técnicas de regresión.
Regresión curvilínea
Cuando las Variables X e Y se relacionan según una línea Curva, se habla de
regresión curvilínea. Es una función de segundo grado la que se ajusta lo
suficiente a la situación real dada.
Y= a + bx+cx2
Donde a, b y c son los parámetros.
El problema consiste en determinar dichos parámetros para una distribución dada.
Se seguirá para ello, un razonamiento y la utilización de las ecuaciones normales
de GAUSS.
Pasos para Realizar la Regresión Curvilínea:
1. Se toman los datos proporcionados a analizar y se forman los pares ordenados
2. Se representan dichos valores en los ejes del plano cartesiano, dando lugar a
un diagrama de dispersión o nube de puntos. El cual para que sea curvilínea debe
ser una curva.
3. Ajustamos a una función de segundo grado de Y= a + bx+cx2 para encontrar
las ecuaciones normales.
4. Elaborar tabla con los resultados que según las ecuaciones normales debemos
calcular para luego sustituir en dichas ecuaciones.
5. Sustituir en el sistema de ecuaciones normales
6. Utilizar matriz para encontrar los parámetros de “a”, “b” y “c” para sustituirlos en
la ecuación de regresión curvilínea
7. Sustituir los valores de “a”, “b” y “c” en la ecuación de Y= a + bx+cx2y completar
la tabla.
Regresión múltiple
La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis
y relaciones explicativas. Ante de empezar, una serie de condiciones que se
deben cumplir para poder aplicar la regresión lineal múltiple:
• La variable dependiente (resultado) debe ser escalar (numérica) o bien ordinal de
más de 5 categorías, es decir, las categorías de la variable dependiente deben
tener un orden interno o jerarquía.
• Las variables independientes (explicaciones) deben ser escalares (numérica),
ordinales (también se recomienda con más de 5 categorías
• Hay otras condiciones como: las variables independientes no puede estar
altamente correlacionadas entre sí, las relaciones entre las variable
independientes y la variable dependiente deben ser lineales, todas variables (o
mejor dicho sus residuales) deben seguir la distribución normal y deben tener
varianzas iguales. Estas condiciones son importantes, pero hay maneras de tratar
los datos si se incumple alguna de ellas.
5.2 Correlación
La correlación es una medida estadística que expresa hasta qué punto dos
variables están relacionadas linealmente (esto es, cambiando conjuntamente a
una tasa constante). Es una herramienta para describir relaciones simples sin
hacer afirmaciones sobre causas y efectos.
El coeficiente de correlación de la muestra, r, cuantifica la intensidad de la
relación.
Las correlaciones también se someten a pruebas para establecer su significación
estadística.
La correlación no puede medir la presencia o el efecto de otras variables aparte de

las dos que se están explorando. Es importante saber que la correlación no nos
informa sobre causas y efectos. Además, la correlación no puede describir con
precisión las relaciones curvilíneas.
La correlación es útil para describir relaciones simples entre datos.
Describimos la correlación mediante una medida sin unidades llamada coeficiente
de correlación, que va desde -1 a +1 y se indica mediante la letra r. La
significancia estadística se indica mediante un valor p. Por tanto, usualmente las
correlaciones se escriben con dos números clave: r = y p =.
• Cuanto más se aproxima r a cero, más débil es la relación lineal.
• Los valores de r positivos indican una correlación positiva, en la que los valores
de ambas variables tienden a incrementarse juntos.
• Los valores de r negativos indican una correlación negativa, en la que los valores
de una variable tienden a incrementarse mientras que los valores de la otra
variable descienden.
• El valor p aporta evidencia de que podemos concluir de manera significativa que
es probable que el coeficiente de correlación de la población sea diferente a cero,
basándonos en lo que hemos observado en la muestra.
• "Medida sin unidades" significa que la correlación tiene su propia escala: en
nuestro ejemplo, el número de r no está en la misma escala que la altura ni que la
temperatura. Esto es diferente a otros estadísticos de resumen. Por ejemplo, la
media de las medidas de altura está en la misma escala que su variable.
5.3 Regresión y correlación para datos

agrupados.
REGRESIÓN
La regresión estadística o regresión a la media es la tendencia de una medición
extrema a presentarse más cercana a la media en una segunda medición. La
regresión se utiliza para predecir una medida basándonos en el conocimiento de
otra.
MODELOS DE REGRESIÓN
En estadística la regresión lineal o ajuste lineal es un método matemático que
modeliza la relación entre una variable dependiente Y, las variables
independientes Xi y un término aleatorio ε. Este modelo puede ser expresado
como:
: variable dependiente, explicada o regresando.
: variables explicativas, independientes o regresores.
: parámetros, miden la influencia que las variables

explicativas tienen sobre el regresando.
Donde es la intersección o término “constante”, las son los

parámetros respectivos a cada variable independiente, y es el número de
parámetros independientes a tener en cuenta en la regresión. La regresión lineal
puede ser contrastada con la regresión no lineal.
CORRELACIÓN
En probabilidad y estadística, la correlación indica la fuerza y la dirección de una
relación lineal y proporcionalidad entre dos variables estadísticas. Se considera
que dos variables cuantitativas están correlacionadas cuando los valores de una
de ellas varían sistemáticamente con respecto a los valores homónimos de la otra:
si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A
lo hacen también los de B y viceversa. La correlación entre dos variables no
implica, por sí misma, ninguna relación de causalidad
Fuerza, sentido y forma de la correlación
La relación entre dos super variables cuantitativas queda representada mediante
la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales
componentes elementales de una línea de ajuste y, por lo tanto, de una
correlación, son la fuerza, el sentido y la forma:
La fuerza extrema según el caso, mide el grado en que la línea representa a la
nube de puntos: si la nube es estrecha y alargada, se representa por una línea
recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una
tendencia elíptica o circular, la relación es débil.
El sentido mide la variación de los valores de B con respecto a A: si al crecer los
valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A
disminuyen los de B, la relación es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la
curva monotónica o la curva no monotónica.
Distribución del coeficiente de correlación

El coeficiente de correlación muestral de una muestra es de hecho una varible
aleatoria, eso significa que si repetimos un experimento o consideramos diferentes
muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación
muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para
muestras grandes la variación en dicho coeficiente será menor que para muestras
pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad
para el coeficiente de correlación.
Si las dos variables aleatorias que trata de relacionarse proceden de una
distribución gaussiana bivariante entonces el coeficiente de correlación r sigue una
distribución de probabilidad dada por:
5.4 CORRELACIÓN DE SPEARMAN O POR
RANGOS
El coeficiente de correlación de Spearman es una medida no paramétrica de la
correlación de rango (dependencia estadística del ranking entre dos variables). Se
utiliza principalmente para el análisis de datos.
Mide la fuerza y la dirección de la asociación entre dos variables clasificadas. Pero
antes de hablar de la correlación de Spearman, es importante entender la
correlación de Pearson, la cual es una medida estadística de la fuerza de una
relación lineal entre datos emparejados.
Para el cálculo y la prueba de significación de la variable de ranking, se requiere
que la siguientes suposiciones de datos sean ciertas:
 Nivel de intervalo o ratio

 Relación lineal
 Bivariante distribuido
Si tus datos no cumplen con las suposiciones anteriores, necesitarás el coeficiente

de correlación de Spearman. Para esto, es necesario saber qué función monótona
es para entenderlo.
Una función monótona es aquella que nunca disminuye o nunca aumenta, ya que
es un incremento variable independiente. Puede ser explicada usando la imagen
de abajo:
La imagen explica tres conceptos de la función monótona:
 Monotónicamente en aumento: Cuando la variable “x” aumenta y la variable

“y” nunca disminuye.
 Disminuye monótonamente: Cuando la variable “x” aumenta pero la variable
“y” nunca aumenta.
 No monótono: Cuando la variable “x” aumenta y la variable “y” a veces
aumenta y a veces disminuye.
La relación monótona es menos restrictiva cuando se compara con una relación
lineal que se utiliza en el coeficiente de correlación de Pearson. Aunque la
monotonicidad no es el último requisito, no será significativo perseguirla sin
determinar realmente la fuerza y dirección de una relación monótona si ya se
sabía que la relación entre la variable no es monótona.
5.5 COEFICIENTE DE CORRELACIÓN PARA
DATOS NOMINALES
El coeficiente de correlación es la medida específica que cuantifica la intensidad
de la relación lineal entre dos variables en un análisis de correlación. En los
informes de correlación, este coeficiente se simboliza con la r.
Para dos variables, la fórmula compara la distancia de cada dato puntual respecto
a la media de la variable y utiliza esta comparación para decirnos hasta qué punto
la relación entre las variables se ajusta a una línea imaginaria trazada entre los
datos. A esto nos referimos cuando decimos que la correlación examina las
relaciones lineales.
La correlación sólo se refiere a las dos variables dadas y no aporta información
sobre las relaciones más allá de los datos bivariados. Esta prueba no puede
detectar valores atípicos en los datos (y por tanto estos sesgan los resultados) y
tampoco puede detectar correctamente las relaciones curvilíneas.
El coeficiente de correlación r es un valor sin unidades entre -1 y 1. La
significancia estadística se indica con un valor p. Por lo tanto, usualmente las
correlaciones se escriben con dos números clave: r = y p = .
 Cuanto más se aproxima r a cero, más débil es la relación lineal.

 Los valores de r positivos indican una correlación positiva, en la que los
valores de ambas variables tienden a incrementarse juntos.
 Los valores de r negativos indican una correlación negativa, en la que los
valores de una variable tienden a incrementarse mientras que los valores
de la otra variable descienden.
 Los valores 1 y -1 representan una correlación "perfecta" positiva y
negativa, respectivamente. Dos variables perfectamente correlacionadas
cambian conjuntamente a una tasa fija. Decimos que tienen una relación
linear; cuando representados en un gráfico de dispersión, todos los puntos
correspondientes a los datos pueden conectarse con una misma línea
recta.
 El valor p nos ayuda a determinar si podemos o no concluir de manera
significativa que el coeficiente de correlación de la población es diferente a
cero, basándonos en lo que observamos en la muestra.
El coeficiente de correlación de la muestra puede representarse con una fórmula:
BIBLIOGRAFÍA
Cardenas, J. (5 de Febrero de 2014). Networkianos. Obtenido de
https://networkianos.com/regresion-lineal-multiple/
estadistica1utp. (24 de Octubre de 2016). Estadística . Obtenido de
https://estadistica1utp.wordpress.com/2016/10/24/regresion-curvilinea/
Gonzalez, L. (30 de Noviembre de 2018 ). Aprendeia. Obtenido de Aprendeia :
https://aprendeia.com/algoritmo-regresion-lineal-simple-machine-learning/
JPM. (13 de Marzo de 2022). Statistical. Obtenido de
https://www.jmp.com/es_mx/statistics-knowledge-portal/what-is-
correlation.html#:~:text=La%20correlaci%C3%B3n%20es%20una
%20medida,afirmaciones%20sobre%20causa%20y%20efecto.
JMP. (22 de Octubre de 2021). Statistical. Obtenido de
https://www.jmp.com/es_mx/statistics-knowledge-portal/what-is-correlation/
correlation-coefficient.html
QuestionPro. (19 de Enero de 2022). QuestionPro. Obtenido de
https://www.questionpro.com/blog/es/coeficiente-de-correlacion-de-spearman/
Ramón, J. M. (22 de Junio de 2012). ProbabilidadyEstadística. Obtenido de
http://probabilidadyestadisticaitsav.blogspot.com/2012/06/53-regresion-y-
correlacion.html

Unidad 5 PyE

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad 5 PyE

Cargado por

Copyright:

Formatos disponibles

INSTITUTO TECNOLÓGICO DE CHETUMAL

Carrera: Ingeniería Civil

Unidad V: Análisis de regresión y correlación.

5.1 Regresión lineal simple, curvilínea y múltiple.

5.3 Regresión y correlación para datos

5.4 Correlación por rangos.

5.5 Coeficiente de correlación para datos

Instructor: Fernández Y Che Mario

Nombre del alumno: Meráz Lizarraga Ángel René

Miércoles 15 de Junio del 2022

La correlación no puede medir la presencia o el efecto de otras variables aparte de

5.3 Regresión y correlación para datos

: variable dependiente, explicada o regresando.

: variables explicativas, independientes o regresores.

: parámetros, miden la influencia que las variables

Donde es la intersección o término “constante”, las son los

Distribución del coeficiente de correlación

 Nivel de intervalo o ratio

Si tus datos no cumplen con las suposiciones anteriores, necesitarás el coeficiente

La imagen explica tres conceptos de la función monótona:

 Monotónicamente en aumento: Cuando la variable “x” aumenta y la variable

 Cuanto más se aproxima r a cero, más débil es la relación lineal.

También podría gustarte