Unidad 5 PyE

INSTITUTO TECNOLÓGICO DE CHETUMAL
Carrera: Ingeniería Civil
Grupo: V2B
Probabilidad y Estadística
Unidad V: Análisis de regresión y correlación.
CONTENIDO:
5.1 Regresión lineal simple, curvilínea y múltiple.
5.2 Correlación.
5.3 Regresión y correlación para datos

agrupados.
5.4 Correlación por rangos.
5.5 Coeficiente de correlación para datos

nominales.
Instructor: Fernández Y Che Mario
Nombre del alumno: Meráz Lizarraga Ángel René
Miércoles 15 de Junio del 2022

Introducción
La correlación lineal y la regresión lineal simple son métodos estadísticos que
estudian la relación lineal existente entre dos variables. Antes de profundizar en
cada uno de ellos, conviene destacar algunas diferencias:
La correlación cuantifica como de relacionadas están dos variables, mientras que la
regresión lineal consiste en generar una ecuación (modelo) que, basándose en la
relación existente entre ambas variables, permita predecir el valor de una a partir de
la otra.
El cálculo de la correlación entre dos variables es independiente del orden o
asignación de cada variable a X e Y, mide únicamente la relación entre ambas sin
considerar dependencias. En el caso de la regresión lineal, el modelo varía según
qué variable se considere dependiente de la otra (lo cual no implica causa-efecto).
A nivel experimental, la correlación se suele emplear cuando ninguna de las
variables se ha controlado, simplemente se han medido ambas y se desea saber si
están relacionadas. En el caso de estudios de regresión lineal, es más común que
una de las variables se controle (tiempo, concentración de reactivo, temperatura…)
y se mida la otra.
Por norma general, los estudios de correlación lineal preceden a la generación de
modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de regresión.
5.1 Regresión lineal simple, curvilínea y
múltiple.
Regresión Lineal
La Regresión Lineal es una técnica paramétrica utilizada para predecir variables
continuas, dependientes, dado un conjunto de variables independientes. Es de
naturaleza paramétrica porque hace ciertas suposiciones basadas en el conjunto de
datos. Si el conjunto de datos sigue esas suposiciones, la regresión arroja
resultados increíbles, de lo contrario, tiene dificultades para proporcionar una
precisión convincente.
Matemáticamente, la regresión usa una función lineal para aproximar o predecir la
variable dependiente dada como:
Donde:
y – es la variable dependiente o la variable a predecir.
x – es la variable independiente o la variable que usamos para hacer una predicción.
a – es la pendiente o el valor que debe ser determinado, se le conoce como
coeficiente y es una especie de magnitud de cambio que pasa por y cuando x
cambia.
b – es la constante que debe ser determinada, se le conoce como intercepto porque
cuando x es igual a 0, entonces y = b.
Esta es la ecuación de Regresión Lineal Simple. Se llama simple porque solo hay
una variable independiente involucrada, que vendría siendo “x”.
El objetivo con Regresión Lineal Simple es minimizar la distancia vertical entre todos
los datos y nuestra línea, por lo tanto, para determinar la mejor línea, debemos
minimizar la distancia entre todos los puntos y la distancia de nuestra línea.
El error es una parte inevitable del proceso de predicción, no importa cuán poderoso
sea el algoritmo que elijamos, siempre habrá un error irreductible. Sabemos que no
podemos eliminar por completo el error, pero aún podemos intentar reducirlo al nivel
más bajo. Es en estos momentos en que se usa la técnica conocida como mínimos
cuadrados.
La técnica de mínimos cuadrado intenta reducir la suma de los errores al cuadrado,
buscando el mejor valor posible de los coeficientes de regresión.
Los mínimos cuadrados no es la única técnica para usar en Regresión Lineal, pero
se selecciona debido a:
• Utiliza un error cuadrado que tiene buenas propiedades matemáticas, por lo que
es más fácil diferencias y calcular el descenso del gradiente.
• Es fácil de analizar y computacionalmente más rápido, es decir, puede aplicarse
rápidamente a conjuntos de datos que tienen miles de características.
• La interpretación es mucho más fácil que otras técnicas de regresión.
Regresión curvilínea
Cuando las Variables X e Y se relacionan según una línea Curva, se habla de
regresión curvilínea. Es una función de segundo grado la que se ajusta lo suficiente
a la situación real dada.
Y= a + bx+cx2
Donde a, b y c son los parámetros.
El problema consiste en determinar dichos parámetros para una distribución dada.
Se seguirá para ello, un razonamiento y la utilización de las ecuaciones normales
de GAUSS.
Pasos para Realizar la Regresión Curvilínea:
1. Se toman los datos proporcionados a analizar y se forman los pares ordenados
2. Se representan dichos valores en los ejes del plano cartesiano, dando lugar a un
diagrama de dispersión o nube de puntos. El cual para que sea curvilínea debe ser
una curva.
3. Ajustamos a una función de segundo grado de Y= a + bx+cx2 para encontrar las
ecuaciones normales.
4. Elaborar tabla con los resultados que según las ecuaciones normales debemos
calcular para luego sustituir en dichas ecuaciones.
5. Sustituir en el sistema de ecuaciones normales
6. Utilizar matriz para encontrar los parámetros de “a”, “b” y “c” para sustituirlos en
la ecuación de regresión curvilínea
7. Sustituir los valores de “a”, “b” y “c” en la ecuación de Y= a + bx+cx2y completar
la tabla.
Regresión múltiple
La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis
y relaciones explicativas. Ante de empezar, una serie de condiciones que se deben
cumplir para poder aplicar la regresión lineal múltiple:
• La variable dependiente (resultado) debe ser escalar (numérica) o bien ordinal de
más de 5 categorías, es decir, las categorías de la variable dependiente deben tener
un orden interno o jerarquía.
• Las variables independientes (explicaciones) deben ser escalares (numérica),
ordinales (también se recomienda con más de 5 categorías
• Hay otras condiciones como: las variables independientes no puede estar
altamente correlacionadas entre sí, las relaciones entre las variable independientes
y la variable dependiente deben ser lineales, todas variables (o mejor dicho sus
residuales) deben seguir la distribución normal y deben tener varianzas iguales.
Estas condiciones son importantes, pero hay maneras de tratar los datos si se
incumple alguna de ellas.
5.2 Correlación
La correlación es una medida estadística que expresa hasta qué punto dos variables
están relacionadas linealmente (esto es, cambiando conjuntamente a una tasa
constante). Es una herramienta para describir relaciones simples sin hacer
afirmaciones sobre causas y efectos.
El coeficiente de correlación de la muestra, r, cuantifica la intensidad de la relación.
Las correlaciones también se someten a pruebas para establecer su significación
estadística.
La correlación no puede medir la presencia o el efecto de otras variables aparte de

las dos que se están explorando. Es importante saber que la correlación no nos
informa sobre causas y efectos. Además, la correlación no puede describir con
precisión las relaciones curvilíneas.
La correlación es útil para describir relaciones simples entre datos.
Describimos la correlación mediante una medida sin unidades llamada coeficiente
de correlación, que va desde -1 a +1 y se indica mediante la letra r. La significancia
estadística se indica mediante un valor p. Por tanto, usualmente las correlaciones
se escriben con dos números clave: r = y p =.
• Cuanto más se aproxima r a cero, más débil es la relación lineal.
• Los valores de r positivos indican una correlación positiva, en la que los valores de
ambas variables tienden a incrementarse juntos.
• Los valores de r negativos indican una correlación negativa, en la que los valores
de una variable tienden a incrementarse mientras que los valores de la otra variable
descienden.
• El valor p aporta evidencia de que podemos concluir de manera significativa que
es probable que el coeficiente de correlación de la población sea diferente a cero,
basándonos en lo que hemos observado en la muestra.
• "Medida sin unidades" significa que la correlación tiene su propia escala: en
nuestro ejemplo, el número de r no está en la misma escala que la altura ni que la
temperatura. Esto es diferente a otros estadísticos de resumen. Por ejemplo, la
media de las medidas de altura está en la misma escala que su variable.
5.3 Regresión y correlación para datos
agrupados.
REGRESIÓN
La regresión estadística o regresión a la media es la tendencia de una medición
extrema a presentarse más cercana a la media en una segunda medición. La
regresión se utiliza para predecir una medida basándonos en el conocimiento de
otra.
MODELOS DE REGRESIÓN
En estadística la regresión lineal o ajuste lineal es un método matemático que
modeliza la relación entre una variable dependiente Y, las variables independientes
Xi y un término aleatorio ε. Este modelo puede ser expresado como:
: variable dependiente, explicada o regresando.
: variables explicativas, independientes o regresores.
: parámetros, miden la influencia que las variables

explicativas tienen sobre el regresando.
Donde es la intersección o término “constante”, las son los

parámetros respectivos a cada variable independiente, y es el número de
parámetros independientes a tener en cuenta en la regresión. La regresión lineal
puede ser contrastada con la regresión no lineal.
CORRELACIÓN
En probabilidad y estadística, la correlación indica la fuerza y la dirección de una
relación lineal y proporcionalidad entre dos variables estadísticas. Se considera
que dos variables cuantitativas están correlacionadas cuando los valores de una
de ellas varían sistemáticamente con respecto a los valores homónimos de la otra:
si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A
lo hacen también los de B y viceversa. La correlación entre dos variables no
implica, por sí misma, ninguna relación de causalidad
Fuerza, sentido y forma de la correlación
La relación entre dos super variables cuantitativas queda representada mediante
la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales
componentes elementales de una línea de ajuste y, por lo tanto, de una
correlación, son la fuerza, el sentido y la forma:
La fuerza extrema según el caso, mide el grado en que la línea representa a la
nube de puntos: si la nube es estrecha y alargada, se representa por una línea
recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una
tendencia elíptica o circular, la relación es débil.
El sentido mide la variación de los valores de B con respecto a A: si al crecer los
valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A
disminuyen los de B, la relación es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva
monotónica o la curva no monotónica.
Distribución del coeficiente de correlación

El coeficiente de correlación muestral de una muestra es de hecho una varible
aleatoria, eso significa que si repetimos un experimento o consideramos diferentes
muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación
muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para
muestras grandes la variación en dicho coeficiente será menor que para muestras
pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad
para el coeficiente de correlación.
Si las dos variables aleatorias que trata de relacionarse proceden de una
distribución gaussiana bivariante entonces el coeficiente de correlación r sigue una
distribución de probabilidad dada por:
5.4 CORRELACIÓN DE SPEARMAN O POR
RANGOS
El coeficiente de correlación de Spearman es una medida no paramétrica de la
correlación de rango (dependencia estadística del ranking entre dos variables). Se
utiliza principalmente para el análisis de datos.
Mide la fuerza y la dirección de la asociación entre dos variables clasificadas. Pero
antes de hablar de la correlación de Spearman, es importante entender la
correlación de Pearson, la cual es una medida estadística de la fuerza de una
relación lineal entre datos emparejados.
Para el cálculo y la prueba de significación de la variable de ranking, se requiere
que la siguientes suposiciones de datos sean ciertas:
• Nivel de intervalo o ratio

• Relación lineal
• Bivariante distribuido
Si tus datos no cumplen con las suposiciones anteriores, necesitarás el coeficiente
de correlación de Spearman. Para esto, es necesario saber qué función monótona
es para entenderlo.
Una función monótona es aquella que nunca disminuye o nunca aumenta, ya que
es un incremento variable independiente. Puede ser explicada usando la imagen de
abajo:
La imagen explica tres conceptos de la función monótona:
• Monotónicamente en aumento: Cuando la variable “x” aumenta y la variable

“y” nunca disminuye.
• Disminuye monótonamente: Cuando la variable “x” aumenta pero la variable
“y” nunca aumenta.
• No monótono: Cuando la variable “x” aumenta y la variable “y” a veces
aumenta y a veces disminuye.
La relación monótona es menos restrictiva cuando se compara con una relación
lineal que se utiliza en el coeficiente de correlación de Pearson. Aunque la
monotonicidad no es el último requisito, no será significativo perseguirla sin
determinar realmente la fuerza y dirección de una relación monótona si ya se sabía
que la relación entre la variable no es monótona.
5.5 COEFICIENTE DE CORRELACIÓN PARA
DATOS NOMINALES
El coeficiente de correlación es la medida específica que cuantifica la intensidad de
la relación lineal entre dos variables en un análisis de correlación. En los informes
de correlación, este coeficiente se simboliza con la r.
Para dos variables, la fórmula compara la distancia de cada dato puntual respecto
a la media de la variable y utiliza esta comparación para decirnos hasta qué punto
la relación entre las variables se ajusta a una línea imaginaria trazada entre los
datos. A esto nos referimos cuando decimos que la correlación examina las
relaciones lineales.
La correlación sólo se refiere a las dos variables dadas y no aporta información
sobre las relaciones más allá de los datos bivariados. Esta prueba no puede detectar
valores atípicos en los datos (y por tanto estos sesgan los resultados) y tampoco
puede detectar correctamente las relaciones curvilíneas.
El coeficiente de correlación r es un valor sin unidades entre -1 y 1. La significancia
estadística se indica con un valor p. Por lo tanto, usualmente las correlaciones se
escriben con dos números clave: r = y p = .
• Cuanto más se aproxima r a cero, más débil es la relación lineal.

• Los valores de r positivos indican una correlación positiva, en la que los
valores de ambas variables tienden a incrementarse juntos.
• Los valores de r negativos indican una correlación negativa, en la que los
valores de una variable tienden a incrementarse mientras que los valores de
la otra variable descienden.
• Los valores 1 y -1 representan una correlación "perfecta" positiva y negativa,
respectivamente. Dos variables perfectamente correlacionadas cambian
conjuntamente a una tasa fija. Decimos que tienen una relación linear;
cuando representados en un gráfico de dispersión, todos los puntos
correspondientes a los datos pueden conectarse con una misma línea recta.
• El valor p nos ayuda a determinar si podemos o no concluir de manera
significativa que el coeficiente de correlación de la población es diferente a
cero, basándonos en lo que observamos en la muestra.
El coeficiente de correlación de la muestra puede representarse con una fórmula:
BIBLIOGRAFÍA
Cardenas, J. (5 de Febrero de 2014). Networkianos. Obtenido de
https://networkianos.com/regresion-lineal-multiple/
estadistica1utp. (24 de Octubre de 2016). Estadística . Obtenido de
https://estadistica1utp.wordpress.com/2016/10/24/regresion-curvilinea/
Gonzalez, L. (30 de Noviembre de 2018 ). Aprendeia. Obtenido de Aprendeia :
https://aprendeia.com/algoritmo-regresion-lineal-simple-machine-learning/
JPM. (13 de Marzo de 2022). Statistical. Obtenido de
https://www.jmp.com/es_mx/statistics-knowledge-portal/what-is-
correlation.html#:~:text=La%20correlaci%C3%B3n%20es%20una%20medida,afir
maciones%20sobre%20causa%20y%20efecto.
JMP. (22 de Octubre de 2021). Statistical. Obtenido de
https://www.jmp.com/es_mx/statistics-knowledge-portal/what-is-
correlation/correlation-coefficient.html
QuestionPro. (19 de Enero de 2022). QuestionPro. Obtenido de
https://www.questionpro.com/blog/es/coeficiente-de-correlacion-de-spearman/
Ramón, J. M. (22 de Junio de 2012). ProbabilidadyEstadística. Obtenido de
http://probabilidadyestadisticaitsav.blogspot.com/2012/06/53-regresion-y-
correlacion.html

Unidad 5 PyE

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad 5 PyE

Cargado por

Copyright:

Formatos disponibles

INSTITUTO TECNOLÓGICO DE CHETUMAL

Carrera: Ingeniería Civil

Unidad V: Análisis de regresión y correlación.

5.1 Regresión lineal simple, curvilínea y múltiple.

5.3 Regresión y correlación para datos

5.4 Correlación por rangos.

5.5 Coeficiente de correlación para datos

Instructor: Fernández Y Che Mario

Nombre del alumno: Meráz Lizarraga Ángel René

Miércoles 15 de Junio del 2022

La correlación no puede medir la presencia o el efecto de otras variables aparte de

: variable dependiente, explicada o regresando.

: variables explicativas, independientes o regresores.

: parámetros, miden la influencia que las variables

Donde es la intersección o término “constante”, las son los

Distribución del coeficiente de correlación

• Nivel de intervalo o ratio

La imagen explica tres conceptos de la función monótona:

• Monotónicamente en aumento: Cuando la variable “x” aumenta y la variable

• Cuanto más se aproxima r a cero, más débil es la relación lineal.

También podría gustarte