Está en la página 1de 31

PROBABILIDAD Y

ESTADÍSTICA
• Ingeniería Civil
• Alumna:
Irlanda Gabriela Carrillo Flores
• Maestro:
Ing. José Miguel Ruvalcaba
UNIDAD 5
ANÁLISIS DE
REGRESIÓN Y
CORRELACIÓN
• La correlación y la regresión son métodos estadísticos que estudian la
relación lineal existente entre dos variables.
DIFERENCIAS CLAVES
•La correlación cuantifica como de relacionadas están dos variables, mientras que
la regresión lineal consiste en generar una ecuación (modelo) que, basándose en
la relación existente entre ambas variables, permita predecir el valor de una a
partir de la otra.

•El cálculo de la correlación entre dos variables es independiente del orden o


asignación de cada variable a X e Y, mide únicamente la relación entre ambas sin
considerar dependencias. En el caso de la regresión lineal, el modelo varía según
qué variable se considere dependiente de la otra (lo cual no implica causa-efecto).
•A nivel experimental, la correlación se suele emplear cuando ninguna de las
variables se ha controlado, simplemente se han medido ambas y se desea saber
si están relacionadas. En el caso de estudios de regresión lineal, es más común
que una de las variables se controle (tiempo, concentración de reactivo,
temperatura…) y se mida la otra.

•Por norma general, los estudios de correlación lineal preceden a la generación


de modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de
regresión.
REGRESIÓN

• El análisis de regresión examina la capacidad de uno o más factores, llamados


variables independientes, para predecir la variable objetivo o dependiente.
• El análisis de regresión consiste en emplear métodos que permitan determinar
la mejor relación funcional entre dos o más variables concomitantes (o
relacionadas). El análisis de correlación estudia el grado de asociación de dos o
más variables.
ANÁLISIS DE REGRESIÓN
• Una relación funcional matemáticamente hablando, está dada por:
Y = f(x1,...,xn; θ1,...,θm)
donde:
Y :Variable respuesta (o dependiente)
xi : La i-ésima variable independiente (i=1,..,n)
θj : El j-ésimo parámetro en la función (j=1,..,m)
f : La función
Para elegir una relación funcional particular como la representativa de la población bajo
investigación, usualmente se procede: 1) Una consideración analítica del fenómeno que nos
ocupa, y 2) Un examen de diagramas de dispersión.
• Para elegir una relación funcional particular como la representativa de la
población bajo investigación, usualmente se procede:

• 1) Una consideración analítica del fenómeno que nos ocupa.


• 2) Un examen de diagramas de dispersión.
• Una vez decidido el tipo de función matemática que mejor se ajusta (o
representa nuestro concepto de la relación exacta que existe entre las
variables) se presenta el problema de elegir una expresión particular de esta
familia de funciones; es decir, se ha postulado una cierta función como término
del verdadero estado en la población y ahora es necesario estimar los
parámetros de esta función (ajuste de curvas).
• Como los valores de los parámetros no se pueden determinar sin errores por
que los valores observados de la variable dependiente no concuerdan con los
valores esperados, entonces la ecuación general replanteada, estadísticamente,
sería:
• Y = f(x1,...xn;θ1,...,θm) + ε
• Donde ε representa el error cometido en el intento de observar la
característica en estudio, en la cual muchos factores contribuyen al valor que
asume ε.
5.1 REGRESIÓN LINEAL SIMPLE,
CURVILÍNEA Y MÚLTIPLE
REGRESIÓN LINEAL SIMPLE
• Cuando la relación funcional entre las variables dependiente
(Y) e independiente (X) es una línea recta, se tiene una
regresión lineal simple, dada por la ecuación

Y = ßo + ß1X + ε

donde:
ßo : El valor de la ordenada donde la línea de regresión se
intersecta al eje Y.
ß1 : El coeficiente de regresión poblacional (pendiente de la línea
recta)
ε : El error.
SUPOSICIONES DE REGRESIÓN LINEAL
1. Los valores de la variable independiente X son "fijos".
2. La variable X se mide sin error (se desprecia el error de medición en X)
3. Existe una subpoblación de valores Y normalmente distribuido para cada valor de X.
4. Las variancias de las subpoblaciones de Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la misma recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.

Los supuestos del 3 al 6 equivalen a decir que los errores son aleatorios, que se distribuyen
normalmente con media cero y variancia σ².
REGRESIÓN CURVILÍNEA
• La regresión curvilínea es el nombre que se le da a cualquier
modelo de regresión que intente ajustar una curva en lugar de
una línea recta.

Los ejemplos comunes de modelos de regresión curvilínea


incluyen:
• Regresión cuadrática: se utiliza cuando existe una relación
cuadrática entre una variable predictora y una variable
respuesta. Cuando se grafica, este tipo de relación se ve como
una «U» o una «U» invertida en un diagrama de dispersión
• Regresión cúbica: se utiliza cuando existe una relación cúbica entre una variable predictora y
una variable de respuesta. Cuando se grafica, este tipo de relación tiene dos curvas distintas en
un diagrama de dispersión:

• Un modelo de regresión cuadrática utiliza la siguiente fórmula:


ŷ=β0+β1x+β2x2
• Un modelo de regresión cúbica usa la siguiente fórmula:
ŷ=β0+β1x+β2x2+β3x3
REGRESIÓN LINEAL MÚLTIPLE
• Un modelo de regresión lineal múltiple es un modelo
estadístico versátil para evaluar las relaciones entre un
destino continuo y los predictores.
• Los predictores pueden ser campos continuos,
categóricos o derivados, de modo que las relaciones
no lineales también estén soportadas.
• Este tipo se presenta cuando dos o más variables
independientes influyen sobre una variable
dependiente. Ejemplo: Y = f(x, w, z).
A partir de los análisis de regresión lineal múltiple podemos:

• Identificar que variables independientes (explicativas) que explican una variable


dependiente (resultado).
• Comparar y comprobar modelos explicativos.
• Predecir valores de una variable, es decir, a partir de unas características
predecir de forma aproximada un comportamiento o estado.
5.2 CORRELACIÓN
• La correlación examina la fuerza de la relación entre dos
variables, ninguna de las cuales se considera la variable que uno
está tratando de predecir (la variable objetivo).
• Indica la fuerza y la dirección de una relación lineal y
la proporcionalidad entre dos variables estadísticas.
• Se considera que dos variables cuantitativas están
correlacionadas cuando los valores de una de ellas varían
sistemáticamente con respecto a los valores homónimos de la
otra: si tenemos dos variables (A y B) existe correlación entre
ellas si al disminuir los valores de A lo hacen también los de B y
viceversa. La correlación entre dos variables no implica, por sí
misma, ninguna relación de causalidad.
• Emplea métodos para medir la significación del grado o intensidad de
asociación entre dos o más variables. El concepto de correlación está
estrechamente vinculado al concepto de regresión, pues, para que una ecuación
de regresión sea razonable los puntos muéstrales deben estar ceñidos a la
ecuación de regresión; además el coeficiente de correlación debe ser
• : - grande cuando el grado de asociación es alto (cerca de +1 o -1, y pequeño
cuando es bajo, cerca de cero. - independiente de las unidades en que se miden
las variables.
5.3 REGRESIÓN Y CORRELACIÓN
PARA DATOS AGRUPADOS
• La regresión y la correlación son dos técnicas estrechamente relacionadas y
comprenden una forma de estimación.
• En forma más especifica el análisis de correlación y regresión comprende el
análisis de los datos muéstrales para saber que es y como se relacionan entre
si dos o mas variables en una población. El análisis de correlación produce un
número que resume el grado de la correlación entre dos variables; y el análisis
de regresión da lugar a una ecuación matemática que describe dicha relación.
• El análisis de correlación generalmente resulta útil para un trabajo de
exploración cuando un investigador o analista trata de determinar que
variables son potenciales importantes, el interés radica básicamente en la
fuerza de la relación. La correlación mide la fuerza de una entre variables; la
regresión da lugar a una ecuación que describe dicha relación en términos
matemáticos
• Los datos necesarios para análisis de regresión y correlación provienen de
observaciones de variables relacionadas.
5.4 CORRELACIÓN POR RANGOS
• El coeficiente de correlación de orden de rangos de Spearman es un estadístico no
paramétrico basado en rango para medir la relación monotónica entre dos variables que
suelen censurarse y no se distribuyen normalmente.

• Este coeficiente se emplea cuando una o ambas escalas de


medidas de las variables son ordinales, es decir, cuando una o
ambas escalas de medida son posiciones. Ejemplo: Orden de llegada
en una carrera y peso de los atletas.
• Se calcula aplicando la siguiente
ecuación:
• Nota: Los datos hay que traducirlos u ordenarlos
en rangos. A los puntajes más elevados le asignamos el
rango 1 al siguiente el rango 2 y así sucesivamente. Si se
repiten dos puntajes o más se calculan las medias
aritméticas.

• La siguiente tabla
muestra el rango u orden obtenido en la primera evaluación
(X) y el rango o puesto obtenido en la segunda evaluación
(Y) de 8 estudiantes universitarios en la asignatura de
Estadística. Calcular el coeficiente de correlación
por rangos de Spearman.
Se aplica la fórmula:

Por lo tanto existe una correlación positiva


moderada entre la primera y segunda evaluación de los 8
estudiantes.

• En Excel se calcula de la siguiente


manera:
• a) Se inserta la función COEF.DE.CORREL y pulsar
en Aceptar. En el cuadro de argumentos de la función, en
el recuadro de la Matriz 1 seleccionar las celdas de X, y en
el
recuadro de la Matriz 2 seleccionar las celdas de Y. Pulsar
en
Aceptar.
5.5 COEFICIENTES DE CORRELACIÓN
PARA DATOS
• El coeficiente de correlación es la medida específica que cuantifica la intensidad de la relación
lineal entre dos variables en un análisis de correlación. En los informes de correlación, este
coeficiente se simboliza con la r.

• ¿Cómo se utiliza el coeficiente de correlación?


• Para dos variables, la fórmula compara la distancia de cada dato puntual respecto a la media de
la variable y utiliza esta comparación para decirnos hasta qué punto la relación entre las
variables se ajusta a una línea imaginaria trazada entre los datos. A esto nos referimos cuando
decimos que la correlación examina las relaciones lineales.
¿Limitaciones para tener en cuenta?
• La correlación sólo se refiere a las dos variables dadas y no aporta información
sobre las relaciones más allá de los datos bivariados. Esta prueba no puede
detectar valores atípicos en los datos (y por tanto estos sesgan los resultados)
y tampoco puede detectar correctamente las relaciones curvilíneas.
¿QUÉ SIGNIFICAN LOS VALORES DEL
COEFICIENTE DE CORRELACIÓN?
• El coeficiente de correlación r es un valor sin unidades entre -1 y 1. La significancia estadística se
indica con un valor p. Por lo tanto, usualmente las correlaciones se escriben con dos números
clave: r = y p = .
• Cuanto más se aproxima r a cero, más débil es la relación lineal.
• Los valores de r positivos indican una correlación positiva, en la que los valores de ambas variables
tienden a incrementarse juntos.
• Los valores de r negativos indican una correlación negativa, en la que los valores de una variable
tienden a incrementarse mientras que los valores de la otra variable descienden.
• Los valores 1 y -1 representan una correlación "perfecta" positiva y negativa, respectivamente. Dos
variables perfectamente correlacionadas cambian conjuntamente a una tasa fija. Decimos que tienen
una relación linear; cuando representados en un gráfico de dispersión, todos los puntos
correspondientes a los datos pueden conectarse con una misma línea recta.
• El valor p nos ayuda a determinar si podemos o no concluir de manera significativa que el coeficiente
de correlación de la población es diferente a cero, basándonos en lo que observamos en la muestra.
EL COEFICIENTE DE CORRELACIÓN DE
LA MUESTRA PUEDE REPRESENTARSE
CON UNA FÓRMULA:


CONCLUSIÓN:

• Durante esta investigación pude concluir que la correlación es aquella que examina la
fuerza de la relación entre dos variables, ninguna de las cuales se considera necesariamente la
variable objetivo. Por otro lado la regresión examina la fuerza de la relación entre una o más
variables predictoras y una variable objetivo.
FUENTES BIBLIOGRÁFICAS

• https://statologos.com/regresion-curvilinea
• https://html.rincondelvago.com/regresion-y-correlacion.html
• http://probabilidadyestadisticaitsav.blogspot.com/2012/06/53-regresion-y-correlacion.html
• https://www.cartagena99.com/recursos/alumnos/apuntes/esquema%20TEMA%205.pdf
• https://aprendeconalf.es/docencia/estadistica/manual/regresion/

También podría gustarte