Regresión y correlación: conceptos y aplicaciones

INSTITUTO TECNOLÓGICO SUPERIOR DE VALLADOLID
INGENIERÍA CIVIL
ITSVA
ASIGNATURA:
Probabilidad y Estadística
INTEGRANTES:
Arceo Can Yordan Alexis
21040002
Cauich Morales Luis Antonio
21040017
Chuc Coba Rommel Manuel
21040029
Colli Cime Jonathan Josue
21040032
Pech Chuc Angel Noe
21040080
DOCENTE:
ARQ. Lucila G. Aguilar Rivero
CURSO:
2do semestre 2022
ACTIVIDAD:
Investigación Tema 5
FECHA DE ENTREGA:
06/06/2022
1
ÍNDICE
ÍNDICE 2
OBJETIVO DE LA INVESTIGACIÓN 3
INTRODUCCIÓN 4
OBJETIVO GENERAL 6
METODOLOGÍA DE LA INVESTIGACIÓN 7
REGRESIÓN Y CORRELACIÓN 8
5.1 Regresión lineal simple, curvilínea y múltiple 9
Regresión lineal simple 9
Regresión curvilínea. 12
Regresión Múltiple 13
5.2 Correlación 15
varianza (s2) 16
covarianza cov(x,y) 17
5.3 Regresión y correlación para datos agrupados 17
Regresión 17
Modelos de regresión 17
Correlación 20
5.4 Correlación de Rangos 23
Correlación. Conceptos asociados 23
Coeficiente de correlación de rangos de Spearman 25
Correlación de Pearson y Correlación de Spearman 28
Correlación y asesor estadístico SPSS 29
Interpretación de la correlación 30
5.5 Coeficiente de correlación para datos nominales 36
CONCLUSIÓN 41
BIBLIOGRAFÍAS 42
2
OBJETIVO DE LA INVESTIGACIÓN
Para empezar el objetivo de esta investigación es dar a conocer los conceptos básicos
de los temas a impartir que son análisis de regresión y correlación, dando las
definiciones de cada una y dando ejemplos simples, detallados y precisos, dando
explicaciones breves de cada uno de los temas, así como también haciendo énfasis en
los subtemas con los que cuenta cada uno. Darle a entender al lector detalladamente
cada tema para poder comprender y efectuar la realización de ejercicios
implementados con ello.
3
INTRODUCCIÓN
Cuando se analizan datos, el interés del Maestro en estadística suele centrarse
en reorientar y actualizar el enfoque con el que se debe abordar el estudio de los
métodos estadísticos, con la finalidad de despertar en los estudiantes la inquietud por
aprender, analizar las relaciones que se dan entre variables y resolver los problemas y
casos planteados.
En las unidades pasadas se estudiaron y analizaron distintos temas de
probabilidad. Es muy común que las personas tomen decisiones en la vida cotidiana y
profesional basadas en predicciones de sucesos futuros. Para hacerlo, se fundamentan
en la relación intuitiva y calculada entre lo que ya se sabe y lo que se debe estimar. Si
se dieran cuenta que se puede determinar cómo lo conocido se relaciona con un evento
futuro, facilitarían el proceso de toma de decisiones.
Cualquier método estadístico que tenga como finalidad establecer una ecuación
que permita estimar el valor desconocido de una variable a partir del valor conocido
de una o más variables, se denomina análisis de regresión, en esta unidad lo
estudiaremos paso a paso. Primero revisaremos la correlación lineal con sus
procedimientos de dos factores.
Con el estudio de la unidad didáctica se pretende también, comprender a profundidad
el procedimiento correspondiente a la correlación parcial para realizar las pruebas de
esta naturaleza que nos permitan establecer la relación neta entre dos variables.
4
Además, se revisarán dos procedimientos de regresión lineal que son: la simple y la
múltiple.
Dichas técnicas estadísticas se pueden utilizar en un sinfín de situaciones, en
las investigaciones de corte social para predecir amplios rangos de fenómenos que se
presentan desde condiciones psicológicas, de comportamiento humano, económicas,
de factores que condicionan la salud. El análisis de regresión lineal se utiliza para
explorar y cuantificar la relación de una variable independiente, con una dependiente
que en cualquier momento puede ser modificada por la primera. Por ejemplo,
refiriéndonos a los condicionantes de la salud, se puede afirmar que el nivel
socioeconómico de las personas es uno de ellos. En este caso las personas con nivel
socioeconómico bajo tienen más riesgos a perder la salud, en este ejemplo el nivel
socioeconómico es una variable independiente puesto que no depende de otras
circunstancias, ni de la otra variable que sería riesgo a la salud. En otros casos existen
relaciones de más de dos variables dependientes. Por lo cual este en este capítulo
revisaremos tanto el caso de dos variables, regresión simple, como de más de dos
variables regresión múltiple, entre otras ramas relacionadas.
5
OBJETIVO GENERAL
Se pretende que el estudiante adquiera conocimientos teóricos básicos para
comprender temas más avanzados de estadística. Para ello se inicia con la exposición
de los principios de teoría de estimación y prueba de hipótesis, con lo cual se pretende
lograr una mejor comprensión de las técnicas inferenciales. Se aspira asimismo, que
seamos capaz de plantear y resolver problemas reales aplicados a las diferentes ramas
de la ciencia. Es fundamental complementar el curso con el uso de algún software
estadístico para el análisis de datos.
6
METODOLOGÍA DE LA INVESTIGACIÓN
Bueno para hacer esta investigación requerimos investigar en diferentes fuentes
de información para poder comparar resultados de la investigación y ver cuál es la
más coherente, y adaptarla a nuestra investigación. De la igual manera las imágenes
nos serán muy útiles para poder tener una investigación más compleja y entendible,
otra estrategia que utilizaremos para llevar a cabo una buena investigación será los
ejemplos que iremos agregando entre cada subtema.
7
REGRESIÓN Y CORRELACIÓN
La regresión y la correlación son dos técnicas estrechamente relacionadas y
comprenden una forma de estimación.
En forma más específica el análisis de correlación y regresión comprende el análisis
de los datos muestrales para saber qué es y cómo se relacionan entre sí dos o más
variables en una población. El análisis de correlación produce un número que resume
el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una
ecuación matemática que describe dicha relación.
El análisis de correlación generalmente resulta útil para un trabajo de
exploración cuando un investigador o analista trata de determinar qué variables son
potenciales importantes, el interés radica básicamente en la fuerza de la relación. La
correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación
que describe dicha relación en términos matemáticos
Los datos necesarios para análisis de regresión y correlación provienen de
observaciones de variables relacionadas.
8
5.1 Regresión lineal simple, curvilínea y múltiple
Regresión lineal simple
La regresión lineal simple consiste en generar un modelo de regresión que
permita explicar la relación lineal que existe entre dos variables. A la variable
dependiente o respuesta se le identifica como Y, e independiente como X.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Y=β0+β1X1+ϵ
Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este
último representa la diferencia entre el valor ajustado por la recta y el valor real.
Recoge el efecto de todas aquellas variables que influyen en Y pero que no se
incluyen en el modelo como predictores. Al error aleatorio también se le conoce como
residuo.
En la gran mayoría de casos, los valores β0 y β1 poblacionales son
desconocidos, por lo que, a partir de una muestra, se obtienen sus estimaciones y .
Estas estimaciones se conocen como coeficientes de regresión, ya que toman aquellos
valores que minimizan la suma de cuadrados residuales, dando lugar a la recta que
pasa más cerca de todos los puntos.
^y ¿ ^β +β^
0 1
x
9
n
S
∑ ¿ 1(x−x )( y− y )= SY =R
^β 0= i x
❑
^B = y −B
^ x
0 1
Donde Sy y Sx son las desviaciones típicas de cada variable y RR el coeficiente
de correlación. es el valor esperado la variable Y cuando X = 0, es decir, la
intersección de la recta con el eje y. Es un dato necesario para generar la recta, pero en
ocasiones, no tiene interpretación práctica.
Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de
ellos es necesario satisfacer distintas condiciones. En caso de querer medir la relación
lineal entre dos variables, la recta de regresión lo va a indicar de forma directa. Sin
embargo, en caso de querer predecir el valor de una variable en función de la otra, no
solo se necesita calcular la recta, sino que además hay que asegurar que el modelo sea
bueno.
Ejemplo:
Y x £
10
Consumo de gasolina de Velocidad Efecto conductor, tipo de carretera,
un vehículo media condiciones ambientales, etc.
Presupuesto de una Número de Efecto del número de profesores,
universidad alumnos del número de laboratorios, de los 2
m de instalaciones, del número de
personal de administración, etc.
Regresión curvilínea.
Cuando las Variables X e Y se relacionan según una línea Curva, se habla de
regresión curvilínea. Es una función de segundo grado la que se ajusta lo suficiente a
la situación real dada.
Y= a + bx+cx2
Donde a, b y c son los parámetros. El problema consiste en determinar dichos
parámetros para una distribución dada. Se seguirá para ello, un razonamiento y la
utilización de las ecuaciones normales de GAUSS.
Pasos para Realizar la Regresión Curvilínea:
1. Se toman los datos proporcionados a analizar y se forman los pares ordenados
11
2. Se representan dichos valores en los ejes del plano cartesiano, dando lugar a un
diagrama de dispersión o nube de puntos. El cual para que sea curvilínea debe
ser una curva.
3. Ajustamos a una función de segundo grado de Y= a + bx+cx2 para encontrar
las ecuaciones normales.
4. Elaborar tabla con los resultados que según las ecuaciones normales debemos
calcular para luego sustituir en dichas ecuaciones.
5. Sustituir en el sistema de ecuaciones normales
6. Utilizar matriz para encontrar los parámetros de “a”, “b” y “c” para sustituirlos
en la ecuación de regresión curvilínea
7. Sustituir los valores de “a”, “b” y “c” en la ecuación de Y= a + bx+cx2y
completar la tabla.
Regresión Múltiple
La ecuación de Regresión Simple permite hacer predicciones de una variable
en función de otra. El comportamiento es muy complejo, y hacer predicciones con una
sola variable predictora es demasiado simple. Mejoraríamos la posibilidad de
predicción (o explicación) del comportamiento si utilizamos más de una variable
predictora. Para resolver esta cuestión se define la ecuación de Regresión Múltiple
(puntuaciones directas):
donde
12
Xi: Variable predictora (o explicativa).
Bi: Coeficiente de la variable predictora Xi
A: Interceptar o constante
La valoración de la capacidad predictiva de la ecuación de Regresión Múltiple
se puede hacer con el Coeficiente de Determinación, que se interpretado de forma
semejante a como ha sido explicado para la ecuación de Regresión Simple: Da la
proporción de variación explicada por el conjunto de variables predictoras (o
explicativas). El Coeficiente de Determinación es el cuadrado del coeficiente de
Correlación Múltiple, que es la correlación de Pearson entre la variable Y y la variable
Y' (la variable que contiene las predicciones de Y):
donde el primer subíndice indica cuál es la variable criterio y los otros indican cuáles
son las variables predictoras (o explicativas).
Coeficiente de determinación:
13
14
5.2 Correlación
La correlación es una medida de la relación lineal entre dos variables
cuantitativas continuas (x, y). La manera más sencilla de saber si dos variables están
correlacionadas es determinar si co-varían (varían conjuntamente). Es importante
hacer notar que esta covariación no implica necesariamente causalidad, la correlación
15
puede ser fortuita, como en el caso clásico de la correlación entre el número de venta
de helados e incendios, debido al efecto de una tercera variable, la temperatura
ambiental.
La correlación es en esencia una medida normalizada de asociación o
covariación lineal entre dos variables. Esta medida o índice de correlación r puede
variar entre -1 y +1, ambos extremos indicando correlaciones perfectas, negativa y
positiva respectivamente. Un valor de r = 0 indica que no existe relación lineal entre
las dos variables. Una correlación positiva indica que ambas variables varían en el
mismo sentido. Una correlación negativa significa que ambas variables varían en
sentidos opuestos. Lo interesante del índice de correlación es que r es en sí mismo una
medida del tamaño del efecto, que suele interpretarse de la siguiente manera:
● correlación despreciable: r < |0.1|
● correlación baja: |0.1| < r <= |0.3|
● correlación mediana: |0.3| < r <= |0.5|
● correlación fuerte o alta: r > |0.5|
La correlación se define en términos de la varianza (s2) de las variables x e y, así como
de la covarianza cov de x,y. Es por tanto una medida de la variación conjunta de
ambas variables (cov(x,y)).
varianza (s2)
La varianza de una muestra representa el promedio de la desviación de los
datos con respecto a la media
16
covarianza cov(x,y)
La covarianza entre dos variables x e y es una medida de la relación
“promedio” éstas. Es la desviación promedio del producto cruzado entre ellas:
5.3 Regresión y correlación para datos agrupados
Regresión
La regresión estadística o regresión a la media es la tendencia de una medición
extrema a presentarse más cercana a la media en una segunda medición. La regresión
se utiliza para predecir una medida basándonos en el conocimiento de otra.
Modelos de regresión
En estadística la regresión lineal o ajuste lineal es un método matemático que
modeliza la relación entre una variable dependiente Y, las variables independientes X i
y un término aleatorio £.
17
Este modelo puede ser expresado como:
● : variable dependiente, explicada o regresando.
: variables explicativas, independientes o regresores.
: parámetros, miden la influencia que las variables explicativas
tienen sobre el regresando.
donde es la intersección o término "constante", las son los parámetros
respectivos a cada variable independiente, y es el número de parámetros
independientes a tener en cuenta en la regresión. La regresión lineal puede ser
contrastada con la regresión no lineal.
El modelo lineal relaciona la variable dependiente “Y” con K variables
explicativas (k = 1,...K), o cualquier transformación de éstas, que generan
un hiperplano de parámetros desconocidos:
donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad
no controlables u observables y que por tanto se asocian con el azar, y es la que
confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola
variable explicativa, el hiperplano es una recta:
18
El problema de la regresión consiste en elegir unos valores determinados para
los parámetros desconocidos , de modo que la ecuación quede completamente
especificada. Para ello se necesita un conjunto de observaciones. En una observación
cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable
dependiente y las variables explicativas.
Los valores escogidos como estimadores de los parámetros, , son
los coeficientes de regresión, sin que se pueda garantizar que coinciden con
parámetros reales del proceso generador. Por tanto, en
Los valores son por su parte estimaciones de la perturbación aleatoria o
errores.
En estadística, la regresión no lineal es un problema de inferencia para un modelo
tipo:
basado en datos multidimensionales , , donde es alguna función no lineal respecto
a algunos parámetros desconocidos θ. Como mínimo, se pretende obtener los valores
19
de los parámetros asociados con la mejor curva de ajuste. Con el fin de determinar si
el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadística
tales como intervalos de confianza para los parámetros, así como pruebas de bondad
de ajuste.
El objetivo de la regresión no lineal se puede clarificar al considerar el caso de
la regresión polinomial, la cual es mejor no tratar como un caso de regresión no lineal.
Cuando la función toma la forma:
la función es no lineal en función de pero lineal en función de los parámetros
desconocidos , , y . Este es el sentido del término "lineal" en el contexto de la
regresión estadística. Los procedimientos computacionales para la regresión
polinomial son procedimientos de regresión lineal (múltiple), en este caso con dos
variables predictoras y . Sin embargo, en ocasiones se sugiere que la regresión no
lineal es necesaria para ajustar polinomios. Las consecuencias prácticas de esta mala
interpretación conducen a que un procedimiento de optimización no lineal sea usado
cuando en realidad hay una solución disponible en términos de regresión lineal.
Correlación
En probabilidad y estadística, la correlación indica la fuerza y la dirección de
una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera
que dos variables cuantitativas están correlacionadas cuando los valores de una de
20
ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si
tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo
hacen también los de B y viceversa. La correlación entre dos variables no implica, por
sí misma, ninguna relación de causalidad Fuerza, sentido y forma de la correlación
La relación entre dos súper variables cuantitativas queda representada mediante
la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales
componentes elementales de una línea de ajuste y, por lo tanto, de una correlación,
son la fuerza, el sentido y la forma:
La fuerza extrema según el caso, mide el grado en que la línea representa a la
nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo
que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o
circular, la relación es débil.
El sentido mide la variación de los valores de B con respecto a A: si al crecer
los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A
disminuyen los de B, la relación es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva
monotónica o la curva no monotónica.
Distribución del coeficiente de correlación
El coeficiente de correlación muestral de una muestra es de hecho una varible
aleatoria, eso significa que si repetimos un experimento o consideramos diferentes
muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación
muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para
21
muestras grandes la variación en dicho coeficiente será menor que para muestras
pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad
para el coeficiente de correlación.
Si las dos variables aleatorias que trata de relacionarse proceden de una distribución
gaussiana bivariante entonces el coeficiente de correlación r sigue una distribución de
probabilidad dada por:
donde:
es la distribución gamma
es la función gaussiana hipergeométrica.
Nótese que , por tanto r es estimador sesgado
de .
Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:
for
Aunque, la solución:
22
es subóptima. Se puede obtener un estimador sesgado con mínima varianza para
grandes valores de n, con sesgo de orden buscando el máximo de la expresión:
, i.e.
En el caso especial de que , la distribución original puede ser reescrita como:
donde es la función beta.
5.4 Correlación de Rangos
Correlación. Conceptos asociados
Regresión: La regresión es una técnica utilizada para inferir datos a partir de
otros y hallar una respuesta de lo que puede suceder Se pueden encontrar varios tipos
de regresión, por ejemplo:
● Regresión lineal simple.
● Regresión múltiple (varias variables).
● Regresión logística.
23
Correlación: Expresa grado de asociación entre dos variables, según el sentido
de la relación de estas en términos de aumento o disminución. Se clasifican en:
Lineal o curvilínea, según la nube de puntos se condense en torno a una línea recta o a
una curva.
Positiva o directa cuando al aumentar una variable aumenta la otra y viceversa.
Negativa o inversa cuando al crecer una variable, la otra decrece y viceversa.
Nula cuando no existe ninguna relación y la nube de puntos están distribuidas al azar.
Se dice que no están correlacionadas.
Funcional si existe una función tal que todos los valores de la nube de puntos la
satisfacen.
COEFICIENTE DE CORRELACIÓN
Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y 1
COEFICIENTE DE DETERMINACIÓN
Es el cuadrado del coeficiente de correlación.
RHO DE SPEARMAN
Nombre utilizado para designar la correlación de Spearman. 4
¿Cuándo utilizar la prueba de correlación de rangos de Spearman?
24
El coeficiente de correlación no debe utilizarse para comparar dos métodos que
intentan medir el mismo evento, como por ejemplo dos instrumentos que miden la
saturación de oxígeno en sangre. El coeficiente de correlación mide el grado de
asociación entre dos cantidades, pero no mira el nivel de acuerdo o concordancia. Si
los instrumentos de medida miden sistemáticamente cantidades diferentes uno del
otro, la correlación puede ser 1 y su concordancia ser nula . El coeficiente de
correlación de Spearman es recomendable utilizarlo cuando los datos presentan
valores extremos, ya que dichos valores afectan mucho el coeficiente de correlación
de Pearson, o ante distribuciones no normales. No está afectada por los cambios en las
unidades de medida. 5
Coeficiente de correlación de rangos de Spearman
Como resultado de la revisión de varios autores, asumimos el siguiente
concepto:
SPEARMAN (Rho de Spearman). Este coeficiente es una medida de asociación lineal
que utiliza los rangos, números de orden, de cada grupo de sujetos y compara dichos
rangos. Existen dos métodos para calcular el coeficiente de correlación de los rangos:
uno, señalado por Spearman y otro, por Kendall. El r de Spearman llamado también
rho de Spearman es más fácil de calcular que el de Kendall. 5
Fórmula
en donde d i = r xi – r yi es la diferencia entre los rangos de X e Y.
25
Otra variante de la fórmula expresada es: 6
Algoritmo de solución: Observando el criterio de estadísticos actuales, la
mayoría confluye en el siguiente algoritmo de trabajo: Los valores de los rangos se
colocan según el orden numérico de los datos de la variable. Por ejemplo, si tenemos
las siguientes variables:
Talla Peso
1,6868
1,8970
1,7580
1,5645
1,4848
Al convertirlas en una escala ordinal, obtendríamos los resultados:
Talla Peso
33
54
45
21
26
12
El primer valor de talla (en este caso 1,68) se convierte en 3, porque el 1,68 es
el tercer valor más pequeño de la talla. El valor en peso de 45 se convierte en 1,
porque es el menor –Luego se calculan las diferencias de rangos
didi2
3-3 0
5-4 1
4-5 1
2-1 1
1-2 1
--------
Sustituyendo
Interpretación: En la muestra observada los valores de talla y peso tienen una
correlación entre fuerte y perfecta, lo que se traduce que en la medida que aumentan
los valores de la talla también aumentan los del peso y viceversa.
27
Correlación de Pearson y Correlación de Spearman
El coeficiente de correlación de Spearman es exactamente el mismo que el
coeficiente de correlación de Pearson, calculado sobre el rango de observaciones. La
correlación estimada entre X e Y se halla calculando el coeficiente de correlación de
Pearson para el conjunto de rangos apareados. La correlación de Spearman puede ser
calculada con la fórmula de Pearson, si antes hemos transformado las puntuaciones en
rangos. 8
Presentación de la correlación
Se recomienda a los investigadores realizar primero una representación gráfica de la
correlación, con dos objetivos fundamentales: 7
● Que visualice el tipo de relación que se establece en las variables.
● Para corroborar el resultado matemático obtenido.
El gráfico por excelencia es el diagrama de dispersión, debido a que la posición de
puntos materializa si la relación es lineal a través precisamente de una línea de fácil
observación por el investigador. En el mismo, la variable independiente se coloca en
el eje de las abscisas y la dependiente en el eje de las ordenadas. El valor de r se debe
mostrar con dos decimales junto con el valor de la p, si el test de hipótesis se realizó
para demostrar que r es estadísticamente diferente de cero. El número de
observaciones debe a su vez estar indicado. (Figura 7).
La relación entre dos variables cuantitativas queda representada mediante la línea de
mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes
28
elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el
sentido y la forma. La fuerza mide el grado en que la línea representa la nube de
puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que
indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o
circular, la relación es débil. El sentido mide la variación de los valores de B con
respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si
al crecer los valores de A disminuyen los de B, la relación es negativa. La forma
establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica
o la curva no monotónica. 5
Correlación y asesor estadístico SPSS
Los asesores estadísticos de la actualidad, procesan grandes bases de datos, en
un tiempo extraordinariamente breve, por lo que recomendamos la utilización de los
mismos para optimizar el tiempo del que dispone el investigador para el análisis de los
datos. Proponemos el Paquete Estadístico para Ciencias Sociales (SPSS). Pasos a
seguir en el asesor
Crear la base de datos
● Realizar un gráfico de dispersión.
o Gráficos.
o Dispersión.
o Simple.
29
o Definir.
o Asignar las variables en los ejes X y Y. (Anexos 1 a 3).
o Realizar el cálculo del coeficiente de correlación.
o Analizar.
o Correlación.
o Divariada.
o Seleccionar las variables.
o Marcar Pearson y Spearman para comparar si las diferencias son
significativas.
o Observar e interpretar los valores. (Anexos 4 a 6).
Interpretación de la correlación
En la interpretación de la prueba estadística correlación de Spearman, es
necesario tener en cuenta el objetivo de la investigación que se define en primera
instancia y la relevancia de estas relaciones en el fenómeno clínico que se estudia, no
depende en nuestras conclusiones solamente de la cifra matemática obtenida, sino
basarnos en experiencias científicas del tema de investigación, para evitar que
interfiera la casualidad. La explicación de un coeficiente de correlación como medida
de la intensidad de la relación lineal entre dos variables es puramente matemática y
libre de cualquier implicación de causa-efecto. El hecho de que las dos variables
tiendan a crecer o decrecer juntas no indica que la una tenga un efecto directo o
indirecto sobre la otra. Ambas pueden estar influidas por otras variables de modo que
se origine una fuerte relación matemática. La interpretación de rho depende
30
principalmente de los detalles de la investigación y la experiencia propia en el tema de
estudio. La experiencia previa sirve generalmente como base de comparación para
determinar si un coeficiente de correlación es digno de ser mencionado.
Diversos autores expresan escalas de interpretación, que se ofrecen a continuación:
Escala 1: El coeficiente de correlación oscila entre –1 y +1, el valor 0 que indica que
no existe asociación lineal entre las dos variables en estudio. 9
Escala 2:
Correlación negativa perfecta…………………………. -1
Correlación negativa fuerte moderada débil…………… -0,5
Ninguna correlación……………………………………. 0
Correlación positiva moderada Fuerte…………………. +0,5
Correlación positiva perfecta…………………………... + 1 1
Escala 3:
1) Perfecta R = 1
2) Excelente R = 0.9 < = R < 1
3) Buena R = 0.8 < = R < 0.9
4) Regular R = 0.5 < = R < 0.8
31
5) Mala R < 0.5 (6)
Escala 4: Rango Relación
0 – 0,25: Escasa o nula
0,26-0,50: Débil
0,51- 0,75: Entre moderada y fuerte
0,76- 1,00: Entre fuerte y perfecta 5
Consideraciones de la interpretación
A modo de conclusión, recomendamos que al interpretar la prueba de
correlación de rangos de Spearman debemos tener en cuenta que:
● La interpretación del coeficiente rho de Spearman concuerda en valores
próximos a 1; indican una correlación fuerte y positiva. Valores próximos a –1
indican una correlación fuerte y negativa. Valores próximos a cero indican que
no hay correlación lineal. Puede que exista otro tipo de correlación, pero no
lineal. Los signos positivos o negativos solo indican la dirección de la relación;
un signo negativo indica que una variable aumenta a medida que la otra
disminuye o viceversa, y uno positivo que una variable aumenta conforme la
otra también lo haga disminuye, si la otra también lo hace.
32
● El personal de salud que investiga debe estar atento a correlaciones que se
encuentran en los valores aproximados a +0,95 o superiores, pues en el campo
biológico y en especial con datos humanos, correlaciones tan altas, son
excesivamente buenas para ser ciertas. Si se obtienen valores mayores o
menores que 1, los cálculos deben ser revisados pues se incurrió en un error de
proceso.
● Una vez obtenido el coeficiente de correlación, pueden utilizarse pruebas
estadísticas y la construcción de intervalos de confianza para probar su
significación.
● La significancia estadística de un coeficiente debe tenerse en cuenta
conjuntamente con la relevancia clínica del fenómeno que se estudia, ya que
coeficientes de 0.5 a 0.7 tienden a ser significativos en muestras pequeñas.
● La estimación del coeficiente de determinación (r 2) nos muestra el porcentaje
de la variabilidad de los datos que se explica por la asociación entre las dos
variables.
Análisis de ejemplos de la utilización del coeficiente de correlación de los rangos
de Spearman en la solución de problemas de salud
Actitud ante la muerte en los médicos de familia
Los coeficientes de correlación obtenidos en la comparación de estas medidas
con los promedios de la subescala o dimensiones del instrumento (se trabaja con el
coeficiente de correlación de Spearman), por lo que se anotan los rangos numéricos de
las variables sociodemográficas promediadas, y no las categorías nominales. Se busca
33
conocer si existe relación entre estas variables y las actitudes reflejadas en las
diferentes subescalas del CAM. Como puede deducirse del examen visual, la única
correlación significativa encontrada fue entre la variable Edad y la subescala de
Temor. Está correlación es negativa, es decir, a mayor edad de los médicos, menos es
el miedo a la muerte. Esto puede explicarse porque con la edad se incrementa la
experiencia profesional de contacto con la muerte, lo que actúa como un mecanismo
desensibilizador.
Caracterización de la mujer en la etapa del climaterio
Se analiza la edad de la menarquía y de la menopausia. Para ello, se aplicó
como método estadístico el coeficiente de correlación de rangos de Spearman y se
encontró que no existe correlación ni dependencia entre la edad de la menarquía y la
edad de la menopausia (p = 0,05 con valores críticos ± 0,31975); no se halló
significación estadística. La relación entre la edad de la menopausia y el número de
hijos puede verse en la Figura 2, donde se aplicó también el método estadístico del
coeficiente de correlación de rangos de Spearman y en el que observamos que no
existe correspondencia entre la edad de la menopausia y el número de hijos; no se
encontró significación estadística (p = 0,05 con valores críticos ± 0,31975).
Rehabilitación multifactorial e intensiva en pacientes con esclerosis múltiple
34
Se analizó la relación entre el tiempo de tratamiento y la puntuación final en las
escalas aplicando el test de correlación por rangos múltiples de Spearman. Las
diferencias resultaron estadísticamente significativas entre las puntuaciones de las
evaluaciones iniciales y finales de las escalas de Kurztke y Hauser (Z: 3,17,
p=0,001475 y Z: 3,29, p=0,000983, respectivamente). No se identificó correlación
entre la duración total del tratamiento ni el tiempo de evolución de la enfermedad y la
puntuación final alcanzada en la escala (p< 0,05).
CONCLUSIONES
1. La utilidad de la prueba de coeficiente de correlación de rangos de Spearman en el
campo de la medicina aporta una respuesta cuantificable a la relación que en
momentos determinados pueda existir entre dos variables, siendo esta un punto de
partida para pronósticos y predicciones en problemas prácticos de salud.
2. El coeficiente de correlación de rangos de Spearman debe utilizarse para series de
datos en los que existan valores extremos, pues si calculamos la correlación de
Pearson, los resultados se verán afectados.
3. La interpretación del resultado del coeficiente de correlación de Spearman se
encuentra entre los valores de -1 y 1.
4. La significancia estadística de un coeficiente debe tenerse en cuenta conjuntamente
con la relevancia clínica del fenómeno que se estudia.
35
5.5 Coeficiente de correlación para datos nominales
El botón Estadísticos permite calcular las medidas de asociación más utilizadas
para variables nominales y ordinales. Por defecto no hay ninguna opción activada.
Algunos de los estadísticos que recoge este cuadro de diálogo son:
1.Chi-cuadrado, con esta opción se obtienen los estadísticos:
❖ Chi-cuadrado de Pearson: (donde nij y eij son las
frecuencias absoluta observada y esperada, respectivamente). Si la tabla es 2x2,
el estadístico se puede calcular mediante la expresión
abreviada (donde ni. y nj. son las frecuencias
marginales por filas y columnas). Este estadístico es fiable únicamente cuando
por lo menos el 80% de las frecuencias esperadas son mayores que 5.
36
❖ Corrección de continuidad (de Yates): en las tablas 2x2 corrige el error que se
comete al calcular el estadístico Chi-cuadrado de Pearson debido a la
aproximación de una distribución discreta por una continua. El estadístico
corregido es
❖ Contraste de la razón de verosimilitud: sé basa en el estadístico que se
calcula como
❖ Prueba exacta de Fisher: sí la tabla es 2x2 y los totales marginales se
consideran fijos, la probabilidad exacta de obtener la tabla analizada bajo el
supuesto de independencia es:
Si la variable es Nominal los estadísticos que se pueden calcular son los siguientes:
2. Coeficiente de Contingencia de Pearson: se define como Esta
medida de asociación no se ve afectada por el tamaño de la muestra y está
acotada, Si las variables son independientes se tiene C=0, pero en caso de
37
asociación perfecta nunca alcanza el valor 1. Para tablas cuadradas RxR se puede
calcular la cota superior que es ; en tal caso
3. Phi y V de Cramer:
● El coeficiente Phi es Este coeficiente toma el valor 0 en caso
de independencia, pero su valor máximo depende de las dimensiones de la
tabla; para tablas superiores a 2xJ o Ix2 el coeficiente puede tomar valores
mayores que 1.
● El coeficiente V de Cramer se calcula también en función de :
(donde k =mín(I,J)) y siempre está acotado entre 0 y 1 (sea cual sea la
dimensión de la tabla). Para tablas 2xJ o Ix2 el valor de V coincide con el de .
4. Lambda: Incluye la simétrica y asimétrica y la de Goodman y Kruskal. Ambas
medidas se basan en la reducción proporcional del error de predicción cuando se
utilizan los valores de la variable independiente para predecir los de la dependiente.
● El coeficiente de Kruskal se calcula:
- Si la es la variable dependiente:
38
donde fmj es la frecuencia relativa conjunta máxima correspondiente a la columna j-
ésima y . es la frecuencia relativa marginal máxima de . El valor de este
estadístico, acotado entre 0 y 1, indica en cuanto se reduce la incertidumbre de la
variable cuando se dispone de información sobre el comportamiento de
- De forma análoga se calcula
- Si no se puede determinar cual de las dos variables es la dependiente y cual la
independiente se calcula el coeficiente simétrica como:
El valor de simétrica está comprendido entre
Un valor igual a 0 indica que la información acerca de la variable independiente no
ayuda en absoluto a predecir los valores de la variable dependiente; mientras que un
valor igual a 1 indica asociación predictiva perfecta entre las variables.
● La de Goodman y Kruskal indica la reducción en el error de clasificación de
los elementos para una de las variables (dependiente) cuando se tiene
información sobre el comportamiento de la otra (independiente). Si es la
variable dependiente, se calcula: siendo
TMCSI=total de elementos mal clasificados sin información acerca de y
39
TMCCI=total de elementos mal clasificados con información acerca de
La se define de manera análoga.
5. Coeficiente de incertidumbre, U: mide la reducción proporcional del error cuando
los valores de una variable se emplean para predecir valores de la otra.
En el cuadro Nominal por intervalo se encuentra el estadístico:
6. Eta: Este coeficiente es apropiado cuando la variable dependiente se mide en una
escala de intervalo, mientras que la independiente es una variable nominal. El
programa muestra dos valores de Eta según se considere que la variable medida en
una escala de intervalo esté en las filas o en las columnas.
40
CONCLUSIÓN
Para finalizar este tema y a manera de conclusión se puede afirmar que las técnicas de
correlación y regresión cuantifican la relación estadística que se da entre dos o más
variables. La regresión lineal expresa la asociación entre una variable dependiente y
una independiente, manifestándose en términos de la pendiente y la intersección de la
línea que mejor se ajuste. En cambio, la correlación simple indica el grado o la
cercanía de la relación entre las dos variables, expresado en términos de un coeficiente
de correlación que aporta una medida indirecta de la variabilidad de los puntos en
torno de la mejor línea de ajuste. Ninguna de las dos pruebas respecto a las relaciones
causa-efecto, no es su función.
Las técnicas de regresión y correlación cuantifican la asociación estadística entre dos
o más variables. La regresión lineal simple expresa la relación entre la variable x, en
términos de la pendiente y la intersección de la línea que mejor se ajuste a las
variables.
La correlación simple expresa el grado o la cercanía de la relación entre las dos
variables en términos de un coeficiente de correlación que proporciona una medida
indirecta de la variabilidad de los puntos alrededor de la mejor línea de ajuste, ni la
regresión ni la correlación dan pruebas de relaciones causa-efecto.
41
BIBLIOGRAFÍAS
ANALISIS ESTADISTICO. (2015, 9 noviembre). ESTADÍSTICA. 5 de junio de 2022,
de https://web.ua.es/es/lpa/docencia/analisis-estadistico-de-datos-geoquimicos-con-r/
regresion-lineal-simple-y-multiple-regresion-no-lineal.html
MARTíN PLIEGO, F. y RUIZ-MAYA, L. (1995) Estadística I: Probabilidad. Madrid:
AC.
MARTíN PLIEGO, F. y RUIZ-MAYA, L. (1995) Estadística II: Inferencia. Madrid:
AC.
MARTíN-GUZMáN, P. y MARTíN PLIEGO, F. (1985) Curso Básico de Estadística
Económica. Madrid: AC.
MENDENHALL, W., et al. (1994) Estadística Matemática con Aplicaciones. México:
Grupo Editorial Iberoamérica
RAGE FPFSS. (2000, 5 marzo). EDU APLICACIONES. EDU. 4 de junio de 2015, de
http://www.ub.edu/aplica_infor/spss/cap3-4.htm
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017
https://cursos.aiu.edu/PROBABILIDAD%20Y%20ESTAD%C3%8DSTICA/4/Word
http://wpd.ugr.es/~bioestad/wp-content/uploads/Metodos-de-regresion.pdf
42

Regresión y correlación: conceptos y aplicaciones

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión y correlación: conceptos y aplicaciones

Cargado por

Copyright:

Formatos disponibles

INSTITUTO TECNOLÓGICO SUPERIOR DE VALLADOLID

definiciones de cada una y dando ejemplos simples, detallados y precisos, dando

cada tema para poder comprender y efectuar la realización de ejercicios

implementados con ello.

Cuando se analizan datos, el interés del Maestro en estadística suele centrarse

en reorientar y actualizar el enfoque con el que se debe abordar el estudio de los

métodos estadísticos, con la finalidad de despertar en los estudiantes la inquietud por

En las unidades pasadas se estudiaron y analizaron distintos temas de

profesional basadas en predicciones de sucesos futuros. Para hacerlo, se fundamentan

en la relación intuitiva y calculada entre lo que ya se sabe y lo que se debe estimar. Si

futuro, facilitarían el proceso de toma de decisiones.

de una o más variables, se denomina análisis de regresión, en esta unidad lo

estudiaremos paso a paso. Primero revisaremos la correlación lineal con sus

procedimientos de dos factores.

Con el estudio de la unidad didáctica se pretende también, comprender a profundidad

el procedimiento correspondiente a la correlación parcial para realizar las pruebas de

Dichas técnicas estadísticas se pueden utilizar en un sinfín de situaciones, en

presentan desde condiciones psicológicas, de comportamiento humano, económicas,

de factores que condicionan la salud. El análisis de regresión lineal se utiliza para

explorar y cuantificar la relación de una variable independiente, con una dependiente

refiriéndonos a los condicionantes de la salud, se puede afirmar que el nivel

socioeconómico es una variable independiente puesto que no depende de otras

variables regresión múltiple, entre otras ramas relacionadas.

Se pretende que el estudiante adquiera conocimientos teóricos básicos para

de los principios de teoría de estimación y prueba de hipótesis, con lo cual se pretende

de la ciencia. Es fundamental complementar el curso con el uso de algún software

estadístico para el análisis de datos.

Bueno para hacer esta investigación requerimos investigar en diferentes fuentes

de información para poder comparar resultados de la investigación y ver cuál es la

más coherente, y adaptarla a nuestra investigación. De la igual manera las imágenes

ejemplos que iremos agregando entre cada subtema.

La regresión y la correlación son dos técnicas estrechamente relacionadas y

comprenden una forma de estimación.

En forma más específica el análisis de correlación y regresión comprende el análisis

variables en una población. El análisis de correlación produce un número que resume

el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una

ecuación matemática que describe dicha relación.

El análisis de correlación generalmente resulta útil para un trabajo de

exploración cuando un investigador o analista trata de determinar qué variables son

potenciales importantes, el interés radica básicamente en la fuerza de la relación. La

que describe dicha relación en términos matemáticos

Los datos necesarios para análisis de regresión y correlación provienen de

observaciones de variables relacionadas.

Regresión lineal simple

La regresión lineal simple consiste en generar un modelo de regresión que

dependiente o respuesta se le identifica como Y, e independiente como X.

El modelo de regresión lineal simple se describe de acuerdo a la ecuación:

Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este

Recoge el efecto de todas aquellas variables que influyen en Y pero que no se

incluyen en el modelo como predictores. Al error aleatorio también se le conoce como

En la gran mayoría de casos, los valores β0 y β1 poblacionales son

desconocidos, por lo que, a partir de una muestra, se obtienen sus estimaciones y .

Estas estimaciones se conocen como coeficientes de regresión, ya que toman aquellos

pasa más cerca de todos los puntos.

Donde Sy y Sx son las desviaciones típicas de cada variable y RR el coeficiente

de correlación. es el valor esperado la variable Y cuando X = 0, es decir, la

ocasiones, no tiene interpretación práctica.

Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de

ellos es necesario satisfacer distintas condiciones. En caso de querer medir la relación

embargo, en caso de querer predecir el valor de una variable en función de la otra, no

un vehículo media condiciones ambientales, etc.

Presupuesto de una Número de Efecto del número de profesores,

universidad alumnos del número de laboratorios, de los 2