Está en la página 1de 42

INSTITUTO TECNOLÓGICO SUPERIOR DE VALLADOLID

INGENIERÍA CIVIL
ITSVA
ASIGNATURA:
Probabilidad y Estadística

INTEGRANTES:
Arceo Can Yordan Alexis
21040002
Cauich Morales Luis Antonio
21040017
Chuc Coba Rommel Manuel
21040029
Colli Cime Jonathan Josue
21040032
Pech Chuc Angel Noe
21040080

DOCENTE:
ARQ. Lucila G. Aguilar Rivero

CURSO:
2do semestre 2022

ACTIVIDAD:
Investigación Tema 5

FECHA DE ENTREGA:
06/06/2022

1
ÍNDICE

ÍNDICE 2
OBJETIVO DE LA INVESTIGACIÓN 3

INTRODUCCIÓN 4

OBJETIVO GENERAL 6
METODOLOGÍA DE LA INVESTIGACIÓN 7
REGRESIÓN Y CORRELACIÓN 8
5.1 Regresión lineal simple, curvilínea y múltiple 9
Regresión lineal simple 9
Regresión curvilínea. 12
Regresión Múltiple 13
5.2 Correlación 15
varianza (s2) 16
covarianza cov(x,y) 17
5.3 Regresión y correlación para datos agrupados 17
Regresión 17
Modelos de regresión 17
Correlación 20
5.4 Correlación de Rangos 23
Correlación. Conceptos asociados 23
Coeficiente de correlación de rangos de Spearman 25
Correlación de Pearson y Correlación de Spearman 28
Correlación y asesor estadístico SPSS 29
Interpretación de la correlación 30
5.5 Coeficiente de correlación para datos nominales 36
CONCLUSIÓN 41

BIBLIOGRAFÍAS 42

2
OBJETIVO DE LA INVESTIGACIÓN

Para empezar el objetivo de esta investigación es dar a conocer los conceptos básicos

de los temas a impartir que son análisis de regresión y correlación, dando las

definiciones de cada una y dando ejemplos simples, detallados y precisos, dando

explicaciones breves de cada uno de los temas, así como también haciendo énfasis en

los subtemas con los que cuenta cada uno. Darle a entender al lector detalladamente

cada tema para poder comprender y efectuar la realización de ejercicios

implementados con ello.

3
INTRODUCCIÓN

Cuando se analizan datos, el interés del Maestro en estadística suele centrarse

en reorientar y actualizar el enfoque con el que se debe abordar el estudio de los

métodos estadísticos, con la finalidad de despertar en los estudiantes la inquietud por

aprender, analizar las relaciones que se dan entre variables y resolver los problemas y

casos planteados.

En las unidades pasadas se estudiaron y analizaron distintos temas de

probabilidad. Es muy común que las personas tomen decisiones en la vida cotidiana y

profesional basadas en predicciones de sucesos futuros. Para hacerlo, se fundamentan

en la relación intuitiva y calculada entre lo que ya se sabe y lo que se debe estimar. Si

se dieran cuenta que se puede determinar cómo lo conocido se relaciona con un evento

futuro, facilitarían el proceso de toma de decisiones.

Cualquier método estadístico que tenga como finalidad establecer una ecuación

que permita estimar el valor desconocido de una variable a partir del valor conocido

de una o más variables, se denomina análisis de regresión, en esta unidad lo

estudiaremos paso a paso. Primero revisaremos la correlación lineal con sus

procedimientos de dos factores.

Con el estudio de la unidad didáctica se pretende también, comprender a profundidad

el procedimiento correspondiente a la correlación parcial para realizar las pruebas de

esta naturaleza que nos permitan establecer la relación neta entre dos variables.

4
Además, se revisarán dos procedimientos de regresión lineal que son: la simple y la

múltiple.

Dichas técnicas estadísticas se pueden utilizar en un sinfín de situaciones, en

las investigaciones de corte social para predecir amplios rangos de fenómenos que se

presentan desde condiciones psicológicas, de comportamiento humano, económicas,

de factores que condicionan la salud. El análisis de regresión lineal se utiliza para

explorar y cuantificar la relación de una variable independiente, con una dependiente

que en cualquier momento puede ser modificada por la primera. Por ejemplo,

refiriéndonos a los condicionantes de la salud, se puede afirmar que el nivel

socioeconómico de las personas es uno de ellos. En este caso las personas con nivel

socioeconómico bajo tienen más riesgos a perder la salud, en este ejemplo el nivel

socioeconómico es una variable independiente puesto que no depende de otras

circunstancias, ni de la otra variable que sería riesgo a la salud. En otros casos existen

relaciones de más de dos variables dependientes. Por lo cual este en este capítulo

revisaremos tanto el caso de dos variables, regresión simple, como de más de dos

variables regresión múltiple, entre otras ramas relacionadas.

5
OBJETIVO GENERAL

Se pretende que el estudiante adquiera conocimientos teóricos básicos para

comprender temas más avanzados de estadística. Para ello se inicia con la exposición

de los principios de teoría de estimación y prueba de hipótesis, con lo cual se pretende

lograr una mejor comprensión de las técnicas inferenciales. Se aspira asimismo, que

seamos capaz de plantear y resolver problemas reales aplicados a las diferentes ramas

de la ciencia. Es fundamental complementar el curso con el uso de algún software

estadístico para el análisis de datos.

6
METODOLOGÍA DE LA INVESTIGACIÓN

Bueno para hacer esta investigación requerimos investigar en diferentes fuentes

de información para poder comparar resultados de la investigación y ver cuál es la

más coherente, y adaptarla a nuestra investigación. De la igual manera las imágenes

nos serán muy útiles para poder tener una investigación más compleja y entendible,

otra estrategia que utilizaremos para llevar a cabo una buena investigación será los

ejemplos que iremos agregando entre cada subtema.

7
REGRESIÓN Y CORRELACIÓN

La regresión y la correlación son dos técnicas estrechamente relacionadas y

comprenden una forma de estimación.

En forma más específica el análisis de correlación y regresión comprende el análisis

de los datos muestrales para saber qué es y cómo se relacionan entre sí dos o más

variables en una población. El análisis de correlación produce un número que resume

el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una

ecuación matemática que describe dicha relación.

El análisis de correlación generalmente resulta útil para un trabajo de

exploración cuando un investigador o analista trata de determinar qué variables son

potenciales importantes, el interés radica básicamente en la fuerza de la relación. La

correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación

que describe dicha relación en términos matemáticos

Los datos necesarios para análisis de regresión y correlación provienen de

observaciones de variables relacionadas.

8
5.1 Regresión lineal simple, curvilínea y múltiple

Regresión lineal simple

La regresión lineal simple consiste en generar un modelo de regresión que

permita explicar la relación lineal que existe entre dos variables. A la variable

dependiente o respuesta se le identifica como Y, e independiente como X.

El modelo de regresión lineal simple se describe de acuerdo a la ecuación:

Y=β0+β1X1+ϵ

Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este

último representa la diferencia entre el valor ajustado por la recta y el valor real.

Recoge el efecto de todas aquellas variables que influyen en Y pero que no se

incluyen en el modelo como predictores. Al error aleatorio también se le conoce como

residuo.

En la gran mayoría de casos, los valores β0 y β1 poblacionales son

desconocidos, por lo que, a partir de una muestra, se obtienen sus estimaciones y .

Estas estimaciones se conocen como coeficientes de regresión, ya que toman aquellos

valores que minimizan la suma de cuadrados residuales, dando lugar a la recta que

pasa más cerca de todos los puntos.

^y ¿ ^β +β^
0 1
x

9
n
S
∑ ¿ 1(x−x )( y− y )= SY =R
^β 0= i x

^B = y −B
^ x
0 1

Donde Sy y Sx son las desviaciones típicas de cada variable y RR el coeficiente

de correlación. es el valor esperado la variable Y cuando X = 0, es decir, la

intersección de la recta con el eje y. Es un dato necesario para generar la recta, pero en

ocasiones, no tiene interpretación práctica.

Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de

ellos es necesario satisfacer distintas condiciones. En caso de querer medir la relación

lineal entre dos variables, la recta de regresión lo va a indicar de forma directa. Sin

embargo, en caso de querer predecir el valor de una variable en función de la otra, no

solo se necesita calcular la recta, sino que además hay que asegurar que el modelo sea

bueno.

Ejemplo:

Y x £

10
Consumo de gasolina de Velocidad Efecto conductor, tipo de carretera,

un vehículo media condiciones ambientales, etc.

Presupuesto de una Número de Efecto del número de profesores,

universidad alumnos del número de laboratorios, de los 2

m de instalaciones, del número de

personal de administración, etc.

Regresión curvilínea.

Cuando las Variables X e Y se relacionan según una línea Curva, se habla de

regresión curvilínea. Es una función de segundo grado la que se ajusta lo suficiente a

la situación real dada.

Y= a + bx+cx2

Donde a, b y c son los parámetros. El problema consiste en determinar dichos

parámetros para una distribución dada. Se seguirá para ello, un razonamiento y la

utilización de las ecuaciones normales de GAUSS.

Pasos para Realizar la Regresión Curvilínea:

1. Se toman los datos proporcionados a analizar y se forman los pares ordenados

11
2. Se representan dichos valores en los ejes del plano cartesiano, dando lugar a un

diagrama de dispersión o nube de puntos. El cual para que sea curvilínea debe

ser una curva.

3. Ajustamos a una función de segundo grado de Y= a + bx+cx2 para encontrar

las ecuaciones normales.

4. Elaborar tabla con los resultados que según las ecuaciones normales debemos

calcular para luego sustituir en dichas ecuaciones.

5. Sustituir en el sistema de ecuaciones normales

6. Utilizar matriz para encontrar los parámetros de “a”, “b” y “c” para sustituirlos

en la ecuación de regresión curvilínea

7. Sustituir los valores de “a”, “b” y “c” en la ecuación de Y= a + bx+cx2y

completar la tabla.

Regresión Múltiple

La ecuación de Regresión Simple permite hacer predicciones de una variable

en función de otra. El comportamiento es muy complejo, y hacer predicciones con una

sola variable predictora es demasiado simple. Mejoraríamos la posibilidad de

predicción (o explicación) del comportamiento si utilizamos más de una variable

predictora. Para resolver esta cuestión se define la ecuación de Regresión Múltiple

(puntuaciones directas):

donde

12
Xi: Variable predictora (o explicativa).

Bi: Coeficiente de la variable predictora Xi

A: Interceptar o constante

La valoración de la capacidad predictiva de la ecuación de Regresión Múltiple

se puede hacer con el Coeficiente de Determinación, que se interpretado de forma

semejante a como ha sido explicado para la ecuación de Regresión Simple: Da la

proporción de variación explicada por el conjunto de variables predictoras (o

explicativas). El Coeficiente de Determinación es el cuadrado del coeficiente de

Correlación Múltiple, que es la correlación de Pearson entre la variable Y y la variable

Y' (la variable que contiene las predicciones de Y):

donde el primer subíndice indica cuál es la variable criterio y los otros indican cuáles

son las variables predictoras (o explicativas).

Coeficiente de determinación:

13
14
5.2 Correlación

La correlación es una medida de la relación lineal entre dos variables

cuantitativas continuas (x, y). La manera más sencilla de saber si dos variables están

correlacionadas es determinar si co-varían (varían conjuntamente). Es importante

hacer notar que esta covariación no implica necesariamente causalidad, la correlación

15
puede ser fortuita, como en el caso clásico de la correlación entre el número de venta

de helados e incendios, debido al efecto de una tercera variable, la temperatura

ambiental.

La correlación es en esencia una medida normalizada de asociación o

covariación lineal entre dos variables. Esta medida o índice de correlación r puede

variar entre -1 y +1, ambos extremos indicando correlaciones perfectas, negativa y

positiva respectivamente. Un valor de r = 0 indica que no existe relación lineal entre

las dos variables. Una correlación positiva indica que ambas variables varían en el

mismo sentido. Una correlación negativa significa que ambas variables varían en

sentidos opuestos. Lo interesante del índice de correlación es que r es en sí mismo una

medida del tamaño del efecto, que suele interpretarse de la siguiente manera:

● correlación despreciable: r < |0.1|

● correlación baja: |0.1| < r <= |0.3|

● correlación mediana: |0.3| < r <= |0.5|

● correlación fuerte o alta: r > |0.5|

La correlación se define en términos de la varianza (s2) de las variables x e y, así como

de la covarianza cov de x,y. Es por tanto una medida de la variación conjunta de

ambas variables (cov(x,y)).

varianza (s2)

La varianza de una muestra representa el promedio de la desviación de los

datos con respecto a la media

16
covarianza cov(x,y)

La covarianza entre dos variables x e y es una medida de la relación

“promedio” éstas. Es la desviación promedio del producto cruzado entre ellas:

5.3 Regresión y correlación para datos agrupados

Regresión

La regresión estadística o regresión a la media es la tendencia de una medición

extrema a presentarse más cercana a la media en una segunda medición. La regresión

se utiliza para predecir una medida basándonos en el conocimiento de otra.

Modelos de regresión

En estadística la regresión lineal o ajuste lineal es un método matemático que

modeliza la relación entre una variable dependiente Y, las variables independientes X i

y un término aleatorio £.

17
Este modelo puede ser expresado como:

● : variable dependiente, explicada o regresando.

: variables explicativas, independientes o regresores.

: parámetros, miden la influencia que las variables explicativas

tienen sobre el regresando.

donde   es la intersección o término "constante", las    son los parámetros

respectivos a cada variable independiente, y   es el número de parámetros

independientes a tener en cuenta en la regresión. La regresión lineal puede ser

contrastada con la regresión no lineal.

El modelo lineal relaciona la variable dependiente “Y” con  K  variables

explicativas    (k = 1,...K), o cualquier transformación de éstas, que generan

un hiperplano de parámetros  desconocidos:

donde   es la perturbación aleatoria que recoge todos aquellos factores de la realidad

no controlables u observables y que por tanto se asocian con el azar, y es la que

confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola

variable explicativa, el hiperplano es una recta:

18
El problema de la regresión consiste en elegir unos valores determinados para

los parámetros desconocidos  , de modo que la ecuación quede completamente

especificada. Para ello se necesita un conjunto de observaciones. En una observación

cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable

dependiente y las variables explicativas.

Los valores escogidos como estimadores de los parámetros,  , son

los coeficientes de regresión, sin que se pueda garantizar que coinciden con

parámetros reales del proceso generador. Por tanto, en

Los valores   son por su parte estimaciones de la perturbación aleatoria o

errores.

En estadística, la regresión no lineal es un problema de inferencia para un modelo

tipo:

basado en datos multidimensionales  , , donde   es alguna función no lineal respecto

a algunos parámetros desconocidos θ. Como mínimo, se pretende obtener los valores

19
de los parámetros asociados con la mejor curva de ajuste. Con el fin de determinar si

el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadística

tales como intervalos de confianza para los parámetros, así como pruebas de bondad

de ajuste.

El objetivo de la regresión no lineal se puede clarificar al considerar el caso de

la regresión polinomial, la cual es mejor no tratar como un caso de regresión no lineal.

Cuando la función   toma la forma:

la función   es no lineal en función de   pero lineal en función de los parámetros

desconocidos  ,  , y . Este es el sentido del término "lineal" en el contexto de la

regresión estadística. Los procedimientos computacionales para la regresión

polinomial son procedimientos de regresión lineal (múltiple), en este caso con dos

variables predictoras   y  . Sin embargo, en ocasiones se sugiere que la regresión no

lineal es necesaria para ajustar polinomios. Las consecuencias prácticas de esta mala

interpretación conducen a que un procedimiento de optimización no lineal sea usado

cuando en realidad hay una solución disponible en términos de regresión lineal.

Correlación

En probabilidad y estadística, la correlación indica la fuerza y la dirección de

una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera

que dos variables cuantitativas están correlacionadas cuando los valores de una de

20
ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si

tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo

hacen también los de B y viceversa. La correlación entre dos variables no implica, por

sí misma, ninguna relación de causalidad Fuerza, sentido y forma de la correlación

La relación entre dos súper variables cuantitativas queda representada mediante

la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales

componentes elementales de una línea de ajuste y, por lo tanto, de una correlación,

son la fuerza, el sentido y la forma:

La fuerza extrema según el caso, mide el grado en que la línea representa a la

nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo

que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o

circular, la relación es débil.

El sentido mide la variación de los valores de B con respecto a A: si al crecer

los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A

disminuyen los de B, la relación es negativa.

La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva

monotónica o la curva no monotónica.

Distribución del coeficiente de correlación

El coeficiente de correlación muestral de una muestra es de hecho una varible

aleatoria, eso significa que si repetimos un experimento o consideramos diferentes

muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación

muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para

21
muestras grandes la variación en dicho coeficiente será menor que para muestras

pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad

para el coeficiente de correlación.

Si las dos variables aleatorias que trata de relacionarse proceden de una distribución

gaussiana bivariante entonces el coeficiente de correlación r sigue una distribución de

probabilidad dada por:

donde:

 es la distribución gamma

 es la función gaussiana hipergeométrica.

Nótese que  , por tanto r es estimador sesgado

de  .

Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:

  for 

Aunque, la solución:

22
es subóptima. Se puede obtener un estimador sesgado con mínima varianza para

grandes valores de n, con sesgo de orden    buscando el máximo de la expresión:

, i.e.  

En el caso especial de que  , la distribución original puede ser reescrita como:

donde   es la función beta.

5.4 Correlación de Rangos

Correlación. Conceptos asociados

Regresión: La regresión es una técnica utilizada para inferir datos a partir de

otros y hallar una respuesta de lo que puede suceder Se pueden encontrar varios tipos

de regresión, por ejemplo:

● Regresión lineal simple.

● Regresión múltiple (varias variables).

● Regresión logística.

23
Correlación: Expresa grado de asociación entre dos variables, según el sentido

de la relación de estas en términos de aumento o disminución. Se clasifican en:

Lineal o curvilínea, según la nube de puntos se condense en torno a una línea recta o a

una curva.

Positiva o directa cuando al aumentar una variable aumenta la otra y viceversa.

Negativa o inversa cuando al crecer una variable, la otra decrece y viceversa.

Nula cuando no existe ninguna relación y la nube de puntos están distribuidas al azar.

Se dice que no están correlacionadas.

Funcional si existe una función tal que todos los valores de la nube de puntos la

satisfacen.

COEFICIENTE DE CORRELACIÓN

Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y 1

COEFICIENTE DE DETERMINACIÓN

Es el cuadrado del coeficiente de correlación.

RHO DE SPEARMAN

Nombre utilizado para designar la correlación de Spearman. 4

¿Cuándo utilizar la prueba de correlación de rangos de Spearman?

24
El coeficiente de correlación no debe utilizarse para comparar dos métodos que

intentan medir el mismo evento, como por ejemplo dos instrumentos que miden la

saturación de oxígeno en sangre. El coeficiente de correlación mide el grado de

asociación entre dos cantidades, pero no mira el nivel de acuerdo o concordancia. Si

los instrumentos de medida miden sistemáticamente cantidades diferentes uno del

otro, la correlación puede ser 1 y su concordancia ser nula . El coeficiente de

correlación de Spearman es recomendable utilizarlo cuando los datos presentan

valores extremos, ya que dichos valores afectan mucho el coeficiente de correlación

de Pearson, o ante distribuciones no normales. No está afectada por los cambios en las

unidades de medida. 5

Coeficiente de correlación de rangos de Spearman

Como resultado de la revisión de varios autores, asumimos el siguiente

concepto:

SPEARMAN (Rho de Spearman). Este coeficiente es una medida de asociación lineal

que utiliza los rangos, números de orden, de cada grupo de sujetos y compara dichos

rangos. Existen dos métodos para calcular el coeficiente de correlación de los rangos:

uno, señalado por Spearman y otro, por Kendall. El r de Spearman llamado también

rho de Spearman es más fácil de calcular que el de Kendall. 5

Fórmula

en donde d i = r xi – r yi es la diferencia entre los rangos de X e Y.

25
Otra variante de la fórmula expresada es: 6

Algoritmo de solución: Observando el criterio de estadísticos actuales, la

mayoría confluye en el siguiente algoritmo de trabajo: Los valores de los rangos se

colocan según el orden numérico de los datos de la variable. Por ejemplo, si tenemos

las siguientes variables:

Talla Peso

1,6868

1,8970

1,7580

1,5645

1,4848

Al convertirlas en una escala ordinal, obtendríamos los resultados:

Talla Peso

33

54

45

21

26
12

El primer valor de talla (en este caso 1,68) se convierte en 3, porque el 1,68 es

el tercer valor más pequeño de la talla. El valor en peso de 45 se convierte en 1,

porque es el menor –Luego se calculan las diferencias de rangos

didi2

3-3 0

5-4 1

4-5 1

2-1 1

1-2 1

--------

Sustituyendo 

Interpretación: En la muestra observada los valores de talla y peso tienen una

correlación entre fuerte y perfecta, lo que se traduce que en la medida que aumentan

los valores de la talla también aumentan los del peso y viceversa.

27
Correlación de Pearson y Correlación de Spearman

El coeficiente de correlación de Spearman es exactamente el mismo que el

coeficiente de correlación de Pearson, calculado sobre el rango de observaciones. La

correlación estimada entre X e Y se halla calculando el coeficiente de correlación de

Pearson para el conjunto de rangos apareados. La correlación de Spearman puede ser

calculada con la fórmula de Pearson, si antes hemos transformado las puntuaciones en

rangos. 8

Presentación de la correlación

Se recomienda a los investigadores realizar primero una representación gráfica de la

correlación, con dos objetivos fundamentales: 7

● Que visualice el tipo de relación que se establece en las variables.

● Para corroborar el resultado matemático obtenido.

El gráfico por excelencia es el diagrama de dispersión, debido a que la posición de

puntos materializa si la relación es lineal a través precisamente de una línea de fácil

observación por el investigador. En el mismo, la variable independiente se coloca en

el eje de las abscisas y la dependiente en el eje de las ordenadas. El valor de r se debe

mostrar con dos decimales junto con el valor de la p, si el test de hipótesis se realizó

para demostrar que r es estadísticamente diferente de cero. El número de

observaciones debe a su vez estar indicado. (Figura 7).

La relación entre dos variables cuantitativas queda representada mediante la línea de

mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes

28
elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el

sentido y la forma. La fuerza mide el grado en que la línea representa la nube de

puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que

indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o

circular, la relación es débil. El sentido mide la variación de los valores de B con

respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si

al crecer los valores de A disminuyen los de B, la relación es negativa. La forma

establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica

o la curva no monotónica. 5

Correlación y asesor estadístico SPSS

Los asesores estadísticos de la actualidad, procesan grandes bases de datos, en

un tiempo extraordinariamente breve, por lo que recomendamos la utilización de los

mismos para optimizar el tiempo del que dispone el investigador para el análisis de los

datos. Proponemos el Paquete Estadístico para Ciencias Sociales (SPSS). Pasos a

seguir en el asesor

Crear la base de datos

● Realizar un gráfico de dispersión.

o Gráficos.

o Dispersión.

o Simple.

29
o Definir.

o Asignar las variables en los ejes X y Y. (Anexos 1 a 3).

o Realizar el cálculo del coeficiente de correlación.

o Analizar.

o Correlación.

o Divariada.

o Seleccionar las variables.

o Marcar Pearson y Spearman para comparar si las diferencias son

significativas.

o Observar e interpretar los valores. (Anexos 4 a 6).

Interpretación de la correlación

En la interpretación de la prueba estadística correlación de Spearman, es

necesario tener en cuenta el objetivo de la investigación que se define en primera

instancia y la relevancia de estas relaciones en el fenómeno clínico que se estudia, no

depende en nuestras conclusiones solamente de la cifra matemática obtenida, sino

basarnos en experiencias científicas del tema de investigación, para evitar que

interfiera la casualidad. La explicación de un coeficiente de correlación como medida

de la intensidad de la relación lineal entre dos variables es puramente matemática y

libre de cualquier implicación de causa-efecto. El hecho de que las dos variables

tiendan a crecer o decrecer juntas no indica que la una tenga un efecto directo o

indirecto sobre la otra. Ambas pueden estar influidas por otras variables de modo que

se origine una fuerte relación matemática. La interpretación de rho depende

30
principalmente de los detalles de la investigación y la experiencia propia en el tema de

estudio. La experiencia previa sirve generalmente como base de comparación para

determinar si un coeficiente de correlación es digno de ser mencionado.

Diversos autores expresan escalas de interpretación, que se ofrecen a continuación:

Escala 1: El coeficiente de correlación oscila entre –1 y +1, el valor 0 que indica que

no existe asociación lineal entre las dos variables en estudio. 9

Escala 2:

Correlación negativa perfecta………………………….   -1

Correlación negativa fuerte moderada débil……………   -0,5

Ninguna correlación…………………………………….      0

Correlación positiva moderada Fuerte………………….    +0,5

Correlación positiva perfecta…………………………...   + 1 1

Escala 3:

1) Perfecta R = 1

2) Excelente R = 0.9 < = R < 1

3) Buena R = 0.8 < = R < 0.9

4) Regular R = 0.5 < = R < 0.8

31
5) Mala R < 0.5 (6)

Escala 4: Rango Relación

0 – 0,25: Escasa o nula

0,26-0,50: Débil

0,51- 0,75: Entre moderada y fuerte

0,76- 1,00: Entre fuerte y perfecta 5

Consideraciones de la interpretación

A modo de conclusión, recomendamos que al interpretar la prueba de

correlación de rangos de Spearman debemos tener en cuenta que:

● La interpretación del coeficiente rho de Spearman concuerda en valores

próximos a 1; indican una correlación fuerte y positiva. Valores próximos a –1

indican una correlación fuerte y negativa. Valores próximos a cero indican que

no hay correlación lineal. Puede que exista otro tipo de correlación, pero no

lineal. Los signos positivos o negativos solo indican la dirección de la relación;

un signo negativo indica que una variable aumenta a medida que la otra

disminuye o viceversa, y uno positivo que una variable aumenta conforme la

otra también lo haga disminuye, si la otra también lo hace.

32
● El personal de salud que investiga debe estar atento a correlaciones que se

encuentran en los valores aproximados a +0,95 o superiores, pues en el campo

biológico y en especial con datos humanos, correlaciones tan altas, son

excesivamente buenas para ser ciertas. Si se obtienen valores mayores o

menores que 1, los cálculos deben ser revisados pues se incurrió en un error de

proceso.

● Una vez obtenido el coeficiente de correlación, pueden utilizarse pruebas

estadísticas y la construcción de intervalos de confianza para probar su

significación.

● La significancia estadística de un coeficiente debe tenerse en cuenta

conjuntamente con la relevancia clínica del fenómeno que se estudia, ya que

coeficientes de 0.5 a 0.7 tienden a ser significativos en muestras pequeñas.

● La estimación del coeficiente de determinación (r 2) nos muestra el porcentaje

de la variabilidad de los datos que se explica por la asociación entre las dos

variables.

Análisis de ejemplos de la utilización del coeficiente de correlación de los rangos

de Spearman en la solución de problemas de salud

Actitud ante la muerte en los médicos de familia

Los coeficientes de correlación obtenidos en la comparación de estas medidas

con los promedios de la subescala o dimensiones del instrumento (se trabaja con el

coeficiente de correlación de Spearman), por lo que se anotan los rangos numéricos de

las variables sociodemográficas promediadas, y no las categorías nominales. Se busca

33
conocer si existe relación entre estas variables y las actitudes reflejadas en las

diferentes subescalas del CAM. Como puede deducirse del examen visual, la única

correlación significativa encontrada fue entre la variable Edad y la subescala de

Temor. Está correlación es negativa, es decir, a mayor edad de los médicos, menos es

el miedo a la muerte. Esto puede explicarse porque con la edad se incrementa la

experiencia profesional de contacto con la muerte, lo que actúa como un mecanismo

desensibilizador. 

Caracterización de la mujer en la etapa del climaterio

Se analiza la edad de la menarquía y de la menopausia. Para ello, se aplicó

como método estadístico el coeficiente de correlación de rangos de Spearman y se

encontró que no existe correlación ni dependencia entre la edad de la menarquía y la

edad de la menopausia (p = 0,05 con valores críticos ± 0,31975); no se halló

significación estadística. La relación entre la edad de la menopausia y el número de

hijos puede verse en la Figura 2, donde se aplicó también el método estadístico del

coeficiente de correlación de rangos de Spearman y en el que observamos que no

existe correspondencia entre la edad de la menopausia y el número de hijos; no se

encontró significación estadística (p = 0,05 con valores críticos ± 0,31975).

Rehabilitación multifactorial e intensiva en pacientes con esclerosis múltiple

34
Se analizó la relación entre el tiempo de tratamiento y la puntuación final en las

escalas aplicando el test de correlación por rangos múltiples de Spearman. Las

diferencias resultaron estadísticamente significativas entre las puntuaciones de las

evaluaciones iniciales y finales de las escalas de Kurztke y Hauser (Z: 3,17,

p=0,001475 y Z: 3,29, p=0,000983, respectivamente). No se identificó correlación

entre la duración total del tratamiento ni el tiempo de evolución de la enfermedad y la

puntuación final alcanzada en la escala (p< 0,05).

CONCLUSIONES

1. La utilidad de la prueba de coeficiente de correlación de rangos de Spearman en el

campo de la medicina aporta una respuesta cuantificable a la relación que en

momentos determinados pueda existir entre dos variables, siendo esta un punto de

partida para pronósticos y predicciones en problemas prácticos de salud.

2. El coeficiente de correlación de rangos de Spearman debe utilizarse para series de

datos en los que existan valores extremos, pues si calculamos la correlación de

Pearson, los resultados se verán afectados.

3. La interpretación del resultado del coeficiente de correlación de Spearman se

encuentra entre los valores de -1 y 1.

4. La significancia estadística de un coeficiente debe tenerse en cuenta conjuntamente

con la relevancia clínica del fenómeno que se estudia.

35
5.5 Coeficiente de correlación para datos nominales

El botón Estadísticos permite calcular las medidas de asociación más utilizadas

para variables nominales y ordinales. Por defecto no hay ninguna opción activada.

Algunos de los estadísticos que recoge este cuadro de diálogo son:

1.Chi-cuadrado, con esta opción se obtienen los estadísticos:

❖ Chi-cuadrado de Pearson: (donde nij y eij son las

frecuencias absoluta observada y esperada, respectivamente). Si la tabla es 2x2,

el estadístico se puede calcular mediante la expresión

abreviada   (donde ni. y nj. son las frecuencias

marginales por filas y columnas). Este estadístico es fiable únicamente cuando

por lo menos el 80% de las frecuencias esperadas son mayores que 5.

36
❖ Corrección de continuidad (de Yates): en las tablas 2x2 corrige el error que se

comete al calcular el estadístico Chi-cuadrado de Pearson debido a la

aproximación de una distribución discreta por una continua. El estadístico

corregido es 

❖ Contraste de la razón de verosimilitud: sé basa en el estadístico   que se

calcula como 

❖ Prueba exacta de Fisher: sí la tabla es 2x2 y los totales marginales se

consideran fijos, la probabilidad exacta de obtener la tabla analizada bajo el

supuesto de independencia es:

Si la variable es Nominal los estadísticos que se pueden calcular son los siguientes:

2. Coeficiente de Contingencia de Pearson: se define como  Esta

medida de asociación no se ve afectada por el tamaño de la muestra y está

acotada,   Si las variables son independientes se tiene C=0, pero en caso de

37
asociación perfecta nunca alcanza el valor 1. Para tablas cuadradas RxR se puede

calcular la cota superior que es  ; en tal caso 

3. Phi y V de Cramer:

● El coeficiente Phi es   Este coeficiente toma el valor 0 en caso

de independencia, pero su valor máximo depende de las dimensiones de la

tabla; para tablas superiores a 2xJ o Ix2 el coeficiente   puede tomar valores

mayores que 1.

● El coeficiente V de Cramer se calcula también en función de  :

(donde k =mín(I,J)) y siempre está acotado entre 0 y 1 (sea cual sea la

dimensión de la tabla). Para tablas 2xJ o Ix2 el valor de V coincide con el de  .

4. Lambda: Incluye la   simétrica y asimétrica y la   de Goodman y Kruskal. Ambas

medidas se basan en la reducción proporcional del error de predicción cuando se

utilizan los valores de la variable independiente para predecir los de la dependiente.

● El coeficiente   de Kruskal se calcula:

- Si la   es la variable dependiente:

38
donde fmj es la frecuencia relativa conjunta máxima correspondiente a la columna j-

ésima y  . es la frecuencia relativa marginal máxima de  . El valor de este

estadístico, acotado entre 0 y 1, indica en cuanto se reduce la incertidumbre de la

variable   cuando se dispone de información sobre el comportamiento de 

- De forma análoga se calcula 

- Si no se puede determinar cual de las dos variables es la dependiente y cual la

independiente se calcula el coeficiente  simétrica como:

El valor de  simétrica está comprendido entre

Un valor   igual a 0 indica que la información acerca de la variable independiente no

ayuda en absoluto a predecir los valores de la variable dependiente; mientras que un

valor  igual a 1 indica asociación predictiva perfecta entre las variables.

● La  de Goodman y Kruskal indica la reducción en el error de clasificación de

los elementos para una de las variables (dependiente) cuando se tiene

información sobre el comportamiento de la otra (independiente). Si   es la

variable dependiente, se calcula:  siendo

TMCSI=total de elementos mal clasificados sin información acerca de   y

39
TMCCI=total de elementos mal clasificados con información acerca de   

La   se define de manera análoga.

5. Coeficiente de incertidumbre, U: mide la reducción proporcional del error cuando

los valores de una variable se emplean para predecir valores de la otra.

En el cuadro Nominal por intervalo se encuentra el estadístico:

6. Eta: Este coeficiente es apropiado cuando la variable dependiente se mide en una

escala de intervalo, mientras que la independiente es una variable nominal. El

programa muestra dos valores de Eta según se considere que la variable medida en

una escala de intervalo esté en las filas o en las columnas.

40
CONCLUSIÓN

Para finalizar este tema y a manera de conclusión se puede afirmar que las técnicas de

correlación y regresión cuantifican la relación estadística que se da entre dos o más

variables. La regresión lineal expresa la asociación entre una variable dependiente y

una independiente, manifestándose en términos de la pendiente y la intersección de la

línea que mejor se ajuste. En cambio, la correlación simple indica el grado o la

cercanía de la relación entre las dos variables, expresado en términos de un coeficiente

de correlación que aporta una medida indirecta de la variabilidad de los puntos en

torno de la mejor línea de ajuste. Ninguna de las dos pruebas respecto a las relaciones

causa-efecto, no es su función.

Las técnicas de regresión y correlación cuantifican la asociación estadística entre dos

o más variables. La regresión lineal simple expresa la relación entre la variable x, en

términos de la pendiente y la intersección de la línea que mejor se ajuste a las

variables.

La correlación simple expresa el grado o la cercanía de la relación entre las dos

variables en términos de un coeficiente de correlación que proporciona una medida

indirecta de la variabilidad de los puntos alrededor de la mejor línea de ajuste, ni la

regresión ni la correlación dan pruebas de relaciones causa-efecto.

41
BIBLIOGRAFÍAS

ANALISIS ESTADISTICO. (2015, 9 noviembre). ESTADÍSTICA. 5 de junio de 2022,

de https://web.ua.es/es/lpa/docencia/analisis-estadistico-de-datos-geoquimicos-con-r/

regresion-lineal-simple-y-multiple-regresion-no-lineal.html

MARTíN PLIEGO, F. y RUIZ-MAYA, L. (1995) Estadística I: Probabilidad. Madrid:

AC.

MARTíN PLIEGO, F. y RUIZ-MAYA, L. (1995) Estadística II: Inferencia. Madrid:

AC.

MARTíN-GUZMáN, P. y MARTíN PLIEGO, F. (1985) Curso Básico de Estadística

Económica. Madrid: AC.

MENDENHALL, W., et al. (1994) Estadística Matemática con Aplicaciones. México:

Grupo Editorial Iberoamérica

RAGE FPFSS. (2000, 5 marzo). EDU APLICACIONES. EDU. 4 de junio de 2015, de

http://www.ub.edu/aplica_infor/spss/cap3-4.htm

http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017

https://cursos.aiu.edu/PROBABILIDAD%20Y%20ESTAD%C3%8DSTICA/4/Word

http://wpd.ugr.es/~bioestad/wp-content/uploads/Metodos-de-regresion.pdf

42

También podría gustarte