Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Pasos:
1- Identifica y clasifica las variables involucradas (tipo y escala).
2 – Si la función es una curva, que transformación se requiere y porqué?. Explicar.
3 - Obtener la tabla X, Y, XY, X2, Y2 y sus correspondientes sumatorias.
4 - Presentar la hipótesis del investigador (Hi).
5 – Presentar la ecuación de Pearson y explicar sus variables.
6 - Obtener rxy. Clasificar la magnitud de este valor según la tabla o escala vista en clase.
7 - Obtener R2. Explicar y aplicar este concepto al problema planteado.
8 – Establecer la significación del rxy. Plantear Ho y H1. para esta prueba. Obtener t tabla crítico para α=0,05..
9 - Diga si acepta o rechaza Ho. Explicar e interpretar estos resultados.
10 – Como alternativa, establecer los valores críticos par el coeficiente de correlación. Determinar si el rxy es significativo o nó.
En la tabla inferior se muestran las puntuaciones recogidas a partir de una muestra de 10 sujetos en una escala observacional de estrés y en un test
orientado a evaluar la utilización de mecanismos de afrontamiento. El rango de puntuaciones en ambas variables puede oscilar entre 0 a 60,
significando puntuaciones más altas mayor estrés y mayor capacidad de utilización de mecanismos de afrontamiento, respectivamente.
Variable dependiente o variable de respuesta, criterio o Y): Estrés1 variable cuantitativa discreta intervalo.
Variable independiente o variable explicativa, predictora o X): Afront1 variable cuantitativa discreta intervalo.
Tabla de datos:
Afrontamiento (X) Estrés (Y)
# Sujeto
Técnicas Nivel
1 8 55,0
2 11 47,0
3 17 43,0
4 25 41,0
5 30 40,0
6 35 39,0
7 40 39,0
8 45 39,0
9 50 38,0
10 55 38,0
Psicoestadística Página 1
UBA Prof. René Castro Psicología
Series1
55,0
Estres (Y)
50,0
y = -0,2752x + 50,598
R² = 0,6989
45,0
40,0
35,0
0 10 20 30 40 50 60
Afrontamiento (X)
Debido a que la gráfica de la función es una curva, se emplea la transformación log/log para transformar la curva en una recta, a fin de emplear la
correlación de Pearson (la cual solo se puede emplear en funciones lineales o rectas) para estimar la relación entre las técnicas de afrontamiento
empleadas por los sujetos y el nivel de estrés obtenido. Modelo predictivo de regresión seleccionado: Multiplicativo: Y = a*X^b.
n= 10 10
= 1,4289 1,6194
En la siguiente gráfica podemos ver los datos crudos representando una gráfica tipo función. En la siguiente se aprecia el efecto de la transformación
logarítmica en la línea de la función recta.
Psicoestadística Página 2
UBA Prof. René Castro Psicología
1,66
1,64
1,62
1,60
1,58
1,56
1,54
0,8800 1,0800 1,2800 1,4800 1,6800 1,8800
Log X (Afront.)
Este tipo de modelo correlacional se conoce como:
a) calculadora CASIO: regresión de potencia Y=A*X^B. Este modelo usa el log neperiano o natural (ln) para el cálculo.
b) Statgraphics modelo multiplicativo Y = A*X ^B. Este modelo usa el log neperiano (ln) para el cálculo.
Esta gráfica indica que la relación es inversamente proporcional, ya que al incrementar los valores de afrontamiento (X), disminuyen los valores
de estrés (Y), por eso el valor de rxy tiene un signo negativo.
Ya que se desea establecer si existe asociación o relación (correlación) estadísticamente significativa entre las variables estudiadas: la variable
dependiente, respuesta, criterio o Y: Estrés1 y la variable independiente, explicativa, predictora o X: Afrontamiento 1, las cuales son independientes
entre si y solo se tomaron/muestrearon/captaron una sola vez por grupo, las dos variables son cuantitativas discretas nivel de medida intervalo, ambas
variables tienen una relación de tipo lineal y no curva gracias a la transformación logarítmica efectuada, puede emplearse el coeficiente producto
momento de Pearson para establecer el tipo de relación.
La hipótesis del investigador sería:
Si los mecanismos de afrontamiento empleados por los sujetos tienen efecto sobre los niveles observacionales de estrés, entonces en una muestra
probabilística de 10 sujetos se encontrará relación estadísticamente significativa (P>0,05) entre los mecanismos de afrontamiento empleados por los
sujetos y los niveles observacionales de estrés.
(∑ ) (∑ )
∑
(∑ ) (∑ )
√[∑ ] [∑ ]
Cálculos de rxy:
Psicoestadística Página 3
UBA Prof. René Castro Psicología
( )( )
∑
( ) ( )
√[ ][ ]
√[ ][ ]
√[ ][ ]
= -0,9526
(Para mayor exactitud, los cálculos de esta guía se realizan mediante el programa Excel, trabajando con 12 decimales, si usted trabaja
con solo 4 decimales, puede presentarse alguna variación en los últimos decimales).
∑ ̅
∑ ∑
√ ̅ √ ̅
∑ ̅
√∑ ̅ √∑ ̅
( )
√ ( ) √ ( )
Psicoestadística Página 4
UBA Prof. René Castro Psicología
√ √
Diversos autores expresan escalas de interpretación de este coeficiente de correlación, las cuales se ofrecen a continuación:
Escala 1: El coeficiente de correlación oscila entre –1 y +1, el valor 0 que indica que no existe asociación lineal entre las dos variables
en estudio.
Escala 2: Escala 3:
Correlación negativa perfecta………………………….. -1 1) Perfecta R = 1
Correlación negativa fuerte moderada débil…………… -0,5 2) Excelente R = 0.9 < = R < 1
Ninguna correlación……………………………………. 0 3) Buena R = 0.8 < = R < 0.9
Correlación positiva moderada Fuerte…………………. +0,5 4) Regular R = 0.5 < = R < 0.8
Correlación positiva perfecta…………………………... + 1 5) Mala R < 0.5 (6)
Estas escalas indican que el nivel de esta relación es excelente o muy buena.
Psicoestadística Página 5
UBA Prof. René Castro Psicología
(bajo el modelo seleccionado), puesto que el uso de un modelo de regresión a reducido la variabilidad en la predicción del nivel de
estrés (Y VD) en 90,75%. Solamente 9,24% de la variabilidad de la muestra de los sujetos que presentan el nivel de estrés detectado
(Y, VD) puede explicarse mediante factores diferentes a los del modelo de regresión lineal seleccionado.
En la página 11 de esta guía se muestra una tabla denominada Comparación de modelos alternos, con algunos de los distintos
modelos de regresión que pueden aplicarse a este problema. Esto representa otro uso importante de R 2, y es que permite comparar
cuantitativamente, cuál de estos modelos se ajusta mejor a los datos con los que se está trabajando, ya que a un mayor R 2, se observará
un mejor ajuste del modelo de regresión a los datos del problema estudiado. En este caso, el modelo de regresión que mejor se ajusta a
los datos de este problema es el denominado doble inverso, ya que presenta una correlación de -0,9964 y una R2 de 0,9928 o 99,28%.
Ho: rxy = 0 El coeficiente de correlación obtenido procede de una población cuya correlación es cero (ρ = 0 ) o no existe
relación entre las variables estudiadas.
H1 : rxy ≠ 0 El coeficiente de correlación obtenido procede de una población cuyo coeficiente de correlación es distinto de cero
(ρ≠ 0 ) o existe relación entre las variables estudiadas.
Desde el supuesto de la Hipótesis nula se demuestra que la distribución muestral de correlaciones procedentes de una población
caracterizada por una correlación igual a cero (ρ = 0) sigue una ley de Student con N-2 grados de libertad, de media el valor
poblacional y desviación tipo:
En consecuencia, dado un cierto coeficiente de correlación rxy obtenido en una determinada muestra se trata de comprobar si dicho
coeficiente es posible que se encuentre dentro de la distribución muestral especificada por la Hipótesis nula. A efectos prácticos, se
calcula el número de desviaciones tipo que se encuentra el coeficiente obtenido del centro de la distribución, según la fórmula
conocida:
y se compara el valor obtenido con el existente en las tablas para un cierto nivel de significación α y N-2 grados de libertad t(α, N−2), que
como se sabe, marca el límite (baja probabilidad de ocurrencia, según la Hipótesis nula) de pertenencia de un cierto coeficiente rxy a
la distribución muestra de correlaciones procedentes de una población con ρ = 0 . De esta forma si:
t >t(α, N−2), Se rechaza la Hipótesis nula. La correlación obtenida no procede de una población cuyo valor ρxy = 0. Por tanto las
variables están relacionadas.
t <= t (α, N−2), Se acepta la Hipótesis nula. La correlación obtenida procede de una población cuyo valor ρ xy = 0 . Por tanto ambas
variables no están relacionadas.
Determinar la significación del coeficiente de correlación del ejemplo visto. Apliquemos la ecuación vista anteriormente:
√ ( )
Psicoestadística Página 6
UBA Prof. René Castro Psicología
Buscamos en la tabla de t de Student para α = 0.05 y 10-2 = 8 grados de libertad, tal como se observa a continuación: t tabla (0,05, 8) =
±2,306 (para dos colas).
Comparamos el valor t obtenido con el de las tablas:
(t calculado) 8,8564 > (t tabla) 2,306
Rechazamos la Hipótesis nula con un riesgo (máximo) de equivocarnos de 0.05. La correlación obtenida no procede de una población
caracterizada. por una correlación de cero. Concluimos, pues, que ambas variables están relacionadas.
T = r / [ (1 - r2 ) / (n - 2) ] 1/2 = r [ (n - 2) / (1 - r) ] 1/2
donde v = n - 2
√
√
Siendo n el tamaño de la muestra o el número de pares de datos. El valor crítico en la tabla se calculó colocando el valor
correcto de t α[v] y n en la ecuación anterior y resolviendo para r. El valor crítico para el coeficiente de correlación múltiple se basó en
una fórmula diferente que empleó la distribución F.
Para aplicar el test de significación del coeficiente de correlación, el tamaño de la muestra n debe ser conocido. Úselo para
conocer el número de grados de libertad empleando la fórmula v = (n – 2). Después, en la tabla, consulte la primera columna titulada
“variable independiente”. Por ejemplo, para una muestra de tamaño n = 28 y v = 28 – 2 = 26, el valor crítico de r es 0,374 a 5% (0,05)
y 0,478 para un nivel de 1% (0,01). Entonces, si el coeficiente de correlación obtenido en la muestra de 28 observaciones pareadas es
de 0,31; se puede concluir que la correlación existente entre las variables no es significativamente distinta o diferente de cero. Las
correlaciones negativas se consideran positivas para los propósitos de este test. Las hipótesis a comprobar son:
rxy cal >rxy tabla(α, N−2), Se rechaza la Hipótesis nula. La correlación obtenida no procede de una población cuyo valor
ρxy = 0. Por tanto las variables están relacionadas.
rxycal <= rxy tabla(α, N−2), Se acepta la Hipótesis nula. La correlación obtenida procede de una población cuyo valor ρxy
= 0 . Por tanto ambas variables no están relacionadas.
Las otras tres columnas dan valores críticos de coeficientes de correlación cuando se estudian 2, 3, y 4 variables independientes.
Los grados de libertad para tales problemas se calculan usando v = n – m, donde n es el tamaño de la muestra y m es el número de
variables, m incluye ambas variables, tanto dependiente como independiente. Entonces, con una muestra con 50 mediciones, un valor
R = 0,42 y cuatro variables estudiadas, (una dependiente y tres independientes), uno puede concluir que es significante a P = 0,05 pero
no a P = 0,01. Con exactitud, los grados de libertad son 50 – 4 = 46, y el cálculo requiere interpolación, pero como estas conclusiones
son verdaderas tanto a v = 45 como a v = 50, sin importar el correcto valor de los grados de libertad (v), en realidad uno no necesita
interpolar.
Psicoestadística Página 7
UBA Prof. René Castro Psicología
v α 1 2 3 4
Ya que rxy cal =0,9526 > rxy tabla = 0,632 Se rechaza la Hipótesis nula. La correlación obtenida no procede de una población cuyo
valor ρxy = 0. Por tanto las variables están relacionadas y se afirma que existe correlación estadísticamente significativa.
A continuación se presentan los resultados obtenidos del paquete estadístico Statgraphys Centurion XV para los datos estudiados
en este problema.
Psicoestadística Página 8
UBA Prof. René Castro Psicología
Coeficiente de Correlación = -0,952639
R-cuadrada = 90,752 porciento
R-cuadrado (ajustado para g.l.) = 89,596 porciento
Error estándar del est. = 0,21193
Error absoluto medio = 0,172748
Estadístico Durbin-Watson = 0,923549 (P=0,0093)
Autocorrelación de residuos en retraso 1 = 0,360291
El StatAdvisor
La salida muestra los resultados de ajustar un modelo predictivo multiplicativo para describir la relación entre Estrés1 y Afront1. La ecuación del
modelo predictivo ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre Estrés1 y Afront1 con un
nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo predictivo ajustado explica 90,752% de la variabilidad en Estrés1. El coeficiente de correlación
es igual a -0,952639, indicando una relación relativamente fuerte entre las variables. El error estándar del estimado indica que la desviación estándar
de los residuos es 0,21193. Este valor puede usarse para construir límites de predicción para nuevas observaciones, seleccionando la opción de
Pronósticos del menú de texto.
El error absoluto medio (MAE) de 0,172748 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW) examina los residuos
para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el valor-P es
menor que 0,05, hay indicación de una posible correlación serial con un nivel de confianza del 95,0%. Grafique los residuos versus el número de fila
para ver si hay algún patrón que pueda detectarse.
50
40
Estrés1
30
20
10
0
38 41 44 47 50 53 56
Afront1
El StatAdvisor
Psicoestadística Página 9
UBA Prof. René Castro Psicología
La prueba de Falta de Ajuste está diseñada para determinar si el modelo predictivo seleccionado es adecuado para describir los datos observados,
ó si se debería utilizar un modelo predictivo más complicado. La prueba se realiza comparando la variabilidad de los residuos del modelo predictivo
actual con la variabilidad entre observaciones hechas en valores repetidos de la variable independiente X. Puesto que el valor-P para la carencia de
ajuste en la tabla ANOVA es menor que 0,05, el modelo predictivo parece ser adecuado para los datos observados con un nivel de confianza del
95,0%.
Gráfico de Estrés1
60
50
40
observado
30
20
10
0
0 10 20 30 40 50 60
predicho
Valores Predichos
95,00% 95,00%
Predicciones Límite Predicción Límite Confianza
X Y Inferior Superior Inferior Superior
38,0 43,5886 25,7114 73,8958 35,7054 53,2123
55,0 6,09695 3,20998 11,5804 4,02369 9,2385
El StatAdvisor
Esta tabla muestra los valores predichos para Estrés1 usando el modelo predictivo ajustado. Además de las mejores predicciones, la tabla muestra:
Los intervalos de predicción y de confianza corresponden a las cotas internas y externas en la gráfica del modelo predictivo ajustado.
Psicoestadística Página 10
UBA Prof. René Castro Psicología
Gráfico de Residuos
Estrés1 = exp(23,1263 - 5,31987*ln(Afront1))
5,5
Rediduo Estudentizado
3,5
1,5
-0,5
-2,5
-4,5
38 41 44 47 50 53 56
Afront1
El StatAdvisor
Esta tabla muestra los resultados de ajustar varios modelos curvilíneos a los datos. De los modelos ajustados, el modelo predictivo doble inverso es
el que arroja el valor más alto de R-Cuadrada con 99,2844%. Este es 8,53238% mayor que el modelo predictivo multiplicativo seleccionado. Para
cambiar los modelos, seleccione el cuadro de diálogo de las Opciones de Análisis.
Psicoestadística Página 11
UBA Prof. René Castro Psicología
Gráfico de Residuos
Estrés1 = exp(23,1263 - 5,31987*ln(Afront1))
5,5
Rediduo Estudentizado
3,5
1,5
-0,5
-2,5
-4,5
0 10 20 30 40 50
predicho Estrés1
Residuos Atípicos
Predicciones Residuos
Fila X Y Y Residuos Studentizados
1 55,0 8,0 6,09695 1,90305 4,48
El StatAdvisor
La tabla de residuos atípicos enlista todas las observaciones que tienen residuos Estudentizados mayores a 2, en valor absoluto. Los residuos
Estudentizados miden cuántas desviaciones estándar se desvía cada valor observado de Estrés1 del modelo predictivo ajustado, utilizando todos los
datos excepto esa observación. En este caso, hay un residual Estudentizado mayor que 3. Es conveniente examinar detenidamente las observaciones
con residuos mayores a 3 para determinar si son valores aberrantes que debieran ser eliminados del modelo predictivo y tratados por separado.
Gráfico de Residuos
Estrés1 = exp(23,1263 - 5,31987*ln(Afront1))
5,5
Rediduo Estudentizado
3,5
1,5
-0,5
-2,5
-4,5
0 2 4 6 8 10
número de fila
Puntos Influyentes
Predicciones Residuos
Fila X Y Y Studentizados Influencia
1 55,0 8,0 6,09695 4,48 0,723144
Influencia Media de un punto = 0,2
El StatAdvisor
Psicoestadística Página 12
UBA Prof. René Castro Psicología
La tabla de puntos influyentes enlista todas las observaciones que tienen valores de influencia mayores que 3 veces la de un punto promedio de los
datos. Valor de Influencia es un estadístico que mide que tan influyente es cada observación en la determinación de los coeficientes del modelo
predictivo estimado. En este caso, un punto promedio de los datos tendría un valor de influencia igual a 0,2. Hay un punto con más de 3 veces el
valor de influencia promedio, pero ninguno con más de 5 veces.
Psicoestadística Página 13