Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Es bueno saber que cuando se trabaja con un grupo de datos, con una sola variable este caso se
denominan distribuciones unidimensionales, pero existen momentos en los cuales se hace
necesario el estudio de dos distribuciones correspondientes a un mismo grupo de registro, es
decir parejas de datos; pero cuando ocurre este caso se denominan distribuciones
bidimensionales por lo tanto vienen en forma conjunta: en algunos otros momentos
corresponden a más variables y se denominan multidimensionales.
Uno de los aspectos más interesantes de la estadística es el estudio de la relación entre dos o
más fenómenos representados por las variables, de allí que se presenta un concepto muy
interesante y es el concepto de correlación.
Correlación
Se define como la relación concomitante entre dos variables, por lo tanto expresa lo que
ocurre en una variable ocurre o no en la otra y esto se expresa a través del coeficiente de
correlación.
Coeficiente de correlación
Consiste en la expresión cuantitativa del grado de relación existente entre por lo menos dos
variables, dicho coeficiente presenta dos partes una que se refiere al sentido y otra a la
magnitud. Existe diferentes tipos de coeficientes y la selección de cada uno de ellos dependerá
de la escala de medida y de la naturaleza de la variable y la relación lineal o no de la
distribución bidimensional.
Tipos de Correlación
Cuando las variables se intercorrelacionan se pueden presentar varios tipos de correlación,
seguiremos las correlaciones que se pueden representar mediante una línea recta la correlación
existente, y son a saber:
Correlación Positiva, se dice cuando a los cambios que ocurren en una variable se
dan en el mismo sentido en la otra, si es un aumento en una variable se da un aumento
en la otra y viceversa.
Al igual que la correlación positiva, la correlación negativa puede ser perfecta lo cual
significa que las unidades estadísticas que ocupan primeras posiciones en una variable
ocupan últimas posiciones en la otra y viceversa. (Existe colinealidad entre los puntos)
Primeramente, construyes tu base de datos, posteriormente sombreas las variables de interés (en
mi caso, sombreo Notas. Estad y Notas. Química., tal cual como puedes observar en la
figura 6.4.
Figura 6.5.
En el presente caso, hago Clic sobre la gráfica para poder trabajar en ella, tal cual como se
observa en la figura anterior, cuestión que se nota a través de los círculos que están a los lados.
Ahora deseo colocarle la identificación a cada Eje, pero para ello hago Clic en la opción que
dice Agregar elementos de gráfico (Ver figura 6.6, en el margen superior izquierdo de la
hoja de cálculo), luego se despliega un menú y selecciono la opción que dice Títulos del eje, y
primero selecciono Horizontal primario y posteriormente lo hago con Vertical primario.
Asimismo, elimino el título principal que dice “Notas Química”
Figura 6.7. Herramientas para complementar el gráfico.
También haciendo Clic en el menú Diseño puedes activar la opción Agregar elementos de
gráfico y trabajar sobre este. Otro elemento que se debe presentar, es la Línea de tendencia, la
cual representa la tendencia hacia la cual está orientada la Nube de puntos, es para saber si la
relación entre las variables es negativa o positiva; eso dependerá de la pendiente de la línea
recta. Para esto, seleccione Agregar elemento de gráfico, luego la opción Línea de
tendencia y finalmente la alternativa que dice Lineal.
Figura 6.8.
Figura 6.9. Diagrama de dispersión de las calificaciones obtenidas por un grupo de estudiantes
en las asignaturas Estadística Aplicada a la Educación y Química.
Es el coeficiente que se utiliza cuando las variables que se intercorrelacionan son continuas, esto
significa que han sido medidas en escala de intervalos o razones. Este coeficiente es lineal y
paramétrico, por lo tanto, solo puede ser utilizado cuando exista una pareja de variables
correspondiente a una misma muestra, ya que hace es comparar la covarianza existente entre
ellas. Como hemos señalado la correlación en perfecta, positiva o negativa, cuando se dan los
criterios, pero en el resto de las situaciones exceptuando cuando las variables sean
independientes se dará la existencia de una tendencia y en este caso se necesita determinar el
valor del coeficiente de correlación para saber la cuantía de la intercorrelación de las variables.
El Coeficiente de Pearson se simbolizará así rxy , para la determinación del mismo se puede
utilizar de forma manual cualquiera de las siguientes fórmulas:
rxy
z x * zy
n
Otras fórmulas son también de fácil uso son
Fórmula de los desvíos Fórmula de las puntuaciones originales
rxy x* r
N XY ( X )(Y )
y
x2 * y 2 xy
N X 2 ( X )2 N Y 2 ( Y )2
Los paquetes estadísticos asumen para su uso, la fórmula de las puntuaciones originales. Para
interpretar el coeficiente de correlación de Pearson asumiremos la siguiente tabla:
rxy Grado de relación
0 Nula
0,01 a 0,20 Muy baja o despreciable
0,21 a 0,40 Baja o leve
0,41 a 0,60 Media o sustancial
0,61 a 0,80 Alta o importante
0,81 a 0,99 Muy alta
1 Perfecta
Es sumamente importante saber que esta escala es solamente una sugerencia
no es un dogma, ya que su interpretación esta sujeta a un conjunto de factores que influyen
sobre el valor del coeficiente de correlación.
Por ejemplo si existe un coeficiente de correlación entre dos variables, talla y peso, de 0,80
(rxy = 0,80), para interpretarlo debemos establecer algunas consideraciones iniciales como
son el sentido, positiva, el grado de relación alta, pero no es perfecta por lo tanto es una
tendencia, diríamos entonces Correlación imperfecta positiva de tipo alto lo cual indica una
alta tendencia a que quienes posean una alta talla tienden a tener un alto peso y viceversa
quienes tenga una talla baja tienden a tener un peso bajo. Es necesario aclarar que la correlación
no implica necesariamente causalidad, o sea que una variable es producto de la otra.
Ejemplo.
En la Facultad de Ciencias de la Educación de la Universidad de Carabobo, la profesora Aura
Aguilar durante el Curos de Nivelación 2020, en medio de la pandemia; aplicó el primer y
segundo parcial de Estadística Aplicada a la Educación, a los diez estudiantes inscritos del turno
de la tarde, obteniéndose las siguientes calificaciones:
Calificación del Calificación del
Estudiante
primer parcial (X) segundo parcial (Y)
A 19 18
B 17 15
C 16 17
D 15 15
E 13 14
F 10 12
G 09 10
H 08 07
I 07 06
J 05 06
Determine e interprete el grado de relación que pudiese existir entre las calificaciones
obtenidas entre el primer parcial y segundo parcial de Estadística Aplicada a la Educación.
Solución: Haciendo uso de los elementos que constituyen la fórmula de las puntuaciones
originales, se tiene:
Estudiante (X) (Y) 2 X *Y
X Y
2
A 19 18 (19) =361
2
(18) =324
2
342
B 17 15 289 225 255
C 16 17 256 289 272
D 15 15 225 225 225
E 13 14 169 196 182
F 10 12 100 144 120
G 09 10 81 100 90
H 08 07 64 49 56
I 07 06 49 36 42
J 05 06 25 36 30
n = 10 ∑X = 119 ∑Y = 120
X 2
Y 2
1624 X *Y 1614
1=619
Aplicando la fórmula para datos directos, se tiene:
N XY ( X )(Y )
rxy
N X 2
( X )2 N Y 2
(Y )2
(10) * (1614) (119)(120)
rxy
(10) * (1619) (119)2
* (10) * (1624) (120)2
(16140 14280)
rxy
(16190 14161)*(16240 14400)
(1860)
rxy rxy (1860) rxy (1860)
(2029)*(1840) 3733360 1932,19
rxy 0,96
Interpretación: 0,96 significa que existe una correlación positiva, imperfecta y muy alta entre
las calificaciones obtenidas en la aplicación del primer y segundo parcial en la asignatura
Estadística Aplicada a la Educación durante el curso de Nivelación del 2019; lo cual indica que
los estudiantes que obtuvieron altas calificaciones en el primer parcial, tienden a obtener altas
calificaciones en el segundo parcial de una manera muy alta, y los alumnos que obtuvieron
calificaciones bajas en el primer parcial tienden a obtener bajas calificaciones en el segundo
parcial de una forma muy alta.
Para iniciar el procedimiento, primero se construye la base de dato en Excel, como lo muestra la
Figura 6.10.
Figura 6.10. Base de datos. Calificaciones obtenidas por un grupo de diez (10) estudiantes en el
primer y segundo parcial de Estadística Aplicada a la Educación.
Posteriormente, en la barra de herramientas donde está la “Sumatoria”, se hace un
Clic y se abre un menú (Ver Figura 6.11)
Figura 6.11.
Figura 6.12.
En este sentido, donde dice “Seleccionar una categoría” busque la opción “Estadística” y
luego selecciona Coeficiente de Correlación (COEF.DE.CORREL, el cual es el coeficiente
de correlación de Pearson) y luego realice otro Clic en “Aceptar”; para que luego aparezca el
siguiente cuadro (Ver Figura 6.13)
Figura 6.13.
Allí, debe sombrear los valores que constituyen a la primera variable para que llenen
el rango de celdas de la Matriz 1. (Ver Figura 6.14).
Finalmente, completado todo este proceso, haga Clic en “Aceptar” y obtendrá el resultado
final como se puede ver en la Figura 6.16.
Nota:
Compare el valor obtenido a través de la herramienta Excel con el valor obtenido con la
aplicación de la fórmula manualmente. Este resultado para efectos estadísticos, debe ser
interpretado como se hizo anteriormente.
Lo cual significa que el estudiante que haya obtenido 12 puntos en la variable nota1 obtendría
12,87 puntos en la otra variable; si la relación fuera perfecta esta predicción sería absolutamente
cierta, no habría error, pero como el coeficiente de correlación no fue igual a uno (1) se está
cometiendo un error de estimación igual a 3, 66, su fórmula de cálculo es
est s 1 (r)2
Donde la letra s, es la desviación típica de la variable dependiente.
Solución:
Se considera que este estudiante obtuvo en X= 14 puntos, y lo que se quiere saber cuánto debe
obtener en Y. Luego tenemos que:
X Y
( X Y ) b X
2
( X Y ) n
yx b yx
2
Y abX ayx
X
2 ( X)
Debemos saber que Y
es la ecuación de X n
abX
la línea recta “Y” en función de “X”, donde “a” representa a la ordenada en el origen y “b” es la
pendiente de la recta que se busca crear. Aplicando las fórmulas anteriores se tiene:
b y
x
(119) 1614
1614
(120)
b yx 1428,0 b y
0,9167
10 x
2 1619
(119) 1416,1
1619
10
a 1614 (0,9167)
x
y
(1619) a yx
1,0912
119
Y ab(X Y 1,09120,9167(X Y 1,09120,9167(14)
) )
donde Y 113,925
Interpretación: 13,92 puntos, es la calificación más probable de un estudiante en el segundo
parcial de estadística aplicada a la educación, si se sabe que obtuvo 14 puntos en el primer
parcial.
X Y
( X Y)
2
X axy bxy * (Y ( X Y )
Y b n
) a xy
x
( Y )
2
b
y
2
xy
Y
n
Y
Donde:
(119) (120)
1614
b xy
10
(120) 2 b x
186
184 b xy
1,0108
1624 y
10
a 1614 (1,0108)
y
x
(1624) a xy
0,2294
120
Sustituyendo en X axy bxy * (Y nos queda:
)
X 0,2294 1,0108 *(04)
X Puntos
3,81
De igual modo como se procedió con el cálculo del Coeficiente de Pearson, se debe iniciar en
este apartado de la misma forma. Considerando la base de datos elaborada en la hoja de Excel
(Ver Figura 6.10), proceda a seleccionar “Sumatoria”, luego la opción “Más funciones”, de
este modo se presenta un cuadro de dialogo donde debes ubicarte en “Seleccionar una
función” y seleccionar “ESTIMACION.LINEAL”, luego haces Clic en “Aceptar”.(Ver
Figura 6.18)
Figura 6.18.
Así aparece en nuevo cuadro denominado “Argumentos de función”, donde se tienen que
llenar los rangos de celda tanto para la variable “X” y la variable “Y”. Esto se hace
sombreando cada serie de datos ubicados en cada columna. (Ver Figura 6.19)
Figura 6.19.
En este sentido se hace presente el coeficiente “a” y la pendiente “b” valores señalados con la
línea azul en la figura anterior; componentes de la recta de regresión “Y” en función de “X”
Y ab(X )
Y 1,09120,9167(X )
Se aclara que en la herramienta Excel, la ecuación de la recta Y en función de X se presenta de
la forma Y= m*(X) + b que es lo mismo decir Y= b + m*(X); a modo de comparación y
asociación de acuerdo a los resultados obtenidos tanto manualmente como por Excel se tiene
que
Y ab(X )
Y = b + m*(X)
Para efecto de estimar una puntuación en “Y” conociendo cuanto obtuvo un estudiante en la
variable “X” de forma directa, se procede del siguiente modo: después de seleccionar la flecha
en “Sumatoria”, “Más funciones", nos ubicamos en la opción de “Tendencia” y hacemos
Clic en “Aceptar”. (Ver Figura 6.20)
Figura 6.20.
Nos aparece otro cuadro, donde se tienen que llenar los rangos de celda tanto para “Y” como
para la variable “X” tal cual como se hizo anteriormente. Ahora bien, si se sabe que un
estudiante obtuvo 14 puntos en el primer examen parcial (X=14 puntos) ¿Cuántos
puntos debe obtener ese estudiante en el segundo parcial?. En la Figura 6.21, una vez llenados
los rangos de celda para cada variable, se coloca la calificación obtenida por estudiante (X=14
punto) donde dice “Nueva_matriz_X” y posteriormente pulsas “Aceptar”
Figura 6.21.
Puedes notar, que antes de hacer Clic en “Aceptar” en la parte inferior de ese cuadro se
presenta el resultado esperado el cual está señalado con la flecha azul; es decir Y=13,92 puntos.
Finalmente debes interpretar este resultado.
Ahora aplicamos el caso contrario, si se desea estimar la calificación que pudiese obtener un
estudiante en el primer parcial (X=? puntos) de estadística aplicada sabiendo que obtuvo 04
punto en el segundo parcial, la ecuación de estimación estaría
dada por:
X axy bxy * (Y )
Para llenar los rangos de la celda de “Y” de acuerdo a la Figura 6.22, con el cursor en ese primer
rectángulo donde dice “Conocido_Y”, usted se va a la base de datos en Excel, sombrea los
valores correspondientes a la variable “X”, y después se realiza con los valores de “Y”
Figura 6.22.
Observe, que en ese mismo cuadro nos presenta ya el valor estimado, de forma directa, lo que
queda es hacer Clic en Aceptar y ese valor se reflejara en una celda de la hoja de cálculo de
Exel. (X= 3,81 puntos). Interpretar.
Cuando las diferencias de los datos con respecto a un rasgo en particular y que no puede
medirse directamente sino mediante una escala ordinal, se utiliza el coeficiente de correlación
ordinal de Spearman, el cual es no paramétrico y se deriva del coeficiente de correlación de
Pearson, mide la diferencia entre los rangos. Su fórmula es la siguiente:
6 d2
r 1
s
n(n2 1)
Donde d es la diferencia de los rangos entre las variables y n el número de los pares de medidas.
(d = X – Y)
El coeficiente de correlación de Spearman no es más que un caso particular del de Pearson, por
lo tanto tomaremos para su interpretación la misma escala.
Ejemplo
Suponga que al final del primer lapso escolar, la maestra Leysy Velásquez de sexto grado de
educación primaria ordena a sus estudiantes de acuerdo a su puntualidad y su responsabilidad,
que dando los mismos de la siguiente manera:
Ordenes en Ordenes en
Estudiantes Puntualidad Responsabilidad
(X) (Y)
A 3 6
B 7 10
C 1 3
D 4 2
E 9 7
F 2 1
G 8 9
H 5 4
I 6 5
J 10 8
Solución:
Como los estudiantes recibieron por parte de la maestra en ambas variables su ubicación
(ordenes), se debe aplicar el coeficiente de Correlación de Spearman, ya que ambas
variables son Ordinales.
Ordenes en Ordenes en
Estudiantes Puntualidad Responsabilidad d (X Y) 2
(X) (Y) d
A 3 6 (3-6) = -3 (-3)2=9
B 7 10 (7-10) = -3 9
C 1 3 (1-3) -2 4
D 4 2 +2 4
E 9 7 +2 4
F 2 1 +1 1
G 8 9 -1 1
H 5 4 +1 1
I 6 5 +1 1
J 10 8 +2 4
d 2
38
Aplicando la fórmula respectiva, se tiene:
6d 2
r 1
s
n(n2 1)
rs 1 6 *(38)
10 * (102
1)
6 *(38)
rs 1
10 * (100
1)
228
r 1
s
990
rs 1 0,23
rs 0,77
En este ejemplo, se tienen dos variables continuas que fueron transformadas o tipificadas a
ordenes o posiciones y sus pares ordenados no deben superar los veinte casos, para poder
aplicar el coeficiente de Correlación de Spearman.
Un grupo de quince (15) estudiantes presentaron las pruebas de lapso de Física y Química de
noveno grado de educación media, obteniendo las siguientes calificaciones:
Estudiante A B C D E F G H I J K L M N O
Física (X) 10 08 15 17 06 09 13 11 15 10 07 14 19 08 11
Química (Y) 12 10 12 19 05 10 12 10 15 09 05 15 20 07 10
Si las calificaciones se transforman en ordenes, será valido establecer que los estudiantes que
obtienen las primeras posiciones en física tienen las últimas posiciones en química. Interprete.
Solución:
Como se induce a transformar las calificaciones a ordenes, entonces al estudiante que obtuvo
la más alta calificación (19 puntos) se le asigna el rango o posición 1, a la segunda más alta
(17 puntos), se le asigna el lugar 2; y así sucesivamente. En este tipo de problema aparecen los
empates, es decir alumnos que obtuvieron una misma nota. Para resolver esta situación entonces
se promedian los ordenes o posiciones, como por ejemplo; en Física hay dos (2) quince (15)
cuyos lugares corresponden al tercer lugar y cuarto lugar, entonces para promediar estos
ordenes se hace 3+4/2 = 7/2 = 3,5; esto quiere decir que al estudiante C y I, le corresponde el
lugar 3,5 por tener empate ya que ambos sacaron 15 puntos; y así se hace con el resto de los
posibles empates.
Estudiante X Y d (X Y)
0 0 2
d 2
47
Al igual que el procedimiento anterior, se tiene:
6
d
2
r 1
s
n(n2 1)
rs 1 6 *(47)
15 * (152
1)
rs 1 282
3360
rs 1 0,08
rs 0,92
Interpretación: 0,92 indica que existe una correlación imperfecta, positiva y muy alta entre
los órdenes obtenidos por los alumnos en las asignaturas Física y Química, en función de las
calificaciones. Esto quiere decir lo siguiente, los estudiantes que obtuvieron las primeras
posiciones en Física tienden a mantener sus primeras posiciones en química de una manera muy
alta, asimismo los estudiantes que obtuvieron los últimos lugares en Física tienden a obtener los
últimos lugares en Química de una manera muy alta. (Recuerde que las variables fueron
transformadas o dicotomizadas ordenes)
Se utiliza para determinar el grado de relación existente entre una variable de naturaleza
continua (escala de intervalo o razones) y otra variable de naturaleza dicótoma o dicotómica es
decir por su naturaleza se divide en solo_ dos categorías
_
o modalidades.
rbp X p X q p * q
s *
Donde:
X : Media en la variable continua (X) de los que se les asignó el código “1” en (Y) . X q
:
p
Media en la variable continua (X) de los que se les asignó el código “0” en (Y). s: desviación
típica de la variable continua.
p: proporción de estudiantes que han obtenido el código “1” en Y q:
proporción de estudiantes que han obtenido el código “o” en Y.
fp
p n fq
q n
Ejemplo
Se desea obtener la correlación que existe entre el peso de 20 alumnos y el sexo, de acuerdo a la
siguiente tabla:
Estudiantes Peso (X) Sexo (Y)
A (72) 1
B (69) 1 Varones (p) = 1 n = 11
C 65 0 Hembras (q) = 0 n=9
D (73) 1
E 58 0
F 64 0
G 62 0
H (67) 1
I (79) 1
J 70 0
K (65) 1
L (77) 1
M 59 0
N (68) 1
Ñ (70) 1
O (76) 1
P 71 0
Q 57 0
R 59 0
S (63) 1
779
p
X 11
X p
70,81 Varones
565
X q
9 Hembras
X q
62,77
S (t )
6,45
fp
p n
11
p 20 p 0,55
9
q q 0,45
20
Aplicando:
_ _
rb X p X q p * q
p s *
rbp (1,2465) *(0,4975)
rbp 0,62
Interpretación: 0,62 indica que existe una correlación imperfecta, positiva y alta entre el sexo y
los respectivos pesos de los estudiantes. Esto quiere decir que los varones en promedio ( X p
70,81Kg) son más pesados que las hembras en promedio ( X q 62,77Kg)
Fórmula alternativa
_ _
p
rbp X p X t q
s
t
rbp
70,81 67,20
0,55
6,45 0,45
rbp 0,62
Ejercicios.
1. A continuación se presentan una serie de coeficientes de correlación entre dos
asignaturas: Biología y Química, interprete cada uno de ellos.
a. r = 0,41 b. r = -0,72 c. r = 0
d. r = 1,00 e. r = - 1,00 e. r = 0,50
1 2 3 4 5 6 7 8 9 10
Juan CNU M 21 4 5 10 11 18 C
María PIA F 23 3 4 16 15 18 C
Ramón PIA M 24 7 8 16 17 14 C
Antonio CNU M 21 11 9 18 14 19 C
Ana PIA F 23 5 3 13 15 16 C
Leysy PIA F 23 12 13 11 13 14 C
Nancy PIA F 22 17 17 10 12 18 C
Claudia CNU F 23 9 10 15 16 15 I
Xiomara PIA F 22 18 19,5 19 19 19 I
José PIA M 23 1 2 15 18 15 I
Dixon PIA M 22 10 13 16 18 17 I
Carmen CNU F 22 2 1 17 17 17 I
Mirian CNU F 22 19 18 16 15 13 I
Violeta PIA F 21 13 11 14 10 15 I
Argelia PIA F 24 22 23 09 11 14 I
Héctor PIA M 23 16 13 10 12 14 I
Samuel CNU M 25 20 19,5 08 09 12 C
Nohemi PIA F 27 8 6 09 08 15 I
Beatriz PIA F 22 21 21 16 17 11 I
Margarita PIA F 24 14 15 16 18 16 C
Bárbara CNU F 23 23 22 13 11 13 C
Francisco PIA M 21 6 7 09 09 15 C
Gustavo PIA M 25 15 16 12 14 16 C
a. Elabore los diagramas de dispersión de y señale gráficamente el tipo de correlación:
X: Primer lapso Y: Resolución de problemas
X: Primer lapso Y: Trabajo de investigación
X: Resolución de problemas Y: Trabajo de investigación
b. Determine si es cierto a que mayor puntuación en las variables identificadas con X en
el literal a, existe una alta tendencia a obtener las mayores puntuaciones en las variables
identificadas con Y.
c. Determine si es cierto a que mayor edad se obtiene mayor nota en el primer lapso.
d. Determine cuál será la puntuación probable en el primer lapso de un alumno que haya
obtenido 15 puntos en el trabajo de investigación, y cual seria su error de estimación.
Grafique dicha recta de estimación.
e. Determine el grado de relación entre la resolución de problemas y el trabajo de
investigación
f. Determine si es cierto el responder correctamente el ítem Nº 5 indica una alta tendencia
a obtener las mejores calificaciones.
g. Cual será el grado de relación existente entre la edad y el sexo.
h. Si las calificaciones del primer lapso y las obtenidas en el trabajo de investigación se
transforman a Ordenes, obtenga la relación existente entre esas dos variables
i. Determine, si es cierto que los estudiantes que tienen los primeros lugares en Disciplina
obtuvieron los últimos lugares en Puntualidad.
j. Estime la calificación mas probable en el trabajo de investigación, si se sabe que un
estudiante logró 06 puntos resolución de problemas. Grafique la recta de estimación
obtenida.