Está en la página 1de 5

INTRODUCCIÓN AL ANÁLISIS DE DATOS

Preguntas más Frecuentes: Tema 4

Pulse sobre la pregunta para acceder directamente a la respuesta

1. El coeficiente de contingencia máximo, ¿sólo se puede calcular cuando tenemos


igual número de columnas que de filas?

2. Un coeficiente de contingencia de C = 0,048 entre dos variables, ¿qué indica?, ¿que


la relación entre las variables es casi nula?

3. Respecto al coeficiente de contingencia y al coeficiente de contingencia máximo, no


sé interpretarlos ni determinar la relación que hay entre las variables cuando obtengo
resultados tan dispares como los siguientes: C = 0,08 y Cmáx = 0,755.

4. En la página 130 del libro, al final del todo, X2 = 322,05 y C=0,673. Ambos
estadísticos indican que existe una relación significativa entre los grupos. Mi pregunta
es, ¿cómo se sabe que existe esa relación?

5. En la addenda (formulario y tablas), en la página 13, la fórmula del estadístico X2


(n e − n t ) 2
aparece como sigue: X 2 = ∑∑ nt
. ¿Es una errata que aparezca dos

veces el sumatorio?

6. Respecto al ejercicio de autoevaluación 4.20 del libro, no entiendo por qué se


bSx
calcula el coeficiente de correlación de Pearson mediante la fórmula rxy = en
Sy
S xy
lugar de la fórmula rxy =
SxSy
2
7. En cuanto a la interpretación de rxy , ¿qué significa proporción de varianza explicada
en la regresión lineal?

8. No consigo entender el significado de proporción de varianza explicada. Sé que se


2
obtiene aplicando rxy , pero no sé para qué sirve ni qué es lo que aporta. Me ocurre lo
mismo con la proporción de la varianza no explicada.

1
INTRODUCCIÓN AL ANÁLISIS DE DATOS

1. El coeficiente de contingencia máximo, ¿sólo se puede calcular cuando tenemos


igual número de columnas que de filas?

Respuesta

Sí, el valor máximo que puede alcanzar C solamente se puede calcular cuando la tabla
de contingencia tiene el mismo número de filas que de columnas.

[ Arriba ]

2. Un coeficiente de contingencia de C = 0,048 entre dos variables, ¿qué indica?, ¿que


la relación entre las variables es casi nula?

Respuesta

Efectivamente, un valor de C = 0,048 es muy bajo y nos indica que, prácticamente, no


existe relación entre las variables.

[ Arriba ]

3. Respecto al coeficiente de contingencia y al coeficiente de contingencia máximo, no


sé interpretarlos ni determinar la relación que hay entre las variables cuando obtengo
resultados tan dispares como los siguientes: C = 0,08 y Cmáx = 0,755.

Respuesta

El coeficiente C toma valores comprendidos entre 0 y 1 (pero nunca llega a 1). Cuando
la tabla de contingencia tiene el mismo número de filas que de columnas (k), podemos
determinar el valor máximo de C. Si el número de filas es distinto al de columnas no
podemos calcular el C máximo.
En este contexto, un valor de C = 0,08 es un valor muy bajo y lo que podemos concluir
es que no existe relación entre las variables que estamos considerando.

[ Arriba ]

4. En la página 130 del libro, al final del todo, X2 = 322,05 y C = 0,673. Ambos
estadísticos indican que existe una relación significativa entre los grupos. Mi pregunta
es, ¿cómo se sabe que existe esa relación?

Respuesta

El coeficiente C te lleva a interpretar tus resultados, ya que C tiene valores ente 0 y 1.


El valor es 0,673 y supera el valor medio. Por lo tanto, la relación es más que el valor
medio y más cerca de 1. En este caso existe relación entre las variables.

[ Arriba ]

2
INTRODUCCIÓN AL ANÁLISIS DE DATOS

5. En la addenda (formulario y tablas), en la página 13, la fórmula del estadístico X2


(n e − n t ) 2
aparece como sigue: X 2 = ∑∑ nt
. ¿Es una errata que aparezca dos

veces el sumatorio?

Respuesta

No es una errata. X2 debería llevar doble sumatorio (y no sólo uno, como aparece en el
libro en la página 127 - que ya se ha corregido en la Fe de erratas 1ª Edición (2009)
que acabamos de terminar).

Las frecuencias tienen en realidad dos subíndices (al margen de la e de empírica o de


la t de teórica): uno correspondiente a la fila de una variable y otro correspondiente a
la columna de la otra variable. En general nij sería la frecuencia correspondiente a la
categoría i de X y a la categoría j de Y. Por tanto X2 debería llevar doble sumatorio:
uno desde i=1 hasta f (siendo f el número de categorías de X) y otro desde j=1 hasta c
(siendo c el número de categorías de la variable Y).

No se han indicado los subíndices para hacer "más clara" su fórmula. Lo importante es
conocer el procedimiento de cálculo aunque, como he indicado antes, lo más correcto
sería poner el doble sumatorio.

[ Arriba ]

6. Respecto al ejercicio de autoevaluación 4.20 del libro, no entiendo por qué se


bSx
calcula el coeficiente de correlación de Pearson mediante la fórmula rxy = en
Sy
S xy
lugar de la fórmula rxy =
SxSy
Respuesta

Las dos fórmulas son formas equivalentes de calcular el coeficiente de correlación de


Pearson. Es decir,

S xy bS x
rxy = =
SxSy Sy

En efecto,

Sy bS x
b = rxy → bS x = rxy S y → rxy =
Sx Sy

bSx 0,2·8
Así, rxy = = = 0,8
Sy 2
[ Arriba ]

3
INTRODUCCIÓN AL ANÁLISIS DE DATOS

2
7. En cuanto a la interpretación de rxy , ¿qué significa proporción de varianza explicada
en la regresión lineal?

Respuesta

La regresión lineal se utiliza para hacer pronósticos, conociendo las puntuaciones en


una variable X podemos realizar predicciones sobre los valores que obtendrá un sujeto
en una segunda variable Y. El cuadrado del coeficiente de correlación de Pearson nos
permite valorar la calidad de esa predicción que hemos realizado.

Veámoslo con un ejemplo: imaginemos que se estudia la relación entre la aptitud


numérica (X) y las calificaciones en matemáticas (Y) de un grupo de escolares,
obteniendo un rxy = 0,7. Si lo elevamos al cuadrado obtenemos 0,49, valor que se
interpreta como la proporción de varianza explicada. Habitualmente, se transforma
este valor en porcentaje; en nuestro ejemplo concreto, podemos decir que el 49% de
la varianza de las calificaciones en matemáticas se pueden predecir a partir de las
puntuaciones en la variable aptitud numérica.

[ Arriba ]

8. No consigo entender el significado de proporción de varianza explicada. Sé que se


2
obtiene aplicando rxy , pero no sé para qué sirve ni qué es lo que aporta. Me ocurre lo
mismo con la proporción de la varianza no explicada.

Respuesta

Supongamos que un profesor de una determinada asignatura está interesado en


estudiar la relación entre las horas dedicadas al estudio (X) y la calificación de sus
alumnos (Y). Obtiene la recta de regresión siguiente: Y´= 2 + 1X y rxy = 0,70, por lo
2
que rxy = 0,49 .

La ecuación lineal obtenida, Y´= 2 + 1X, predice que un alumno que dedica una hora
diaria al estudio de la asignatura, obtendrá una calificación Y´= 2 + 1(1) =3, un alumno
que le dedica 2 horas diarias obtendrá una calificación Y´= 2 +1(2) = 4, …, un alumno
que le dedica 4 horas diarias obtendrá una calificación Y´= 2 +1(4) = 6, …

Observa que se tratan de predicciones o pronósticos. No significa que en la realidad,


todos los alumnos que estudien una hora diaria obtendrán un 3 y todos los que
estudian 4 horas diarias obtendrán un 6. Se espera que haya una tendencia lineal de
este tipo, pero puede ocurrir que un alumno que estudie 4 horas diarias obtenga un 3 y
un alumno que estudie 2 horas diarias obtenga un 7. ¿Por qué? Porque influyen otros
factores (profesor, motivación, aptitud, .., etc) que hacen que un alumno con muchas
horas de estudio obtenga una calificación baja y otro alumno con pocas horas de
estudio obtenga una calificación alta. En este sentido,

rxy2 = 0,49 indica que el 49% de las diferencias entre los alumnos en Y (las
calificaciones) es atribuible a las diferencias entre los alumnos en X (horas diarias de
estudio).

4
INTRODUCCIÓN AL ANÁLISIS DE DATOS

1 − rxy2 = 1 − 0,49 = 0,51 indica que el 51% de las diferencias entre los alumnos en Y
(las calificaciones) no es atribuible a las diferencias entre los alumnos en X (horas
diarias de estudio), sino que es atribuible a otros factores.

Lo anterior es una forma intuitiva (que creo es lo que pedías) de expresar los términos
de varianza explicada y varianza no explicada, respectivamente.

[ Arriba ]

También podría gustarte