Está en la página 1de 6

Facultad de Ciencias Políticas y Sociologia

Departamento de Sociología: Metodología y Teoría


Campus de Somosaguas. 28223 Pozuelo de Alarcón (Madrid)
Teléfono: 91-394 2671

PRÁCTICA 4 DE LA ASIGNATURA
“ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES”

Tema 6: Estadística bivariable. Cálculo de porcentajes. Distribuciones


condicionales. Tablas de contingencia. Estadísticos de asociación para variables
nominales y ordinales. Correlación y regresión lineal simple.

1. Una vez recopilada la información sobre los pasajeros del Titanic se tiene un conjunto de
variables y datos con los tripulantes del famoso barco siniestrado. Se ha conseguido reunir
información para las siguientes variables: pclass (clase en la que se viajaba), survived
(sobrevivió o falleció), name (nombre), sex (sexo), age (edad), sibsp (nº esposas o
hermanos acompañantes), parch (nº hijos o padres acompañantes), ticket fare (tarifa),
cabin (cabina en la que viajaba), embarked (dónde embarcó), boat (barco de salvamento).
¿Cuáles de ellas son cualitativas?

Cualitativas: pcclass, survived, name, sex, ticket, cabin, embarked y boat.

2. ¿Cruzando o relacionando qué variables construirías tablas de contingencia? Pon algún


ejemplo. ¿Qué modelos explicativos tienen sentido construirse?

Podrían construirse tablas de contingencia cruzando por ejemplo:


• la clase con la supervivencia, para ver si los de primera clase sobrevivieron más que los
de tercera clase.
• Sexo con superviviencia, para saber si las mujeres sobrevivieron más que los hombres.
• Clase con número de hijos o padres, para verificar si los de primera clase viajaban más
acompañados.

-1-
Facultad de Ciencias Políticas y Sociologia
Departamento de Sociología: Metodología y Teoría
Campus de Somosaguas. 28223 Pozuelo de Alarcón (Madrid)
Teléfono: 91-394 2671

3. Utilizando la tabla que aparece a continuación, aplica tus conocimientos sobre tablas de
contingencia para analizar una posible asociación entre el hecho de sobrevivir al accidente
y el sexo del pasajero. Calcula los porcentajes, sus diferencias e interprétalas. ¿Se puede
decir que existe alguna relación entre el hecho de ser hombre o mujer y sobrevivir a ese
desastre?
Ta bla de continge nci a So bre vivió o n o * Sex o d el p asa

Recuento
Sexo del pasaj ero
fem ale male Total
Sobrevivió No 127 682 809
o no Si 339 161 500
Total 466 843 1309

Porcentaje de hombres que no sobrevivieron: (682/843) · 100 = 80,9%


Porcentaje de mujeres que no sobrevivieron: (127/466) · 100 = 27,3%

80,9% - 27,3% = 53,6%


Hay un 53,6% más de hombres que mujeres que no sobrevivieron, por lo que puede
pensarse que existe asociación entre el sexo y la posibilidad de sobrevivir al accidente
del Titanic.

4. Calcula las frecuencias esperadas que se darían en el caso de independencia entre las dos
variables.

Mujer Hombre Total


No sobrevivió 288 521 809
Sobrevivió 178 322 500
Total 466 843 1309

5. Calcula χ2. ¿Cuántos grados de libertad tiene la tabla? ¿Qué valor tiene el χ2 teórico? ¿Qué
podemos decir sobre la relación con un nivel de confianza del 95%?

(127−288)2 (339−178)2 (682−521)2 (161−322)2


χ2 = + + + = 365,88
288 178 521 322

Grados de libertad: (2-1) · (2-1) = 1

Para 1 grado de libertad y un nivel de confianza del 0,95, el χ2 teórico adopta un valor
de 3,84.

χ2 > χ2 teórico 365,88 > 3,84 Se rechaza la hipótesis nula de no asociación


(H0) y se acepta la hipótesis alternativa (H1)

-2-
Facultad de Ciencias Políticas y Sociologia
Departamento de Sociología: Metodología y Teoría
Campus de Somosaguas. 28223 Pozuelo de Alarcón (Madrid)
Teléfono: 91-394 2671

Por tanto, puede concluirse que existe una asociación estadísticamente significativa
entre la variable sexo y la variable supervivencia.

6. En la tabla siguiente aparece la variable “Edad” de los pasajeros del Titanic, recodificada
en cuatro grupos, que se cruza con la variable supervivencia (0=no, 1=sí).

7. ¿Cuántos niños deberían haber muerto en el caso de que la edad y la supervivencia no


estuvieran asociadas? ¿Y adultos? ¿Y ancianos?

Frecuencias esperadas:

Adultos Ancianos Jóvenes Niños Total


No sobrevivió 341 20 376 71 808
Sobrevivió 211 12 233 44 500
Total 552 32 609 115 1308

En el supuesto de no asociación (frecuencias esperadas), deberían haber muerto 71 niños,


341 adultos y 20 ancianos.

8. Calcular los porcentajes de columna para determinar si hubo algún tipo de relación entre
dichas variables.

Porcentajes de columna:

Adultos Ancianos Jóvenes Niños Total


No sobrevivió 65,2% 75% 61,6% 42,6% 61,8%
Sobrevivió 34,8% 25% 38,4% 57,4% 38,2%
Total 100% 100% 100% 100% 100%

Si comparamos los porcentajes de columna para los que no sobrevivieron, vemos que
mayoritariamente murieron los ancianos, seguidos de los adultos y los jóvenes, y que los
niños presentaron una tasa de no supervivencia baja (podrían haberse comparado
también los que sí sobrevivieron).

Por tanto, puede pensarse que existe asociación estadísticamente significativa entre las
variables edad y supervivencia.

-3-
Facultad de Ciencias Políticas y Sociologia
Departamento de Sociología: Metodología y Teoría
Campus de Somosaguas. 28223 Pozuelo de Alarcón (Madrid)
Teléfono: 91-394 2671

9. La χ2 de la tabla anterior es 23,66 ¿Existe asociación entre dichas variables? ¿Cómo lo has
resuelto?

Grados de libertad: (2-1) · (4-1) = 3

Para 3 grados de libertad y un nivel de confianza del 0,95, el χ2 teórico adopta un valor
de 7,72.

χ2 > χ2 teórico 23,66 > 7,72 Se rechaza la hipótesis nula de no asociación (H0)
y se acepta la hipótesis alternativa (H1)

Por tanto, puede concluirse que existe una asociación estadísticamente significativa entre
la variable edad recodificada y la variable supervivencia.

10. Entre las siguientes variables que se cruzan se ha calculado la V de Cramer y el coeficiente
Lambda (ambos significativos), obteniendo los resultados que se detallan. Interprétalos:

Variables V de Cramer Lambda (λ)


Supervivencia - Sexo 0,529 0,38
Supervivencia - Clase 0,313 0,16
Supervivencia – Edad (agrupada) 0,134 --
Supervivencia - embarked 0,190 --
Supervivencia - cabin 0,492 0,28

La asociación mayor, según la V de Cramer y Lambda, se da entre las variables


supervivencia y sexo, seguida de las variables Supervivencia y cabina. Podríamos hablar
de una asociación media en ambos casos.

Es habitual que la asociación sea siempre mayor en la V de Cramer que en Lambda, y


cuando la V de Cramer presenta valores bajos, a veces Lamda ni siquiera es significativa.

11. Somos expertos en relaciones laborales y estamos haciendo un estudio sobre las
empresas de nuestro municipio. Queremos determinar cuáles son los factores que más
influyen en el salario que se percibe en las empresas de nuestra zona geográfica para
identificar posibles discriminaciones salariales. Se ha obtenido la siguiente matriz de
correlaciones.
Indica cuáles son las correlaciones más significativas que se han encontrado. ¿Cómo las
explicarías en una frase (cada una de ellas)?

Si nos fijamos en los datos que quedan por debajo de la línea diagonal verde, observamos
que las correlaciones significativas más altas son las que aparecen marcadas con un
círculo verde:
-4-
Facultad de Ciencias Políticas y Sociologia
Departamento de Sociología: Metodología y Teoría
Campus de Somosaguas. 28223 Pozuelo de Alarcón (Madrid)
Teléfono: 91-394 2671

• Fecha de nacimiento y experiencia previa: se trata de una correlación negativa


porque a menor fecha de nacimiento, mayor experiencia (significativa al 99% de
confianza, porque tiene dos asteriscos).
• Salario actual y salario inical: significativa también al 99%: a mayor salario inicial,
mayor salario actual.
• Experiencia previa y salario actual (significativa sólo al 95%, tiene un asterisco): a
mayor experiencia, menor salario actual (es muy contraintuitivo, pero podría
caracterizar un mercado de trabajo muy precarizado).

12. Los siguientes gráficos de dispersión reflejan la relación entre un par de variables de la
tabla. Basándote en los coeficientes obtenidos en la matriz, etiqueta en cada gráfico el
par de variables que crees que se han representado.
Gráfico 1 Gráfico 2

-5-
Facultad de Ciencias Políticas y Sociologia
Departamento de Sociología: Metodología y Teoría
Campus de Somosaguas. 28223 Pozuelo de Alarcón (Madrid)
Teléfono: 91-394 2671

En el Gráfico 1 podría haberse representado la correlación entre meses desde el


contrato y salario actual, que se observa en la tabla y en el propio gráfico que es
inexistente.
En el Gráfico 2, se observa una nube de puntos que podría ajustarse con una recta
creciente (correlación positiva), que podría representar la alta correlación existente
entre el salario inicial y el salario actual.

13. Utilizando los datos del Barómetro del CIS de octubre de 2020, se ha llevado a cabo un
análisis de regresión lineal simple (Variable dependiente: Grado de convianza en el
Presidente del Gobierno; Variable independiente: Escala de autoubicación ideológica).

Comenta el modelo obtenido a partir de las tablas siguientes. ¿Qué porcentaje de la


varianza de la variable dependiente se explica? ¿Es significativo? ¿Cómo sería la
ecuación de regresión?

El modelo de regresión lineal simple obtenido presenta una R2 de 0.07, por lo que se
puede afirmar que la variable autoubicación ideológica explica sólo el 7% de la varianza
de la variable dependiente (el grado de confianza en el presidente del Gobierno
Central).
A pesar de explicar un % bajo de la varianza, el modelo es significativo, dado que el
coeficiente F presenta una significatividad de 0,00, que es < que el nivel de significación
teórico del 0,05 (y también del 0,01). Por eso, puede afirmarse que el modelo es
significativo, al 95% y 99% de nivel de confianza.
La ecuación de regresión resultante sería: Y = 3,01 + 0,01 X + e

-6-

También podría gustarte