Modelos CC U4

Unidad 4.
La correlación y la inferencia estadística en la

interpretación de la información
Presentación
La correlación de la inferencia estadística en la interpretación de la información
En la unidad 3 hiciste un análisis estadístico de tu base de datos, ¿Te acuerdas? En

la unidad 3 únicamente describiste todos los datos que tenías, obtuviste alguna
información y puedes saber cómo se comporta la muestra que tu tomaste. Ahora,
en esta unidad, vamos a tomar decisiones en base a esos datos que ya tenemos,
muchas decisiones se toman en base a encuestas, por ejemplo: decisiones de
política, decisiones de medidas de salud, de seguridad, todo eso se hace en base
a encuestas realizando trabajo de campo, como el que tú estas realizando.
Para tomar estas decisiones se realizan algunos cálculos, y en esta unidad tú vas a
aprender a hacerlos, vas a aprender a calcular el coeficiente de correlación para
ver si hay relación entre las variables, vas a hacer análisis de regresión y algo muy
importante es que vas a aprender a aplicar pruebas de hipótesis para comparar
las medias de grupos diferentes, esto es muy interesante. Y además, como un plus
en esta unidad vamos a integrar un informe de investigación completo, en el cual
vas a retomar todo el marco teórico que hiciste en la unidad 2, el análisis de la
descripción de la muestra que hiciste en la unidad 3 y vas a integrar la toma de
decisiones que vamos a estudiar aquí en la unidad 4, con lo cual vas a haber
concluido e integrado todo el trabajo que realiza un investigador social.
¡Felicidades!
En la unidad anterior hiciste la descripción de la muestra con la que trabajaste tu

investigación, pudiste aplicar varios de los conceptos vistos en la unidad y ahora tienes
muchos más datos que al principio. Puedes analizar cómo se comporta la muestra, establecer
sus características demográficas como distribución por edades, por nivel de educación o
estado civil, también puedes identificar las formas de conducta o actitudes y establecer
comportamientos concretos.
1
Y ahora ¿qué puedes hacer con toda esta información? ¿Te sirve de algo conocer los grupos
de edades que integran tu muestra, o las respuestas que dieron a tus preguntas? Retomando
el objetivo de tu investigación, ¿encuentras relación entre el objetivo y todos los datos que
ahora tienes? ¿Podrías tomar una decisión con base en la información que analizaste?
Pues bien, en esta unidad estudiaremos cómo se pueden tomar decisiones a partir de la
información estadística con la que se cuenta, podrás establecer si hay o no relación entre dos
variables de una investigación, comprobarla y describirla, también podrás determinar el nivel
de relación entre diversas variables que afectan a una población y las evaluarás
cuantitativamente aplicando correlación lineal, diagramas de dispersión y regresión lineal,
además trabajaremos con la distribución normal (z) y la t de Student para comparar medias,
lo cual permitirá evaluar los resultados de dos muestras y tendrás elementos para tomar una
decisión fundamentada respecto de tu estudio de investigación.
2
¿Todo esto es posible? ¡Por supuesto!, como un ejemplo de la aplicación de la estadística en
psicología te invitamos a ver la siguiente información: “La estadística en la psicología” de M.
González.
La estadística en la Psicología (hospital de salud mental)
Mi nombre es Laura Carrillo Alarcón, soy psicóloga clínica y terapeuta familiar, y

estoy aquí en el hospital de salud mental de Tijuana, tengo 3 años trabajando aquí
en el hospital, y tengo 25 años siendo psicóloga clínica. Yo aquí lo que hago es
coordinar el departamento de psicología del área de hospitalización en atención
con los pacientes, tanto la terapia individual, familiar, grupal, diferentes
actividades con los pacientes como musicoterapia, danzaterapia, manualidades,
arteterapia, atención con los familiares y la aplicación de pruebas
psicodiagnósticas que nos ayudan al manejo y al diagnóstico con el paciente.
Cada paciente que va llegando, que ingresa aquí al área de hospitalización se le
hace una batería de prueba psicodiagnósticas, en donde aplicamos pruebas de
inteligencia como pruebas de personalidad, tenemos pruebas de inteligencia,
estamos hablando aquí sobre el wais-lll que es una escala de inteligencia para
adultos sonde manejamos diferentes, son 14 escalas, 7 son verbales y 7 son de
ejecución, pero los resultados se van a dividir o se van a sacar en función del
manual que me está diciendo la edad del sujeto y qué es lo que el sujeto debe
de contestar para la edad que tiene, y estos luego se traducen para hacer una
media para ver cuáles son las fortalezas y las debilidades del sujeto. Y en esto se
traduce, vemos lo que es la capacidad intelectual dentro de la curva, si es término
medio, inferior al término medio, superior al término medio o también para ver si
hay una deficiencia mental, toda esta información sacamos muchos datos muy
importantes dentro o para la integración psicodiagnóstica.
La estadística es una ciencia que nos permite tomar datos y luego analizarlo; y por
ultimo obtener un resultado, que este resultado nos va a permitir tomar una
decisión en alguna situación dada.
¿Para qué se utiliza la estadística?
La estadística se utiliza para conocer por ejemplo: la cantidad de personas que
habitan en el planeta, cuántos son niños, cuántos son adultos, hombres o mujeres;
en el caso de una empresa para conocer la temporada alta o baja; en el caso de
un hospital mental se analizan en base a un examen que le hacen a las personas
para saber cómo andan en su nivel mental, se analiza toda la información que
3
sale de un examen se comparan con tablas y estudios previos, y toda esta
información después del análisis se interpreta en un resultado, que ya le puedes
decir al paciente como se encuentran sus capacidades mentales.
Otra de las pruebas que tenemos, que utilizamos mucho las matemáticas, son el
Rorschach, son unas láminas que son de colores y otras que son blanco y negro,
en donde el paciente se le pide que dé una respuesta o que dé varias respuestas
de que es lo que observa o qué es lo que ve en cada una de las láminas y vamos
haciendo un registro de la información, del tiempo de reacción del paciente, qué
ve, dónde lo ve, cómo lo ve y qué lo hizo pensar, que era la respuesta que nos está
dando por lámina.
Toda la prueba de Rorschach es matemática porque voy a sacar en función de
los resultados un formulario, este formulario me va ir dando una interpretación a la
hora de integrarlo de tales porcentajes, o de tales niveles es un significado que
tiene en cuanto a la personalidad, en cuanto al manejo de los afectos, en cuanto
a los impulsos, el control de los impulsos, el nivel de funcionamiento intelectual.
Entonces, esta prueba me da datos muy, muy importantes y muy certeros,
entonces a la hora de nosotros integrar utilizamos mucho las matemáticas y
tenemos lo que son los resultados, los vaciamos ya lo que llamamos una
integración. Esta información sale de toda la aplicación de todas las pruebas
psicométricas que aplicamos y que todas están basadas en aspectos
matemáticos.
Paciente: Y ya empiezo.
Psicóloga: Entonces yo tomo el tiempo y el sujeto empieza a mover las piezas…
Paciente: Un elefante, no sé si sea así, la colita…
Psicóloga: La trompita… ja, ja, ja (ríen los dos)
Paciente: Puede ser… (Sopla)
Psicóloga: Creo que ya vas uniendo
Paciente: Creo que ya lo embone…la jorobita
Psicóloga: No tiene joroba el elefante (sonríe)
Paciente: ja, ja, ja (ríe)…mmm ujum, (sopla) las patas están para arriba mmm
(sonido) Estoy medio loquito.
Psicóloga: ¡Así es! (felicitando, por terminar de armar el elefante)
Paciente: Aplaude…
Efectivamente es mucho muy importante las matemáticas y sobre todo que esto
nos da la certeza y la seguridad de que no es una interpretación subjetiva del
psicólogo para dar los resultados del paciente, porque esto, lo que sacamos es
una radiografía del sujeto ¿Qué es el sujeto internamente? Pero de la otra manera
4
sería una interpretación muy subjetiva y con esto tenemos la objetividad de que
los resultados y son las respuestas del sujeto que son traducidas matemáticamente,
entonces son mucho más seguras.
Como puedes apreciar en el video, para que las pruebas psicológicas tengan validez se sigue
un proceso estadístico que permite que los resultados se puedan aplicar a cualquier persona
a partir de tablas, lo cual permite al psicólogo tomar decisiones acerca del sujeto que está
tratando. Esto lo veremos más adelante en esta unidad.
Por lo pronto empecemos respondiendo un cuestionario para saber con qué tema iniciarás
en esta unidad. Es muy importante que lo respondas con honestidad, recuerda que NO
cuenta para calificación, solamente es el punto para saber si iniciarás la unidad desde el
inicio, si requieres de algún apoyo, o si ya dominas algunos temas, y de esta manera puedas
continuar haciendo el análisis estadístico de tu investigación.
Este cuestionario es automatizado y conocerás los resultados de manera inmediata. Lee
detenidamente cada reactivo antes de responder. Solamente una opción es correcta.
Realiza la actividad en plataforma:

¿Dónde empiezo?
5
Correlación y dispersión
Empecemos con el análisis de datos bivariados
Análisis de datos bivariados
Lo interesante de tener muchos datos de una misma muestra es que podemos establecer la
relación que hay entre las diferentes variables y al hacerlo permite predecir el
comportamiento de una variable a partir del conocimiento que se pueda tener de la otra.
Como estudiamos en la unidad 2, las variables pueden ser cualitativas o cuantitativas, por lo
que podemos relacionarlas combinándolas de la siguiente manera:
1. Relacionar dos variables cualitativas
Ejemplo: ¿Habrá relación entre el género y la habilidad motora fina? (la habilidad
motora en este caso sería calificada como excelente, buena, regular y con
oportunidad de desarrollo)
2. Relacionar una variable cualitativa (atributo) con una cuantitativa

(numérica)
Ejemplo: Hay relación entre el peso y el riesgo de enfermedad
6
3. Relacionar dos variables cuantitativas (numéricas)
Ejemplo: Hay relación entre el peso y la estatura
Cuando queremos relacionar dos variables cualitativas o una cualitativa con otra
cuantitativa, que son los dos primeros casos, lo podemos hacer con ayuda de tablas cruzadas
y representarlo con gráficas de barras. Veamos un ejemplo que relaciona dos variables
cualitativas.
Como estudiamos en la unidad 3, el problema del

tabaquismo afecta tanto a quien lo consume como a
familiares y a todas las personas que conviven con
fumadores.
7
Por lo que un hospital interesado en conocer si afecta más ser fumador pasivo o activo realizó
una encuesta entre los pacientes y familiares y obtuvo los siguientes resultados:
Tabla 1. Tabla cruzada de frecuencias absolutas
Tiene cáncer de pulmón No tiene cáncer de pulmón Total marginal

Fumador activo 14 8 22
Fumador pasivo 20 18 38
Total marginal 34 26 60
Esta tabla se puede representar con una gráfica de barras
8
Para interpretar la gráfica se retoman los datos de la
tabla. Completa el siguiente cuadro:
De un total de 60 personas, __________fuman y __________son fumadores pasivos.

De los __________ que fuman, __________tienen cáncer de pulmón y __________ no
lo tienen, en tanto que de los fumadores pasivos, __________tienen cáncer de
pulmón y __________no. Por tanto, en total __________ sí tienen cáncer y __________
no lo tienen.
Respuestas: 22, 38, 12, 14, 8, 20, 18, 34, 26
Esta gráfica la hicimos a partir de frecuencias absolutas, ahora vamos a convertirlos en

porcentajes utilizando la frecuencia relativa, donde el 100% son los 60 encuestados. (Puedes
calcular las frecuencias relativas aplicando una regla de 3. Utiliza solamente dos decimales)
Tabla 2. Tabla cruzada de frecuencias relativas

Fumador activo 23.3 13.33 36.67
Fumador pasivo 33.33 30.00 63.33
Total marginal 56.67 43.33 100.00
Al graficar la tabla de frecuencias relativas, obtendrás una gráfica como ésta si te concentras
en si son fumadores activos o pasivos:
9
O como ésta si te concentras en quien tiene cáncer de pulmón o no:
Ambas gráficas se obtienen de la tabla de frecuencias relativas.
Ahora es tu turno para describir la gráfica retomando

los datos de la tabla:
Del total de encuestados, un poco más de la tercera parte (__________%) son

fumadores activos, y aunque la mayor parte (__________%) son fumadores pasivos,
el __________% tienen cáncer de pulmón y el __________% no lo tiene.
De los fumadores activos el __________% tiene cáncer de pulmón y

el __________no; y de los fumadores pasivos el __________% tiene cáncer de
pulmón y el __________% no.
Respuestas: 22, 38, 12, 14, 8, 20, 18, 34, 26
Observa que en las dos gráficas de la tabla 2 la suma de las frecuencias de las 4 barras da
como resultado el 100%
También podemos trabajar la distribución de las frecuencias relativas de manera más
específica, trabajando por renglones o columnas, para describir cómo se distribuye la
población en función de si son fumadores activos o pasivos (renglón) o si tienen o no cáncer
de pulmón (columna).
10
Observa la tabla 3 y su gráfica:
Tabla 3. Tabla cruzada de frecuencia relativa por renglón

Fumador activo 63.63 36.36 99.99
Fumador pasivo 52.63 47.36 99.99
Describe la gráfica retomando los datos de la tabla 3:
En la gráfica podemos comparar el efecto que tiene el tabaco en fumadores

activos y pasivos y se observa que del total de fumadores activos, el __________%
tiene cáncer de pulmón y el __________% no tiene. En tanto que del total de
fumadores pasivos, el __________% tienen cáncer y el __________% no lo tiene.
Respuestas: 63.63, 36.36, 52.63, 47.36
Los datos nos brindan precisión, y la gráfica permite visualizar que es más probable que un
fumador activo desarrolle cáncer de pulmón, pero el fumador pasivo no queda exento de
riesgo.
¿Quieres saber cómo llenar la Tabla cruzada de frecuencia relativa por renglón (Tabla 3)?
Para ello veamos el siguiente video:
11
Tabla cruzada de frecuencia relativa por renglón
Ahora vamos a aprender a hacer una tabla cruzada de frecuencias relativas por
renglón, aquí tenemos la tabla original con las frecuencias relativas y en seguida
tenemos la tabla que vamos a ocupar para las frecuencias relativas por renglón.
Observa que esta tabla no tiene el total marginal de columnas, porque solo vamos
a trabajar con renglones. En esta tabla vamos a tomar el total de fumadores
activos como el 100%, esto es que el 22 es el 100% de fumadores activos.
Y lo que nos interesa en este caso es saber del total de fumadores activos que
porcentaje tiene cáncer de pulmón y que porcentaje no lo tiene, así que lo
hacemos con una regla de 3, donde si 22 es mi 100% nos preguntamos qué
porcentaje serán 8, que son los que no tienen cáncer, por lo cual multiplicamos 8
x 100 y el resultado lo dividimos entre 33, lo cual lo nos da un resultado de 36.36 y
lo ponemos aquí.
Ahora calculamos que porcentaje le corresponde a 14, que son los que sí tienen
cáncer de pulmón, y tenemos que si 22 es el 100% ¿qué porcentaje será 14?,
multiplicamos 14 x100 y el resultado lo dividimos entre 22, por lo que el porcentaje
de los fumadores activos que tienen cáncer son 63.63%. Para comprobar que
nuestros cálculos son correctos sumamos los porcentajes de los fumadores activos
que tienen cáncer con los que no lo tienen y esto nos debe de dar el 100%,
podemos hacerlo con la sumatoria del menú superior y vemos que aquí nos da un
99.99%, este resultado es correcto porque las décimas que nos faltan se quedaron
en el camino al redondear, pero estamos cercanos al 100%, en caso de que el
porcentaje obtenido sea menor, debe haber un error, y entonces tendrías que
revisar tu procedimiento.
Ahora nos interesa calcular los porcentajes de fumadores pasivos que tienen
cáncer de pulmón, como el total de fumadores es 38, para esta fila el 100% será
38, de la misma manera que en el caso anterior vamos a calcular los porcentajes
aplicando la regla de 3, ahora tomando en cuenta que el 100% es 38, aplicando
la regla de 3, si 38 es el 100% nos preguntamos qué porcentaje será 20,
multiplicamos 20 x100 y el resultado lo dividimos entre 38, lo que nos arroja un
porcentaje del 52.63, que corresponde a los que tienen cáncer.
De la misma manera vemos qué porcentaje no tiene cáncer de pulmón y nos
preguntamos si 38 es el 100%, 18 que porcentaje será, multiplicamos 18 x100 y lo
dividimos entre 38, lo que nos arroja un porcentaje de 47.36. Igual que hicimos en
12
la fila anterior vamos a hacer la sumatoria, aquí nos fijamos que la suma sea de las
columnas que nosotros queremos y también nos arroja un 99.99%, lo cual es muy
aceptable, y con esto queda completa nuestra tabla de frecuencia relativa por
renglón.
Una vez que ya tenemos la tabla completa vamos a graficarlo, para ello
seleccionamos los datos de los fumadores con y sin cáncer, nota que no tomamos
los totales marginales, y ahora sí insertamos una gráfica de barras, en el menú
superior buscamos las gráficas, las de columnas y elegimos el tipo que queramos.
Observa que nosotros queremos comparar los grupos de fumadores activos con
pasivos y la gráfica nos muestra el resultado agrupado por quién tiene o no tiene
cáncer, por lo que le damos clic derecho en la gráfica y nos vamos a seleccionar
datos, aquí hay un botón que no dice cambiar fila o columna y le decimos
aceptar, y ahora sí, estamos comparando los fumadores activos con los fumadores
pasivos.
Ya que tenemos nuestra gráfica, hay que insertarle el título, por lo que buscamos
en diseño rápido uno que nos guste más –este tiene título- pongo el título
“consecuencias en fumadores activos y pasivos”. También quiero saber cuáles son
los porcentajes, entonces me situó en las gráficas doy clic derecho, le digo
agregar etiquetas de datos y ya me aparecieron en los que tienen cáncer, hago
lo mismo con las otras columnas, me situó en la columna doy clic derecho y digo
agregar etiqueta de datos y ¡Listo! ¡Mi gráfica quedó completa!
Hay otra forma de ver los datos que tenemos. Ahora lo haremos desde quien tiene cáncer o
no lo tiene, esto es por columna y tendríamos la tabla 4. Observa que esta tabla no tiene total
marginal de fila, sólo tiene el total marginal de columna, y para llenar esta tabla se hace como
hiciste en la tabla 3, pero ahora el porcentaje total será el total marginal de columna, esto es
que el 100% de quien tiene cáncer de pulmón es 34 y el 100% de quien no tiene cáncer es 26.
Realiza el ejercicio en tu cuaderno y compara tus

resultados con los de la siguiente tabla:
Tabla 4. Tabla cruzada de frecuencia relativa por columna
Tiene cáncer de pulmón No tiene cáncer de pulmón

Fumador activo 41.18 30.77
Fumador pasivo 58.82 69.23
Total marginal 100 100
13
Ahora realiza la gráfica, y compárala con ésta:
Describe la gráfica retomando los datos de la tabla 4:
Esta gráfica compara el grupo fumadores que tienen cáncer con los que no lo
tienen.
Se observa que del total de quienes tienen cáncer de pulmón, el __________% son
fumadores activos y el __________% son fumadores pasivos. En tanto que del total
de personas que no tienen cáncer, el __________% son fumadores activos y
el __________% son fumadores pasivos.
Respuestas: 41.18, 58.82, 30.77, 69.23
Veamos un caso para que pongas en práctica lo aprendido.
14
Un investigador social quiere establecer si hay relación entre el estado civil y el nivel de
estudios. Para ello, aplicó 60 encuestas a adultos entre 30 y 40 años de edad y obtuvo los
siguientes resultados:
Tabla 1. Tabla cruzada de frecuencias absolutas
Casado Soltero Total marginal

Nivel básico 17 3 20
Nivel medio 19 1 20
Nivel superior 12 8 20
Total marginal 48 12 60
Completa la tabla cruzada de frecuencias relativas

usando dos decimales:
Tabla 2. Tabla cruzada de frecuencias relativas

Nivel básico __________ __________ __________
Nivel medio __________ __________ __________
Nivel superior __________ __________ __________
Total marginal __________ __________ 100.00
Respuestas: Nivel básico – Casado= 28.33, Nivel básico – Soltero= 5.00, Nivel básico – Total marginal= 33.33
Nivel medio – Casado= 31.67, Nivel medio – Soltero= 1.67, Nivel medio – Total marginal= 33.33
Nivel superior – Casado= 20.00, Nivel superior – Soltero= 13.33, Nivel superior – Total marginal= 33.33
Total marginal – Casado= 80.00, Total marginal – Soltero= 20.00
15
Grafica la tabla y compárala con la siguiente, ¿se
parecen? Después completa la descripción de la
gráfica retomando los datos de la tabla:
Esta gráfica compara el grupo fumadores que tienen cáncer con los que no lo
tienen.
La gráfica muestra que del total de encuestados, __________% tenía estudios de

nivel básico, y de ellos el __________% es casado y el __________% soltero.
El __________% tenía estudios de nivel medio, y de ellos, el __________% era casado
y el __________% soltero. En tanto que el __________% tenían estudios de nivel
superior, y de ellos el __________% eran casados y el __________% solteros. Respecto
del total, el __________% son casados y el __________% solteros.
Respuestas: 33.33, 28.33, 5, 33.33, 31.67, 1.67, 33, 20, 13.33 80, 20
16
Para concluir este reto, completa la tabla 3 por renglón y la tabla 4 por columna, compara
las gráficas que se muestran con las que elabores y describe cada una de ellas.
Tabla 3. Tabla cruzada de frecuencia relativa por renglón

Nivel básico __________ __________ __________
Nivel medio __________ __________ __________
Nivel superior __________ __________ 100
Respuestas: Nivel básico – Casado= 85, Nivel básico – Soltero= 15, Nivel básico – Total marginal= 100
Nivel medio – Casado= 95, Nivel medio – Soltero= 5, Nivel medio – Total marginal= 100
Nivel superior – Casado= 60, Nivel superior – Soltero= 40
La gráfica compara los distintos niveles de estudio por estado civil, y en ella se
puede apreciar que del total de participantes con nivel básico, el __________% es
casado y el __________% es soltero. De los encuestados con estudios de nivel medio
el __________% es casado y el __________% soltero, y del total de encuestados con
estudios de nivel superior, el __________% es casado y el __________% soltero.
Respuestas: 85, 15, 95, 5, 60, 40
17
Tabla 4. Tabla cruzada de frecuencia relativa por columna
Casado Soltero
Nivel básico __________ __________
Nivel medio __________ __________
Nivel superior __________ __________
Total marginal 100 100
Respuestas: Nivel básico – Casado= 35.42, Nivel básico – Soltero= 25.00

Nivel medio – Casado= 38.78, Nivel medio – Soltero= 8.33
Nivel superior – Casado= 25.00, Nivel superior – Soltero= 66.67
La gráfica de la tabla 4 compara el nivel de estudios de los casados y solteros. En

ella se observa que del total de casados, el __________% tienen nivel básico de
estudios, el __________% tiene estudios de nivel medio y el __________% tiene estudios
de nivel superior.
Por otra parte, del total de solteros, el __________% tiene estudios de nivel básico,
el __________% tiene estudios de nivel medio y __________% llegó hasta el nivel
superior.
Respuestas: 35.42, 38.78, 25, 25, 8.33, 66.67
18
Pero, ¿qué ocurre cuando las dos variables del estudio son cuantitativas? Para estudiar este
tema empecemos con el diagrama de dispersión.
Diagrama de dispersión
Cuando tenemos dos variables cuantitativas se representan con números, por ejemplo, si se
busca la relación entre la edad de una persona y los años que estudió, y si la edad fuera 25
años y los años de estudio 10, estos datos se pueden representar así:
(25, 10)
¿Qué te recuerda esta notación? ¡Claro! Es la manera en que se representan las coordenadas
de un punto en un plano cartesiano. Así, cada pareja de datos que proviene de la misma
fuente queda representada gráficamente como un punto.
Para graficar las parejas ordenadas se pone primero la variable que puede controlarse o
medirse con mayor facilidad, que corresponde a la variable independiente (x) y luego la
variable que se quiere predecir y que corresponde a la variable dependiente (y).
19
Lee la hipótesis de tu investigación e identifica algunas variables que, de acuerdo a tu
hipótesis, quisieras relacionar, si se trata de dos variables cualitativas, o bien, una cualitativa y
una cuantitativa puedes hacer las tablas cruzadas para datos bivariados que vimos en el
tema anterior y graficar con barras.
20
Presiona aquí si quieres ver un ejercicio del trabajo sobre equidad de género de
María, Jorge y Laura
Consulta el Excel en el tema 1, página 4:
Pero si se trata de dos variables cuantitativas, empecemos graficando con un diagrama de

dispersión. La gráfica de dispersión permite saber en un primer vistazo si es posible pensar en
una correlación entre las variables, y en ese caso determinar qué modelo matemático es el
más adecuado para representar dicha relación. De la misma manera, la gráfica puede
indicar que no hay relación entre las variables.
¡Veamos un diagrama de dispersión!
21
Este es un diagrama de dispersión que relaciona la edad (variable independiente) con la
escolaridad como variable dependiente de un grupo de 245 parejas ordenadas.
De inicio podemos ver que no hay correlación entre las variables porque no se
observa un patrón de comportamiento entre ellas, lo cual indica que no hay
relación entre la variable independiente (edad) y la dependiente (escolaridad).
Si trazáramos una línea recta entre los puntos veríamos

que la mayoría de ellos no se concentran alrededor
de la línea:
22
Esto nos indica que no hay correlación lineal, pues los puntos no se ajustan a una recta.
Si quieres saber cómo se elabora este tipo gráfica ve el siguiente video.
Diagrama de dispersión
En esta ocasión vamos a aprender a hacer una gráfica de dispersión. Para hacer
un diagrama de dispersión es muy sencillo: lo primero que tienes que hacer es
identificar tu variable independiente que estaría en la X, y en este caso es la edad,
y la variable dependiente que corresponde a la Y, y en este caso es la escolaridad,
y vas a escribir los pares ordenador por parejas, primero la X y luego la Y en todos
los casos.
El siguiente paso es seleccionar los datos e insertar la gráfica, seleccionamos
nuestros datos, observa que estoy incluyendo los títulos de la columna, aquí
tenemos bastantes datos. Selecciono todos los datos, y ahora sí, me voy a insertar
gráficos, selecciono los de puntitos que son los de dispersión y automáticamente
tengo mi gráfica.
Ya que tengo mi gráfica, puedo buscar en la parte de arriba, en el menú superior
que diseño es el que más me agrada, por ejemplo este tiene los datos, pero sale
todo encimado, no, aquí, por ejemplo este me da la línea recta para ver que tanto
se ajustan los datos a mi línea recta, puede ser que estén muy dispersos, me voy a
quedar con la primera, no olvides poner el título, en este caso es escolaridad-
edad, le voy a poner “relación entre la edad y la escolaridad”, le pongo lo que
corresponde al eje de las X, que es la edad, mi variable independiente, y mi
variable dependiente es la escolaridad.
Le quito esa parte para que se vea más amplia ¡Y listo, ya está mi gráfica de
dispersión!
23
Por supuesto, no todos los casos son como el anterior, en el que no hay
correlación. Observa otros diagramas de dispersión:
Algunas veces los puntos están tan juntos que casi forman una línea recta, en este
caso se trata de una correlación lineal positiva fuerte.
Esto indica que a medida que aumenta el valor de x también aumenta el valor de y.
24
En otras ocasiones los puntos tienden a juntarse, aunque sin formar una
línea, por lo que sí hay correlación, aunque no es muy alta como en la
gráfica anterior.
Aquí se observa una correlación lineal positiva.
En esta otra gráfica también se observa

correlación lineal, pero es negativa.
Esto indica que a medida que aumenta el valor
de x, disminuye el valor de y.
25
Esta gráfica muestra una correlación
entre las variables, pero no es lineal.
Como puedes ver, la correlación sirve para establecer en qué sentido influye la variable
independiente (x) en la variable dependiente (y).
Por ejemplo, sabemos que la estatura tiene un efecto directo sobre el peso, especialmente
en los niños, por lo que resulta importante determinar el efecto entre ellas para diferentes
edades, de modo que se puedan identificar los casos normales y los que requieren atención
especial. ¿Te acuerdas de las tablas de estatura y peso para niños?
26
En estadística los análisis que permiten encontrar la relación entre dos variables son
la correlación y la regresión. Como vimos anteriormente hay correlación cuando ocurre un
cambio sistemático en las puntuaciones de dos variables, es decir, cuando las mediciones de
una variable cambian simultáneamente con las medidas de la otra. Y la regresión lineal se
usa para analizar la relación o dependencia que hay entre las variables, se emplea en
biomedicina, economía, ingeniería y en cualquier área de estudio que quiera establecer la
relación entre dos variables.
27
La regresión lineal es una expresión matemática que cuantifica la intensidad de la relación
entre las variables a través de un coeficiente de correlación, conocido como coeficiente de
Pearson (r) que permite determinar que tanto se ajustan los datos de un conjunto a un modelo
lineal.
Un ejemplo muy claro de su utilidad son las tablas de talla-peso para niños que utilizan los
médicos pediatras para revisar el crecimiento de los niños. Estas tablas se hacen mediante un
análisis de regresión lineal, en el que los médicos investigadores recopilan la estatura y peso
de una gran cantidad de niños y la clasifican por edades. Reúnen los datos y generan un
diagrama de dispersión estatura-peso para determinar si existe correlación entre estas
variables y se generan gráficas como las siguientes, así como las tablas de peso y talla que
tienen todos los médicos en sus consultorios.
Tomada para fines educativos de: DOF (2015) Proyecto de Norma Oficial Mexicana PROY-NOM-031-SSA2-2014, para la aatencióna la salu de la
infancia, disponible en http://www.dof.gob.mx/nota_detalle.php?codigo=5417151&fecha=25/11/2015
28
Tomada para fines educativos de: DOF (2015) Proyecto de Norma Oficial Mexicana PROY-NOM-031-SSA2-2014, para la aatencióna la salu de la
infancia, disponible en http://www.dof.gob.mx/nota_detalle.php?codigo=5417151&fecha=25/11/2015
¿Cómo se hace un análisis de regresión lineal?
El análisis de regresión lineal se hace mediante 3 pasos:
1. Obtener el diagrama de dispersión
29
2. Calcular el coeficiente de correlación
3. Obtener la ecuación de la recta
Ya conoces el paso 1, que es obtener el diagrama de dispersión. Para

seguir los pasos 2 y 3 veamos la siguiente información:
Ecuación de correlación lineal y coeficiente de correlación
Hola, y bienvenidos a otro video de mate fácil.

En este video vamos a encontrar la ecuación lineal de la correlación entre una
variable y otra cuando nos dan una tabla de valores, nos dan valores para Y, y
valores para X, y a partir de estos valores vamos a encontrar una ecuación que
relacione a la variable Y con la variable X, y también vamos a encontrar algo que
se llama coeficiente de correlación lineal.
Vamos a empezar para encontrar la ecuación lineal y después ya encontraremos
el coeficiente. En primer lugar lo que debemos hacer es construir otras columnas
de números a partir de estas dos columnas, la primer columna que construiremos
será la de los cuadrados de X, x al cuadrado (x 2) y consiste en elevar cada valor
30
de aquí al cuadrado y escribirlo a la derecha, 100 al cuadrado que da 10000, 90
al cuadrado que da 8100, 80 al cuadrado que da 6400 y así sucesivamente de
cada uno obtenemos el cuadrado.
La siguiente columna que vamos encontrar es la de la multiplicación de X por Y,
es decir, multiplicar el valor de aquí por el valor de aquí, 3 X 100 nos queda 300, 5
X 90 nos queda 459, y así sucesivamente vamos poniendo aquí los resultados
correspondientes, lo siguiente que haremos será sumar todos los valores de cada
una de las cuatro columnas que construimos, sumamos 3+5+9+10 etc., ponemos
el resultado aquí abajo, eso nos da 178, y luego sumamos estos de aquí
100+90+80+45 y nos queda de la suma de todos estos 560, y luego sumamos todos
estos y nos queda 37750, y sumamos todos estos y nos queda 7745.
Ahora, lo que vamos a hacer nosotros es encontrar la ecuación lineal de
correlación entre Y, y X. Una ecuación lineal es una ecuación de una recta, una
ecuación de grado 1, en la que aparecen dos coeficientes, aparece un
coeficiente para X y aparece un término independiente, tenemos que encontrar
los valores de a y b, para estos hay unas fórmulas. Para encontrar el valor de a, la
fórmula que se utiliza es esta de aquí:
𝑦 = 𝑎𝑥 + 𝑏
𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑎=
𝑛 ∑ 𝑥 2 − (∑ 𝑥)2
La n es el número de datos que tengamos, tenemos 10 datos y los contamos

1,2,3,4,5,6,7,8,9,10, entonces n=10 y estos simbolitos de aquí significan suma cada
uno de estos significa suma, esta de aquí significa la suma de la columna XY, y la
columna XY es esta de aquí, y la suma es esta de aquí, entonces esto va a valer
7745, aquí tenemos suma de la columna X, o sea, la suma de todos estos valores
de aquí que es 560 y así par cada una de estos, así que vamos a sustituir cada uno
de los valores, lo voy a ir haciendo paso por paso.
𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑎=
𝑛 ∑ 𝑥 2 − (∑ 𝑥)2
Escribimos a= y una línea horizontal y vamos a sustituir:
10(7745) − (560)(178) 77450 − 99680 −22230
𝑎= = = = −0.34788
10 (37750) − (560)2 377500 − 313600 63900
𝑎 = −0.34788
Como n vale 10, ponemos un 10, y luego aparece suma de la columna XY, la suma
es 7745 la ponemos con un paréntesis para indicar que se va a multiplicar, luego
aparece un menos, luego suma de las X, la suma de las X es 560, suma de las Y nos
da 178, y ahora en la parte de abajo tenemos otra vez una n, así que ponemos un
10, suma de las x cuadrada nos queda esto de aquí, lo ponemos luego menos,
suma de las x al cuadrado, esto y esto es diferente, suma de las x cuadradas es
esto de aquí, y aquí tenemos suma de las X adentro del paréntesis y todo eso
31
elevando al cuadrado, así que vamos a poner la suma de las X que es 560 adentro
de un paréntesis y eso va a quedar elevado al cuadrado.
Lo siguiente que hay que hacer son las operaciones, pero hay que tener cuidado
con el orden en que lo hacemos, primero hacemos las multiplicaciones y
potencias y al último hacemos las restas, y ya después la división. Pues vamos a
empezar con las multiplicaciones, multiplicamos 10 X 7745 y nos queda 77450,
ahora tenemos menos y multiplicamos 560 x 178 y nos queda esta cantidad.
Ahora en la parte de abajo multiplicamos 10 por este número y nos queda esta
cantidad y finalmente elevamos 560 al cuadrado y no va a quedar este número.
Ahora sí, hay que hacer las restas, la que aparece arriba y la que aparece abajo,
después de hacer la resta nos quedan estos resultados. Y finalmente hacemos la
división, y entonces nos queda que a vale -0.34788.
Ese va ser el valor de a, entonces ya encontramos uno de los valores que estamos
buscando, ahora vamos a encontrar el valor de b, el valor de b se va a encontrar
con esta fórmula de aquí.
∑𝑦 − 𝑎∑𝑥
𝑏=
𝑛
178 − (−0.34788)(560)
𝑏=
10
178 + 194.8128
𝑏=
10
372.8128
𝑏=
10
𝑏 = 37.28128
Es importante que primero hay que calcular el valor de a, para después poder
calcular el valor de b, ya que vemos que aquí aparece la a, que tenemos que
sustituir, bueno, vamos a sustituir los valores, lo voy a hacer paso a paso, ponemos
b= y una línea horizontal y vamos sustituyendo, aparece suma de las Y, y la suma
de las Y es 178, y luego aparece menos y lo que vale a, que es lo que acabamos
de calcular lo vamos a poner entre paréntesis (-0.34788), entonces este menos de
aquí es el de la fórmula y este menos es el de la a.
Ahora aparece suma de las X, la suma de las X es 560 y abajo aparece n, como n
vale 10 ponemos un 10. Y ahora hay que hacer las operaciones ponemos el 178,
todavía ahí con el 178 no vamos hacer la resta, primero hay que hacer
multiplicaciones, luego aquí tenemos menos por menos nos va a quedar más,
luego multiplicamos este número por este número nos queda esta cantidad, y el
10 de abajo ese lo ponemos igual.
Ahora hay que hacer la suma de los números de arriba y luego dividir entre 10 y
nos queda que b es igual a 37.28128. Ya tenemos entonces el valor de b, y con los
valores de a y b ya podemos encontrar la ecuación lineal simplemente
sustituyendo en lugar de poner a vamos a poner este valor y en lugar de poner b
ponemos este valor.
32
𝑦 = −0.34788 + 37.28128
Bueno ahora vamos a encontrar el coeficiente de correlación lineal, y para
encontrar el coeficiente de correlación lineal vamos a empezar desde nuestra
tabla inicial, porque vamos a construir ahora otras columnas que nos van a servir
para esto, aquí tengo la tabla inicial de las X y las Y, y abajo también tengo la suma
de las columnas que ya habíamos puesto antes.
En primer lugar lo que hay que calcular son los promedios o las medias de cada
una de estas columnas, recordemos que el promedio se calcula sumando todos
los datos y dividiendo entre el número de datos, ya tenemos aquí la suma de todos
los datos para el caso de la X es 560 la suma de todos estos, entonces dividimos
560 entre 10 que es el número de datos y nos queda que la media de x es 56, y
hacemos lo mismo con la Y, vamos sacar la media de Y , aquí es sumar todas las
Y, y dividir entre el número de datos, la suma de las Y es 178 dividimos entre 10 y
nos queda 17.8.
Ahora que tenemos ya las medias, media X, y media Y, vamos a construir las
siguientes columnas que necesitaremos, la primer columna es X-la media de X y
esto lo que significa es que a cada valor de X le vamos a restar la media, o sea,
aquí vamos hacer por ejemplo 100-56 nos queda 44, y luego 90-56 nos queda 34,
80-56 =24, y así le vamos haciendo con cada uno de los números para obtener las
cantidades, esto hay que hacerlo manualmente o con calculadora, o de
preferencia se puede usar una hoja de cálculo como una hoja de Excel ahí se
hacen muy rápido estos cálculos.
Ahora, la siguiente columna que necesitaremos es Y menos la media de Y, que es
igual que como le hicimos con la X, nada más que ahora a cada valor de Y le
vamos a restar 17.8 y ponemos aquí los resultados, después necesitaremos elevar
al cuadrado la resta que obtuvimos aquí, X- media de X lo vamos elevar al
cuadrado, o sea, 44 al cuadrado nos queda 1986, 34 al cuadrado 1156 y así cada
uno de estos al cuadrado.
Y también haremos lo mismo con esta columna, Y-la media de Y al cuadrado cada
uno de estos valores lo elevamos al cuadrado y lo escribimos aquí donde
corresponde. Y finalmente otra columna que será multiplicar esta columna con
esta columna, X-X media multiplicado por Y-Y media, entonces multiplicamos 44
por -14.8 nos queda -651.2 y así, multiplicar cada par de números y poner el
resultado aquí.
Ahora vamos a sumar los valores de las columnas de las últimas tres que
construimos nada más, las primeras dos no es necesario, esas no las vamos a
necesitar, pero si vamos a necesitar las últimas tres, entonces sumamos los valores
y los ponemos en la parte de abajo, sumamos todas estas cantidades nos da 6390,
sumamos todas estas nos da 993, sumamos todas estas, aquí sumar quiere decir,
bueno dependiendo del signo, si hay un menos con otro menos se suman y luego
con otro menos se suman, pero con un más se restan, y así respetando los signos
es una suma algebraica la que se hace, se pone aquí el resultado.
Bueno, como voy a necesitar este espacio para hacer lo del coeficiente de
correlación voy a poner aquí los valores:
33
Pues vamos a tener que:
∑(𝑥 − 𝑥̅ )2 = 6390
∑(𝑦 − 𝑦̅ )2 = 993.6
∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦̅ ) = −2223

Ahora vamos a encontrar el coeficiente de correlación, para eso se utiliza esta
fórmula de aquí:
∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦̅ )
𝑟=
√∑(𝑥 − 𝑥̅ )2 √∑(𝑦 − 𝑦̅ )2
En esta fórmula vamos a sustituir estos datos, y con ello obtendremos el coeficiente:
−2223 −2223
𝑟= =
√6390√993.6 (79.93747)(31.52142)
𝑟 = −0.88223
Entonces lo voy hacer por pasos ponemos r= una línea horizontal para poner los
valores sustituidos, y en la parte de arriba tenemos la suma de ∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦̅ ) que
esta ya la tenemos aquí es -2223, así que la ponemos, abajo tenemos √∑(𝑥 − 𝑥̅ )2 o
sea la raíz cuadrada de 5390, y luego la raíz cuadrada del otro √∑(𝑦 − 𝑦̅)2 que es
raíz cuadrada de 993.6. Y ahora hay que hacer las operaciones, vamos a calcular
las raíces cuadradas y nos queda esto, aquí puse los resultados de las raíces
cuadradas, después tendremos que multiplicar estos dos valores y dividir -2223
entre el resultado de esta multiplicación y nos va a quedar como resultado
𝑟 = −0.88223, ese es el coeficiente de correlación lineal.
Ahora para que ustedes practiquen un poco este tema, les invito a que con esta
tabla de valores encuentren la ecuación lineal que relaciona las variables de Y y
X y el coeficiente de correlación lineal, es importante que ustedes hagan ejercicios
para practicarlo porque nada más viendo se les puede olvidar muy fácilmente,
pero practicándolo es como van a dominar esto, así que los invito a que
practiquen haciendo este ejercicio y en un próximo video les voy a mostrar el
procedimiento para que verifiquen sus resultados.
Si les gustó este video den like, comenten si tienen cualquier duda o sugerencia
todos los comentarios son bienvenidos, recuerden que ustedes también pueden
proponer algún ejercicio de los comentarios, algún ejercicio que no les sale que
tienen dudas, y ya en un video posterior yo lo subo y no olviden suscribirse a mi
canal para recibir más videos como este.
Mate fácil, (2015) Ecuación de correlación lineal y coeficiente de correlación, disponible en:
https://www.youtube.com/watch?v=fNeXC8d5En8
34
En la información vimos dos
procedimientos:
cómo calcular la ecuación de la recta y

cómo calcular el coeficiente de correlación lineal.
Ahora veamos la utilidad de cada uno.
Al tener la ecuación de la recta con los valores de a y b nos va a permitir predecir el valor
de y para cualquier valor de x. Veamos un ejemplo:
La siguiente tabla muestra las horas de estudio que

dedicaron los estudiantes de primaria a estudiar historia y
la calificación que obtuvieron.
Horas de Calificación de
estudio historia
1 3
3 3
2.5 4
2 4
4 6
5 9
6 8
3 3
2 3
2.5 5
35
Aplicando el procedimiento que vimos en el video
tenemos los siguientes valores:
b= 1.2598, a= 0.8946, mismos que sustituimos en la ecuación de la recta:
Una vez que tenemos la ecuación de la recta de la muestra, podemos hacer predicciones
respecto de un valor que no tengamos en la fuente original, por ejemplo 7, nos podemos
preguntar ¿qué calificación podría obtener un alumno si estudiara 7 horas? Para saberlo
sustituimos la X por 7:
36
y al realizar las operaciones tenemos que y= 7.5
Por lo tanto un alumno de ese grupo que estudie 7 horas podría sacar 7.5
de calificación en historia
¿Qué calificación puede obtener un alumno si estudia 9

horas?
Al sustituir los valores tendremos que y= 0.8946(9)+1.2598,

por lo que y= 9.3
Por lo tanto un alumno que estudie 9 horas puede

sacar 9.3 de calificación
Es importante hacer notar que una condición para hacer estas predicciones es que los datos
tengan una tendencia lineal, y eso lo podemos saber calculando el coeficiente de Pearson.
Entonces, ¿Cómo se interpreta y qué se puede concluir al obtener el coeficiente de Pearson?
El coeficiente de Pearson indica el porcentaje de ajuste que se ha conseguido con el modelo
lineal. Su valor oscila entre -1 y +1, por lo que entre más se acerque a la unidad es mayor el
ajuste al modelo lineal. A mayor porcentaje mejor se puede predecir el comportamiento de
las variables. Veamos algunos ejemplos:
Esta gráfica tiene un coeficiente de Pearson positivo con un valor de r=0.9660, lo que indica
que hay una fuerte relación entre las variables.
37
Esto demuestra que un vendedor con más
experiencia tiene más ventas.
Ahora es tu turno. Observa la gráfica y elige la opción que mejor

describa la gráfica de acuerdo al coeficiente de Pearson.
En esta gráfica se puede ver que hay una correlación __________ / __________que
se confirma con el signo __________ / __________ del coeficiente de Pearson.
Y de acuerdo a su valor, la correlación entre las variables
es __________/ __________, lo cual se observa en la gráfica porque los puntos
están ligeramente __________ / __________ de la recta.
Respuestas: positiva/negativa, positivo/negativo, media/fuerte, ligeramente separados/ muy separados.
38
Veamos otro ejemplo.
En esta gráfica se puede ver que no hay correlación entre

las variables porque el coeficiente de Pearson tiene un valor
de 0.5224, lo que indica que es neutro. Y de acuerdo a este
valor no hay una correlación, tal como se ve en la gráfica,
lo cual se confirma porque los puntos están dispersos o
separados de la recta.
39
Ahora te proponemos un reto. Calcula el coeficiente de correlación y la ecuación de la recta
de los ejercicios adjuntos en el documento de Excel. (redondea a 2 decimales)
Ejercicios de correlación
Consulta el Excel del tema 1, página 6:
Verifica la respuesta aquí y compara tu gráfica con la que viene

en el documento.
r = 0.82 r = 0.63 r = 0.87

y = -9.34x + 0.0032 y = 7.45x + 0.09 y = 3.91x + 0.1229
40
Estos son algunos ejemplos de cómo se aplica el análisis de regresión. Los cálculos también se
pueden hacer con las funciones estadísticas de Excel. Aprendamos cómo.
Para calcular el coeficiente de correlación tomemos como ejemplo la relación entre
analfabetismo y el uso de métodos anticonceptivos de un estudio que realizó la ONU. Veamos
el siguiente video.
Coeficiente de correlación en Excel
Ahora aprenderemos el coeficiente de correlación con ayuda de Excel. Primero

coloca el cursor en una celda en blanco donde quieres que aparezca el resultado
del coeficiente de correlación, en este caso yo lo pongo al lado de la r que
simboliza al coeficiente de correlación, busca en el menú superior el ícono de
funciones que ya utilizamos en la unidad 3 para buscar las funciones estadísticas,
vas a ver que sale un cuadro de diálogo, y aquí ya sea que teclees coeficiente
correlación o que lo busques, se abrevia “coef.de.correl”, lo abres y te va a pedir
la matriz 1, en la matriz 1 vas a seleccionar los valores de X.
Y después te vas a matriz 2, en matriz 2 vas a seleccionar los valores de Y, le das
Enter y automáticamente tienes el coeficiente de correlación que es -0.607119.
Ahora para calcular la ecuación de la recta buscaremos el valor del pendiente
primero, que en este caso esta simbolizado por a, nuevamente colocamos el
cursor en la celda donde queramos que aparezca el valor de la pendiente, ya sea
que abras nuevamente las funciones o si ya lo tienes abierto como aquí, vamos a
buscar pendiente, y te pide conocido Y, entonces seleccionas los valores de Y y
después conocido X, que corresponde a los valores de X, das Enter y en la celda
que elegiste tienes el valor de la pendiente, que para este caso es -0.5304. El
siguiente paso para obtener la ecuación de la recta es obtener el valor de la
ordenada, entonces nuevamente colocamos nuestro cursor en el espacio donde
queremos que aparezca el valor de la ordenada, que en este caso esta
simbolizada por b, abrimos nuestras funciones estadísticas en el menú superior y lo
que vamos a buscar es “intersección.eje” así es como vamos a localizar a la
ordenada.
Nos va a pedir nuevamente el conocido de Y, seleccionamos todos los valores de
Y, y después nos pide el conocido X, y seleccionamos todos los valores de X le
damos Enter y tendremos el valor de nuestra ordenada que es 48.94. Observa que
nuestra pendiente es negativa y para este caso aquí abajo tengo la gráfica y
vemos que efectivamente nuestra pendiente es negativa, lo cual corrobora
nuestros valores que obtuvimos.
41
Una vez que tenemos los valores de la pendiente y la ordenada al origen podemos
sustituirlos en la ecuación de la recta, tenemos que Y es igual el valor de la
pendiente que es -0.5304297 de X más la ordenada que es 48.9417691, voy a poner
en negrita y más grande para que tengamos ya la ecuación de la recta.
María, Jorge y Laura también se interesaron en saber si había relación entre las variables
cuantitativas de su investigación sobre equidad de género, para ello intentaron correlacionar
la edad con la respuesta de alguna variable, pero el índice de correlación no resultó fuerte,
y la gráfica de dispersión no mostró que las variables se ajustaran a la línea recta; después lo
intentaron relacionando otras dos variables.
Para que veas los resultados que obtuvieron revisa el siguiente Excel
Consulta el Excel del tema 1, página 7:
42
Con esto terminamos el tema de correlación y regresión,
ahora ya puedes correlacionar variables cualitativas,
cuantitativas y la combinación de ambas, ¿qué te parece si
compruebas lo aprendido?
Realiza este pequeño reto antes de pasar al siguiente tema.

¿Qué tanto aprendí de correlación y dispersión?
Ahora que ya viste el video para hacer los cálculos con Excel y que pusiste a prueba lo
aprendido, ¿qué te parece si lo aplicas a un caso real retomando los datos de la base que
tienes de tu investigación?
Hasta este momento solamente habías hecho una descripción a partir de las medidas de
tendencia central, así que ahora puedes retomar tu hipótesis para relacionar dos variables
cualitativas o una cualitativa con otra cuantitativa, o dos cuantitativas. Revisa tu
planteamiento del problema y tu hipótesis para poner en práctica lo aprendido y elige entre
hacer un análisis de regresión lineal o una tabla de datos cruzados. Tu asesor te ayudará con
gusto ante cualquier duda o dificultad que se presente.
Una vez que tengas los resultados, podrás integrarlos como parte de tu informe en la sección
de resultados. Cuida de no incluir el procedimiento, solamente integra las gráficas y su
descripción, con el valor del coeficiente de correlación si es que hubieras correlacionado dos
variables cuantitativas.
43
Distribución de probabilidades
Para iniciar con el tema de distribución de probabilidades te invitamos a contestar el siguiente

cuestionario para que conozcas el dominio que tienes sobre el tema y puedas iniciar desde
el punto que necesitas.

¿Dónde continúo?
Seguramente en más de una ocasión has comentado algo acerca de la probabilidad de que
ocurra un evento. Por ejemplo, la probabilidad de que llueva, la probabilidad de encontrar a
una persona conocida entre una multitud o la probabilidad de ganar la lotería.
En las conversaciones coloquiales, cuando queremos hacer notar que la ocurrencia del
evento es cercana o lejanamente posible, generalmente le asignamos una medida numérica.
En términos más formales, la probabilidad no deja de estar relacionada con las expresiones
cotidianas, ya que en matemáticas la probabilidad de que ocurra un evento es la frecuencia
relativa con la que puede esperarse que ocurra. Esto es, la probabilidad indica
cuantitativamente (mide) la relación que existe entre el número de veces que se presenta
una situación o evento particular respecto del total de eventos, que sería el 100%, por eso
decimos: “tengo el 90% de probabilidad de ganar en el juego”, o bien, todos cuando hemos
jugado “volados” sabemos que tenemos el 50% de probabilidad de ganar, porque la moneda
solamente tiene dos caras.
44
La probabilidad se puede estudiar de manera matemática y es muy útil en diferentes áreas
para hacer predicciones, no solamente en los juegos de azar, por lo que prácticamente todas
las áreas manejan la probabilidad.
Por ejemplo las aseguradoras aplican la probabilidad para ofertar los seguros, por eso no
ofrecen seguros de vida a personas de edad avanzada o enfermas, pero insisten mucho con
personas jóvenes y sanas, pues estos últimos tienen menos probabilidad de usar el seguro que
están pagando.
En el control de calidad de productos también se calcula la probabilidad de que algún
artículo salga defectuoso por error humano, o la probabilidad de que ocurra un accidente.
En el área médica se aplica para saber qué probabilidad hay de que una persona sana
enferme en determinadas condiciones, eso les sirve para prever gastos y recursos.
Aprendamos más sobre la distribución de probabilidades y particularmente sobre la
distribución normal en el siguiente video:
La representación de una distribución de probabilidades se hace generalmente

en un sistema de ejes coordenados, colocando la variable aleatoria X en el eje
horizontal y la probabilidad asociada que puede tomar la variable aleatoria en el
vertical. En las distribuciones de probabilidad continua hay dos tipos de gráficas
que son muy comunes encontrar, la distribución normal, también conocida como
la campana de Gauss, cuyas medidas de tendencia central, media, mediana y
45
moda son iguales, y las distribuciones sesgadas, ya sea con sesgo positivo o con
sesgo negativo. Nosotros estudiaremos la distribución normal porque muchos
fenómenos reales se distribuyen de esa manera, fenómenos naturales como un
sismo o un deslave por lluvias, fenómenos psicológicos como la reacción de las
personas ante un desastre natural, las opiniones también se distribuyen de manera
normal y fenómenos sociales como el matrimonio en una época determinada.
La distribución normal es simétrica respecto de la media, esto quiere decir que los
datos se concentran en el centro por lo que tiene forma de campana y la media
divide el área a la mitad, esto es 50% de cada lado, por lo que las medidas de
tendencia central media, mediana y moda son iguales. Toda el área debajo de la
curva es igual 1, es asintótica al eje de las abscisas porque nunca las toca y se
utiliza para muestras grandes.
El área bajo la curva representa el 100% y se mide en desviaciones estándar
respecto de la media, la primera desviación estándar antes y después de la media
abarca el 68.3 % del área bajo la curva, esto quiere decir que existe el 68.3% de
probabilidad de que en un evento ocurra en esta área, por lo que los casos o
situaciones que se distribuyen de manera normal se concentran en el centro y hay
muy pocos casos extremos.
Por ejemplo en psicología la inteligencia del grueso de la población se concentra
entre un CI de 85 y 115 puntos, esta es la inteligencia normal, la segunda
desviación estándar antes y después de la media abarca 95.4% del área bajo la
curva, y la tercera desviación estándar antes y después de la media cubre
prácticamente toda el área, esto es el 97.9%, por lo que las personas con muy
bajo nivel intelectual o muy alto nivel son muy escasos.
Como pudiste apreciar en el video la distribución normal es importante porque es un modelo

teórico ideal de cómo se comportan las variables continuas en una muestra y si sabemos
cómo se comporta una muestra, entonces se pueden hacer predicciones, siempre y cuando
la muestra sea lo suficientemente grande como para representar a la población.
Por ejemplo, si se realiza una encuesta en una muestra de estudiantes de una escuela para
determinar sus hábitos alimenticios, lo que en realidad nos interesa es aprovechar esa
información para conocer los hábitos de la población estudiantil. De la misma manera,
cuando en la industria se selecciona una muestra de productos para verificar su calidad, lo
importante de esa muestra es que permite determinar la calidad de todo un lote de
producción. Piensa en los fabricantes de focos: seleccionan una muestra y los mantienen
encendidos para determinar el número de horas de duración; por supuesto no podrían hacer
esto con todos los focos, así que la información que obtengan de la muestra debe servirles
para calificar a toda su producción.
46
Como verás, resulta muy importante, necesario y económico realizar inferencias con respecto
a una población a partir de lo que se sabe de una muestra. La estadística ha desarrollado
para ello la teoría y los métodos; en particular, la estadística inferencial trabaja
fundamentalmente mediante el planteamiento de hipótesis, esto es, mediante el
planteamiento de afirmaciones que suponemos verdaderas y que analizamos para
comprobar o rechazar.
El proceso consiste en plantear dos hipótesis opuestas (una debe ser negación de la otra, de
manera que una resulte verdadera y otra falsa). La prueba de hipótesis busca demostrar que
una de ellas es muy improbable, lo que implica que la otra es probablemente la verdadera.
47
Las hipótesis estadísticas se denominan generalmente hipótesis nula (H0) e hipótesis alterna
(Ha). La hipótesis nula es la que se somete a prueba porque es la hipótesis que se establece
con el propósito de ser rechazada, en tanto que la hipótesis alterna es la conclusión a la que
se espera llegar.
Para las pruebas de hipótesis que vamos a estudiar vamos a

considerar que:
La hipótesis nula (H0) plantea que las dos medias que se

comparan son iguales:
En tanto que la hipótesis alterna (Ha) considera que las

medias que se comparan son diferentes:
Llegó el momento de saber cómo aplicar una prueba de hipótesis.
48
Pruebas de hipótesis
Existen varias pruebas de hipótesis. En este curso estudiaremos dos pruebas de hipótesis que
se utilizan para comparar las medias de dos grupos: la prueba normal y la t de Student.
¿Cuándo utilizar una u otra?
Empecemos con la prueba normal
49
Prueba normal (z)
Prueba normal
Prueba de hipótesis normal Z
La prueba normal se realiza en cuatro pasos:

1. El primer paso es formular las hipótesis estadísticas, que son hipótesis nula
que es la vas someter a prueba con la intención de rechazarla y se simboliza
como HO, y la hipótesis alterna simbolizada como HA, que es la conclusión
a la que se pretende llegar, la hipótesis nula siempre propone la igualdad
entre las medias y la hipótesis alterna propone que las medias son diferentes.
2. El paso 2 es elegir el nivel de significancia, esto es establecer el grado de
error que nos vamos a permitir, se simboliza con la letra griega alfa (α) y
generalmente en ciencias sociales se maneja un nivel de error del 5% lo que
quiere decir que se trabaja con una certeza o nivel de significancia del 95%
de que los resultados obtenidos son correctos, como la muestra es simétrica
el 5% se divide entre dos, entonces la zona de rechazo para cada lado es
de 0.025, o lo que es lo mismo 2.5%.
3. El paso 3 es buscar el valor Z de tablas, buscamos en las tablas
probabilísticas con valores Z, qué valor tiene z al 2.5%. Como el área bajo la
curva es 1, se le resta 0.025 a la unidad y tenemos 0.975, este valor lo
buscamos en las tablas que está justo aquí, marcado con rojo.
Y buscamos el valor de Z que se forma con el número de la primera columna

que sería 1.9, al cual le vamos a sumar el valor de la primera fila que es 0.06,
lo que nos da un valor Z de 1.96 para una confiabilidad del 95%. En una
curva normal se señalan las zonas de rechazo para la hipótesis nula, que es
la que estamos sometiendo a prueba y escribimos el valor Z es el que va a
determinar la zona de rechazo. Como la distribución normal tiene al centro
el valor 0, a la izquierda tiene valores negativos y a la derecha positivos, por
lo que la zona de rechazo la vamos a ubicar como todos los valores
mayores a 1.96 sería la zona de rechazo, y también todos los valores
menores a -1.96.
50
4. El paso 4 es calcular el estadístico Z para compararlo con la Z de tablas que
̅̅̅̅
(𝑋 ̅̅̅̅
1 −𝑋 2)
ya tenemos. La fórmula para calcular Z es esta: 𝑍 = 2 2
y nos muestra la
√𝑆1 +𝑆2
𝑛
diferencia de la media del grupo 1, menos la media del grupo 2 entre la raíz
cuadrada de la suma de la desviación estándar del grupo 1 y la desviación
estándar del grupo 2, entre el tamaño de la muestra.
5. Una vez que ya tienes el valor de la Z calculada se compara con el valor de

la Z de tablas que ya tienes en una gráfica como la que se mostró en la
diapositiva anterior para saber si cae en la zona de rechazo o en la zona de
no rechazo, aquí la zona de rechazo la tenemos marcada con color verde,
y toda el área blanca es la zona de no rechazo para la hipótesis que nula,
que es la que estamos sometiendo a prueba.
6. Finalmente el paso 6 es obtener una conclusión, si la Z calculada cae en la

zona de rechazo se rechaza la hipótesis nula, lo cual quiere decir, que la
media de los grupos que comparamos no son iguales, pero si cae en la zona
de no rechazo, simplemente se concluye que no es suficiente evidencia en
que haya diferencia entre las medias.
Ahora veamos un ejemplo:

Se quiere comprobar si hay diferencias de opinión respecto a la igualdad de
derechos para hombres y mujeres. Para esto se tomó el reactivo 8 de la base de
datos sobre equidad de género.
Como primer paso se formulan las hipótesis y estadísticas, y en la hipótesis nula se
expresa la igualdad de las medias, en tanto que en la alterna se expresa que hay
diferencia, la hipótesis nula quedaría así:
Las mujeres opinan igual a los hombres respecto de la afirmación “todos deben
colaborar en el arreglo de la casa.”
La hipótesis alterna sería:
Las mujeres opinan diferente a los hombres respecto de la afirmación “todos
deben colaborar en el arreglo de la casa”
Como paso 2 se elige trabajar con una confiabilidad del 95%, o lo que es lo mismo
un nivel de error del 5%.
El paso 3 indica que obtengamos la Z de tablas que ya sabemos que para una
confiabilidad del 95% el valor Z es de 1.96.
En el paso 4 vamos a calcular el valor de la Z calculada, retomando los valores de
la media y desviación estándar de cada grupo. De este lado tenemos nuestra
fórmula y de este tenemos los datos de mujeres y de hombres, tenemos la media
51
para cada grupo, la desviación estándar y el valor de n, sustituimos estos valores
en la fórmula.
Datos
Mujeres Hombres
𝑋1 =4.90
̅̅̅ 𝑋2 = 4.88
𝑆1 = 0.38 𝑆2 = 0.42
𝑛= 69
̅̅̅1 − ̅̅̅
(𝑋 𝑋2 )
𝑍=
2 2
√𝑆1 + 𝑆2
𝑛
4.90 − 4.88
𝑍=
2 2
√(0.38) + (0.42)
69
Empezamos a hacer nuestras operaciones y tenemos que 4.90-4.88 nos da un valor
de 0.02, elevamos el 0.38 al cuadrado y nos da 0.1444 y le sumamos el cuadrado
de 0.42, que nos da 0.1764 dividido entre 69. Hacemos la suma de estos dos y nos
da 0.3208. Después hacemos nuestra división 0.3208/69 y nos da 0.004649, a esa
cantidad le sacamos la raíz cuadrada, entonces tenemos 0.02 entre 0.06818
hacemos nuestra división y obtenemos el valor final de Z que es Z= 0.29, ya tenemos
nuestra Z calculada.
Una vez que ya tenemos el valor de la Z calculada la comparamos con el valor de
Z de tablas en una campana de Gauss como esta y vemos si cae en la zona de
rechazo, que aquí está marcado con verde o en la zona de no rechazo, recuerda
que al centro está el 0 entonces aquí ubicamos el valor de la Z calculada que es
0.29 y vemos que cae en la zona de no rechazo, por lo tanto podemos concluir lo
siguiente, no hay suficiente evidencia para afirmar que la opinión de las mujeres
es diferente de la de los hombres respecto a que todos deben de colaborar en el
arreglo de la casa.
Ahora ya sabes cómo se aplica la prueba normal para comparar las medias de dos grupos,
pero es importante que sepas que no todas las muestras se distribuyen normalmente y no
siempre es posible trabajar con muestras lo suficientemente grandes, por lo que en esos casos
se usan otras pruebas estadísticas, y una de las más conocidas es la t de Student.
52
T de Student
Fue propuesta por William S. Gosset en 1908, bajo el seudónimo de “Student” y surge de la
necesidad de evaluar probabilidades de muestras muy pequeñas, donde se desconoce la
desviación estándar de la población, por lo que no se ajustan a la distribución normal.
Su forma es muy parecida a la de la prueba normal, sólo que es más alargada.
La distribución t de student también se puede usar cuando cualquiera de las siguientes

condiciones se presentan:
La distribución de la muestra es normal
La distribución de la muestra es simétrica, unimodal, sin puntos dispersos o

alejados y n ≤ 15
La distribución de la muestra es moderadamente asimétrica, unimodal, sin

puntos dispersos y el tamaño de la muestra está entre 16 y 30
El tamaño de la muestra es mayor a 30 sin puntos dispersos (en este caso

también se puede utilizar la distribución normal)
53
Existen varios tipos de prueba t, las hay para muestras relacionadas, que se utilizan cuando en
una misma muestra se hacen dos mediciones, como cuando se aplica un diseño pre test y
postest, por ejemplo cuando en un salón de clase se mide el número de palabras leídas antes
de aplicar un método y después de haberlo aplicado.
Otra prueba t, que es la que vamos a conocer, es la prueba t para muestras independientes,
que se aplica a diferentes grupos, por ejemplo, retomando el mismo ejemplo de la lectura,
cuando se quiere saber qué método de lectura es más eficiente, y se aplica cada método
en dos grupos distintos.
Para aplicar la prueba de hipótesis se hace siguiendo

básicamente los mismos pasos que cuando se aplica la prueba
normal. Veamos el procedimiento.
T de Student
Prueba de hipótesis t de Student para muestras independientes
El primer paso es formular las hipótesis estadísticas HO es la hipótesis nula que

manifiesta igualdad entre las medias y se somete a las pruebas con la intención
de rechazarla, en tanto HA es la hipótesis alterna que es la conclusión a la
queremos llegar y que manifiesta diferencia entre la medias.
54
El paso dos es elegir el nivel de significancia con el que vamos a trabajar, que en
este caso trabajaríamos al 95% de confiabilidad, o lo que es lo mismo nos
permitiríamos un 5% d error.
El paso tres es calcular la t con la siguiente formula:
̅̅̅1 − ̅̅̅
(𝑋 𝑋2 )
𝑡=
𝑆𝑆1 + 𝑆𝑆2 1 1
√( )( + )
(𝑛1− 1) + (𝑛2− 1) 𝑛1 𝑛2
que expresa el cociente de la diferencia de medias entre el error estándar de la

diferencia de las medias. Observa que en esta fórmula se necesitan datos de los
dos grupos que se están comparando, por lo que cada dato tiene su subíndice
que indica a que grupo pertenece. Para hacer el cálculo de la t vas a necesitar:
𝑋̅= Media de cada grupo
𝑛 = Tamaño de la muestra de cada grupo
SS= Suma de cuadrados de cada grupo y su valor se obtiene sumando el
cuadrado de cada valor representado por X menos el cociente de la sumatoria al
cuadrado de todos los datos entre el tamaño de la muestra.
Una vez que se tiene el valor de la suma de los cuadrados se puede sustituir todo
para calcular el valor de t.
El paso 4 es obtener la t de tablas, para obtener la t de tabla necesitas el nivel de
significancia y los grados de libertad, estos los obtienes sumando el tamaño de las
dos muestras menos 2, para buscar el valor de la t de tablas primero localiza en la
primera columna los datos de libertad, que aquí tenemos marcado en color rojo
por ejemplo el 12 y en la primera fila localizas el valor de alfa o nivel de error
dividido entre 2; como se trata de una curva simétrica el valor que vamos a
localizar en la primer fila es 0.25 que al cruzarlo con la columna tendremos el valor
de la t calculada, que en este ejemplo sería 2.2010.
Como siguiente paso vamos a comparar el valor de la t de tabla con el valor de
la t calculada para saber si cae en la zona de rechazo o en la zona de no rechazo,
finalmente formulamos la conclusión.
Ahora veamos un ejemplo:
Para este ejemplo vamos a retomar los datos de la encuesta de equidad de
género. Se va atrabajar con varones y mujeres de 18 años y se va a analizar si hay
diferencia en la opinión que tienen respecto del reactivo 9 de la encuesta, que es:
los varones corren menor riesgo en la calle de noche que las mujeres, por lo que
la hipótesis nula HO es: Los hombres opinan igual que las mujeres, respeto de la
afirmación “los hombres corren menos riesgos en la calle de noche que las mujeres.
Y la hipótesis alterna es HA: Los hombres opinan diferente que las mujeres respecto
de la afirmación “los hombres corren menos riesgos en la calle de noche que las
mujeres”
Se decide trabajar con nivel de significancia del 95%, o lo que es lo mismo se
trabajara con error del 5%.
55
El siguiente paso es calcular el valor de t, para ello primero vamos a sumar los
valores de 𝑥1 , nuestro primer grupo que son 𝑥1 serían las mujeres y tenemos que la
sumatoria es 36.
Después hacemos los mismo sumamos los valores del segundo grupo que es el de
los hombres y la sumatoria de 𝑋2 es de 24, luego elevamos cada dato al cuadrado
para obtener el cuadrado de x, entonces 4 al cuadrado nos da 16, 3 al cuadrado
nos da 9, 5 al cuadrado nos da 25, cero al cuadrado nos da 0, cinco al cuadrado
nos da 25, 3 al cuadrado nos da 9 que se repiten estos datos y 5 al cuadrado nos
da 25, sumamos todos los cuadrados y obtenemos que la sumatoria de las x2 es
152 para el primer grupo.
Hacemos lo mismo para el segundo grupo, el primer dato es 1 elevado al
cuadrado es 1, 3 al cuadrado nos da 9, 0 al cuadrado nos da cero, 4 al cuadrado
nos da 16, 3 al cuadrado 9, cuatro al cuadrado, 16 y cinco al cuadrado nos da 25,
sumamos todos los cuadrados y tenemos que la sumatoria de x2 para el segundo
grupo es 92.
Ahora calculamos el promedio de cada grupo. Para el primer grupo de mujeres es
3.6 y para hombres es 2.67. Aquí por alguna razón que no reconoció el programa
salió el signo de interrogación, pero es el promedio, ya sabemos que n1 son 10 y
n2 son 9.
Una vez que ya tenemos todos estos datos y antes de sustituir los valores en la
fórmula de t necesitamos calcular la suma de cuadrados para cada grupo. Aquí
tenemos la fórmula de la suma de cuadrados aparece con subíndice 1 para
calcular el primer grupo que es el de mujeres y aquí aparece con subíndice 2 para
calcular el de los hombres, entonces podemos sustituir los valores.
Vamos a empezar calculando SS para mujeres, nos pide primero la sumatoria de
las x2, aquí está del primer grupo es 152 menos la sumatoria de las x, la sumatoria
de las x es 36 elevado al cuadrado es 1296, entre 𝑛1 que sabemos que son 10
datos, haciendo toda las operaciones nos da 22.4 de 𝑆𝑆1 .
(∑ 𝑋1 )2 1296
𝑆𝑆1 = ∑ 𝑋12 − 𝑛1
𝑆𝑆1 = 152 − 10
= 152 − 129.6 = 22.4
Y hacemos ahora lo mismo para SS2, nos pide la sumatoria de las x2 que es 92,
menos las sumatoria de las x del segundo grupo que es 24 elevado al cuadrado
nos da 576 entre n que son 9 datos, hacemos las operaciones y nos da un valor de
SS para el grupo dos de 28.
(∑ 𝑋2 )2 576
𝑆𝑆2 = ∑ 𝑋22 − 𝑛2
𝑆𝑆2 = 92 − 9
= 92 − 64 = 28
Y ahora sí podemos sustituir los valores en la fórmula de t, aquí nos va a pedir el

promedio del primer grupo menos el promedio del segundo grupo. Sabemos que
el promedio del primer grupo 3.6 menos el promedio del segundo grupo que es
2.67, entre la raíz cuadrada de 𝑆𝑆1 que es 22.4 más la raíz cuadrada del segundo
grupo que es 28, esto lo dividimos entre n1-1, que sería 10-1 más n2-1 que seria 9-1,
multiplicado por 1/10 más 1/9. Hacemos las operaciones.
56
̅̅̅1 − ̅̅̅
(𝑋 𝑋2 )
𝑡=
𝑆𝑆1 + 𝑆𝑆2 1 1
√( )( + )
(𝑛1− 1) + (𝑛2 − 1) 𝑛1 𝑛2
̅̅̅̅−2.67
(3.6 ̅̅̅̅̅̅) 0.93 0.93 0.93 0.93
𝑡= = = = = = 1.118
22.4+ 28 1 1
√((10−1)+ (9−1) )(10+9) √(
50.4 √2.96 (0.21) √.6216 0.788
)(0.1+0.11)
17
Muy bien, ahora el paso cuatro es buscar el valor de la t de tablas para ello lo
primero que tenemos que buscar es los grados de libertad que es n1+n2-2, entonces
los grados de libertad serían 10+9-2 que serían 17 grados de libertad, ubicamos los
17 grados de libertad en la primera columna que estarían aquí, los 17 grados de
libertad y como sabemos que vamos a trabajar con un error 5% dividimos el 0.05
/2 que nos daría 0.025 que está aquí en la primer fila y cruzamos los datos, y una
vez que los cruzamos tenemos el valor de t de tabla que sería 2.110.
Ahora que ya tenemos el valor de la t calculada en la t de tabla los comparamos
y vemos que cae en la zona de no rechazo, aquí el valor de la t de tablas sería
2.11, aquí tenemos los puntos mayores a 2.11 y aquí menores a -2.11 como mi t
calculada es de t=1.118 más o menos caería aquí, cae en la zona de no rechazo,
por lo que se concluye que no hay suficiente evidencia para afirmar que hay
diferencias de opinión entre hombres y mujeres respecto de que “los hombres
corren menos riesgo en la calle de noche que las mujeres”.
Pongamos en práctica lo aprendido

¿Qué tanto aprendí de distribución de probabilidades?
Ahora que ya sabes cómo aplicar una prueba de hipótesis, puedes ponerlo en práctica con
los datos de tu investigación, seguramente te gustaría comparar la opinión de alguno de tus
reactivos por género, o por rango de edad, por estado civil o por cualquier otro grupo que
identifiques y que te gustaría comparar. Tu asesor te ayudará con gusto para definir este punto
si lo necesitas, pues con esta prueba vas a dar el toque final al informe de investigación que
has venido realizando.
57
Pero antes de que integres tu informe final y des por concluido este curso recapitulemos:
A lo largo de este curso has aprendido a observar de manera diferente el medio en el que te
desenvuelves, sabes que los aspectos sociales también son susceptibles de ser medidos y
analizados mediante el método científico, y que prácticamente todo evento o circunstancia
arroja datos susceptibles de ser analizados y que al sistematizarlos se convierten en
información valiosa que nos permite tomar mejores decisiones.
Hasta este momento hemos aplicado algunas herramientas estadísticas para procesar datos,
pero te has preguntado ¿qué pasa cuando lo que se quiere analizar tiene muchos, muchos
más datos de los que vimos en esta unidad? Tantos que no te los puedas imaginar. Por ejemplo
los efectos de las enfermedades en la población de los diferentes países de acuerdo a su
medio geográfico, o bien, ¿cómo hace un buscador para “saber” qué página de internet es
la más consultada sobre un tema si son millones de personas quienes hacen las búsquedas?
¿Cómo funciona un reloj deportivo inteligente para determinar cuánto tienes que correr
hoy?Pues bien, como ya viste, los datos se pueden convertir en información valiosa que nos
permita entender lo que ocurre en el medio donde estamos y tomar decisiones al respecto.
Para tomar las decisiones no siempre se trata de menos de 30 datos, o 200, o ni siquiera mil.
Puede haber cantidades exorbitantes para procesar, y en ese caso las herramientas que
hemos visto en este curso son insuficientes. Pero existe una herramienta para analizar grandes
cantidades de datos.
Estamos hablando de
Big data
¿Cuánto es una cantidad grande? Para que te des una idea

estamos hablando de petabytes (1015) o zetabytes (1021) y
cada vez la producción de datos es mayor, por lo que se
requiere de programas especiales para analizar y procesar
estas grandes cantidades de datos en el menor tiempo
posible con la mayor exactitud.
Los big data se caracterizan por la 5 V’s.
Volumen
58
Se trabaja con cantidades de datos mayores a petabytes o zetabytes
Variedad
Permiten almacenar todo tipo de datos, estructurados en tablas como fechas y números
o no estructurados como formatos PDF, correos electrónicos o documentos de textos.
Velocidad
Dada la velocidad con que se generan o se modifican, los datos se reciben y se procesan
en tiempo real, favoreciendo una mejor toma de decisiones.
59
4
Veracidad
Los datos son confiables, pues se eliminan aspectos que pueden hacerlos imprevisibles
como el tiempo.
Valor de dato
Reconocen qué datos deben analizar de acuerdo a la problemática de interés, por
ejemplo, para saber qué producto se vende más en una época determinada.
Generalmente a los big data se les vincula con datos informáticos, que arrojan las redes
sociales, correos electrónicos, consultas en la nube, imágenes, pagos con tarjeta de crédito,
compras en línea, etc. Y para que te des una idea del uso que pueden tener te invitamos a
ver las estadísticas móviles de Hans Rosling:
60
Uso del big data
¿Te parecieron familiares las gráficas que viste en el video? ¿Pudiste identificar las variables
en los ejemplos? ¿Notas la moda en la curva de la distribución mundial de ingresos y cómo se
distribuye el porcentaje en la curva?
En el diagrama de dispersión de la edad de supervivencia de los niños, ¿Los datos se ajustan
a una línea recta? ¿Reconociste a los quintiles como un término técnico que puedes
interpretar?
Si no pudiste contestar alguna de la preguntas, te invitamos a ver nuevamente el video y a
reconocer cómo el procesamiento de los big data, aunque se hace con otra tecnología, sí
puedes interpretarlos y comprenderlos a partir los conocimientos que adquiriste en esta
asignatura.
Finalmente es importante que sepas que los big data ofrecen un campo infinito de aplicación
y se utilizan para resolver problemas ambientales, de educación, de salud y de seguridad, y si
quieres saber dónde se están aplicando puedes consultar “6 casos de éxito en la aplicación
del Big Data” (TIC beat, 2016)
Consulta el siguiente link:

http://www.ticbeat.com/empresa-
b2b/casos-exito-aplicacion-big-data/
61
Es momento de integrar tu informe de investigación.
Ya llegamos al término de la asignatura y has venido trabajando arduamente sobre un tema

de tu interés, para conjuntar todo lo que has hecho en estas semanas, vas a integrar un
informe académico formal que ya habías venido realizando en la unidad 3 y solamente falta
que lo completes, ¿te acuerdas de este documento?
Carátula
Abstract
Palabras clave
Marco teórico
Método
o Planteamiento del problema
o Objetivo
o Hipótesis
o Variables dependiente e independiente
o Procedimiento
o Descripción de la muestra
Resultados
Conclusiones
Fuentes consultadas
Anexos
Veámoslo ºpor partes:
Ya tienes la carátula, ella debe contener título de tu investigación, los nombres de los
integrantes del equipo, sede, nombre del asesor y fecha de entrega.
El abstract es un resumen de toda tu investigación y debe tener el objetivo de la investigación,
explicar brevemente el método y los resultados.
Después del abstract van las palabras clave, seguidas del marco teórico que ya trabajaste
en la unidad 2.
También ya tienes el método, que debe tener el planteamiento del problema, objetivo,
hipótesis con las variables independiente y dependiente bien identificadas, la descripción del
procedimiento y de la muestra con sus gráficas.
En la sección de resultados vas a colocar las descripciones y gráficas que trabajaste en la
unidad 3, junto con los resultados de la tabla de datos cruzados o análisis de regresión que
trabajaste en la unidad 4, además de incluir los resultaos de una prueba de hipótesis, tú
decides si aplicas la normal o la t de Student. En los resultados no vas a exponer todo el
62
procedimiento que seguiste para calcular la prueba de hipótesis, solamente planteas tus
hipótesis estadísticas, con qué confiabilidad trabajaste, el valor que obtuviste de la prueba
aplicada y la conclusión para saber si se rechazó o no la hipótesis nula.
Para las conclusiones, toma en cuenta que deben mencionar si comprobaste o no tu hipótesis
conceptual, la que planteaste en la unidad 2, pues todos los análisis estadísticos se centraron
en esta hipótesis, por lo que el lector debe tener total claridad de qué se concluye del análisis
de los resultados. También puedes incluir las limitaciones del estudio, como las fallas o
circunstancias que pudieran afecta la validez o confiabilidad de tu investigación, esto
ayudará a posteriores investigadores a corregir estos errores. También puedes contrastar tus
conclusiones con las de estudios previos que revisaste al hacer el marco teórico y proponer
interrogantes que no abarcó tu estudio o que surgieron al hacerlo.
Después van las fuentes consultadas al estilo APA, y finalmente en el anexo vas a incluir el
formato de encuesta que aplicaste.
Para que tengas un claro ejemplo de cómo debe quedar tu informe final
puedes ver el informe de investigación sobre equidad de género que
hicieron María, Jorge y Laura a continuación.
Diferencia en la percepción de las responsabilidades que les corresponden a hombres y

mujeres. Un estudio en jóvenes preuniversitarios del oriente de la Ciudad de México.
Presentan:
Anguiano Anguiano Jorge
López Aguirre Laura
Pérez Martínez María
Bachillerato en línea.
SEDE Ciudad de México
ASESOR: Teresita Aguirre
Fecha de entrega: 14 de febrero de 2017
Abstract: Las actividades y responsabilidades de hombres y mujeres son distintas, aunque

poco a poco se han ido homogeneizando, por lo que en este estudio se desea investigar si
la perspectiva de los jóvenes, como nuevas generaciones ha cambiado o continúan
separando las responsabilidades de acuerdo al género. Objetivo: Demostrar que jóvenes
preuniversitarios tienen diferente perspectiva de las responsabilidades que le corresponde a
cada uno de acuerdo a su género. Método: Se aplicó un cuestionario tipo Likert a 72
estudiantes de bachillerato en una escuela particular ubicada al oriente de la Ciudad de
México, y participaron 39 mujeres y 33 varones, que fueron elegidos por muestreo
accidental, en edades de 15 a 19 años. Resultados: Se analizaron 5 reactivos en los que se
63
pedía la opinión acerca de actividades y responsabilidades típicas de cada género, como
el que la mujer sea la responsable de la limpieza y el varón el proveedor del hogar y se
encontró en todos los casos que los jóvenes estaban en su mayoría en desacuerdo y
completamente en descuerdo. Conclusiones: No se encontró diferencia en la opinión de
las responsabilidades que corresponden a hombres y mujeres de acuerdo al género.
Palabras clave: Responsabilidades por género, perspectivas.
Marco teórico
Hablar de equidad de género es algo prácticamente cotidiano. Sin embargo, dentro de

este concepto existen muchas puntualizaciones que es necesario precisar. Podemos hablar
desde el punto de vista laboral, de salud, de derechos políticos, de derecho a la educación,
etc.
El concepto de equidad de género surge cuando se rompe el esquema patriarcal y se

busca la igualdad de derechos para hombres y para mujeres, para que todos tengan una
participación activa en la vida social y las mismas oportunidades de desarrollo. Este tema
es tan amplio que para abordarlo es necesario definirlo, la ONU, en la Cuarta Conferencia
sobre la Mujer en 1995, asentó que: “La igualdad de derechos, oportunidades y acceso a
los recursos, la distribución equitativa de las responsabilidades familiares entre el hombre y la
mujer y una colaboración armoniosa entre ambos son esenciales para su bienestar y el de su
familia, así como para la consolidación de la democracia”. (ONU, 1995).
Como se puede apreciar, un aspecto fundamental dentro de la igualdad de género es la

cuestión de los roles de género, según la ONU, el término “género” se refiere al conjunto de
normas, prácticas e instituciones sociales que se establecen entre mujeres y hombres
(también conocidas como “relaciones entre los géneros”), por lo que de acuerdo al género,
a cada quien se le asignan tareas y responsabilidades específicas, las cuales son aprendidas
desde la niñez en casa y también de acuerdo al género se les enseña a que se comporten
de cierta manera ante determinadas situaciones, por ejemplo no se ve mal que las mujeres
lloren ante una molestia, lo cual no es bien visto en un hombre; o bien, las mujeres son las
responsables de la crianza de los hijos y los varones “le ayudan”. También en la toma de
decisiones para la elección de carrera, algo que puede parecer muy personal, hay
diferencias, pues aunque no es oficial, hay carreras que suelen elegir los varones y otras que
son elegidas más por mujeres; también en los trabajos hay una diferencia en cuanto a los
cargos que ocupan hombres y mujeres, e incluso en cuanto a salarios.
Es importante mencionar que la época y el contexto sociocultural tiene una influencia de

peso en estas conductas esperadas de acuerdo al género, en las responsabilidades que se
le asigna a cada uno y en los derechos que les corresponden, lo cual hace que exista una
brecha en cuanto a lo que se espera que hagan las mujeres y los hombres tanto en el
aspecto social como laboral, educativo e incluso personal.
64
Históricamente, los hombres y las mujeres han desempeñado roles muy distintos en cuanto
a su participación en la sociedad, tanto dentro como fuera de la casa, esto hace que no
existan condiciones de igualdad, pues hombres y mujeres tienen diferentes
responsabilidades, lo cual da lugar a derechos distintos. Sin embargo con los múltiples
cambios que surgen al modificarse el sistema y las actividades económicas, han dado lugar
a que los roles tradicionales ya no sean los mismos y la mujer empiece a adquirir otras
responsabilidades y a exigir iguales derechos a los que disfrutan los varones, ya que al
incorporarse a la fuerza laboral adquiere independencia económica y participa en la toma
de decisiones de su hogar y de su núcleo social.
Mucho se ha logrado en cuanto a la participación de la mujer en el mundo laboral, sin

embargo, las labores dentro de la casa siguen siendo realizadas principalmente por las
mujeres, ya sean la esposa, la hija o la abuela, incluso si trabajan fuera de casa, son ellas
las encargadas de administrar y mantener en buen estado el hogar, y esto es transmitido
generación tras generación. Según cifras del INEGI las mujeres destinan al trabajo en el
hogar un promedio de 42.3 horas, contra 15.2 horas que dedican los varones, esto es, que
las mujeres invierten tres veces más tiempo en el hogar que los hombres. (CNDH, 2015)
Al paso del tiempo las mujeres han conquistado más espacio en los empleos, han
avanzado un poco en la política, pues todavía son muy pocas las mujeres que ocupan
cargos importantes en ella. En las universidades son muchas más las mujeres que se
matriculan en carreras “masculinas”; sin embargo, y a pesar de los logros alcanzados, y de
que la mujer ha demostrado que puede desempeñar labores con la misma eficiencia que
los hombres, y que ha adquirido responsabilidades fuera del hogar, la educación informal,
la de casa, justo la que está a cargo de las mujeres es la que sigue marcando diferencias
en las roles que desempeñan cada uno de los géneros.
En casa se aprende lo que corresponde hacer a un hombre y a una mujer y cuáles son sus
responsabilidades de acuerdo a su género, por lo que cabe preguntarse si las nuevas
generaciones, las de los jóvenes de nivel medio superior continúan siendo educadas en
casa para desempeñar los roles de género tradicionales.
En este sentido, la pregunta de investigación es ¿Los jóvenes preuniversitarios tienen
diferente perspectiva de las responsabilidades que le corresponde a cada uno de acuerdo
a su género? O siguen en la misma línea en cuanto a derechos y obligaciones para cada
uno.
Método
Planteamiento del problema
A pesar de los cambios en la sociedad, y de que la mujer se ha incorporado al campo

laboral igual que los hombres, desempeñando iguales labores y con las
65
mismas responsabilidades que ellos, la educación sigue marcando diferencias en las roles
que ha de desempeñar cada uno.
Este rol se aprende en casa y es en este primer núcleo donde se perpetúan y marcan las
responsabilidades que corresponden a cada género, por lo que cabe preguntarse si las
nuevas generaciones continúan siendo educados en casa para desempeñar los roles de
género tradicionales. Por lo que la pregunta para abordar este tema en el presente trabajo
es ¿Los jóvenes preuniversitarios tienen diferente perspectiva de las responsabilidades que
le corresponde a cada uno de acuerdo a su género?
Objetivo: Demostrar que jóvenes preuniversitarios tienen diferente perspectiva de las

responsabilidades que le corresponde a cada uno de acuerdo a su género.
Hipótesis: El género influye en la percepción de los jóvenes preuniversitarios respecto de las

responsabilidades que les corresponden a hombres y mujeres.
Variable independiente: Género de los jóvenes preuniversitarios.
Variable dependiente: Percepción de las responsabilidades que les
corresponde a cada género.
Procedimiento
Para realizar la investigación se aplicó un cuestionario tipo Likert a 72 estudiantes de nivel

medio superior (bachillerato) en una escuela particular ubicada al oriente de la Ciudad de
México, mismo que se puede ver en el Anexo. Se trata de una muestra no probabilística
donde se seleccionó a los participantes por muestreo accidental. Del total de la muestra,
33 son hombres y 39 mujeres, cuyas edades oscilan entre 15 a 19 años. 31 participantes
manifestaron tener estudios completos de bachillerato y 41 dijo tener estudios completos de
secundaria, todos con solteros y ninguno tiene hijos, solamente 4 trabajan actualmente.
A continuación se puede apreciar cómo estaba formada la muestra:
66
Del total 46% son hombres y 54% mujeres
En esta gráfica se puede apreciar que los participantes iban de 15 a 19 años de edad, y
de todas las edades, la de 16 fue la de mayor frecuencia.
67
Del total de encuestados, poco más de la mitad (57%) tiene estudios concluidos de
secundaria y están cursando actualmente el bachillerato. El resto (43%) ya concluyó
sus estudios de bachillerato.
Del total de participantes, la mayoría no trabaja (94%) y sólo el 6% sí trabaja actualmente.
68
Resultados
Se realizó un análisis de estadística descriptiva de 5 reactivos, relacionados con la hipótesis;

así mismo se realizó un análisis de correlación y una prueba de hipótesis.
En las tablas 1, 2 y 3 se pueden ver los datos obtenidos al calcular las medidas de tendencia
central, de dispersión y de posición de los reactivos analizados:
Tabla 1. Medidas de tendencia central

Reactivos Media Mediana Moda
1.Es responsabilidad de la mujer mantener la limpieza del

1.07 1 0
hogar
3.Los hombres son los responsables de llevar el sustento

1.38 2 0
a la casa
4.A la mujer le corresponde hacer de comer 0.92 1 0
9.Los hombres corren menos riesgos en la calle de

2.74 3 3
noche que las mujeres
10. Una mujer exitosa termina quedándose sola 0.48 0 0
Tabla 2. Medidas de dispersión

Desviación
Reactivos Rango Varianza
estándar
1. Es responsabilidad de la mujer mantener la
5 2.31 1.52
limpieza del hogar
3.Los hombres son los responsables de llevar el
5 2.75 1.66
sustento a la casa
4.A la mujer le corresponde hacer de comer 5 1.74 1.32
9.Los hombres corren menos riesgos en la calle de
5 3.42 1.85
noche que las mujeres
10.Una mujer exitosa termina quedándose sola. 5 1.56 1.25
Tabla 3. Medidas de posición

Reactivos Cuartil 3 Decil 4 Percentil 80
(Q3) (D4) (P80)
69
1.Es responsabilidad de la mujer mantener la 2 0 3
limpieza del hogar
3.Los hombres son los responsables de llevar el 3 1 4
sustento a la casa
4.A la mujer le corresponde hacer de comer 2 0 3
9.Los hombres corren menos riesgos en la calle 4 3 5

de noche que las mujeres
10.Una mujer exitosa termina quedándose 1 0 2
sola.
Al graficar los resultados resulta interesante observar lo siguiente:
En esta gráfica, donde se muestran los resultados totales del reactivo “1. Es
responsabilidad de la mujer mantener la limpieza del hogar”, se aprecia
claramente que el promedio de los jóvenes encuestados está casi completamente
en desacuerdo con la afirmación y la moda indica que la opción que más
eligieron fue estar completamente en desacuerdo.
La forma de la gráfica muestra una tendencia a estar en desacuerdo con la

afirmación y los datos se encuentran concentrados a la izquierda.
70
El reactivo 1 también se analizó haciendo una tabla cruzada para comparar las
opiniones por género y se encontró que aunque en su mayoría, tanto hombres como
mujeres están completamente en desacuerdo, son más las mujeres que lo están que
los hombres, pues la cantidad de mujeres que están completamente en
desacuerdo casi duplica a la cantidad de varones que están completamente en
desacuerdo.
71
Se analizó el mismo reactivo comparando las opiniones del total de mujeres contra las del
total de hombres y sobresale que del total de las mujeres, el 56.41% están completamente
en desacuerdo en que mantener la limpieza del hogar es una responsabilidad de la mujer;
sin embargo, solamente una tercera parte de los hombres (36.36%) está completamente
en desacuerdo con esta afirmación.
En esta gráfica se puede observar que mientras los jóvenes creen que la limpieza del
hogar no solamente es responsabilidad de la mujer, el llevar el sustento a la casa tampoco
se ve como una responsabilidad propia de los varones, aunque
El promedio para esta afirmación fue 1.38, la mitad (mediana) eligió de 2 en adelante y la
otra mitad, de 2 o menos. La moda indica que la opción que más eligieron fue estar
completamente en desacuerdo.
72
Al analizar el reactivo “4. A la mujer le corresponde hacer de comer”, los jóvenes
encuestados manifestaron en su mayoría estar completamente en desacuerdo y una
cuarta parte está casi completamente en desacuerdo.
En el reactivo “9. Los hombres corren menos riesgos en la calle de noche que las
mujeres”, se observa que el promedio fue 2.74 y la mediana es 3, lo cual quiere decir
que la mitad está de acuerdo y la otra mitad en desacuerdo. La opción más
elegida fue también 3, que marca una tendencia hacia estar de acuerdo con la
afirmación.
73
Al graficar el reactivo “10. Una mujer exitosa termina quedándose sola”, se observa
que la mayoría está completamente en desacuerdo. Por lo que la gráfica
concentra sus datos en la opción 0 y tiene un promedio de 0.40. una mediana de 0
y una moda de 0.
Esto también se observa claramente en la gráfica circular, donde se muestra que el

65% está completamente en desacuerdo.
También se realizó una prueba de correlación de Pearson para saber si hay

correlación entre creer que los hombres son responsables de llevar el sustento a la
74
casa y que pueden gritar cuando algo no les parece, y se obtuvo un coeficiente de
0.32226085, lo cual indica que no hay correlación entre las variables, por lo que no
se pudo hacer el análisis de regresión.
Entonces se buscó si había correlación entre las variables edad y creer que a la
mujer le corresponde hacer de comer, y se obtuvo un valor r=0.04887842, por lo que
tampoco se encontró correlación entre estas variables y no procedió hacer el
análisis de regresión.
75
Como parte del análisis estadístico se aplicó una prueba de hipótesis con el
estadístico z (normal) a un nivel de significancia del 95% para saber si la diferencia
entre la opinión de hombres y mujeres respecto del reactivo “8. Todos deben
colaborar en el arreglo de la casa” es estadísticamente significativa.
Las hipótesis estadísticas planteadas fueron las siguientes:
Ho: Las mujeres opinan igual que los hombres respecto de la afirmación “Todos
Ha: Las mujeres opinan diferente a los hombres respecto de la afirmación “Todos
Se empleó el siguiente estadístico para calcular el valor z de la muestra
Y se obtuvo un valor de z=0.29, por lo que al 95% de confiabilidad se concluye que
No hay suficiente evidencia para afirmar que la opinión de las mujeres es diferente
a la de los hombres respecto de que todos deben colaborar en el arreglo de la casa.
Conclusiones
Al hacer el análisis estadístico de las opiniones de jóvenes preuniversitarios sobre su

percepción sobre las obligaciones asignadas por género, no se demuestra que
tengan diferente perspectiva de las responsabilidades que le corresponde a cada
uno de acuerdo a su género, pues ambos manifestaron estar en desacuerdo y
completamente en desacuerdo con las afirmaciones en las que se designaban
actividades por género, y que se analizaron mediante los reactivos:
2. Es responsabilidad de la mujer mantener la limpieza del hogar
76
3.Los hombres son los responsables de llevar el sustento a la casa
4.A la mujer le corresponde hacer de comer
9.Los hombres corren menos riesgos en la calle de noche que las mujeres
10.Una mujer exitosa termina quedándose sola.
Esto nos lleva a pensar que las responsabilidades de las actividades del hogar se
han ido modificando y con ello también ha cambiado la perspectiva que tienen los
jóvenes acerca de las funciones y responsabilidades que tienen y que no dependen
del género.
Al aplicar la prueba de hipótesis z se confirma que estadísticamente no hay

diferencia significativa entre las opiniones de hombres y mujeres, ambos opinaron
en el mismo sentido en todos los reactivos y tampoco se encontró correlación entre
la edad y la opinión de los jóvenes.
Esto no necesariamente conduce a que las actividades del hogar se asignen y/o
realicen de forma equitativa, pero muestra que las generaciones más jóvenes ya no
perciben que haya actividades que sean exclusivas de un género por el hecho se
ser hombre o mujer.
Una limitante del estudio es la muestra, que fue pequeña y solamente contempló a
la población de una escuela, lo cual puede influir porque se trata de jóvenes que
se desarrollan en ambientes similares. Por lo que se sugiere ampliar la muestra y
también ampliar el rango de edad de los participantes.
Fuentes consultadas:
CNDH. (2015) Responsabilidades familiares compartidas, disponible en
http://www.cndh.org.mx/sites/all/doc/Programas/Ninez_familia/Material/foll_respon
sabilidadesFamiliaresCompartidas.pdf
Hernández Prados, MA. y Lara Guillén, B. (2015) Responsabilidad familiar ¿una cuestión de
género?, en Revista de educación social, 21, disponible en
http://www.eduso.net/res/21/articulo/responsabilidad-familiar-una-cuestion-de- genero-
Naciones Unidas, (1995). Informe de la Cuarta Conferencia sobre la Mujer, 4 al 15 de septiembre de

1995, Beijing, China (A/CONF.177/20), párrafo 15.
77
ONU, (2008) El papel de los hombres y los niños en el logro de la igualdad entre los géneros, en La
mujer en el 2000 y después, disponible en
http://www.un.org/womenwatch/daw/public/w2000/08- 52641_Women2000_SP_FIN.pdf
ONU, (s/f) La distribución equitativa de las responsabilidades entre mujeres y hombres, incluyendo
cuidados, en Statements. Baha’I International Community, disponible en
https://www.bic.org/statements/la-distribucion-equitativa-de-las-responsabilidades- entre-mujeres-y-
hombres-incluyendo-ciudados#qUZMTmMHWI86QM4Y.97
SRE. (2016) El reparto de las tareas y responsabilidades entre mujeres y hombres, disponible en
https://www.gob.mx/sre/articulos/el-reparto-de-las-tareas- y-responsabilidades-entre-mujeres-y-
hombres
Anexo
Buenos (días / tardes / noches): Mi nombre es y soy estudiante del

Bachillerato a Distancia. Como parte de mi curso de investigación en ciencias
sociales estamos aplicando una encuesta anónima. Le agradeceré me permita
hacerle unas preguntas. Contestarlas le tomará menos de cinco minutos. ¿Me
permite encuestarlo/la? (Si la respuesta es sí, proseguir. Si la respuesta es no,
agradecer y buscar otro candidato).
Edad Género: M F ¿Tiene hijos?: Si No

Grado máximo de estudios concluidos:
Estado civil: Casado Soltero
¿Está empleado/a actualmente? Si No
Instrucciones: Por favor escriba en una escala del 0 al 5 qué tanto coincide
con las siguientes afirmaciones, considerando que 0 es totalmente en
desacuerdo y 5 totalmente de acuerdo.
0 1 2 3 4 5
1. Es responsabilidad de la mujer mantener la limpieza del
2. hogar
Los varones son más hábiles para negociar
3. Los hombres son los responsables de llevar el sustento a la casa
4. A la mujer le corresponde hacer de comer
5. Un hombre puede gritar cuando algo no le parece
78
6. La mujer que trabaja descuida su hogar aunque no quiera
7. El hombre merece descansar cuando llega de trabajar
8. Todos deben colaborar en el arreglo de la casa
9. Los hombres corren menos riesgos en la calle de noche que las
mujeres
10. Una mujer exitosa termina quedándose sola
¿Ya tienes listo tu informe con todas sus partes? Es

momento de enviarlo para que te evalúe tu asesor.

Informe de investigación
Estás a un par de pasos de concluir la asignatura. Es

momento de revisar lo que aprendiste en esta unidad.

¿Qué tanto aprendí de la correlación y la inferencia
estadística?
Antes de concluir queremos conocer tu

opinión sobre el curso.
79
Cuestionario de Opinión
Ahora sí, sólo queda un último reto. Veamos

qué tanto aprendiste en esta asignatura.

¿Qué tanto aprendí de Modelos cualitativos y
cuantitativos en Investigación Social?
¡Felicidades! Concluiste la asignatura y estás preparado para

realizar investigaciones aplicando lo aprendido.
❖ Chi cuadrada
Ahora que has llegado a este punto, ya puedes poner en práctica todos tus conocimientos
de estadística, puedes describir una muestra usando la estadística descriptiva y también
puedes hacer ajustes a la recta e incluso hacer pruebas de hipótesis con variables
cuantitativas con la prueba z y t de Student.
Seguramente te preguntarás qué pasa si quieres comparar variables nominales, que son
cualitativas. En este caso, cuando queremos comparar dos o más grupos independientes
organizados en una tabla de contingencia y saber si las diferencias se deben o no al azar se
aplica otra prueba estadística conocida como
80
Veamos una prueba Chi cuadrada para una tabla de 2X2.
la tabla se numera como sigue:
A B
C D
y se utiliza la siguiente fórmula:
¡Veamos un ejemplo!
Chi cuadrada
A continuación estudiaremos como hacer una prueba de hipótesis con la Chi

cuadrada para una tabla de 2x2.
Como ejemplo vamos a tomar un estudio donde se desea comparar los efectos
que tiene el ser fumador pasivo o activo para que desarrollen o no cáncer de
pulmón. Observa que se trata de dos grupos independientes, por un lado tenemos
81
los fumadores pasivos y por el otro a los fumadores activos y tenemos un variable
dependiente nominal que en este caso es dicotómica, pacientes con cáncer de
pulmón y pacientes sin cáncer de pulmón. Estas son condiciones necesarias para
aplicar una chi cuadrada.
Para aplicar la prueba de hipótesis empezaremos con el paso 1. Que es formular
las hipótesis estadísticas:
✓ Hipótesis nula Ho: Es la proporción de fumadores que desarrollaron cáncer
de pulmón es igual entre fumadores activos y pasivos.
✓ La hipótesis alterna Ha: La proporción de fumadores que desarrollaron
cáncer de pulmón es diferente entre fumadores activos y pasivos.
Como paso 2. Se elige el nivel de significancia, en este caso lo tomaremos al 95%,

lo cual quiere decir que trabajaremos con un grado de error del 5%.
Paso 3. Vamos a buscar el valor de chi cuadrada en tablas. Para una tabla de 2x2
siempre se usan los grados de libertad =1. Como tenemos un nivel de error del 5%
nos situamos en el renglón 1 que son los grados de libertad que se encuentran
ubicados en la primer columna y nos movemos hasta la columna que nos indica
el 5% de error, aquí ubicamos el valor de la chi cuadrada que para este caso es
3.841, ahí está marcado en rojo.
El paso 4. Es calcular la chi cuadrada con la siguiente fórmula:
𝑁
𝑁 [(𝐴𝐷 − 𝐵𝐶) 2 ]2
2
𝑥 =
(𝐴 + 𝐵) ( 𝐶 + 𝐷) (𝐴 + 𝐶) (𝐵 + 𝐷)
Esa fórmula la vamos a obtener al sustituir los valores de la tabla de contingencias,

donde tenemos en la primer columna los fumadores activos y pasivos, las siguientes
columnas nos dará los que tiene cáncer de pulmón y los que no tienen cáncer de
pulmón. Nuestra tabla de contingencias se divide en cuatro cuadros donde el
primero es A, el segundo es B, el tercero es C, y el cuarto es D, de aquí es donde
vamos a obtener los valores que vamos sustituir en nuestra fórmula de la chi
cuadrada.
Observa que en la fórmula tenemos. A, B, C, D, y hay una N, N se refiere a nuestra
población. Muy bien, entonces los valores que tenemos en nuestra tabla, aquí ya
tenemos el ejemplo con los valores, los vamos a sustituir en la fórmula, nuestra
formula dice chi cuadrada es igual a:
60
60 [(14 ∗ 18 − 8 ∗ 20) 2 ]2
2
𝑥 =
(14 + 8) ( 20 + 18) (14 + 20) (8 + 18)
82
Ya todo queda sustituido, aquí en la fórmula de la chi cuadrada. Ahora lo que
procede es realizar las operaciones que nos indica la fórmula, ya con los valores
sustituidos, tenemos aquí ya los valores, y bueno empezamos resolviendo el
paréntesis que se encuentra aquí adentro:
60
60 [(14 ∗ 18 − 8 ∗ 20) 2 ]2
2
𝑥 =
(14 + 8) ( 20 + 18) (14 + 20) (8 + 18)
60 [(252 − 160)30]2
𝑥2 = =
(22) ( 38) (34) (26)
60 [92 − 30]2
𝑥2 = =
739024
60 (62)2
𝑥2 = =
739024
60 (3844)
𝑥2 = =
739024
230640
𝑥2 = =
739024
𝒙𝟐 = 𝟎. 𝟑𝟏𝟐𝟏
Como paso 5. Vamos a comparar el valor de la chi cuadrada calculada contra el

valor de la chi cuadrada de tablas. Para esto vamos a dibujar nuestra gráfica de
la campana de Gauss y vamos a buscar la chi cuadrada de tablas, recordemos
que nuestra chi cuadrada de tablas tenía un valor de 3.84, la situamos aquí dentro
de la línea y marcamos nuestra zona d error en color rojo, después vamos a situar
el valor de la chi cuadrada calculada que tenía un valor de 0.3121 vemos que cae
en la zona de no rechazo.
Como paso 6. Llegamos a la conclusión de que no hay suficiente evidencia para
afirmar que la proporción de fumadores que desarrollaron cáncer de pulmón es
diferente entre fumadores activos y pasivos.
¡Ahora es tu turno!
83
Se realizó un estudio para conocer cómo se distribuye una pareja las tareas domésticas y con
las respuestas que dieron se formó la siguiente tabla de contingencias:
¿Quién hace las tareas domésticas en el hogar?
Yo Mi pareja Total marginal

Mujer 12 3 15
Hombre 6 9 15
Total marginal 18 12 N= 30
Aplica la Chi cuadrada para saber si la diferencia es

estadísticamente significativa a un nivel de
significancia del 95%
Empieza formulando las hipótesis estadísticas:
Ho: _______________________________________________________________
Ha: _______________________________________________________________
La chi cuadrada de tablas al 95% es: ___________
La chi cuadrada calculada es (redondea a 2 dígitos): ___________
La chi cuadrada calculada cae en la zona de: ___________
Por lo tanto se concluye lo siguiente: ___________
Respuestas: Ho: La cantidad de mujeres que hace las tareas domésticas es igual a la de hombres que tienen esa responsabilidad en el hogar, Ha:La
cantidad de mujeres que hace las tareas domésticas es diferente a la de hombres que tienen esa responsabilidad en el hogar, L a chi cuadrada
de tablas al 95% es: 3.841, La chi cuadrada calculada es (redondea a 2 dígitos): 3.47, La chi cuadrada calculada cae en la zona de: no rechazo,
Por lo tanto se concluye lo siguiente: No hay suficiente evidencia para afirmar que la cantidad de mujeres que hacen las tareas domésticas es
diferentes a la de hombres que tienen esa responsabilidad en el hogar.
84

Modelos CC U4

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modelos CC U4

Cargado por

Copyright:

Formatos disponibles

Unidad 4.

La correlación y la inferencia estadística en la

La correlación de la inferencia estadística en la interpretación de la información

En la unidad 3 hiciste un análisis estadístico de tu base de datos, ¿Te acuerdas? En

En la unidad anterior hiciste la descripción de la muestra con la que trabajaste tu

La estadística en la Psicología (hospital de salud mental)

Mi nombre es Laura Carrillo Alarcón, soy psicóloga clínica y terapeuta familiar, y

Realiza la actividad en plataforma:

Empecemos con el análisis de datos bivariados

Análisis de datos bivariados

1. Relacionar dos variables cualitativas

2. Relacionar una variable cualitativa (atributo) con una cuantitativa

Ejemplo: Hay relación entre el peso y el riesgo de enfermedad

Ejemplo: Hay relación entre el peso y la estatura

Como estudiamos en la unidad 3, el problema del

Tabla 1. Tabla cruzada de frecuencias absolutas

Tiene cáncer de pulmón No tiene cáncer de pulmón Total marginal

Esta tabla se puede representar con una gráfica de barras

De un total de 60 personas, __________fuman y __________son fumadores pasivos.

Respuestas: 22, 38, 12, 14, 8, 20, 18, 34, 26

Esta gráfica la hicimos a partir de frecuencias absolutas, ahora vamos a convertirlos en

Tabla 2. Tabla cruzada de frecuencias relativas

Tiene cáncer de pulmón No tiene cáncer de pulmón Total marginal

Ambas gráficas se obtienen de la tabla de frecuencias relativas.

Ahora es tu turno para describir la gráfica retomando

Del total de encuestados, un poco más de la tercera parte (__________%) son

De los fumadores activos el __________% tiene cáncer de pulmón y

Respuestas: 22, 38, 12, 14, 8, 20, 18, 34, 26

Tabla 3. Tabla cruzada de frecuencia relativa por renglón

Tiene cáncer de pulmón No tiene cáncer de pulmón Total marginal

Describe la gráfica retomando los datos de la tabla 3:

En la gráfica podemos comparar el efecto que tiene el tabaco en fumadores

Respuestas: 63.63, 36.36, 52.63, 47.36

Realiza el ejercicio en tu cuaderno y compara tus

Tabla 4. Tabla cruzada de frecuencia relativa por columna

Tiene cáncer de pulmón No tiene cáncer de pulmón

Describe la gráfica retomando los datos de la tabla 4:

Respuestas: 41.18, 58.82, 30.77, 69.23

Veamos un caso para que pongas en práctica lo aprendido.

Tabla 1. Tabla cruzada de frecuencias absolutas

Casado Soltero Total marginal

Completa la tabla cruzada de frecuencias relativas

Tabla 2. Tabla cruzada de frecuencias relativas

Casado Soltero Total marginal

La gráfica muestra que del total de encuestados, __________% tenía estudios de

Tabla 3. Tabla cruzada de frecuencia relativa por renglón

Casado Soltero Total marginal

Respuestas: 85, 15, 95, 5, 60, 40

Respuestas: Nivel básico – Casado= 35.42, Nivel básico – Soltero= 25.00

La gráfica de la tabla 4 compara el nivel de estudios de los casados y solteros. En

Respuestas: 35.42, 38.78, 25, 25, 8.33, 66.67

Consulta el Excel en el tema 1, página 4:

Pero si se trata de dos variables cuantitativas, empecemos graficando con un diagrama de

¡Veamos un diagrama de dispersión!

Si trazáramos una línea recta entre los puntos veríamos

Si quieres saber cómo se elabora este tipo gráfica ve el siguiente video.

En esta otra gráfica también se observa

¿Cómo se hace un análisis de regresión lineal?

El análisis de regresión lineal se hace mediante 3 pasos:

1. Obtener el diagrama de dispersión

3. Obtener la ecuación de la recta

Ya conoces el paso 1, que es obtener el diagrama de dispersión. Para

Ecuación de correlación lineal y coeficiente de correlación

De un total de 60 personas, fuman y son fumadores pasivos.