Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Modelos CC U4
Modelos CC U4
Presentación
1
Y ahora ¿qué puedes hacer con toda esta información? ¿Te sirve de algo conocer los grupos
de edades que integran tu muestra, o las respuestas que dieron a tus preguntas? Retomando
el objetivo de tu investigación, ¿encuentras relación entre el objetivo y todos los datos que
ahora tienes? ¿Podrías tomar una decisión con base en la información que analizaste?
Pues bien, en esta unidad estudiaremos cómo se pueden tomar decisiones a partir de la
información estadística con la que se cuenta, podrás establecer si hay o no relación entre dos
variables de una investigación, comprobarla y describirla, también podrás determinar el nivel
de relación entre diversas variables que afectan a una población y las evaluarás
cuantitativamente aplicando correlación lineal, diagramas de dispersión y regresión lineal,
además trabajaremos con la distribución normal (z) y la t de Student para comparar medias,
lo cual permitirá evaluar los resultados de dos muestras y tendrás elementos para tomar una
decisión fundamentada respecto de tu estudio de investigación.
2
¿Todo esto es posible? ¡Por supuesto!, como un ejemplo de la aplicación de la estadística en
psicología te invitamos a ver la siguiente información: “La estadística en la psicología” de M.
González.
3
sale de un examen se comparan con tablas y estudios previos, y toda esta
información después del análisis se interpreta en un resultado, que ya le puedes
decir al paciente como se encuentran sus capacidades mentales.
Otra de las pruebas que tenemos, que utilizamos mucho las matemáticas, son el
Rorschach, son unas láminas que son de colores y otras que son blanco y negro,
en donde el paciente se le pide que dé una respuesta o que dé varias respuestas
de que es lo que observa o qué es lo que ve en cada una de las láminas y vamos
haciendo un registro de la información, del tiempo de reacción del paciente, qué
ve, dónde lo ve, cómo lo ve y qué lo hizo pensar, que era la respuesta que nos está
dando por lámina.
Toda la prueba de Rorschach es matemática porque voy a sacar en función de
los resultados un formulario, este formulario me va ir dando una interpretación a la
hora de integrarlo de tales porcentajes, o de tales niveles es un significado que
tiene en cuanto a la personalidad, en cuanto al manejo de los afectos, en cuanto
a los impulsos, el control de los impulsos, el nivel de funcionamiento intelectual.
Entonces, esta prueba me da datos muy, muy importantes y muy certeros,
entonces a la hora de nosotros integrar utilizamos mucho las matemáticas y
tenemos lo que son los resultados, los vaciamos ya lo que llamamos una
integración. Esta información sale de toda la aplicación de todas las pruebas
psicométricas que aplicamos y que todas están basadas en aspectos
matemáticos.
Paciente: Y ya empiezo.
Psicóloga: Entonces yo tomo el tiempo y el sujeto empieza a mover las piezas…
Paciente: Un elefante, no sé si sea así, la colita…
Psicóloga: La trompita… ja, ja, ja (ríen los dos)
Paciente: Puede ser… (Sopla)
Psicóloga: Creo que ya vas uniendo
Paciente: Creo que ya lo embone…la jorobita
Psicóloga: No tiene joroba el elefante (sonríe)
Paciente: ja, ja, ja (ríe)…mmm ujum, (sopla) las patas están para arriba mmm
(sonido) Estoy medio loquito.
Psicóloga: ¡Así es! (felicitando, por terminar de armar el elefante)
Paciente: Aplaude…
Efectivamente es mucho muy importante las matemáticas y sobre todo que esto
nos da la certeza y la seguridad de que no es una interpretación subjetiva del
psicólogo para dar los resultados del paciente, porque esto, lo que sacamos es
una radiografía del sujeto ¿Qué es el sujeto internamente? Pero de la otra manera
4
sería una interpretación muy subjetiva y con esto tenemos la objetividad de que
los resultados y son las respuestas del sujeto que son traducidas matemáticamente,
entonces son mucho más seguras.
Como puedes apreciar en el video, para que las pruebas psicológicas tengan validez se sigue
un proceso estadístico que permite que los resultados se puedan aplicar a cualquier persona
a partir de tablas, lo cual permite al psicólogo tomar decisiones acerca del sujeto que está
tratando. Esto lo veremos más adelante en esta unidad.
Por lo pronto empecemos respondiendo un cuestionario para saber con qué tema iniciarás
en esta unidad. Es muy importante que lo respondas con honestidad, recuerda que NO
cuenta para calificación, solamente es el punto para saber si iniciarás la unidad desde el
inicio, si requieres de algún apoyo, o si ya dominas algunos temas, y de esta manera puedas
continuar haciendo el análisis estadístico de tu investigación.
Este cuestionario es automatizado y conocerás los resultados de manera inmediata. Lee
detenidamente cada reactivo antes de responder. Solamente una opción es correcta.
5
Correlación y dispersión
Lo interesante de tener muchos datos de una misma muestra es que podemos establecer la
relación que hay entre las diferentes variables y al hacerlo permite predecir el
comportamiento de una variable a partir del conocimiento que se pueda tener de la otra.
Como estudiamos en la unidad 2, las variables pueden ser cualitativas o cuantitativas, por lo
que podemos relacionarlas combinándolas de la siguiente manera:
Ejemplo: ¿Habrá relación entre el género y la habilidad motora fina? (la habilidad
motora en este caso sería calificada como excelente, buena, regular y con
oportunidad de desarrollo)
6
3. Relacionar dos variables cuantitativas (numéricas)
Cuando queremos relacionar dos variables cualitativas o una cualitativa con otra
cuantitativa, que son los dos primeros casos, lo podemos hacer con ayuda de tablas cruzadas
y representarlo con gráficas de barras. Veamos un ejemplo que relaciona dos variables
cualitativas.
7
Por lo que un hospital interesado en conocer si afecta más ser fumador pasivo o activo realizó
una encuesta entre los pacientes y familiares y obtuvo los siguientes resultados:
8
Para interpretar la gráfica se retoman los datos de la
tabla. Completa el siguiente cuadro:
Al graficar la tabla de frecuencias relativas, obtendrás una gráfica como ésta si te concentras
en si son fumadores activos o pasivos:
9
O como ésta si te concentras en quien tiene cáncer de pulmón o no:
Observa que en las dos gráficas de la tabla 2 la suma de las frecuencias de las 4 barras da
como resultado el 100%
También podemos trabajar la distribución de las frecuencias relativas de manera más
específica, trabajando por renglones o columnas, para describir cómo se distribuye la
población en función de si son fumadores activos o pasivos (renglón) o si tienen o no cáncer
de pulmón (columna).
10
Observa la tabla 3 y su gráfica:
Los datos nos brindan precisión, y la gráfica permite visualizar que es más probable que un
fumador activo desarrolle cáncer de pulmón, pero el fumador pasivo no queda exento de
riesgo.
¿Quieres saber cómo llenar la Tabla cruzada de frecuencia relativa por renglón (Tabla 3)?
Para ello veamos el siguiente video:
11
Tabla cruzada de frecuencia relativa por renglón
Ahora vamos a aprender a hacer una tabla cruzada de frecuencias relativas por
renglón, aquí tenemos la tabla original con las frecuencias relativas y en seguida
tenemos la tabla que vamos a ocupar para las frecuencias relativas por renglón.
Observa que esta tabla no tiene el total marginal de columnas, porque solo vamos
a trabajar con renglones. En esta tabla vamos a tomar el total de fumadores
activos como el 100%, esto es que el 22 es el 100% de fumadores activos.
Y lo que nos interesa en este caso es saber del total de fumadores activos que
porcentaje tiene cáncer de pulmón y que porcentaje no lo tiene, así que lo
hacemos con una regla de 3, donde si 22 es mi 100% nos preguntamos qué
porcentaje serán 8, que son los que no tienen cáncer, por lo cual multiplicamos 8
x 100 y el resultado lo dividimos entre 33, lo cual lo nos da un resultado de 36.36 y
lo ponemos aquí.
Ahora calculamos que porcentaje le corresponde a 14, que son los que sí tienen
cáncer de pulmón, y tenemos que si 22 es el 100% ¿qué porcentaje será 14?,
multiplicamos 14 x100 y el resultado lo dividimos entre 22, por lo que el porcentaje
de los fumadores activos que tienen cáncer son 63.63%. Para comprobar que
nuestros cálculos son correctos sumamos los porcentajes de los fumadores activos
que tienen cáncer con los que no lo tienen y esto nos debe de dar el 100%,
podemos hacerlo con la sumatoria del menú superior y vemos que aquí nos da un
99.99%, este resultado es correcto porque las décimas que nos faltan se quedaron
en el camino al redondear, pero estamos cercanos al 100%, en caso de que el
porcentaje obtenido sea menor, debe haber un error, y entonces tendrías que
revisar tu procedimiento.
Ahora nos interesa calcular los porcentajes de fumadores pasivos que tienen
cáncer de pulmón, como el total de fumadores es 38, para esta fila el 100% será
38, de la misma manera que en el caso anterior vamos a calcular los porcentajes
aplicando la regla de 3, ahora tomando en cuenta que el 100% es 38, aplicando
la regla de 3, si 38 es el 100% nos preguntamos qué porcentaje será 20,
multiplicamos 20 x100 y el resultado lo dividimos entre 38, lo que nos arroja un
porcentaje del 52.63, que corresponde a los que tienen cáncer.
De la misma manera vemos qué porcentaje no tiene cáncer de pulmón y nos
preguntamos si 38 es el 100%, 18 que porcentaje será, multiplicamos 18 x100 y lo
dividimos entre 38, lo que nos arroja un porcentaje de 47.36. Igual que hicimos en
12
la fila anterior vamos a hacer la sumatoria, aquí nos fijamos que la suma sea de las
columnas que nosotros queremos y también nos arroja un 99.99%, lo cual es muy
aceptable, y con esto queda completa nuestra tabla de frecuencia relativa por
renglón.
Una vez que ya tenemos la tabla completa vamos a graficarlo, para ello
seleccionamos los datos de los fumadores con y sin cáncer, nota que no tomamos
los totales marginales, y ahora sí insertamos una gráfica de barras, en el menú
superior buscamos las gráficas, las de columnas y elegimos el tipo que queramos.
Observa que nosotros queremos comparar los grupos de fumadores activos con
pasivos y la gráfica nos muestra el resultado agrupado por quién tiene o no tiene
cáncer, por lo que le damos clic derecho en la gráfica y nos vamos a seleccionar
datos, aquí hay un botón que no dice cambiar fila o columna y le decimos
aceptar, y ahora sí, estamos comparando los fumadores activos con los fumadores
pasivos.
Ya que tenemos nuestra gráfica, hay que insertarle el título, por lo que buscamos
en diseño rápido uno que nos guste más –este tiene título- pongo el título
“consecuencias en fumadores activos y pasivos”. También quiero saber cuáles son
los porcentajes, entonces me situó en las gráficas doy clic derecho, le digo
agregar etiquetas de datos y ya me aparecieron en los que tienen cáncer, hago
lo mismo con las otras columnas, me situó en la columna doy clic derecho y digo
agregar etiqueta de datos y ¡Listo! ¡Mi gráfica quedó completa!
Hay otra forma de ver los datos que tenemos. Ahora lo haremos desde quien tiene cáncer o
no lo tiene, esto es por columna y tendríamos la tabla 4. Observa que esta tabla no tiene total
marginal de fila, sólo tiene el total marginal de columna, y para llenar esta tabla se hace como
hiciste en la tabla 3, pero ahora el porcentaje total será el total marginal de columna, esto es
que el 100% de quien tiene cáncer de pulmón es 34 y el 100% de quien no tiene cáncer es 26.
13
Ahora realiza la gráfica, y compárala con ésta:
Esta gráfica compara el grupo fumadores que tienen cáncer con los que no lo
tienen.
Se observa que del total de quienes tienen cáncer de pulmón, el __________% son
fumadores activos y el __________% son fumadores pasivos. En tanto que del total
de personas que no tienen cáncer, el __________% son fumadores activos y
el __________% son fumadores pasivos.
14
Un investigador social quiere establecer si hay relación entre el estado civil y el nivel de
estudios. Para ello, aplicó 60 encuestas a adultos entre 30 y 40 años de edad y obtuvo los
siguientes resultados:
Respuestas: Nivel básico – Casado= 28.33, Nivel básico – Soltero= 5.00, Nivel básico – Total marginal= 33.33
Nivel medio – Casado= 31.67, Nivel medio – Soltero= 1.67, Nivel medio – Total marginal= 33.33
Nivel superior – Casado= 20.00, Nivel superior – Soltero= 13.33, Nivel superior – Total marginal= 33.33
Total marginal – Casado= 80.00, Total marginal – Soltero= 20.00
15
Grafica la tabla y compárala con la siguiente, ¿se
parecen? Después completa la descripción de la
gráfica retomando los datos de la tabla:
Esta gráfica compara el grupo fumadores que tienen cáncer con los que no lo
tienen.
Respuestas: 33.33, 28.33, 5, 33.33, 31.67, 1.67, 33, 20, 13.33 80, 20
16
Para concluir este reto, completa la tabla 3 por renglón y la tabla 4 por columna, compara
las gráficas que se muestran con las que elabores y describe cada una de ellas.
Respuestas: Nivel básico – Casado= 85, Nivel básico – Soltero= 15, Nivel básico – Total marginal= 100
Nivel medio – Casado= 95, Nivel medio – Soltero= 5, Nivel medio – Total marginal= 100
Nivel superior – Casado= 60, Nivel superior – Soltero= 40
La gráfica compara los distintos niveles de estudio por estado civil, y en ella se
puede apreciar que del total de participantes con nivel básico, el __________% es
casado y el __________% es soltero. De los encuestados con estudios de nivel medio
el __________% es casado y el __________% soltero, y del total de encuestados con
estudios de nivel superior, el __________% es casado y el __________% soltero.
17
Tabla 4. Tabla cruzada de frecuencia relativa por columna
Casado Soltero
Nivel básico __________ __________
Nivel medio __________ __________
Nivel superior __________ __________
Total marginal 100 100
Por otra parte, del total de solteros, el __________% tiene estudios de nivel básico,
el __________% tiene estudios de nivel medio y __________% llegó hasta el nivel
superior.
18
Pero, ¿qué ocurre cuando las dos variables del estudio son cuantitativas? Para estudiar este
tema empecemos con el diagrama de dispersión.
Diagrama de dispersión
Cuando tenemos dos variables cuantitativas se representan con números, por ejemplo, si se
busca la relación entre la edad de una persona y los años que estudió, y si la edad fuera 25
años y los años de estudio 10, estos datos se pueden representar así:
(25, 10)
¿Qué te recuerda esta notación? ¡Claro! Es la manera en que se representan las coordenadas
de un punto en un plano cartesiano. Así, cada pareja de datos que proviene de la misma
fuente queda representada gráficamente como un punto.
Para graficar las parejas ordenadas se pone primero la variable que puede controlarse o
medirse con mayor facilidad, que corresponde a la variable independiente (x) y luego la
variable que se quiere predecir y que corresponde a la variable dependiente (y).
19
Lee la hipótesis de tu investigación e identifica algunas variables que, de acuerdo a tu
hipótesis, quisieras relacionar, si se trata de dos variables cualitativas, o bien, una cualitativa y
una cuantitativa puedes hacer las tablas cruzadas para datos bivariados que vimos en el
tema anterior y graficar con barras.
20
Presiona aquí si quieres ver un ejercicio del trabajo sobre equidad de género de
María, Jorge y Laura
21
Este es un diagrama de dispersión que relaciona la edad (variable independiente) con la
escolaridad como variable dependiente de un grupo de 245 parejas ordenadas.
De inicio podemos ver que no hay correlación entre las variables porque no se
observa un patrón de comportamiento entre ellas, lo cual indica que no hay
relación entre la variable independiente (edad) y la dependiente (escolaridad).
22
Esto nos indica que no hay correlación lineal, pues los puntos no se ajustan a una recta.
Diagrama de dispersión
En esta ocasión vamos a aprender a hacer una gráfica de dispersión. Para hacer
un diagrama de dispersión es muy sencillo: lo primero que tienes que hacer es
identificar tu variable independiente que estaría en la X, y en este caso es la edad,
y la variable dependiente que corresponde a la Y, y en este caso es la escolaridad,
y vas a escribir los pares ordenador por parejas, primero la X y luego la Y en todos
los casos.
El siguiente paso es seleccionar los datos e insertar la gráfica, seleccionamos
nuestros datos, observa que estoy incluyendo los títulos de la columna, aquí
tenemos bastantes datos. Selecciono todos los datos, y ahora sí, me voy a insertar
gráficos, selecciono los de puntitos que son los de dispersión y automáticamente
tengo mi gráfica.
Ya que tengo mi gráfica, puedo buscar en la parte de arriba, en el menú superior
que diseño es el que más me agrada, por ejemplo este tiene los datos, pero sale
todo encimado, no, aquí, por ejemplo este me da la línea recta para ver que tanto
se ajustan los datos a mi línea recta, puede ser que estén muy dispersos, me voy a
quedar con la primera, no olvides poner el título, en este caso es escolaridad-
edad, le voy a poner “relación entre la edad y la escolaridad”, le pongo lo que
corresponde al eje de las X, que es la edad, mi variable independiente, y mi
variable dependiente es la escolaridad.
Le quito esa parte para que se vea más amplia ¡Y listo, ya está mi gráfica de
dispersión!
23
Por supuesto, no todos los casos son como el anterior, en el que no hay
correlación. Observa otros diagramas de dispersión:
Algunas veces los puntos están tan juntos que casi forman una línea recta, en este
caso se trata de una correlación lineal positiva fuerte.
Esto indica que a medida que aumenta el valor de x también aumenta el valor de y.
24
En otras ocasiones los puntos tienden a juntarse, aunque sin formar una
línea, por lo que sí hay correlación, aunque no es muy alta como en la
gráfica anterior.
Aquí se observa una correlación lineal positiva.
25
Esta gráfica muestra una correlación
entre las variables, pero no es lineal.
Como puedes ver, la correlación sirve para establecer en qué sentido influye la variable
independiente (x) en la variable dependiente (y).
Por ejemplo, sabemos que la estatura tiene un efecto directo sobre el peso, especialmente
en los niños, por lo que resulta importante determinar el efecto entre ellas para diferentes
edades, de modo que se puedan identificar los casos normales y los que requieren atención
especial. ¿Te acuerdas de las tablas de estatura y peso para niños?
26
En estadística los análisis que permiten encontrar la relación entre dos variables son
la correlación y la regresión. Como vimos anteriormente hay correlación cuando ocurre un
cambio sistemático en las puntuaciones de dos variables, es decir, cuando las mediciones de
una variable cambian simultáneamente con las medidas de la otra. Y la regresión lineal se
usa para analizar la relación o dependencia que hay entre las variables, se emplea en
biomedicina, economía, ingeniería y en cualquier área de estudio que quiera establecer la
relación entre dos variables.
27
La regresión lineal es una expresión matemática que cuantifica la intensidad de la relación
entre las variables a través de un coeficiente de correlación, conocido como coeficiente de
Pearson (r) que permite determinar que tanto se ajustan los datos de un conjunto a un modelo
lineal.
Un ejemplo muy claro de su utilidad son las tablas de talla-peso para niños que utilizan los
médicos pediatras para revisar el crecimiento de los niños. Estas tablas se hacen mediante un
análisis de regresión lineal, en el que los médicos investigadores recopilan la estatura y peso
de una gran cantidad de niños y la clasifican por edades. Reúnen los datos y generan un
diagrama de dispersión estatura-peso para determinar si existe correlación entre estas
variables y se generan gráficas como las siguientes, así como las tablas de peso y talla que
tienen todos los médicos en sus consultorios.
Tomada para fines educativos de: DOF (2015) Proyecto de Norma Oficial Mexicana PROY-NOM-031-SSA2-2014, para la aatencióna la salu de la
infancia, disponible en http://www.dof.gob.mx/nota_detalle.php?codigo=5417151&fecha=25/11/2015
28
Tomada para fines educativos de: DOF (2015) Proyecto de Norma Oficial Mexicana PROY-NOM-031-SSA2-2014, para la aatencióna la salu de la
infancia, disponible en http://www.dof.gob.mx/nota_detalle.php?codigo=5417151&fecha=25/11/2015
29
2. Calcular el coeficiente de correlación
30
de aquí al cuadrado y escribirlo a la derecha, 100 al cuadrado que da 10000, 90
al cuadrado que da 8100, 80 al cuadrado que da 6400 y así sucesivamente de
cada uno obtenemos el cuadrado.
La siguiente columna que vamos encontrar es la de la multiplicación de X por Y,
es decir, multiplicar el valor de aquí por el valor de aquí, 3 X 100 nos queda 300, 5
X 90 nos queda 459, y así sucesivamente vamos poniendo aquí los resultados
correspondientes, lo siguiente que haremos será sumar todos los valores de cada
una de las cuatro columnas que construimos, sumamos 3+5+9+10 etc., ponemos
el resultado aquí abajo, eso nos da 178, y luego sumamos estos de aquí
100+90+80+45 y nos queda de la suma de todos estos 560, y luego sumamos todos
estos y nos queda 37750, y sumamos todos estos y nos queda 7745.
Ahora, lo que vamos a hacer nosotros es encontrar la ecuación lineal de
correlación entre Y, y X. Una ecuación lineal es una ecuación de una recta, una
ecuación de grado 1, en la que aparecen dos coeficientes, aparece un
coeficiente para X y aparece un término independiente, tenemos que encontrar
los valores de a y b, para estos hay unas fórmulas. Para encontrar el valor de a, la
fórmula que se utiliza es esta de aquí:
𝑦 = 𝑎𝑥 + 𝑏
𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑎=
𝑛 ∑ 𝑥 2 − (∑ 𝑥)2
Como n vale 10, ponemos un 10, y luego aparece suma de la columna XY, la suma
es 7745 la ponemos con un paréntesis para indicar que se va a multiplicar, luego
aparece un menos, luego suma de las X, la suma de las X es 560, suma de las Y nos
da 178, y ahora en la parte de abajo tenemos otra vez una n, así que ponemos un
10, suma de las x cuadrada nos queda esto de aquí, lo ponemos luego menos,
suma de las x al cuadrado, esto y esto es diferente, suma de las x cuadradas es
esto de aquí, y aquí tenemos suma de las X adentro del paréntesis y todo eso
31
elevando al cuadrado, así que vamos a poner la suma de las X que es 560 adentro
de un paréntesis y eso va a quedar elevado al cuadrado.
Lo siguiente que hay que hacer son las operaciones, pero hay que tener cuidado
con el orden en que lo hacemos, primero hacemos las multiplicaciones y
potencias y al último hacemos las restas, y ya después la división. Pues vamos a
empezar con las multiplicaciones, multiplicamos 10 X 7745 y nos queda 77450,
ahora tenemos menos y multiplicamos 560 x 178 y nos queda esta cantidad.
Ahora en la parte de abajo multiplicamos 10 por este número y nos queda esta
cantidad y finalmente elevamos 560 al cuadrado y no va a quedar este número.
Ahora sí, hay que hacer las restas, la que aparece arriba y la que aparece abajo,
después de hacer la resta nos quedan estos resultados. Y finalmente hacemos la
división, y entonces nos queda que a vale -0.34788.
Ese va ser el valor de a, entonces ya encontramos uno de los valores que estamos
buscando, ahora vamos a encontrar el valor de b, el valor de b se va a encontrar
con esta fórmula de aquí.
𝑦 = 𝑎𝑥 + 𝑏
∑𝑦 − 𝑎∑𝑥
𝑏=
𝑛
178 − (−0.34788)(560)
𝑏=
10
178 + 194.8128
𝑏=
10
372.8128
𝑏=
10
𝑏 = 37.28128
Es importante que primero hay que calcular el valor de a, para después poder
calcular el valor de b, ya que vemos que aquí aparece la a, que tenemos que
sustituir, bueno, vamos a sustituir los valores, lo voy a hacer paso a paso, ponemos
b= y una línea horizontal y vamos sustituyendo, aparece suma de las Y, y la suma
de las Y es 178, y luego aparece menos y lo que vale a, que es lo que acabamos
de calcular lo vamos a poner entre paréntesis (-0.34788), entonces este menos de
aquí es el de la fórmula y este menos es el de la a.
Ahora aparece suma de las X, la suma de las X es 560 y abajo aparece n, como n
vale 10 ponemos un 10. Y ahora hay que hacer las operaciones ponemos el 178,
todavía ahí con el 178 no vamos hacer la resta, primero hay que hacer
multiplicaciones, luego aquí tenemos menos por menos nos va a quedar más,
luego multiplicamos este número por este número nos queda esta cantidad, y el
10 de abajo ese lo ponemos igual.
Ahora hay que hacer la suma de los números de arriba y luego dividir entre 10 y
nos queda que b es igual a 37.28128. Ya tenemos entonces el valor de b, y con los
valores de a y b ya podemos encontrar la ecuación lineal simplemente
sustituyendo en lugar de poner a vamos a poner este valor y en lugar de poner b
ponemos este valor.
32
𝑦 = 𝑎𝑥 + 𝑏
𝑦 = −0.34788 + 37.28128
Bueno ahora vamos a encontrar el coeficiente de correlación lineal, y para
encontrar el coeficiente de correlación lineal vamos a empezar desde nuestra
tabla inicial, porque vamos a construir ahora otras columnas que nos van a servir
para esto, aquí tengo la tabla inicial de las X y las Y, y abajo también tengo la suma
de las columnas que ya habíamos puesto antes.
En primer lugar lo que hay que calcular son los promedios o las medias de cada
una de estas columnas, recordemos que el promedio se calcula sumando todos
los datos y dividiendo entre el número de datos, ya tenemos aquí la suma de todos
los datos para el caso de la X es 560 la suma de todos estos, entonces dividimos
560 entre 10 que es el número de datos y nos queda que la media de x es 56, y
hacemos lo mismo con la Y, vamos sacar la media de Y , aquí es sumar todas las
Y, y dividir entre el número de datos, la suma de las Y es 178 dividimos entre 10 y
nos queda 17.8.
Ahora que tenemos ya las medias, media X, y media Y, vamos a construir las
siguientes columnas que necesitaremos, la primer columna es X-la media de X y
esto lo que significa es que a cada valor de X le vamos a restar la media, o sea,
aquí vamos hacer por ejemplo 100-56 nos queda 44, y luego 90-56 nos queda 34,
80-56 =24, y así le vamos haciendo con cada uno de los números para obtener las
cantidades, esto hay que hacerlo manualmente o con calculadora, o de
preferencia se puede usar una hoja de cálculo como una hoja de Excel ahí se
hacen muy rápido estos cálculos.
Ahora, la siguiente columna que necesitaremos es Y menos la media de Y, que es
igual que como le hicimos con la X, nada más que ahora a cada valor de Y le
vamos a restar 17.8 y ponemos aquí los resultados, después necesitaremos elevar
al cuadrado la resta que obtuvimos aquí, X- media de X lo vamos elevar al
cuadrado, o sea, 44 al cuadrado nos queda 1986, 34 al cuadrado 1156 y así cada
uno de estos al cuadrado.
Y también haremos lo mismo con esta columna, Y-la media de Y al cuadrado cada
uno de estos valores lo elevamos al cuadrado y lo escribimos aquí donde
corresponde. Y finalmente otra columna que será multiplicar esta columna con
esta columna, X-X media multiplicado por Y-Y media, entonces multiplicamos 44
por -14.8 nos queda -651.2 y así, multiplicar cada par de números y poner el
resultado aquí.
Ahora vamos a sumar los valores de las columnas de las últimas tres que
construimos nada más, las primeras dos no es necesario, esas no las vamos a
necesitar, pero si vamos a necesitar las últimas tres, entonces sumamos los valores
y los ponemos en la parte de abajo, sumamos todas estas cantidades nos da 6390,
sumamos todas estas nos da 993, sumamos todas estas, aquí sumar quiere decir,
bueno dependiendo del signo, si hay un menos con otro menos se suman y luego
con otro menos se suman, pero con un más se restan, y así respetando los signos
es una suma algebraica la que se hace, se pone aquí el resultado.
Bueno, como voy a necesitar este espacio para hacer lo del coeficiente de
correlación voy a poner aquí los valores:
33
Pues vamos a tener que:
∑(𝑥 − 𝑥̅ )2 = 6390
∑(𝑦 − 𝑦̅ )2 = 993.6
En esta fórmula vamos a sustituir estos datos, y con ello obtendremos el coeficiente:
−2223 −2223
𝑟= =
√6390√993.6 (79.93747)(31.52142)
𝑟 = −0.88223
Entonces lo voy hacer por pasos ponemos r= una línea horizontal para poner los
valores sustituidos, y en la parte de arriba tenemos la suma de ∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦̅ ) que
esta ya la tenemos aquí es -2223, así que la ponemos, abajo tenemos √∑(𝑥 − 𝑥̅ )2 o
sea la raíz cuadrada de 5390, y luego la raíz cuadrada del otro √∑(𝑦 − 𝑦̅)2 que es
raíz cuadrada de 993.6. Y ahora hay que hacer las operaciones, vamos a calcular
las raíces cuadradas y nos queda esto, aquí puse los resultados de las raíces
cuadradas, después tendremos que multiplicar estos dos valores y dividir -2223
entre el resultado de esta multiplicación y nos va a quedar como resultado
𝑟 = −0.88223, ese es el coeficiente de correlación lineal.
Ahora para que ustedes practiquen un poco este tema, les invito a que con esta
tabla de valores encuentren la ecuación lineal que relaciona las variables de Y y
X y el coeficiente de correlación lineal, es importante que ustedes hagan ejercicios
para practicarlo porque nada más viendo se les puede olvidar muy fácilmente,
pero practicándolo es como van a dominar esto, así que los invito a que
practiquen haciendo este ejercicio y en un próximo video les voy a mostrar el
procedimiento para que verifiquen sus resultados.
Si les gustó este video den like, comenten si tienen cualquier duda o sugerencia
todos los comentarios son bienvenidos, recuerden que ustedes también pueden
proponer algún ejercicio de los comentarios, algún ejercicio que no les sale que
tienen dudas, y ya en un video posterior yo lo subo y no olviden suscribirse a mi
canal para recibir más videos como este.
Mate fácil, (2015) Ecuación de correlación lineal y coeficiente de correlación, disponible en:
https://www.youtube.com/watch?v=fNeXC8d5En8
34
En la información vimos dos
procedimientos:
Al tener la ecuación de la recta con los valores de a y b nos va a permitir predecir el valor
de y para cualquier valor de x. Veamos un ejemplo:
Horas de Calificación de
estudio historia
1 3
3 3
2.5 4
2 4
4 6
5 9
6 8
3 3
2 3
2.5 5
35
Aplicando el procedimiento que vimos en el video
tenemos los siguientes valores:
Una vez que tenemos la ecuación de la recta de la muestra, podemos hacer predicciones
respecto de un valor que no tengamos en la fuente original, por ejemplo 7, nos podemos
preguntar ¿qué calificación podría obtener un alumno si estudiara 7 horas? Para saberlo
sustituimos la X por 7:
36
y al realizar las operaciones tenemos que y= 7.5
Por lo tanto un alumno de ese grupo que estudie 7 horas podría sacar 7.5
de calificación en historia
Es importante hacer notar que una condición para hacer estas predicciones es que los datos
tengan una tendencia lineal, y eso lo podemos saber calculando el coeficiente de Pearson.
Entonces, ¿Cómo se interpreta y qué se puede concluir al obtener el coeficiente de Pearson?
El coeficiente de Pearson indica el porcentaje de ajuste que se ha conseguido con el modelo
lineal. Su valor oscila entre -1 y +1, por lo que entre más se acerque a la unidad es mayor el
ajuste al modelo lineal. A mayor porcentaje mejor se puede predecir el comportamiento de
las variables. Veamos algunos ejemplos:
Esta gráfica tiene un coeficiente de Pearson positivo con un valor de r=0.9660, lo que indica
que hay una fuerte relación entre las variables.
37
Esto demuestra que un vendedor con más
experiencia tiene más ventas.
En esta gráfica se puede ver que hay una correlación __________ / __________que
se confirma con el signo __________ / __________ del coeficiente de Pearson.
Y de acuerdo a su valor, la correlación entre las variables
es __________/ __________, lo cual se observa en la gráfica porque los puntos
están ligeramente __________ / __________ de la recta.
38
Veamos otro ejemplo.
39
Ahora te proponemos un reto. Calcula el coeficiente de correlación y la ecuación de la recta
de los ejercicios adjuntos en el documento de Excel. (redondea a 2 decimales)
Ejercicios de correlación
40
Estos son algunos ejemplos de cómo se aplica el análisis de regresión. Los cálculos también se
pueden hacer con las funciones estadísticas de Excel. Aprendamos cómo.
Para calcular el coeficiente de correlación tomemos como ejemplo la relación entre
analfabetismo y el uso de métodos anticonceptivos de un estudio que realizó la ONU. Veamos
el siguiente video.
41
Una vez que tenemos los valores de la pendiente y la ordenada al origen podemos
sustituirlos en la ecuación de la recta, tenemos que Y es igual el valor de la
pendiente que es -0.5304297 de X más la ordenada que es 48.9417691, voy a poner
en negrita y más grande para que tengamos ya la ecuación de la recta.
María, Jorge y Laura también se interesaron en saber si había relación entre las variables
cuantitativas de su investigación sobre equidad de género, para ello intentaron correlacionar
la edad con la respuesta de alguna variable, pero el índice de correlación no resultó fuerte,
y la gráfica de dispersión no mostró que las variables se ajustaran a la línea recta; después lo
intentaron relacionando otras dos variables.
Para que veas los resultados que obtuvieron revisa el siguiente Excel
42
Con esto terminamos el tema de correlación y regresión,
ahora ya puedes correlacionar variables cualitativas,
cuantitativas y la combinación de ambas, ¿qué te parece si
compruebas lo aprendido?
Ahora que ya viste el video para hacer los cálculos con Excel y que pusiste a prueba lo
aprendido, ¿qué te parece si lo aplicas a un caso real retomando los datos de la base que
tienes de tu investigación?
Hasta este momento solamente habías hecho una descripción a partir de las medidas de
tendencia central, así que ahora puedes retomar tu hipótesis para relacionar dos variables
cualitativas o una cualitativa con otra cuantitativa, o dos cuantitativas. Revisa tu
planteamiento del problema y tu hipótesis para poner en práctica lo aprendido y elige entre
hacer un análisis de regresión lineal o una tabla de datos cruzados. Tu asesor te ayudará con
gusto ante cualquier duda o dificultad que se presente.
Una vez que tengas los resultados, podrás integrarlos como parte de tu informe en la sección
de resultados. Cuida de no incluir el procedimiento, solamente integra las gráficas y su
descripción, con el valor del coeficiente de correlación si es que hubieras correlacionado dos
variables cuantitativas.
43
Distribución de probabilidades
Seguramente en más de una ocasión has comentado algo acerca de la probabilidad de que
ocurra un evento. Por ejemplo, la probabilidad de que llueva, la probabilidad de encontrar a
una persona conocida entre una multitud o la probabilidad de ganar la lotería.
En las conversaciones coloquiales, cuando queremos hacer notar que la ocurrencia del
evento es cercana o lejanamente posible, generalmente le asignamos una medida numérica.
En términos más formales, la probabilidad no deja de estar relacionada con las expresiones
cotidianas, ya que en matemáticas la probabilidad de que ocurra un evento es la frecuencia
relativa con la que puede esperarse que ocurra. Esto es, la probabilidad indica
cuantitativamente (mide) la relación que existe entre el número de veces que se presenta
una situación o evento particular respecto del total de eventos, que sería el 100%, por eso
decimos: “tengo el 90% de probabilidad de ganar en el juego”, o bien, todos cuando hemos
jugado “volados” sabemos que tenemos el 50% de probabilidad de ganar, porque la moneda
solamente tiene dos caras.
44
La probabilidad se puede estudiar de manera matemática y es muy útil en diferentes áreas
para hacer predicciones, no solamente en los juegos de azar, por lo que prácticamente todas
las áreas manejan la probabilidad.
Por ejemplo las aseguradoras aplican la probabilidad para ofertar los seguros, por eso no
ofrecen seguros de vida a personas de edad avanzada o enfermas, pero insisten mucho con
personas jóvenes y sanas, pues estos últimos tienen menos probabilidad de usar el seguro que
están pagando.
En el control de calidad de productos también se calcula la probabilidad de que algún
artículo salga defectuoso por error humano, o la probabilidad de que ocurra un accidente.
En el área médica se aplica para saber qué probabilidad hay de que una persona sana
enferme en determinadas condiciones, eso les sirve para prever gastos y recursos.
Aprendamos más sobre la distribución de probabilidades y particularmente sobre la
distribución normal en el siguiente video:
Distribución de probabilidades
Distribución de probabilidades
45
moda son iguales, y las distribuciones sesgadas, ya sea con sesgo positivo o con
sesgo negativo. Nosotros estudiaremos la distribución normal porque muchos
fenómenos reales se distribuyen de esa manera, fenómenos naturales como un
sismo o un deslave por lluvias, fenómenos psicológicos como la reacción de las
personas ante un desastre natural, las opiniones también se distribuyen de manera
normal y fenómenos sociales como el matrimonio en una época determinada.
La distribución normal es simétrica respecto de la media, esto quiere decir que los
datos se concentran en el centro por lo que tiene forma de campana y la media
divide el área a la mitad, esto es 50% de cada lado, por lo que las medidas de
tendencia central media, mediana y moda son iguales. Toda el área debajo de la
curva es igual 1, es asintótica al eje de las abscisas porque nunca las toca y se
utiliza para muestras grandes.
El área bajo la curva representa el 100% y se mide en desviaciones estándar
respecto de la media, la primera desviación estándar antes y después de la media
abarca el 68.3 % del área bajo la curva, esto quiere decir que existe el 68.3% de
probabilidad de que en un evento ocurra en esta área, por lo que los casos o
situaciones que se distribuyen de manera normal se concentran en el centro y hay
muy pocos casos extremos.
Por ejemplo en psicología la inteligencia del grueso de la población se concentra
entre un CI de 85 y 115 puntos, esta es la inteligencia normal, la segunda
desviación estándar antes y después de la media abarca 95.4% del área bajo la
curva, y la tercera desviación estándar antes y después de la media cubre
prácticamente toda el área, esto es el 97.9%, por lo que las personas con muy
bajo nivel intelectual o muy alto nivel son muy escasos.
46
Como verás, resulta muy importante, necesario y económico realizar inferencias con respecto
a una población a partir de lo que se sabe de una muestra. La estadística ha desarrollado
para ello la teoría y los métodos; en particular, la estadística inferencial trabaja
fundamentalmente mediante el planteamiento de hipótesis, esto es, mediante el
planteamiento de afirmaciones que suponemos verdaderas y que analizamos para
comprobar o rechazar.
El proceso consiste en plantear dos hipótesis opuestas (una debe ser negación de la otra, de
manera que una resulte verdadera y otra falsa). La prueba de hipótesis busca demostrar que
una de ellas es muy improbable, lo que implica que la otra es probablemente la verdadera.
47
Las hipótesis estadísticas se denominan generalmente hipótesis nula (H0) e hipótesis alterna
(Ha). La hipótesis nula es la que se somete a prueba porque es la hipótesis que se establece
con el propósito de ser rechazada, en tanto que la hipótesis alterna es la conclusión a la que
se espera llegar.
48
Pruebas de hipótesis
Existen varias pruebas de hipótesis. En este curso estudiaremos dos pruebas de hipótesis que
se utilizan para comparar las medias de dos grupos: la prueba normal y la t de Student.
49
Prueba normal (z)
Prueba normal
50
4. El paso 4 es calcular el estadístico Z para compararlo con la Z de tablas que
̅̅̅̅
(𝑋 ̅̅̅̅
1 −𝑋 2)
ya tenemos. La fórmula para calcular Z es esta: 𝑍 = 2 2
y nos muestra la
√𝑆1 +𝑆2
𝑛
diferencia de la media del grupo 1, menos la media del grupo 2 entre la raíz
cuadrada de la suma de la desviación estándar del grupo 1 y la desviación
estándar del grupo 2, entre el tamaño de la muestra.
51
para cada grupo, la desviación estándar y el valor de n, sustituimos estos valores
en la fórmula.
Datos
Mujeres Hombres
𝑋1 =4.90
̅̅̅ 𝑋2 = 4.88
𝑆1 = 0.38 𝑆2 = 0.42
𝑛= 69
̅̅̅1 − ̅̅̅
(𝑋 𝑋2 )
𝑍=
2 2
√𝑆1 + 𝑆2
𝑛
4.90 − 4.88
𝑍=
2 2
√(0.38) + (0.42)
69
Empezamos a hacer nuestras operaciones y tenemos que 4.90-4.88 nos da un valor
de 0.02, elevamos el 0.38 al cuadrado y nos da 0.1444 y le sumamos el cuadrado
de 0.42, que nos da 0.1764 dividido entre 69. Hacemos la suma de estos dos y nos
da 0.3208. Después hacemos nuestra división 0.3208/69 y nos da 0.004649, a esa
cantidad le sacamos la raíz cuadrada, entonces tenemos 0.02 entre 0.06818
hacemos nuestra división y obtenemos el valor final de Z que es Z= 0.29, ya tenemos
nuestra Z calculada.
Una vez que ya tenemos el valor de la Z calculada la comparamos con el valor de
Z de tablas en una campana de Gauss como esta y vemos si cae en la zona de
rechazo, que aquí está marcado con verde o en la zona de no rechazo, recuerda
que al centro está el 0 entonces aquí ubicamos el valor de la Z calculada que es
0.29 y vemos que cae en la zona de no rechazo, por lo tanto podemos concluir lo
siguiente, no hay suficiente evidencia para afirmar que la opinión de las mujeres
es diferente de la de los hombres respecto a que todos deben de colaborar en el
arreglo de la casa.
Ahora ya sabes cómo se aplica la prueba normal para comparar las medias de dos grupos,
pero es importante que sepas que no todas las muestras se distribuyen normalmente y no
siempre es posible trabajar con muestras lo suficientemente grandes, por lo que en esos casos
se usan otras pruebas estadísticas, y una de las más conocidas es la t de Student.
52
T de Student
Fue propuesta por William S. Gosset en 1908, bajo el seudónimo de “Student” y surge de la
necesidad de evaluar probabilidades de muestras muy pequeñas, donde se desconoce la
desviación estándar de la población, por lo que no se ajustan a la distribución normal.
Su forma es muy parecida a la de la prueba normal, sólo que es más alargada.
53
Existen varios tipos de prueba t, las hay para muestras relacionadas, que se utilizan cuando en
una misma muestra se hacen dos mediciones, como cuando se aplica un diseño pre test y
postest, por ejemplo cuando en un salón de clase se mide el número de palabras leídas antes
de aplicar un método y después de haberlo aplicado.
Otra prueba t, que es la que vamos a conocer, es la prueba t para muestras independientes,
que se aplica a diferentes grupos, por ejemplo, retomando el mismo ejemplo de la lectura,
cuando se quiere saber qué método de lectura es más eficiente, y se aplica cada método
en dos grupos distintos.
T de Student
54
El paso dos es elegir el nivel de significancia con el que vamos a trabajar, que en
este caso trabajaríamos al 95% de confiabilidad, o lo que es lo mismo nos
permitiríamos un 5% d error.
El paso tres es calcular la t con la siguiente formula:
̅̅̅1 − ̅̅̅
(𝑋 𝑋2 )
𝑡=
𝑆𝑆1 + 𝑆𝑆2 1 1
√( )( + )
(𝑛1− 1) + (𝑛2− 1) 𝑛1 𝑛2
55
El siguiente paso es calcular el valor de t, para ello primero vamos a sumar los
valores de 𝑥1 , nuestro primer grupo que son 𝑥1 serían las mujeres y tenemos que la
sumatoria es 36.
Después hacemos los mismo sumamos los valores del segundo grupo que es el de
los hombres y la sumatoria de 𝑋2 es de 24, luego elevamos cada dato al cuadrado
para obtener el cuadrado de x, entonces 4 al cuadrado nos da 16, 3 al cuadrado
nos da 9, 5 al cuadrado nos da 25, cero al cuadrado nos da 0, cinco al cuadrado
nos da 25, 3 al cuadrado nos da 9 que se repiten estos datos y 5 al cuadrado nos
da 25, sumamos todos los cuadrados y obtenemos que la sumatoria de las x2 es
152 para el primer grupo.
Hacemos lo mismo para el segundo grupo, el primer dato es 1 elevado al
cuadrado es 1, 3 al cuadrado nos da 9, 0 al cuadrado nos da cero, 4 al cuadrado
nos da 16, 3 al cuadrado 9, cuatro al cuadrado, 16 y cinco al cuadrado nos da 25,
sumamos todos los cuadrados y tenemos que la sumatoria de x2 para el segundo
grupo es 92.
Ahora calculamos el promedio de cada grupo. Para el primer grupo de mujeres es
3.6 y para hombres es 2.67. Aquí por alguna razón que no reconoció el programa
salió el signo de interrogación, pero es el promedio, ya sabemos que n1 son 10 y
n2 son 9.
Una vez que ya tenemos todos estos datos y antes de sustituir los valores en la
fórmula de t necesitamos calcular la suma de cuadrados para cada grupo. Aquí
tenemos la fórmula de la suma de cuadrados aparece con subíndice 1 para
calcular el primer grupo que es el de mujeres y aquí aparece con subíndice 2 para
calcular el de los hombres, entonces podemos sustituir los valores.
Vamos a empezar calculando SS para mujeres, nos pide primero la sumatoria de
las x2, aquí está del primer grupo es 152 menos la sumatoria de las x, la sumatoria
de las x es 36 elevado al cuadrado es 1296, entre 𝑛1 que sabemos que son 10
datos, haciendo toda las operaciones nos da 22.4 de 𝑆𝑆1 .
(∑ 𝑋1 )2 1296
𝑆𝑆1 = ∑ 𝑋12 − 𝑛1
𝑆𝑆1 = 152 − 10
= 152 − 129.6 = 22.4
Y hacemos ahora lo mismo para SS2, nos pide la sumatoria de las x2 que es 92,
menos las sumatoria de las x del segundo grupo que es 24 elevado al cuadrado
nos da 576 entre n que son 9 datos, hacemos las operaciones y nos da un valor de
SS para el grupo dos de 28.
(∑ 𝑋2 )2 576
𝑆𝑆2 = ∑ 𝑋22 − 𝑛2
𝑆𝑆2 = 92 − 9
= 92 − 64 = 28
56
̅̅̅1 − ̅̅̅
(𝑋 𝑋2 )
𝑡=
𝑆𝑆1 + 𝑆𝑆2 1 1
√( )( + )
(𝑛1− 1) + (𝑛2 − 1) 𝑛1 𝑛2
̅̅̅̅−2.67
(3.6 ̅̅̅̅̅̅) 0.93 0.93 0.93 0.93
𝑡= = = = = = 1.118
22.4+ 28 1 1
√((10−1)+ (9−1) )(10+9) √(
50.4 √2.96 (0.21) √.6216 0.788
)(0.1+0.11)
17
Muy bien, ahora el paso cuatro es buscar el valor de la t de tablas para ello lo
primero que tenemos que buscar es los grados de libertad que es n1+n2-2, entonces
los grados de libertad serían 10+9-2 que serían 17 grados de libertad, ubicamos los
17 grados de libertad en la primera columna que estarían aquí, los 17 grados de
libertad y como sabemos que vamos a trabajar con un error 5% dividimos el 0.05
/2 que nos daría 0.025 que está aquí en la primer fila y cruzamos los datos, y una
vez que los cruzamos tenemos el valor de t de tabla que sería 2.110.
Ahora que ya tenemos el valor de la t calculada en la t de tabla los comparamos
y vemos que cae en la zona de no rechazo, aquí el valor de la t de tablas sería
2.11, aquí tenemos los puntos mayores a 2.11 y aquí menores a -2.11 como mi t
calculada es de t=1.118 más o menos caería aquí, cae en la zona de no rechazo,
por lo que se concluye que no hay suficiente evidencia para afirmar que hay
diferencias de opinión entre hombres y mujeres respecto de que “los hombres
corren menos riesgo en la calle de noche que las mujeres”.
Ahora que ya sabes cómo aplicar una prueba de hipótesis, puedes ponerlo en práctica con
los datos de tu investigación, seguramente te gustaría comparar la opinión de alguno de tus
reactivos por género, o por rango de edad, por estado civil o por cualquier otro grupo que
identifiques y que te gustaría comparar. Tu asesor te ayudará con gusto para definir este punto
si lo necesitas, pues con esta prueba vas a dar el toque final al informe de investigación que
has venido realizando.
57
Pero antes de que integres tu informe final y des por concluido este curso recapitulemos:
A lo largo de este curso has aprendido a observar de manera diferente el medio en el que te
desenvuelves, sabes que los aspectos sociales también son susceptibles de ser medidos y
analizados mediante el método científico, y que prácticamente todo evento o circunstancia
arroja datos susceptibles de ser analizados y que al sistematizarlos se convierten en
información valiosa que nos permite tomar mejores decisiones.
Hasta este momento hemos aplicado algunas herramientas estadísticas para procesar datos,
pero te has preguntado ¿qué pasa cuando lo que se quiere analizar tiene muchos, muchos
más datos de los que vimos en esta unidad? Tantos que no te los puedas imaginar. Por ejemplo
los efectos de las enfermedades en la población de los diferentes países de acuerdo a su
medio geográfico, o bien, ¿cómo hace un buscador para “saber” qué página de internet es
la más consultada sobre un tema si son millones de personas quienes hacen las búsquedas?
¿Cómo funciona un reloj deportivo inteligente para determinar cuánto tienes que correr
hoy?Pues bien, como ya viste, los datos se pueden convertir en información valiosa que nos
permita entender lo que ocurre en el medio donde estamos y tomar decisiones al respecto.
Para tomar las decisiones no siempre se trata de menos de 30 datos, o 200, o ni siquiera mil.
Puede haber cantidades exorbitantes para procesar, y en ese caso las herramientas que
hemos visto en este curso son insuficientes. Pero existe una herramienta para analizar grandes
cantidades de datos.
Estamos hablando de
Big data
Volumen
58
Se trabaja con cantidades de datos mayores a petabytes o zetabytes
Variedad
Permiten almacenar todo tipo de datos, estructurados en tablas como fechas y números
o no estructurados como formatos PDF, correos electrónicos o documentos de textos.
Velocidad
Dada la velocidad con que se generan o se modifican, los datos se reciben y se procesan
en tiempo real, favoreciendo una mejor toma de decisiones.
59
4
Veracidad
Los datos son confiables, pues se eliminan aspectos que pueden hacerlos imprevisibles
como el tiempo.
Valor de dato
Reconocen qué datos deben analizar de acuerdo a la problemática de interés, por
ejemplo, para saber qué producto se vende más en una época determinada.
Generalmente a los big data se les vincula con datos informáticos, que arrojan las redes
sociales, correos electrónicos, consultas en la nube, imágenes, pagos con tarjeta de crédito,
compras en línea, etc. Y para que te des una idea del uso que pueden tener te invitamos a
ver las estadísticas móviles de Hans Rosling:
60
Uso del big data
¿Te parecieron familiares las gráficas que viste en el video? ¿Pudiste identificar las variables
en los ejemplos? ¿Notas la moda en la curva de la distribución mundial de ingresos y cómo se
distribuye el porcentaje en la curva?
En el diagrama de dispersión de la edad de supervivencia de los niños, ¿Los datos se ajustan
a una línea recta? ¿Reconociste a los quintiles como un término técnico que puedes
interpretar?
Si no pudiste contestar alguna de la preguntas, te invitamos a ver nuevamente el video y a
reconocer cómo el procesamiento de los big data, aunque se hace con otra tecnología, sí
puedes interpretarlos y comprenderlos a partir los conocimientos que adquiriste en esta
asignatura.
Finalmente es importante que sepas que los big data ofrecen un campo infinito de aplicación
y se utilizan para resolver problemas ambientales, de educación, de salud y de seguridad, y si
quieres saber dónde se están aplicando puedes consultar “6 casos de éxito en la aplicación
del Big Data” (TIC beat, 2016)
61
Es momento de integrar tu informe de investigación.
Carátula
Abstract
Palabras clave
Marco teórico
Método
o Planteamiento del problema
o Objetivo
o Hipótesis
o Variables dependiente e independiente
o Procedimiento
o Descripción de la muestra
Resultados
Conclusiones
Fuentes consultadas
Anexos
Ya tienes la carátula, ella debe contener título de tu investigación, los nombres de los
integrantes del equipo, sede, nombre del asesor y fecha de entrega.
El abstract es un resumen de toda tu investigación y debe tener el objetivo de la investigación,
explicar brevemente el método y los resultados.
Después del abstract van las palabras clave, seguidas del marco teórico que ya trabajaste
en la unidad 2.
También ya tienes el método, que debe tener el planteamiento del problema, objetivo,
hipótesis con las variables independiente y dependiente bien identificadas, la descripción del
procedimiento y de la muestra con sus gráficas.
En la sección de resultados vas a colocar las descripciones y gráficas que trabajaste en la
unidad 3, junto con los resultados de la tabla de datos cruzados o análisis de regresión que
trabajaste en la unidad 4, además de incluir los resultaos de una prueba de hipótesis, tú
decides si aplicas la normal o la t de Student. En los resultados no vas a exponer todo el
62
procedimiento que seguiste para calcular la prueba de hipótesis, solamente planteas tus
hipótesis estadísticas, con qué confiabilidad trabajaste, el valor que obtuviste de la prueba
aplicada y la conclusión para saber si se rechazó o no la hipótesis nula.
Para las conclusiones, toma en cuenta que deben mencionar si comprobaste o no tu hipótesis
conceptual, la que planteaste en la unidad 2, pues todos los análisis estadísticos se centraron
en esta hipótesis, por lo que el lector debe tener total claridad de qué se concluye del análisis
de los resultados. También puedes incluir las limitaciones del estudio, como las fallas o
circunstancias que pudieran afecta la validez o confiabilidad de tu investigación, esto
ayudará a posteriores investigadores a corregir estos errores. También puedes contrastar tus
conclusiones con las de estudios previos que revisaste al hacer el marco teórico y proponer
interrogantes que no abarcó tu estudio o que surgieron al hacerlo.
Después van las fuentes consultadas al estilo APA, y finalmente en el anexo vas a incluir el
formato de encuesta que aplicaste.
Para que tengas un claro ejemplo de cómo debe quedar tu informe final
puedes ver el informe de investigación sobre equidad de género que
hicieron María, Jorge y Laura a continuación.
Presentan:
Anguiano Anguiano Jorge
López Aguirre Laura
Pérez Martínez María
Bachillerato en línea.
SEDE Ciudad de México
ASESOR: Teresita Aguirre
Fecha de entrega: 14 de febrero de 2017
63
pedía la opinión acerca de actividades y responsabilidades típicas de cada género, como
el que la mujer sea la responsable de la limpieza y el varón el proveedor del hogar y se
encontró en todos los casos que los jóvenes estaban en su mayoría en desacuerdo y
completamente en descuerdo. Conclusiones: No se encontró diferencia en la opinión de
las responsabilidades que corresponden a hombres y mujeres de acuerdo al género.
Marco teórico
64
Históricamente, los hombres y las mujeres han desempeñado roles muy distintos en cuanto
a su participación en la sociedad, tanto dentro como fuera de la casa, esto hace que no
existan condiciones de igualdad, pues hombres y mujeres tienen diferentes
responsabilidades, lo cual da lugar a derechos distintos. Sin embargo con los múltiples
cambios que surgen al modificarse el sistema y las actividades económicas, han dado lugar
a que los roles tradicionales ya no sean los mismos y la mujer empiece a adquirir otras
responsabilidades y a exigir iguales derechos a los que disfrutan los varones, ya que al
incorporarse a la fuerza laboral adquiere independencia económica y participa en la toma
de decisiones de su hogar y de su núcleo social.
Al paso del tiempo las mujeres han conquistado más espacio en los empleos, han
avanzado un poco en la política, pues todavía son muy pocas las mujeres que ocupan
cargos importantes en ella. En las universidades son muchas más las mujeres que se
matriculan en carreras “masculinas”; sin embargo, y a pesar de los logros alcanzados, y de
que la mujer ha demostrado que puede desempeñar labores con la misma eficiencia que
los hombres, y que ha adquirido responsabilidades fuera del hogar, la educación informal,
la de casa, justo la que está a cargo de las mujeres es la que sigue marcando diferencias
en las roles que desempeñan cada uno de los géneros.
En casa se aprende lo que corresponde hacer a un hombre y a una mujer y cuáles son sus
responsabilidades de acuerdo a su género, por lo que cabe preguntarse si las nuevas
generaciones, las de los jóvenes de nivel medio superior continúan siendo educadas en
casa para desempeñar los roles de género tradicionales.
En este sentido, la pregunta de investigación es ¿Los jóvenes preuniversitarios tienen
diferente perspectiva de las responsabilidades que le corresponde a cada uno de acuerdo
a su género? O siguen en la misma línea en cuanto a derechos y obligaciones para cada
uno.
Método
65
mismas responsabilidades que ellos, la educación sigue marcando diferencias en las roles
que ha de desempeñar cada uno.
Este rol se aprende en casa y es en este primer núcleo donde se perpetúan y marcan las
responsabilidades que corresponden a cada género, por lo que cabe preguntarse si las
nuevas generaciones continúan siendo educados en casa para desempeñar los roles de
género tradicionales. Por lo que la pregunta para abordar este tema en el presente trabajo
es ¿Los jóvenes preuniversitarios tienen diferente perspectiva de las responsabilidades que
le corresponde a cada uno de acuerdo a su género?
Procedimiento
66
Del total 46% son hombres y 54% mujeres
En esta gráfica se puede apreciar que los participantes iban de 15 a 19 años de edad, y
de todas las edades, la de 16 fue la de mayor frecuencia.
67
Del total de encuestados, poco más de la mitad (57%) tiene estudios concluidos de
secundaria y están cursando actualmente el bachillerato. El resto (43%) ya concluyó
sus estudios de bachillerato.
68
Resultados
En las tablas 1, 2 y 3 se pueden ver los datos obtenidos al calcular las medidas de tendencia
central, de dispersión y de posición de los reactivos analizados:
69
1.Es responsabilidad de la mujer mantener la 2 0 3
limpieza del hogar
3.Los hombres son los responsables de llevar el 3 1 4
sustento a la casa
4.A la mujer le corresponde hacer de comer 2 0 3
En esta gráfica, donde se muestran los resultados totales del reactivo “1. Es
responsabilidad de la mujer mantener la limpieza del hogar”, se aprecia
claramente que el promedio de los jóvenes encuestados está casi completamente
en desacuerdo con la afirmación y la moda indica que la opción que más
eligieron fue estar completamente en desacuerdo.
70
El reactivo 1 también se analizó haciendo una tabla cruzada para comparar las
opiniones por género y se encontró que aunque en su mayoría, tanto hombres como
mujeres están completamente en desacuerdo, son más las mujeres que lo están que
los hombres, pues la cantidad de mujeres que están completamente en
desacuerdo casi duplica a la cantidad de varones que están completamente en
desacuerdo.
71
Se analizó el mismo reactivo comparando las opiniones del total de mujeres contra las del
total de hombres y sobresale que del total de las mujeres, el 56.41% están completamente
en desacuerdo en que mantener la limpieza del hogar es una responsabilidad de la mujer;
sin embargo, solamente una tercera parte de los hombres (36.36%) está completamente
en desacuerdo con esta afirmación.
En esta gráfica se puede observar que mientras los jóvenes creen que la limpieza del
hogar no solamente es responsabilidad de la mujer, el llevar el sustento a la casa tampoco
se ve como una responsabilidad propia de los varones, aunque
El promedio para esta afirmación fue 1.38, la mitad (mediana) eligió de 2 en adelante y la
otra mitad, de 2 o menos. La moda indica que la opción que más eligieron fue estar
completamente en desacuerdo.
72
Al analizar el reactivo “4. A la mujer le corresponde hacer de comer”, los jóvenes
encuestados manifestaron en su mayoría estar completamente en desacuerdo y una
cuarta parte está casi completamente en desacuerdo.
En el reactivo “9. Los hombres corren menos riesgos en la calle de noche que las
mujeres”, se observa que el promedio fue 2.74 y la mediana es 3, lo cual quiere decir
que la mitad está de acuerdo y la otra mitad en desacuerdo. La opción más
elegida fue también 3, que marca una tendencia hacia estar de acuerdo con la
afirmación.
73
Al graficar el reactivo “10. Una mujer exitosa termina quedándose sola”, se observa
que la mayoría está completamente en desacuerdo. Por lo que la gráfica
concentra sus datos en la opción 0 y tiene un promedio de 0.40. una mediana de 0
y una moda de 0.
74
casa y que pueden gritar cuando algo no les parece, y se obtuvo un coeficiente de
0.32226085, lo cual indica que no hay correlación entre las variables, por lo que no
se pudo hacer el análisis de regresión.
Entonces se buscó si había correlación entre las variables edad y creer que a la
mujer le corresponde hacer de comer, y se obtuvo un valor r=0.04887842, por lo que
tampoco se encontró correlación entre estas variables y no procedió hacer el
análisis de regresión.
75
Como parte del análisis estadístico se aplicó una prueba de hipótesis con el
estadístico z (normal) a un nivel de significancia del 95% para saber si la diferencia
entre la opinión de hombres y mujeres respecto del reactivo “8. Todos deben
colaborar en el arreglo de la casa” es estadísticamente significativa.
Ho: Las mujeres opinan igual que los hombres respecto de la afirmación “Todos
deben colaborar en el arreglo de la casa”
Ha: Las mujeres opinan diferente a los hombres respecto de la afirmación “Todos
deben colaborar en el arreglo de la casa”
No hay suficiente evidencia para afirmar que la opinión de las mujeres es diferente
a la de los hombres respecto de que todos deben colaborar en el arreglo de la casa.
Conclusiones
76
3.Los hombres son los responsables de llevar el sustento a la casa
9.Los hombres corren menos riesgos en la calle de noche que las mujeres
Esto nos lleva a pensar que las responsabilidades de las actividades del hogar se
han ido modificando y con ello también ha cambiado la perspectiva que tienen los
jóvenes acerca de las funciones y responsabilidades que tienen y que no dependen
del género.
Esto no necesariamente conduce a que las actividades del hogar se asignen y/o
realicen de forma equitativa, pero muestra que las generaciones más jóvenes ya no
perciben que haya actividades que sean exclusivas de un género por el hecho se
ser hombre o mujer.
Una limitante del estudio es la muestra, que fue pequeña y solamente contempló a
la población de una escuela, lo cual puede influir porque se trata de jóvenes que
se desarrollan en ambientes similares. Por lo que se sugiere ampliar la muestra y
también ampliar el rango de edad de los participantes.
Fuentes consultadas:
CNDH. (2015) Responsabilidades familiares compartidas, disponible en
http://www.cndh.org.mx/sites/all/doc/Programas/Ninez_familia/Material/foll_respon
sabilidadesFamiliaresCompartidas.pdf
Hernández Prados, MA. y Lara Guillén, B. (2015) Responsabilidad familiar ¿una cuestión de
género?, en Revista de educación social, 21, disponible en
http://www.eduso.net/res/21/articulo/responsabilidad-familiar-una-cuestion-de- genero-
77
ONU, (2008) El papel de los hombres y los niños en el logro de la igualdad entre los géneros, en La
mujer en el 2000 y después, disponible en
http://www.un.org/womenwatch/daw/public/w2000/08- 52641_Women2000_SP_FIN.pdf
ONU, (s/f) La distribución equitativa de las responsabilidades entre mujeres y hombres, incluyendo
cuidados, en Statements. Baha’I International Community, disponible en
https://www.bic.org/statements/la-distribucion-equitativa-de-las-responsabilidades- entre-mujeres-y-
hombres-incluyendo-ciudados#qUZMTmMHWI86QM4Y.97
SRE. (2016) El reparto de las tareas y responsabilidades entre mujeres y hombres, disponible en
https://www.gob.mx/sre/articulos/el-reparto-de-las-tareas- y-responsabilidades-entre-mujeres-y-
hombres
Anexo
Instrucciones: Por favor escriba en una escala del 0 al 5 qué tanto coincide
con las siguientes afirmaciones, considerando que 0 es totalmente en
desacuerdo y 5 totalmente de acuerdo.
0 1 2 3 4 5
1. Es responsabilidad de la mujer mantener la limpieza del
2. hogar
Los varones son más hábiles para negociar
3. Los hombres son los responsables de llevar el sustento a la casa
4. A la mujer le corresponde hacer de comer
5. Un hombre puede gritar cuando algo no le parece
78
6. La mujer que trabaja descuida su hogar aunque no quiera
7. El hombre merece descansar cuando llega de trabajar
8. Todos deben colaborar en el arreglo de la casa
9. Los hombres corren menos riesgos en la calle de noche que las
mujeres
10. Una mujer exitosa termina quedándose sola
79
Realiza la actividad en plataforma:
Cuestionario de Opinión
❖ Chi cuadrada
Ahora que has llegado a este punto, ya puedes poner en práctica todos tus conocimientos
de estadística, puedes describir una muestra usando la estadística descriptiva y también
puedes hacer ajustes a la recta e incluso hacer pruebas de hipótesis con variables
cuantitativas con la prueba z y t de Student.
Seguramente te preguntarás qué pasa si quieres comparar variables nominales, que son
cualitativas. En este caso, cuando queremos comparar dos o más grupos independientes
organizados en una tabla de contingencia y saber si las diferencias se deben o no al azar se
aplica otra prueba estadística conocida como
80
Veamos una prueba Chi cuadrada para una tabla de 2X2.
A B
C D
¡Veamos un ejemplo!
Chi cuadrada
81
los fumadores pasivos y por el otro a los fumadores activos y tenemos un variable
dependiente nominal que en este caso es dicotómica, pacientes con cáncer de
pulmón y pacientes sin cáncer de pulmón. Estas son condiciones necesarias para
aplicar una chi cuadrada.
Para aplicar la prueba de hipótesis empezaremos con el paso 1. Que es formular
las hipótesis estadísticas:
✓ Hipótesis nula Ho: Es la proporción de fumadores que desarrollaron cáncer
de pulmón es igual entre fumadores activos y pasivos.
✓ La hipótesis alterna Ha: La proporción de fumadores que desarrollaron
cáncer de pulmón es diferente entre fumadores activos y pasivos.
82
Ya todo queda sustituido, aquí en la fórmula de la chi cuadrada. Ahora lo que
procede es realizar las operaciones que nos indica la fórmula, ya con los valores
sustituidos, tenemos aquí ya los valores, y bueno empezamos resolviendo el
paréntesis que se encuentra aquí adentro:
60
60 [(14 ∗ 18 − 8 ∗ 20) 2 ]2
2
𝑥 =
(14 + 8) ( 20 + 18) (14 + 20) (8 + 18)
60 [(252 − 160)30]2
𝑥2 = =
(22) ( 38) (34) (26)
60 [92 − 30]2
𝑥2 = =
739024
60 (62)2
𝑥2 = =
739024
60 (3844)
𝑥2 = =
739024
230640
𝑥2 = =
739024
𝒙𝟐 = 𝟎. 𝟑𝟏𝟐𝟏
¡Ahora es tu turno!
83
Se realizó un estudio para conocer cómo se distribuye una pareja las tareas domésticas y con
las respuestas que dieron se formó la siguiente tabla de contingencias:
Ho: _______________________________________________________________
Ha: _______________________________________________________________
La chi cuadrada de tablas al 95% es: ___________
La chi cuadrada calculada es (redondea a 2 dígitos): ___________
La chi cuadrada calculada cae en la zona de: ___________
Por lo tanto se concluye lo siguiente: ___________
Respuestas: Ho: La cantidad de mujeres que hace las tareas domésticas es igual a la de hombres que tienen esa responsabilidad en el hogar, Ha:La
cantidad de mujeres que hace las tareas domésticas es diferente a la de hombres que tienen esa responsabilidad en el hogar, L a chi cuadrada
de tablas al 95% es: 3.841, La chi cuadrada calculada es (redondea a 2 dígitos): 3.47, La chi cuadrada calculada cae en la zona de: no rechazo,
Por lo tanto se concluye lo siguiente: No hay suficiente evidencia para afirmar que la cantidad de mujeres que hacen las tareas domésticas es
diferentes a la de hombres que tienen esa responsabilidad en el hogar.
84