Reporte de Lectura 3 - Flores - Compadre - José - Luis

UNIVERSIDAD IEXPRO
ACTIVIDAD 2: REPORTE DE LECTURA.
Lecturas 6 y 7.
ASIGNATURA: SEMINARIO DE INTRODUCCIÓN A LA

INVESTIGACIÓN.
NOMBRE DEL DOCTORANDO: JOSÉ LUIS FLORES

COMPADRE.
CIUDAD DE MÉXICO A 23 DE JUNIO DE 2019.
0
ENTORNO AL ANÁLISIS DE DATOS
́
¿Qué es la estadistica inferencial?
Frecuentemente, el propó sito de la investigación va más allá de describir las distribuciones
de las variables, se pretende generalizar los resultados obtenidos en la muestra a la
población o universo. Los datos casi siempre son recolectados de una muestra y sus
resultados estadi ́sticos se denominan “estadi ́grafos” ó “estadi ́sticos”, la media o la
desviación estándar de la distribución de una muestra son estadi ́grafos o estadi ́sticos. A las
estadi ́sticas de la població n o universo se les conoce como “parámetros”. Los parámetros
no son calculados, porque no se recolectan datos de toda la població n, pero pueden ser
inferidos a través de los estadi ́grafos, de ahi ́ el nombre de “estadi ́stica inferencial”.
La inferencia de los parámetros se lleva a cabo mediante técnicas estadi ́sticas apropiadas
para ello. Estas técnicas se explicarán más adelante.
La estadi ́stica inferencial puede ser utilizada para dos procedimientos:
a) Probar hipótesis
b) Estimar parámetros
La prueba de hipó tesis.

¿En qué consiste la prueba de hipótesis?
Una hipó tesis en el contexto de la estadi ́stica inferencial, es una proposición respecto a uno
o varios parámetros, y lo que el investigador hace a través de la prueba de esta prueba es
determinar si la hipó tesis es consistente con los datos obtenidos en la muestra. Si la
hipótesis es consistente con los datos, ésta es retenida como un valor aceptable del
parámetro. Si la hipótesis no es consistente con los datos, se rechaza esta, pero los datos
no son descartados.
La estadísitca inferencial permite que los investigadores hagan inferencias sobre
diferencias, correlaciones, predicciones y causalidades
“verdaderas” con base en datos muestrales de las varables de El error aleatorio nace
estudio. Específicamente, la estadísitica inferencial indica la del hecho que se trabaja
con muestras de
probabilidad de que la diferencia, correlación, predicción y/o
individuos, y no con toda
causalidad entre los datos muestrales esté reflejando el error la población. Procede,
aleatorio y no una diferencia real. pues, de la variabilidad
Así, el error aleatorio depende del tamaño de la muestra: inherente al muestreo.
cuando éste aumenta, el error disminuye.
1
Este tipo de error está muy relacionado con el concepto
El error sistemático o de precisión o fiabilidad. La estadística permite
sesgo, aparece cuando se
introduce un error en el cuantificar el error aleatorio.
diseño del trabajo, ya sea Para comprender lo que es la prueba de hipótesis en la
en la selección de los estadi ́stica inferencial es necesario revisar el concepto de
individuos, en la distribució n muestral y nivel de significancia.
información recogida o en
su análisis.
Figura 2. Relación entre población-muestra y la inferencia estadístico-parámetro.
La distribución muestral.
Una distribución muestral, como se muestra en la figura 3, consiste en un conjunto de
valores sobre una estadística calculada de todas las muestras posibles (de un determinado
tamaño) de una población.
Figura 3. Diferentes muestras de una población.
2
Supongamos que nuestro universo o població n son los automovilistas de una ciudad y
deseamos averiguar cuánto tiempo pasan diariamente “al volante”. De este universo
(supongamos 98754 automovilistas) podri ́a extraerse una muestra representativa. Vamos a
suponer que el tamañ o adecuado de muestra es de quinientos doce automovilistas (n =
512).
Del mismo universo se podri ́an extraer diferentes muestras, cada una con 512 personas.
Teóricamente, incluso podri ́a hacerlo al azar una vez, dos, tres, cuatro y las veces que fuera
necesario hasta agotar todas las muestras posibles de 512 automovilistas de esa ciudad
(todos los sujetos seri ́an seleccionados en varias muestras). En cada muestra se podri ́a
obtener una media del tiempo que pasan los automovilistas manejando. Tendri ́amos pues,
una gran cantidad de medias, tantas como las muestras extrai ́das (X1, X2, X3, X4, X5, X6, X7)
Figura 4. Distribución muestral de medias.
Y con estas medias podri ́amos elaborar una distribució n de medias. Habri ́a muestras que —
en promedio— pasan más tiempo “al volante” que otras. Este concepto se representa en la
figura 4.
Si calculáramos la media de todas las medias de las muestras, obtendri ́amos el valor de la
media poblacional .
Desde luego, muy rara vez se obtiene la distribució n muestral (la distribució n de las medias
de todas las muestras posibles). Es más bien un concepto teórico definido por la estadi ́stica
para los investigadores. Lo que éstos comú nmente hacen es extraer una sola muestra.
En el ejemplo de los automovilistas, sólo uno de los puntos azules de la distribución
muestral presentada en la figura 4 es la media obtenida para la única muestra seleccionada
de 512 personas. Y la pregunta es, ¿nuestra media está cerca de la media de la distribución
muestral? (o lo que es igual, ¿la media de la muestra está cercana a la media de la
distribución muestral?), debido a que si está cerca podremos tener una estimación precisa
de la media poblacional (el parámetro poblacional es prácticamente el mismo que el de la
3
distribución muestral). Esto se expresa en el teorema central del li ́mite como se muestra en
la figura 5.
Teorema central del límite

“Si una población (no necesariamente normal) tiene de media m y de desviación estándar ,
la distribución de las medias en el muestreo aleatorio realizado en esta población tiende, al
𝝈
aumentar n, a una distribución normal de media m y desviación estándar de medias S𝒙 ̅=
√𝒏
donde n es el tamaño de muestra” (Hernández, 2006, p.445).
Figura 5. Demostración del teorema central del límite.
Es evidente que cuanto menor sea S (también conocido como el error estandar de la
distribución muestral), más ajustadas a la media de la población , serán las medias que
obtengamos de una muestra. De su propia definición, es facil darse cuenta de que cuanto
mayor es el tamaño de la muestra, menor es este grado de variabilidad, y por tanto más
similar a la media de la población .
Las distribuciones muestrales más usuales en la estadística inferencial son:

a) La distribución normal estandarizada (z), se utiliza para determinar la probabilidad de la
media cuya distribución se comporta de manera normal, y cuando la varianza poblacional
es conocida (ver figura 6).
4
b) La distribución t, se emplea para determinar la probabilidad de la media, cuya
distribución se comporta aproximadamente norma, y cuando la varianza poblacional es
desconocida (ver figura 6).
c) La distribución F, permite hacer inferencias sobre dos varianzas poblacionales al emplear
la razón entre sus varianzas muestrales.
d) La distribución x2, se emplea cuando los datos son frecuencias, y para determinar la
varianza de la muestra.
Figura 6. Dsitruibución z y t.
Las distribuciones muestrales, así como en error

estándar son dos conceptos fundamentales para El error estándar es la desviación
estándar de una distribución
la estimación de parámetros y para la prueba de
muestral y sirve para medir la
hipótiesis. dispersión del error muestral que
ocurre cuando se muestrea
repetidamente una población.
El nivel de significancia.
Usando el ejemplo planteado por Wiersma y Jurs (2005), la probabilidad de que un evento
ocurra oscila entre 0 y 1, donde cero significa la imposibilidad de ocurrencia y una la certeza
de que suceda el fenó meno. Al lanzar al aire una moneda, la probabilidad de que salga
“cruz” es 0.50 y la probabilidad de que la moneda caiga al suelo en “cara” también es de
0.50. Con un dado, la probabilidad de obtener cualquiera de sus lados al lanzarlo es de 1/6
= 0.1667. La suma de todas las posibilidades siempre es de 1.
Aplicando el concepto de probabilidad a la distribució n muestral, podemos tomar el área
de ésta como 1.0, y consecuentemente, cualquier área comprendida entre dos puntos de
5
la distribució n corresponderá a la probabilidad de la distribución, tal y como se observa en
la figura 7.
Para probar hipótesis inferenciales respecto a la media, el investigador tiene que evaluar si
es alta o baja la probabilidad de que la media de la muestra esté cerca de la media de la
distribución muestral. Si es baja, el investigador dudará de generalizar a la població n. Si es
alta, el investigador podrá hacer generalizaciones. Es aqui ́ donde entra el nivel de
significancia o nivel alfa (nivel α). Éste es un nivel de probabilidad de equivocarse y se fija
antes de probar hipó tesis inferenciales.
Por ejemplo. Si usted fuera a apostar por un equipo de

futbol y tuviera 95% de probabilidades de atinarle al
El nivel de significa (), es
un nivel de la probabilidad ganador, contra só lo un 5% de perder, ¿apostari ́a?
de equivocarse y que fija de Seguramente si ́, siempre y cuando le aseguraran ese
manera a priori el 95% en su favor. O bien, si le dieran 95 boletos de 100
investigador. para la rifa de un automóvil, ¿tendri ́a confianza en que
va a estrenar vehi ́culo? Seguramente si ́, no tendri ́a la
certeza total, pero si un alto grado de probabilidad.
Pues bien, algo similar hace el investigador social. Él obtiene una estadi ́stica en una muestra
(ejemplo: la media) y analiza qué porcentaje tiene de confianza de que dicha estadi ́stica se
acerque al valor de la distribució n muestral (que es el valor de la població n o parámetro).
Busca un alto porcentaje de confianza, una probabilidad elevada para estar tranquilo,
porque sabe que puede haber error de muestreo, y aunque la evidencia parece mostrar una
aparente “cercani ́a” entre el valor calculado en la muestra y el parámetro, esta “cercani ́a”
puede no ser real y deberse a errores en la selecció n de la muestra.
¿Con qué porcentaje de confianza el investigador generaliza, para suponer que tal cercani ́a
es real y no por un error de muestreo? Existen dos niveles convenidos en ciencias sociales
(ver figura 7):
a) El nivel de significancia del 0.05, el cual implica que el investigador tiene 95% de seguridad
para generalizar sin equivocarse, y sólo un 5% en contra. En términos de probabilidad, 0.95
y .05 respectivamente.
b) El nivel de significancia del 0.01, el cual implica que el investigador tiene un 99% en su
favor para generalizar sin temor y un 1% en contra (0.99 y 0.01 = 1.00).
Y para las ciencias biológicas y de la salud tambien se cuenta con:

a) El nivel de significancia del 0.001, el cual implica que el investigador tiene un 99.9% en su
favor para generalizar sin temor y un 0.1% en contra (0.999 y 0.001 = 1.00).
6
¿Cómo se relacionan la distribució n muestral y el nivel de significancia?
El nivel de significancia se expresa en términos de probabilidad (0.05, 0.01 y 0.001) y la
distribución muestral también se expresa como probabilidad (el área total de ésta como
1.00). Para ver si tenemos o no confianza al generalizar acudimos a la distribució n muestral,
con una probabilidad adecuada para la investigació n social. El nivel de significancia lo
tomamos como un área bajo la distribución muestral, tal y como se muestra en la figura 7,
y depende de si elegimos un nivel del 0.05 o de 0.01.
Figura 7. Niveles de significancia en la distribución de la muestra. Tomado de Hernández

(2004).
Asi ́, el nivel de significancia representa áreas de riesgo o confianza en la distribució n

muestral.
7
PRUEBAS ESTADÍSTICAS INFERENCIALES
Hay dos tipos de análisis que pueden realizarse: los análisis paramétricos y los no
paramétricos. Cada tipo posee sus caracteri ́sticas y presuposiciones que lo sustentan y la
elección del investigador sobre qué clase de análisis efectuar depende de estas
presuposiciones. Asimismo, cabe destacar que en una misma investigación pueden llevarse
a cabo análisis paramétricos para algunas hipó tesis y variables, y análisis no paramétricos
para otras.
Supuestos de la estadi ́stica paramétrica.
Para realizar análisis paramétricos debe partirse de los siguientes supuestos:

1) La distribución poblacional de la variable dependiente es normal: el universo tiene
una distribución normal.
2) El nivel de medició n de la variable dependiente es por intervalos o razón.
3) Cuando dos o más poblaciones son estudiadas, éstas tienen una varianza homogénea:
las poblaciones en cuestión tienen una dispersión similar en sus distribuciones.
Las pruebas estadi ́sticas paramétricas que revisaremos son:

a) Prueba t para muestras relacionadas
b) Prueba t para muestras independientes
c) ANOVA de un factor (one-way)
d) ANOVA de más de un factor (k-way)
e) ANCOVA, Análisis de covarianza
f) MANOVA, Análisis multivariado de varianzas
g) Correlación de Pearson
h) Regresión lineal
i) Regresión multiple
j) Análisis factorial (Análisis de componentes principales con rotación varimax)
Supuestos de la estadística no paramétrica
Para realizar análisis no paramétricos debe partirse de los siguientes supuestos:

 La mayoría de estos análisis no requieren de presupuestos acerca de la forma de la
distribución poblacional. Aceptan distribuciones no normales.
 Las variables no necesariamente deben de estar medidas en un nivel por intervalos o de
razón, pueden analizarse datos nominales u ordinales. De hecho, si se quieren aplicar
análisis no paramétricos a datos por intervalos o razón, éstos deben de ser resumidos a
categorías discretas (a unas cuantas). Las variables deben ser categóricas.
Las pruebas estadi ́sticas no paramétricas que revisaremos son:
a) Chi cuadrado
b) Correlación Phi
8
c) Correlación V de Cramer
d) Correlación Gamma
e) Correlación Spearman
f) Correlación Kendall
Es importante mencionar, que a partir de ahora nos enfocaremos para cada prueba, en dos
objetivos:
I) La selección de la prueba adecuada.

II) La interpretación de los resultados de cada prueba.
En el caso partícular del primer objetivo realizaremos la selección de culquiera de estas 16

pruebas a partir de una serie de preguntas organizadas en cuatro pasos.
Paso 1. Identificar la hipótesis del estudio

 ¿Cuál es la hipótesis nula y alterna del estudio?
 ¿A que tipo de hipótesis corresponde la hipótesis alterna: De diferencia,
Correlaciónal o Causal?
Paso 2. Identificar las Variables Independiente

 ¿Cuál o Cuáles son las variables independientes?
 ¿En qué nivel de medición están las variables independientes?
 ¿Cuántas varibles independientes tiene el estudio?
 ¿Cuántos niveles tienen las variables independientes del estudio?

 ¿Cuál o Cuáles son las variables dependientes?
 ¿En qué nivel de medición están las variables dependientes?
 ¿Cuántas varibles dependientes tiene el estudio?
 ¿Cuántos niveles tienen las variables dependientes del estudio?

 ¿Qué prueba es adecuada para comprobar la hipótesis del estudio?
Para facilitar, está serie de pasos para la selección de la prueba de hipótesis adecuada para
cualquier estudio que se nos pueda plantear, haremos uso de tres diagramas de decisión
que organizan las respuestas de cada una de las preguntas de los cuatro pasos antes
mencionados. De tal forma que solo exista una ruta posible para elegir cada prueba en
particular.
9
Figura 8. Diagrama de decisión para pruebas de hipótesis de diferencias entre grupos.
Figura 9. Diagrama de decisión para pruebas de hipótesis correlacionales.
10
Figura 10. Diagrama de decisión para pruebas de hipótesis causales.
Para ilustrar la efectividad del diagrama, así como de la secuencia de pasos entes descritos
pongamos un ejemplo ilustrativo.
Suponga que Flores-Compadre, García y Herrera (2018) desean comprobar la efectividad de

una novedosa técnica didáctica, para el aprendizaje de la estadística inferencial, llamada
“Diagrama de selección de los cuatro pasos”. Para ello, diseñan una investigación en la que
se asignan, de manera aleatoria, a 80 participantes voluntarios en dos grupos de 40 alumnos
cada uno. Ambos grupos son sometidos a 5 clases sabatinas de 4 horas impartidas por dos
profesores igualmente capacitados que se apegaron al contenido previamente acordado en
un plan de clase, con la única distinción de que al grupo 1 se le apoyó durante las clases con
la técnica y material didáctico del “Diagrama de selección de los cuatro pasos” y al grupo 2,
no. Al termino del curso se evaluaron las habilidades y conocimientos estadísticos de los
alumnos de ambos grupos con un examen diseñado de acuerdo con los parámetros
psicométricos correspondientes, con una escala decimal que va del 0 al 10 como la que se
utiliza para evaluar el desempeño en las materias cursadas en la universidad.
Se espera que el grupo 1, que recibió la condición experimental, muestre niveles más altos
en su rendimiento en estadística evaluados a través del examen.
11
¿Qué prueba estadística utilizaría para comprobar la hipótesis de esta investigación si
partimos del supuesto de que las distribuciones de ambos grupos son normales y
homogéneas?
Partiendo del Paso uno tendemos que responder las siguientes preguntas:
 ¿Cuál es la hipótesis nula y alterna del estudio?
H1: El grupo 1 (condición experimental) mostrará niveles más altos en las calificaciones
obtenidas en el examen de habilidades estadísticas que el grupo 2 (condición control).
H0: El grupo 1 (condición experimental) no mostrará diferencias significativas en las

calificaciones obtenidas en el examen de habilidades estadísticas que el grupo 2 (condición
control).
 ¿A que tipo de hipótesis corresponde la hipótesis alterna: ¿De diferencia,

Correlacional o Causal?
Al analizar la hipótesis alterna, nos damos cuenta de que se trata de una hipótesis de
diferencias de grupo, por lo que a partir de ahora solo podemos seleccionar las pruebas
contenidas en el diagrama de la figura 10, reduciendo las posibilidades de 16 pruebas a solo
7 opciones.
Ahora partimos al Paso dos:
 ¿Cuál o Cuáles son las variables independientes?

Identificamos a la variable independiente del estudio la que corresponde con la técnica de
enseñanza usada para la clase de estadística.
 ¿En qué nivel de medición están las variables independientes?
Se trata de una variable independiente que categoriza a los participantes en dos
condiciones la “técnica novedosa” y la “técnica tradicional por lo que concluimos que se
trata de una variable medida a nivel nominal.
 ¿Cuántas variables independientes tiene el estudio?
Solo estamos tratando con una variable independiente.
 ¿Cuántos niveles tienen las variables independientes del estudio?
Y en este caso particular de dos niveles (condición experimental y condición control)
Al revisar estas condiciones con el apoyo del diagrama de la figura 10 observamos que
hemos limitado nuestras posibilidades de 7 opciones a solo 4 (t de Student para grupos
independientes, t de Student para grupos relacionados, MANOVA y Chi cuadrada).
Continuando con el Paso tres:
 ¿Cuál o Cuáles son las variables dependientes?
12
Buscamos la variable dependiente del estudio e identificamos que se trata de las
habilidades en estadística inferencial.
 ¿En qué nivel de medición están las variables dependientes?
La variable en cuestión está siendo evaluada a través de un examen estandarizado con una
escala que va de 1 al 10, asignado de acuerdo con el número de respuestas correctas
obtenidas, por lo que se concluye que la variable se encuentra en nivel intervalar, pues
además de tomar en cuenta la escala de calificación en el examen debemos contemplar que
se trata de habilidades.
 ¿Cuántas variables dependientes tiene el estudio?
Solo estamos tratando con una variable dependiente.
 ¿Cuántos niveles tienen las variables dependientes del estudio?
Como podemos ver nuestra variable dependiente solamente tiene un nivel.
Nuevamente, al revisar estas condiciones con el apoyo del diagrama de la figura 10

observamos que hemos limitado nuestras posibilidades de 4 solamente a 2 (t de Student
para grupos independientes, t de Student para grupos relacionados).
Finalmente llegamos al Paso 4:
 ¿Qué prueba es adecuada para comprobar la hipótesis del estudio?
Ahora bien, para concluir debemos tomar en cuenta que al tratarse de dos grupos de
participantes diferentes los que están en cada uno de los dos grupos del estudio debemos
entonces considerarlos
como grupos
independientes, pues para
que fueran considerados
relacionados debería de
tratarse de las mismas
personas evaluadas en dos
momentos diferentes del
tiempo. Por lo tanto, la
prueba pertinente y única
opción correcta es…
La prueba t de
Student para
grupos
independientes.
Figura 11. Ruta para selecciona la prueba t de Student grupos independientes
13
Referencias Complementarias
Hernández Sampieri, R., Fernández Collado, C., & Baptista Lucio, P.

(2014). Metodología de la investigación: Roberto Hernández Sampieri, Carlos
Fernández Collado y Pilar Baptista Lucio (6a. ed.). México D.F.: McGraw-Hill.
Kerlinger, F.N. (1988). Investigación del comportamiento. (3ª. Ed.). México: McGraw
Hill.
14

Reporte de Lectura 3 - Flores - Compadre - José - Luis

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Reporte de Lectura 3 - Flores - Compadre - José - Luis

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD IEXPRO

ACTIVIDAD 2: REPORTE DE LECTURA.

ASIGNATURA: SEMINARIO DE INTRODUCCIÓN A LA

NOMBRE DEL DOCTORANDO: JOSÉ LUIS FLORES

CIUDAD DE MÉXICO A 23 DE JUNIO DE 2019.

La prueba de hipó tesis.

Figura 2. Relación entre población-muestra y la inferencia estadístico-parámetro.

Figura 3. Diferentes muestras de una población.

Figura 4. Distribución muestral de medias.

Teorema central del límite

Figura 5. Demostración del teorema central del límite.

Las distribuciones muestrales más usuales en la estadística inferencial son:

Las distribuciones muestrales, así como en error

Por ejemplo. Si usted fuera a apostar por un equipo de

Y para las ciencias biológicas y de la salud tambien se cuenta con:

Figura 7. Niveles de significancia en la distribución de la muestra. Tomado de Hernández

Asi ́, el nivel de significancia representa áreas de riesgo o confianza en la distribució n

Supuestos de la estadi ́stica paramétrica.

Para realizar análisis paramétricos debe partirse de los siguientes supuestos:

Las pruebas estadi ́sticas paramétricas que revisaremos son:

Supuestos de la estadística no paramétrica

Para realizar análisis no paramétricos debe partirse de los siguientes supuestos:

Las pruebas estadi ́sticas no paramétricas que revisaremos son:

I) La selección de la prueba adecuada.

En el caso partícular del primer objetivo realizaremos la selección de culquiera de estas 16

Paso 1. Identificar la hipótesis del estudio

Paso 2. Identificar las Variables Independiente

Paso 3. Identificar las Variables Independiente

Paso 4. Identificar las Variables Independiente

Figura 9. Diagrama de decisión para pruebas de hipótesis correlacionales.

Suponga que Flores-Compadre, García y Herrera (2018) desean comprobar la efectividad de

 ¿Cuál es la hipótesis nula y alterna del estudio?

H0: El grupo 1 (condición experimental) no mostrará diferencias significativas en las

 ¿A que tipo de hipótesis corresponde la hipótesis alterna: ¿De diferencia,

Ahora partimos al Paso dos:

 ¿Cuál o Cuáles son las variables independientes?

 ¿Cuál o Cuáles son las variables dependientes?

Nuevamente, al revisar estas condiciones con el apoyo del diagrama de la figura 10

Finalmente llegamos al Paso 4:

 ¿Qué prueba es adecuada para comprobar la hipótesis del estudio?

Figura 11. Ruta para selecciona la prueba t de Student grupos independientes

Hernández Sampieri, R., Fernández Collado, C., & Baptista Lucio, P.

También podría gustarte