Está en la página 1de 15

UNIVERSIDAD IEXPRO

ACTIVIDAD 2: REPORTE DE LECTURA.

Lecturas 6 y 7.

ASIGNATURA: SEMINARIO DE INTRODUCCIÓN A LA


INVESTIGACIÓN.

NOMBRE DEL DOCTORANDO: JOSÉ LUIS FLORES


COMPADRE.

CIUDAD DE MÉXICO A 23 DE JUNIO DE 2019.

0
ENTORNO AL ANÁLISIS DE DATOS

́
¿Qué es la estadistica inferencial?
Frecuentemente, el propó sito de la investigación va más allá de describir las distribuciones
de las variables, se pretende generalizar los resultados obtenidos en la muestra a la
población o universo. Los datos casi siempre son recolectados de una muestra y sus
resultados estadi ́sticos se denominan “estadi ́grafos” ó “estadi ́sticos”, la media o la
desviación estándar de la distribución de una muestra son estadi ́grafos o estadi ́sticos. A las
estadi ́sticas de la població n o universo se les conoce como “parámetros”. Los parámetros
no son calculados, porque no se recolectan datos de toda la població n, pero pueden ser
inferidos a través de los estadi ́grafos, de ahi ́ el nombre de “estadi ́stica inferencial”.
La inferencia de los parámetros se lleva a cabo mediante técnicas estadi ́sticas apropiadas
para ello. Estas técnicas se explicarán más adelante.
La estadi ́stica inferencial puede ser utilizada para dos procedimientos:
a) Probar hipótesis
b) Estimar parámetros

La prueba de hipó tesis.


¿En qué consiste la prueba de hipótesis?
Una hipó tesis en el contexto de la estadi ́stica inferencial, es una proposición respecto a uno
o varios parámetros, y lo que el investigador hace a través de la prueba de esta prueba es
determinar si la hipó tesis es consistente con los datos obtenidos en la muestra. Si la
hipótesis es consistente con los datos, ésta es retenida como un valor aceptable del
parámetro. Si la hipótesis no es consistente con los datos, se rechaza esta, pero los datos
no son descartados.
La estadísitca inferencial permite que los investigadores hagan inferencias sobre
diferencias, correlaciones, predicciones y causalidades
“verdaderas” con base en datos muestrales de las varables de El error aleatorio nace
estudio. Específicamente, la estadísitica inferencial indica la del hecho que se trabaja
con muestras de
probabilidad de que la diferencia, correlación, predicción y/o
individuos, y no con toda
causalidad entre los datos muestrales esté reflejando el error la población. Procede,
aleatorio y no una diferencia real. pues, de la variabilidad
Así, el error aleatorio depende del tamaño de la muestra: inherente al muestreo.
cuando éste aumenta, el error disminuye.

1
Este tipo de error está muy relacionado con el concepto
El error sistemático o de precisión o fiabilidad. La estadística permite
sesgo, aparece cuando se
introduce un error en el cuantificar el error aleatorio.
diseño del trabajo, ya sea Para comprender lo que es la prueba de hipótesis en la
en la selección de los estadi ́stica inferencial es necesario revisar el concepto de
individuos, en la distribució n muestral y nivel de significancia.
información recogida o en
su análisis.

Figura 2. Relación entre población-muestra y la inferencia estadístico-parámetro.

La distribución muestral.
Una distribución muestral, como se muestra en la figura 3, consiste en un conjunto de
valores sobre una estadística calculada de todas las muestras posibles (de un determinado
tamaño) de una población.

Figura 3. Diferentes muestras de una población.

2
Supongamos que nuestro universo o població n son los automovilistas de una ciudad y
deseamos averiguar cuánto tiempo pasan diariamente “al volante”. De este universo
(supongamos 98754 automovilistas) podri ́a extraerse una muestra representativa. Vamos a
suponer que el tamañ o adecuado de muestra es de quinientos doce automovilistas (n =
512).
Del mismo universo se podri ́an extraer diferentes muestras, cada una con 512 personas.
Teóricamente, incluso podri ́a hacerlo al azar una vez, dos, tres, cuatro y las veces que fuera
necesario hasta agotar todas las muestras posibles de 512 automovilistas de esa ciudad
(todos los sujetos seri ́an seleccionados en varias muestras). En cada muestra se podri ́a
obtener una media del tiempo que pasan los automovilistas manejando. Tendri ́amos pues,
una gran cantidad de medias, tantas como las muestras extrai ́das (X1, X2, X3, X4, X5, X6, X7)

Figura 4. Distribución muestral de medias.

Y con estas medias podri ́amos elaborar una distribució n de medias. Habri ́a muestras que —
en promedio— pasan más tiempo “al volante” que otras. Este concepto se representa en la
figura 4.
Si calculáramos la media de todas las medias de las muestras, obtendri ́amos el valor de la
media poblacional .
Desde luego, muy rara vez se obtiene la distribució n muestral (la distribució n de las medias
de todas las muestras posibles). Es más bien un concepto teórico definido por la estadi ́stica
para los investigadores. Lo que éstos comú nmente hacen es extraer una sola muestra.
En el ejemplo de los automovilistas, sólo uno de los puntos azules de la distribución
muestral presentada en la figura 4 es la media obtenida para la única muestra seleccionada
de 512 personas. Y la pregunta es, ¿nuestra media está cerca de la media de la distribución
muestral? (o lo que es igual, ¿la media de la muestra está cercana a la media de la
distribución muestral?), debido a que si está cerca podremos tener una estimación precisa
de la media poblacional (el parámetro poblacional es prácticamente el mismo que el de la

3
distribución muestral). Esto se expresa en el teorema central del li ́mite como se muestra en
la figura 5.

Teorema central del límite


“Si una población (no necesariamente normal) tiene de media m y de desviación estándar ,
la distribución de las medias en el muestreo aleatorio realizado en esta población tiende, al
𝝈
aumentar n, a una distribución normal de media m y desviación estándar de medias S𝒙 ̅=
√𝒏
donde n es el tamaño de muestra” (Hernández, 2006, p.445).

Figura 5. Demostración del teorema central del límite.

Es evidente que cuanto menor sea S (también conocido como el error estandar de la
distribución muestral), más ajustadas a la media de la población , serán las medias que
obtengamos de una muestra. De su propia definición, es facil darse cuenta de que cuanto
mayor es el tamaño de la muestra, menor es este grado de variabilidad, y por tanto más
similar a la media de la población .

Las distribuciones muestrales más usuales en la estadística inferencial son:


a) La distribución normal estandarizada (z), se utiliza para determinar la probabilidad de la
media cuya distribución se comporta de manera normal, y cuando la varianza poblacional
es conocida (ver figura 6).

4
b) La distribución t, se emplea para determinar la probabilidad de la media, cuya
distribución se comporta aproximadamente norma, y cuando la varianza poblacional es
desconocida (ver figura 6).
c) La distribución F, permite hacer inferencias sobre dos varianzas poblacionales al emplear
la razón entre sus varianzas muestrales.
d) La distribución x2, se emplea cuando los datos son frecuencias, y para determinar la
varianza de la muestra.

Figura 6. Dsitruibución z y t.

Las distribuciones muestrales, así como en error


estándar son dos conceptos fundamentales para El error estándar es la desviación
estándar de una distribución
la estimación de parámetros y para la prueba de
muestral y sirve para medir la
hipótiesis. dispersión del error muestral que
ocurre cuando se muestrea
repetidamente una población.

El nivel de significancia.
Usando el ejemplo planteado por Wiersma y Jurs (2005), la probabilidad de que un evento
ocurra oscila entre 0 y 1, donde cero significa la imposibilidad de ocurrencia y una la certeza
de que suceda el fenó meno. Al lanzar al aire una moneda, la probabilidad de que salga
“cruz” es 0.50 y la probabilidad de que la moneda caiga al suelo en “cara” también es de
0.50. Con un dado, la probabilidad de obtener cualquiera de sus lados al lanzarlo es de 1/6
= 0.1667. La suma de todas las posibilidades siempre es de 1.
Aplicando el concepto de probabilidad a la distribució n muestral, podemos tomar el área
de ésta como 1.0, y consecuentemente, cualquier área comprendida entre dos puntos de

5
la distribució n corresponderá a la probabilidad de la distribución, tal y como se observa en
la figura 7.
Para probar hipótesis inferenciales respecto a la media, el investigador tiene que evaluar si
es alta o baja la probabilidad de que la media de la muestra esté cerca de la media de la
distribución muestral. Si es baja, el investigador dudará de generalizar a la població n. Si es
alta, el investigador podrá hacer generalizaciones. Es aqui ́ donde entra el nivel de
significancia o nivel alfa (nivel α). Éste es un nivel de probabilidad de equivocarse y se fija
antes de probar hipó tesis inferenciales.

Por ejemplo. Si usted fuera a apostar por un equipo de


futbol y tuviera 95% de probabilidades de atinarle al
El nivel de significa (), es
un nivel de la probabilidad ganador, contra só lo un 5% de perder, ¿apostari ́a?
de equivocarse y que fija de Seguramente si ́, siempre y cuando le aseguraran ese
manera a priori el 95% en su favor. O bien, si le dieran 95 boletos de 100
investigador. para la rifa de un automóvil, ¿tendri ́a confianza en que
va a estrenar vehi ́culo? Seguramente si ́, no tendri ́a la
certeza total, pero si un alto grado de probabilidad.

Pues bien, algo similar hace el investigador social. Él obtiene una estadi ́stica en una muestra
(ejemplo: la media) y analiza qué porcentaje tiene de confianza de que dicha estadi ́stica se
acerque al valor de la distribució n muestral (que es el valor de la població n o parámetro).
Busca un alto porcentaje de confianza, una probabilidad elevada para estar tranquilo,
porque sabe que puede haber error de muestreo, y aunque la evidencia parece mostrar una
aparente “cercani ́a” entre el valor calculado en la muestra y el parámetro, esta “cercani ́a”
puede no ser real y deberse a errores en la selecció n de la muestra.

¿Con qué porcentaje de confianza el investigador generaliza, para suponer que tal cercani ́a
es real y no por un error de muestreo? Existen dos niveles convenidos en ciencias sociales
(ver figura 7):
a) El nivel de significancia del 0.05, el cual implica que el investigador tiene 95% de seguridad
para generalizar sin equivocarse, y sólo un 5% en contra. En términos de probabilidad, 0.95
y .05 respectivamente.
b) El nivel de significancia del 0.01, el cual implica que el investigador tiene un 99% en su
favor para generalizar sin temor y un 1% en contra (0.99 y 0.01 = 1.00).

Y para las ciencias biológicas y de la salud tambien se cuenta con:


a) El nivel de significancia del 0.001, el cual implica que el investigador tiene un 99.9% en su
favor para generalizar sin temor y un 0.1% en contra (0.999 y 0.001 = 1.00).

6
¿Cómo se relacionan la distribució n muestral y el nivel de significancia?
El nivel de significancia se expresa en términos de probabilidad (0.05, 0.01 y 0.001) y la
distribución muestral también se expresa como probabilidad (el área total de ésta como
1.00). Para ver si tenemos o no confianza al generalizar acudimos a la distribució n muestral,
con una probabilidad adecuada para la investigació n social. El nivel de significancia lo
tomamos como un área bajo la distribución muestral, tal y como se muestra en la figura 7,
y depende de si elegimos un nivel del 0.05 o de 0.01.

Figura 7. Niveles de significancia en la distribución de la muestra. Tomado de Hernández


(2004).

Asi ́, el nivel de significancia representa áreas de riesgo o confianza en la distribució n


muestral.

7
PRUEBAS ESTADÍSTICAS INFERENCIALES

Hay dos tipos de análisis que pueden realizarse: los análisis paramétricos y los no
paramétricos. Cada tipo posee sus caracteri ́sticas y presuposiciones que lo sustentan y la
elección del investigador sobre qué clase de análisis efectuar depende de estas
presuposiciones. Asimismo, cabe destacar que en una misma investigación pueden llevarse
a cabo análisis paramétricos para algunas hipó tesis y variables, y análisis no paramétricos
para otras.

Supuestos de la estadi ́stica paramétrica.

Para realizar análisis paramétricos debe partirse de los siguientes supuestos:


1) La distribución poblacional de la variable dependiente es normal: el universo tiene
una distribución normal.
2) El nivel de medició n de la variable dependiente es por intervalos o razón.
3) Cuando dos o más poblaciones son estudiadas, éstas tienen una varianza homogénea:
las poblaciones en cuestión tienen una dispersión similar en sus distribuciones.

Las pruebas estadi ́sticas paramétricas que revisaremos son:


a) Prueba t para muestras relacionadas
b) Prueba t para muestras independientes
c) ANOVA de un factor (one-way)
d) ANOVA de más de un factor (k-way)
e) ANCOVA, Análisis de covarianza
f) MANOVA, Análisis multivariado de varianzas
g) Correlación de Pearson
h) Regresión lineal
i) Regresión multiple
j) Análisis factorial (Análisis de componentes principales con rotación varimax)

Supuestos de la estadística no paramétrica

Para realizar análisis no paramétricos debe partirse de los siguientes supuestos:


 La mayoría de estos análisis no requieren de presupuestos acerca de la forma de la
distribución poblacional. Aceptan distribuciones no normales.
 Las variables no necesariamente deben de estar medidas en un nivel por intervalos o de
razón, pueden analizarse datos nominales u ordinales. De hecho, si se quieren aplicar
análisis no paramétricos a datos por intervalos o razón, éstos deben de ser resumidos a
categorías discretas (a unas cuantas). Las variables deben ser categóricas.

Las pruebas estadi ́sticas no paramétricas que revisaremos son:

a) Chi cuadrado
b) Correlación Phi

8
c) Correlación V de Cramer
d) Correlación Gamma
e) Correlación Spearman
f) Correlación Kendall

Es importante mencionar, que a partir de ahora nos enfocaremos para cada prueba, en dos
objetivos:

I) La selección de la prueba adecuada.


II) La interpretación de los resultados de cada prueba.

En el caso partícular del primer objetivo realizaremos la selección de culquiera de estas 16


pruebas a partir de una serie de preguntas organizadas en cuatro pasos.

Paso 1. Identificar la hipótesis del estudio


 ¿Cuál es la hipótesis nula y alterna del estudio?
 ¿A que tipo de hipótesis corresponde la hipótesis alterna: De diferencia,
Correlaciónal o Causal?

Paso 2. Identificar las Variables Independiente


 ¿Cuál o Cuáles son las variables independientes?
 ¿En qué nivel de medición están las variables independientes?
 ¿Cuántas varibles independientes tiene el estudio?
 ¿Cuántos niveles tienen las variables independientes del estudio?

Paso 3. Identificar las Variables Independiente


 ¿Cuál o Cuáles son las variables dependientes?
 ¿En qué nivel de medición están las variables dependientes?
 ¿Cuántas varibles dependientes tiene el estudio?
 ¿Cuántos niveles tienen las variables dependientes del estudio?

Paso 4. Identificar las Variables Independiente


 ¿Qué prueba es adecuada para comprobar la hipótesis del estudio?

Para facilitar, está serie de pasos para la selección de la prueba de hipótesis adecuada para
cualquier estudio que se nos pueda plantear, haremos uso de tres diagramas de decisión
que organizan las respuestas de cada una de las preguntas de los cuatro pasos antes
mencionados. De tal forma que solo exista una ruta posible para elegir cada prueba en
particular.

9
Figura 8. Diagrama de decisión para pruebas de hipótesis de diferencias entre grupos.

Figura 9. Diagrama de decisión para pruebas de hipótesis correlacionales.

10
Figura 10. Diagrama de decisión para pruebas de hipótesis causales.

Para ilustrar la efectividad del diagrama, así como de la secuencia de pasos entes descritos
pongamos un ejemplo ilustrativo.

Suponga que Flores-Compadre, García y Herrera (2018) desean comprobar la efectividad de


una novedosa técnica didáctica, para el aprendizaje de la estadística inferencial, llamada
“Diagrama de selección de los cuatro pasos”. Para ello, diseñan una investigación en la que
se asignan, de manera aleatoria, a 80 participantes voluntarios en dos grupos de 40 alumnos
cada uno. Ambos grupos son sometidos a 5 clases sabatinas de 4 horas impartidas por dos
profesores igualmente capacitados que se apegaron al contenido previamente acordado en
un plan de clase, con la única distinción de que al grupo 1 se le apoyó durante las clases con
la técnica y material didáctico del “Diagrama de selección de los cuatro pasos” y al grupo 2,
no. Al termino del curso se evaluaron las habilidades y conocimientos estadísticos de los
alumnos de ambos grupos con un examen diseñado de acuerdo con los parámetros
psicométricos correspondientes, con una escala decimal que va del 0 al 10 como la que se
utiliza para evaluar el desempeño en las materias cursadas en la universidad.
Se espera que el grupo 1, que recibió la condición experimental, muestre niveles más altos
en su rendimiento en estadística evaluados a través del examen.

11
¿Qué prueba estadística utilizaría para comprobar la hipótesis de esta investigación si
partimos del supuesto de que las distribuciones de ambos grupos son normales y
homogéneas?

Partiendo del Paso uno tendemos que responder las siguientes preguntas:

 ¿Cuál es la hipótesis nula y alterna del estudio?

H1: El grupo 1 (condición experimental) mostrará niveles más altos en las calificaciones
obtenidas en el examen de habilidades estadísticas que el grupo 2 (condición control).

H0: El grupo 1 (condición experimental) no mostrará diferencias significativas en las


calificaciones obtenidas en el examen de habilidades estadísticas que el grupo 2 (condición
control).

 ¿A que tipo de hipótesis corresponde la hipótesis alterna: ¿De diferencia,


Correlacional o Causal?

Al analizar la hipótesis alterna, nos damos cuenta de que se trata de una hipótesis de
diferencias de grupo, por lo que a partir de ahora solo podemos seleccionar las pruebas
contenidas en el diagrama de la figura 10, reduciendo las posibilidades de 16 pruebas a solo
7 opciones.

Ahora partimos al Paso dos:

 ¿Cuál o Cuáles son las variables independientes?


Identificamos a la variable independiente del estudio la que corresponde con la técnica de
enseñanza usada para la clase de estadística.
 ¿En qué nivel de medición están las variables independientes?
Se trata de una variable independiente que categoriza a los participantes en dos
condiciones la “técnica novedosa” y la “técnica tradicional por lo que concluimos que se
trata de una variable medida a nivel nominal.
 ¿Cuántas variables independientes tiene el estudio?
Solo estamos tratando con una variable independiente.
 ¿Cuántos niveles tienen las variables independientes del estudio?
Y en este caso particular de dos niveles (condición experimental y condición control)

Al revisar estas condiciones con el apoyo del diagrama de la figura 10 observamos que
hemos limitado nuestras posibilidades de 7 opciones a solo 4 (t de Student para grupos
independientes, t de Student para grupos relacionados, MANOVA y Chi cuadrada).
Continuando con el Paso tres:

 ¿Cuál o Cuáles son las variables dependientes?

12
Buscamos la variable dependiente del estudio e identificamos que se trata de las
habilidades en estadística inferencial.
 ¿En qué nivel de medición están las variables dependientes?
La variable en cuestión está siendo evaluada a través de un examen estandarizado con una
escala que va de 1 al 10, asignado de acuerdo con el número de respuestas correctas
obtenidas, por lo que se concluye que la variable se encuentra en nivel intervalar, pues
además de tomar en cuenta la escala de calificación en el examen debemos contemplar que
se trata de habilidades.
 ¿Cuántas variables dependientes tiene el estudio?
Solo estamos tratando con una variable dependiente.
 ¿Cuántos niveles tienen las variables dependientes del estudio?
Como podemos ver nuestra variable dependiente solamente tiene un nivel.

Nuevamente, al revisar estas condiciones con el apoyo del diagrama de la figura 10


observamos que hemos limitado nuestras posibilidades de 4 solamente a 2 (t de Student
para grupos independientes, t de Student para grupos relacionados).

Finalmente llegamos al Paso 4:

 ¿Qué prueba es adecuada para comprobar la hipótesis del estudio?

Ahora bien, para concluir debemos tomar en cuenta que al tratarse de dos grupos de
participantes diferentes los que están en cada uno de los dos grupos del estudio debemos
entonces considerarlos
como grupos
independientes, pues para
que fueran considerados
relacionados debería de
tratarse de las mismas
personas evaluadas en dos
momentos diferentes del
tiempo. Por lo tanto, la
prueba pertinente y única
opción correcta es…

La prueba t de
Student para
grupos
independientes.

Figura 11. Ruta para selecciona la prueba t de Student grupos independientes

13
Referencias Complementarias

Hernández Sampieri, R., Fernández Collado, C., & Baptista Lucio, P.


(2014). Metodología de la investigación: Roberto Hernández Sampieri, Carlos
Fernández Collado y Pilar Baptista Lucio (6a. ed.). México D.F.: McGraw-Hill.

Kerlinger, F.N. (1988). Investigación del comportamiento. (3ª. Ed.). México: McGraw
Hill.

14

También podría gustarte