Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lecturas 6 y 7.
0
ENTORNO AL ANÁLISIS DE DATOS
́
¿Qué es la estadistica inferencial?
Frecuentemente, el propó sito de la investigación va más allá de describir las distribuciones
de las variables, se pretende generalizar los resultados obtenidos en la muestra a la
población o universo. Los datos casi siempre son recolectados de una muestra y sus
resultados estadi ́sticos se denominan “estadi ́grafos” ó “estadi ́sticos”, la media o la
desviación estándar de la distribución de una muestra son estadi ́grafos o estadi ́sticos. A las
estadi ́sticas de la població n o universo se les conoce como “parámetros”. Los parámetros
no son calculados, porque no se recolectan datos de toda la població n, pero pueden ser
inferidos a través de los estadi ́grafos, de ahi ́ el nombre de “estadi ́stica inferencial”.
La inferencia de los parámetros se lleva a cabo mediante técnicas estadi ́sticas apropiadas
para ello. Estas técnicas se explicarán más adelante.
La estadi ́stica inferencial puede ser utilizada para dos procedimientos:
a) Probar hipótesis
b) Estimar parámetros
1
Este tipo de error está muy relacionado con el concepto
El error sistemático o de precisión o fiabilidad. La estadística permite
sesgo, aparece cuando se
introduce un error en el cuantificar el error aleatorio.
diseño del trabajo, ya sea Para comprender lo que es la prueba de hipótesis en la
en la selección de los estadi ́stica inferencial es necesario revisar el concepto de
individuos, en la distribució n muestral y nivel de significancia.
información recogida o en
su análisis.
La distribución muestral.
Una distribución muestral, como se muestra en la figura 3, consiste en un conjunto de
valores sobre una estadística calculada de todas las muestras posibles (de un determinado
tamaño) de una población.
2
Supongamos que nuestro universo o població n son los automovilistas de una ciudad y
deseamos averiguar cuánto tiempo pasan diariamente “al volante”. De este universo
(supongamos 98754 automovilistas) podri ́a extraerse una muestra representativa. Vamos a
suponer que el tamañ o adecuado de muestra es de quinientos doce automovilistas (n =
512).
Del mismo universo se podri ́an extraer diferentes muestras, cada una con 512 personas.
Teóricamente, incluso podri ́a hacerlo al azar una vez, dos, tres, cuatro y las veces que fuera
necesario hasta agotar todas las muestras posibles de 512 automovilistas de esa ciudad
(todos los sujetos seri ́an seleccionados en varias muestras). En cada muestra se podri ́a
obtener una media del tiempo que pasan los automovilistas manejando. Tendri ́amos pues,
una gran cantidad de medias, tantas como las muestras extrai ́das (X1, X2, X3, X4, X5, X6, X7)
Y con estas medias podri ́amos elaborar una distribució n de medias. Habri ́a muestras que —
en promedio— pasan más tiempo “al volante” que otras. Este concepto se representa en la
figura 4.
Si calculáramos la media de todas las medias de las muestras, obtendri ́amos el valor de la
media poblacional .
Desde luego, muy rara vez se obtiene la distribució n muestral (la distribució n de las medias
de todas las muestras posibles). Es más bien un concepto teórico definido por la estadi ́stica
para los investigadores. Lo que éstos comú nmente hacen es extraer una sola muestra.
En el ejemplo de los automovilistas, sólo uno de los puntos azules de la distribución
muestral presentada en la figura 4 es la media obtenida para la única muestra seleccionada
de 512 personas. Y la pregunta es, ¿nuestra media está cerca de la media de la distribución
muestral? (o lo que es igual, ¿la media de la muestra está cercana a la media de la
distribución muestral?), debido a que si está cerca podremos tener una estimación precisa
de la media poblacional (el parámetro poblacional es prácticamente el mismo que el de la
3
distribución muestral). Esto se expresa en el teorema central del li ́mite como se muestra en
la figura 5.
Es evidente que cuanto menor sea S (también conocido como el error estandar de la
distribución muestral), más ajustadas a la media de la población , serán las medias que
obtengamos de una muestra. De su propia definición, es facil darse cuenta de que cuanto
mayor es el tamaño de la muestra, menor es este grado de variabilidad, y por tanto más
similar a la media de la población .
4
b) La distribución t, se emplea para determinar la probabilidad de la media, cuya
distribución se comporta aproximadamente norma, y cuando la varianza poblacional es
desconocida (ver figura 6).
c) La distribución F, permite hacer inferencias sobre dos varianzas poblacionales al emplear
la razón entre sus varianzas muestrales.
d) La distribución x2, se emplea cuando los datos son frecuencias, y para determinar la
varianza de la muestra.
Figura 6. Dsitruibución z y t.
El nivel de significancia.
Usando el ejemplo planteado por Wiersma y Jurs (2005), la probabilidad de que un evento
ocurra oscila entre 0 y 1, donde cero significa la imposibilidad de ocurrencia y una la certeza
de que suceda el fenó meno. Al lanzar al aire una moneda, la probabilidad de que salga
“cruz” es 0.50 y la probabilidad de que la moneda caiga al suelo en “cara” también es de
0.50. Con un dado, la probabilidad de obtener cualquiera de sus lados al lanzarlo es de 1/6
= 0.1667. La suma de todas las posibilidades siempre es de 1.
Aplicando el concepto de probabilidad a la distribució n muestral, podemos tomar el área
de ésta como 1.0, y consecuentemente, cualquier área comprendida entre dos puntos de
5
la distribució n corresponderá a la probabilidad de la distribución, tal y como se observa en
la figura 7.
Para probar hipótesis inferenciales respecto a la media, el investigador tiene que evaluar si
es alta o baja la probabilidad de que la media de la muestra esté cerca de la media de la
distribución muestral. Si es baja, el investigador dudará de generalizar a la població n. Si es
alta, el investigador podrá hacer generalizaciones. Es aqui ́ donde entra el nivel de
significancia o nivel alfa (nivel α). Éste es un nivel de probabilidad de equivocarse y se fija
antes de probar hipó tesis inferenciales.
Pues bien, algo similar hace el investigador social. Él obtiene una estadi ́stica en una muestra
(ejemplo: la media) y analiza qué porcentaje tiene de confianza de que dicha estadi ́stica se
acerque al valor de la distribució n muestral (que es el valor de la població n o parámetro).
Busca un alto porcentaje de confianza, una probabilidad elevada para estar tranquilo,
porque sabe que puede haber error de muestreo, y aunque la evidencia parece mostrar una
aparente “cercani ́a” entre el valor calculado en la muestra y el parámetro, esta “cercani ́a”
puede no ser real y deberse a errores en la selecció n de la muestra.
¿Con qué porcentaje de confianza el investigador generaliza, para suponer que tal cercani ́a
es real y no por un error de muestreo? Existen dos niveles convenidos en ciencias sociales
(ver figura 7):
a) El nivel de significancia del 0.05, el cual implica que el investigador tiene 95% de seguridad
para generalizar sin equivocarse, y sólo un 5% en contra. En términos de probabilidad, 0.95
y .05 respectivamente.
b) El nivel de significancia del 0.01, el cual implica que el investigador tiene un 99% en su
favor para generalizar sin temor y un 1% en contra (0.99 y 0.01 = 1.00).
6
¿Cómo se relacionan la distribució n muestral y el nivel de significancia?
El nivel de significancia se expresa en términos de probabilidad (0.05, 0.01 y 0.001) y la
distribución muestral también se expresa como probabilidad (el área total de ésta como
1.00). Para ver si tenemos o no confianza al generalizar acudimos a la distribució n muestral,
con una probabilidad adecuada para la investigació n social. El nivel de significancia lo
tomamos como un área bajo la distribución muestral, tal y como se muestra en la figura 7,
y depende de si elegimos un nivel del 0.05 o de 0.01.
7
PRUEBAS ESTADÍSTICAS INFERENCIALES
Hay dos tipos de análisis que pueden realizarse: los análisis paramétricos y los no
paramétricos. Cada tipo posee sus caracteri ́sticas y presuposiciones que lo sustentan y la
elección del investigador sobre qué clase de análisis efectuar depende de estas
presuposiciones. Asimismo, cabe destacar que en una misma investigación pueden llevarse
a cabo análisis paramétricos para algunas hipó tesis y variables, y análisis no paramétricos
para otras.
a) Chi cuadrado
b) Correlación Phi
8
c) Correlación V de Cramer
d) Correlación Gamma
e) Correlación Spearman
f) Correlación Kendall
Es importante mencionar, que a partir de ahora nos enfocaremos para cada prueba, en dos
objetivos:
Para facilitar, está serie de pasos para la selección de la prueba de hipótesis adecuada para
cualquier estudio que se nos pueda plantear, haremos uso de tres diagramas de decisión
que organizan las respuestas de cada una de las preguntas de los cuatro pasos antes
mencionados. De tal forma que solo exista una ruta posible para elegir cada prueba en
particular.
9
Figura 8. Diagrama de decisión para pruebas de hipótesis de diferencias entre grupos.
10
Figura 10. Diagrama de decisión para pruebas de hipótesis causales.
Para ilustrar la efectividad del diagrama, así como de la secuencia de pasos entes descritos
pongamos un ejemplo ilustrativo.
11
¿Qué prueba estadística utilizaría para comprobar la hipótesis de esta investigación si
partimos del supuesto de que las distribuciones de ambos grupos son normales y
homogéneas?
Partiendo del Paso uno tendemos que responder las siguientes preguntas:
H1: El grupo 1 (condición experimental) mostrará niveles más altos en las calificaciones
obtenidas en el examen de habilidades estadísticas que el grupo 2 (condición control).
Al analizar la hipótesis alterna, nos damos cuenta de que se trata de una hipótesis de
diferencias de grupo, por lo que a partir de ahora solo podemos seleccionar las pruebas
contenidas en el diagrama de la figura 10, reduciendo las posibilidades de 16 pruebas a solo
7 opciones.
Al revisar estas condiciones con el apoyo del diagrama de la figura 10 observamos que
hemos limitado nuestras posibilidades de 7 opciones a solo 4 (t de Student para grupos
independientes, t de Student para grupos relacionados, MANOVA y Chi cuadrada).
Continuando con el Paso tres:
12
Buscamos la variable dependiente del estudio e identificamos que se trata de las
habilidades en estadística inferencial.
¿En qué nivel de medición están las variables dependientes?
La variable en cuestión está siendo evaluada a través de un examen estandarizado con una
escala que va de 1 al 10, asignado de acuerdo con el número de respuestas correctas
obtenidas, por lo que se concluye que la variable se encuentra en nivel intervalar, pues
además de tomar en cuenta la escala de calificación en el examen debemos contemplar que
se trata de habilidades.
¿Cuántas variables dependientes tiene el estudio?
Solo estamos tratando con una variable dependiente.
¿Cuántos niveles tienen las variables dependientes del estudio?
Como podemos ver nuestra variable dependiente solamente tiene un nivel.
Ahora bien, para concluir debemos tomar en cuenta que al tratarse de dos grupos de
participantes diferentes los que están en cada uno de los dos grupos del estudio debemos
entonces considerarlos
como grupos
independientes, pues para
que fueran considerados
relacionados debería de
tratarse de las mismas
personas evaluadas en dos
momentos diferentes del
tiempo. Por lo tanto, la
prueba pertinente y única
opción correcta es…
La prueba t de
Student para
grupos
independientes.
13
Referencias Complementarias
Kerlinger, F.N. (1988). Investigación del comportamiento. (3ª. Ed.). México: McGraw
Hill.
14