Está en la página 1de 10

Investigación psicológica cuantitativa

PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS


Introducción
Una forma de clasificar las pruebas estadísticas es de dos tipos: pruebas
paramétricas, como la prueba t, y pruebas no paramétricas (a veces conocidas
como pruebas sin distribución), como la prueba de Kolmogorov-Smirnov a la que
se hace referencia a continuación. La distinción se basa en ciertas suposiciones
sobre los parámetros de población que existen y el tipo de datos que pueden
analizarse.
La prueba de bondad de ajuste de? 2 (pronunciado kie-cuadrado o chi-cuadrado)
se introduce para analizar datos de un grupo cuando el nivel de medición es
nominal.
Pruebas paramétricas
Las pruebas paramétricas tienen dos características que pueden verse como
nombres. En primer lugar, hacen suposiciones sobre la naturaleza de ciertos
parámetros para las medidas que se han tomado. En segundo lugar, su cálculo
generalmente implica la estimación, a partir de los datos de la muestra, de los
parámetros de la población.
Las suposiciones de las pruebas paramétricas
Las pruebas paramétricas a menudo requieren que la población de puntajes, de la
cual proviene la muestra, se distribuya normalmente. Existen criterios adicionales
para ciertas pruebas paramétricas, que se detallarán a medida que se introduzca
cada prueba. En el caso de la prueba t de un grupo, se asume que los datos son
independientes entre sí. Esto significa que ninguna persona debe contribuir con
más de una puntuación. Además, no debe haber influencia de una persona a otra.
En el Capítulo 12, se dio un ejemplo en el que un grupo de personas recibió
capacitación mejorada en matemáticas. Los participantes recibieron una prueba
de matemáticas. Para que los puntajes sean independientes no debe haber
oportunidad para que los participantes confirmen las respuestas a las preguntas
en el examen. Una instancia común donde es poco probable que los datos sean
independientes es en la investigación de psicología social donde los datos son
proporcionados por personas que fueron evaluadas en grupos. Un ejemplo sería si
los participantes se encontraran en grupos para discutir sus opiniones sobre una
pintura, con la variable dependiente siendo la calificación de cada persona de su
agrado de la imagen. Claramente, las personas en un grupo pueden verse
afectadas por las opiniones de otros en el grupo. Una forma de lograr la
independencia de los puntajes en esta situación es tomar los medios grupales
como la variable dependiente en lugar de los puntajes individuales. Hacer esto, y
mantener un nivel razonable de poder estadístico, significaría tener un mayor
número de participantes de lo que se requeriría si se pudieran usar las
calificaciones de los individuos.
Un criterio adicional que los psicólogos a menudo establecen para una prueba
paramétrica es que los datos deben ser de intervalo o proporción. Como ya se
señaló en el Capítulo 8, los estadísticos están menos preocupados con este
criterio. Seguirlo puede establecer restricciones sobre qué análisis son posibles
con los datos. Las siguientes pautas permiten un cumplimiento menos estricto de
la regla. En el caso de datos nominales con más de dos niveles, no tiene sentido
aplicar pruebas paramétricas porque no hay un orden inherente en los niveles: por
ejemplo, si la variable es un partido político, con niveles conservadores, liberales y
radicales. Sin embargo, si la variable es ordinal pero tiene niveles suficientes,
digamos 7 o más como en una escala de Likert, entonces, siempre que se
cumplan los demás requisitos paramétricos, se considera legítimo realizar pruebas
paramétricas en los datos (p. Ej., Tabachnick & Fidell, 2001). Zimmerman y Zumbo
(1993) señalan que muchas pruebas no paramétricas producen la misma
probabilidad que la conversión de los datos originales en rangos (y, por lo tanto,
nivel ordinal de medición) y la realización de la prueba paramétrica equivalente en
los datos clasificados. En consecuencia, la restricción de las pruebas paramétricas
a los datos de intervalo o relación ignora la derivación de algunas pruebas no
paramétricas.
Si los criterios para una prueba paramétrica dada no se cumplen, entonces no es
apropiado usar esa prueba paramétrica. Sin embargo, otro malentendido entre los
investigadores es la creencia de que las estadísticas no paramétricas están libres
de suposiciones sobre la distribución de los datos. Por lo tanto, incluso cuando no
se cumplen las suposiciones de una prueba paramétrica, no se recomienda el uso
de un equivalente no paramétrico. Algunas variantes de pruebas paramétricas se
han desarrollado para su uso incluso cuando se han violado algunas de las
suposiciones.
Una desventaja adicional de una prueba no paramétrica es que puede tener
menos potencia que su equivalente paramétrico. En otras palabras, es más
probable que cometamos un error Tipo II cuando usamos una prueba no
paramétrica. Sin embargo, esto solo suele ser cierto cuando los datos cumplen los
requisitos de una prueba paramétrica y, sin embargo, aún utilizamos una prueba
no paramétrica. Cuando esos requisitos no se cumplen, una prueba no
paramétrica puede ser más poderosa.
Robustez
A pesar de los criterios que se han establecido, los estadísticos han encontrado
que las pruebas paramétricas son bastante precisas incluso cuando se violan
algunas de sus suposiciones: son robustas. Sin embargo, esta noción debe
tratarse con cuidado. Si los datos no satisfacen más de una suposición
subyacente a una prueba paramétrica en particular, sería mejor utilizar una prueba
paramétrica que relaje algunas de las suposiciones o un equivalente no
paramétrico, como los niveles de probabilidad dados por las tablas estándar o por
computadora puede no reflejar las verdaderas probabilidades. El advenimiento de
las computadoras ha significado que los investigadores hayan podido evaluar los
efectos de las violaciones de las suposiciones en las estadísticas paramétricas y
no paramétricas. Estos estudios han demostrado que, bajo ciertas condiciones,
ambos tipos de pruebas pueden verse gravemente afectadas por tales violaciones,
de tal manera que las probabilidades que informan pueden ser engañosas; puede
que tengamos muy poco poder en algunas circunstancias y, en otros, la
probabilidad de cometer un error tipo I puede ser marcadamente más alta de lo
que nos dicen las tablas o el programa informático.
Se han diseñado pruebas para determinar si se ha violado la suposición de una
prueba paramétrica. El problema con estos es que se basan en el mismo
procedimiento de prueba de hipótesis que la prueba inferencial. Por lo tanto, van a
sufrir los mismos problemas que la potencia estadística. En consecuencia, si la
muestra es pequeña, las suposiciones de la prueba podrían ser violadas bastante
mal, pero sugerirían que no hay un problema. Alternativamente, si se usa una
muestra grande, entonces se puede demostrar que un grado pequeño y sin
importancia de violación es significativo. Por lo tanto, no recomiendo usar tales
pruebas. Afortunadamente, existen reglas generales sobre qué tan lejos de las
condiciones ideales pueden estar nuestros datos antes de que podamos hacer
algo para contrarrestar el problema, y estos se darán a medida que se introduzca
cada prueba.
Un factor que puede ayudar a resolver problemas sobre suposiciones de pruebas
es que, en psicología, a menudo nos interesa una estadística resumida en lugar
de los puntajes originales que proporcionaron la estadística. Por lo tanto,
generalmente estamos interesados en cómo la media de una muestra difiere de la
población o de otra muestra, en lugar de cómo la puntuación de un individuo
difiere de la población.
Hay un fenómeno bastante conveniente, descrito por el teorema del límite central,
que es que si tomamos una estadística de resumen como la media, tiene una
distribución normal, incluso si la población original de puntajes de la que procede
no lo hace. Para comprender la distribución de la media, imagina que tomamos
una muestra de un tamaño dado de una población y calculamos la media para esa
muestra. Luego tomamos otra muestra del mismo tamaño de la misma población y
determinamos su media. Continuamos haciendo esto hasta que hayamos
encontrado los medios de una gran cantidad de muestras de la población. Si
producimos una distribución de frecuencia de esos medios, se distribuirá
normalmente.
Sin embargo, hay una advertencia, que el tamaño de la muestra debe ser lo
suficientemente grande. La mayoría de los autores parecen estar de acuerdo en
que una muestra de 40 o más es suficientemente grande, incluso si la distribución
original de los puntajes individuales es bastante sesgada. A menudo no
conocemos la distribución de puntajes en la población. He dicho que la población
generalmente debe distribuirse normalmente. Es posible que solo tengamos los
datos para nuestra muestra. No obstante, podemos obtener una impresión de la
distribución de la población de nuestra muestra. Por ejemplo, probé coeficientes
intelectuales de 20 personas de una población distribuida normalmente, y resultó
en la distribución que se muestra en la Figura 14.1. Al crear una distribución de
frecuencia de los datos de nuestra muestra, podemos ver si está marcadamente
sesgada. Si no es así, podríamos continuar con una prueba paramétrica. Si está
sesgado y la muestra es más pequeña que aproximadamente 40, entonces
podríamos transformar los datos.
Transformación de datos
Es posible aplicar una fórmula matemática a cada elemento de datos y producir
un conjunto de datos que se distribuye más normalmente. Por ejemplo, si los
datos forman una distribución negativamente sesgada, al cuadrar cada puntaje
podría reducir el sesgo y entonces sería permisible emplear una prueba
paramétrica en los datos. Si está utilizando una prueba estadística que busca
diferencias entre los promedios de diferentes niveles de una variable
independiente, entonces debe usar la misma transformación en todos los datos.
La transformación de datos es un procedimiento perfectamente legítimo siempre
que no intente una serie de transformaciones para encontrar una que produzca un
resultado estadísticamente significativo.
No obstante, muchos estudiantes desconfían de este procedimiento. Para aquellos
que deseen profundizar en el tema, en el Apéndice V se presentan posibles
transformaciones para diferentes distribuciones, junto con ilustraciones del efecto
de algunas transformaciones.
Para la mayoría de las pruebas paramétricas descritas en este libro, el sesgo es
un problema mayor que la curtosis. Por lo tanto, una prueba paramétrica realizada
con datos que no están distribuidos normalmente pero que son simétricos tendrá
un efecto menor en la precisión de la probabilidad dada.
Encontrar significación estadística para pruebas no paramétricas
Hay dos rutas para encontrar la significación estadística de una prueba: una es
calcular la probabilidad exacta; el otro es calcular, a partir de la estadística no
paramétrica, un valor para una estadística que sí tiene una distribución conocida,
como un puntaje z, a menudo llamado z-aproximación. El último enfoque produce
una probabilidad que es razonablemente cercana a la probabilidad exacta, pero
solo si el tamaño de la muestra es lo suficientemente grande; el término asintótico
se usa para indicar que la probabilidad solo es exacta con una muestra
suficientemente grande. Sin embargo, lo que constituye una muestra
suficientemente grande depende de la estadística no paramétrica que se utiliza.
Las probabilidades exactas implican lo que a veces se llaman pruebas de
permutación. Esto implica encontrar un valor para una estadística a partir de los
datos que se han recopilado. Luego se produce cada posible permutación
alternativa de los datos y se calcula el valor de la estadística para cada
permutación. La proporción de las permutaciones que son tan extremas como el
valor que vino de la forma en que cayeron los datos, o más extrema y en línea con
la hipótesis de la investigación, luego se calcula y esa proporción es la
probabilidad de la prueba. El ejemplo de lanzar monedas, dado en el Capítulo 10,
es una versión de esta forma de prueba. Aquí el número de cabezas es la
estadística. Luego calculamos todas las posibles caídas de las monedas y
notamos qué proporción tendría tantas, o más cabezas, como las que realmente
obtuvimos cuando las monedas fueron arrojadas. Claramente, cuando sea posible,
queremos saber la probabilidad exacta. Desafortunadamente, el número de
permutaciones a veces será muy grande, particularmente cuando se trata de una
muestra grande. Sin embargo, los poderosos programas de computadora de
escritorio ahora pueden manejar muestras de hasta cierto tamaño, y los paquetes
estadísticos, como SPSS, incluyen una opción, que puede tener que comprarse
como una adición al paquete básico, que calculará algunas probabilidades
exactas. Cuando incluso estos programas no pueden hacer frente al número de
permutaciones, pueden usar lo que a veces se llama un método de Monte Carlo,
que toma un número de muestras previamente especificado de los datos y calcula
la estadística para cada muestra. De nuevo, la proporción de estadísticas que son
tan grandes o más grandes y en línea con la hipótesis de investigación es la
probabilidad de la prueba. Recomiendo el siguiente procedimiento para encontrar
la probabilidad de pruebas no paramétricas. Si está analizando los datos usando
un programa que puede calcular estadísticas exactas y puede manejar el tamaño
de muestra que ha empleado, busque la estadística exacta. De lo contrario, debe
averiguar, para la prueba que está utilizando, si la muestra que está utilizando es
lo suficientemente pequeña como para que existan tablas de probabilidades
exactas. Finalmente, si la muestra es más grande de lo que permite la tabla
apropiada, entonces tendrá que usar la prueba de aproximación que se ha
encontrado para esa estadística. Tenga cuidado al usar paquetes estadísticos
donde no tenga acceso a las probabilidades exactas, ya que a veces proporcionan
la aproximación y su probabilidad independientemente de cuán pequeña sea la
muestra.
Pruebas no paramétricas para diseños de un grupo
Al menos datos ordinales
Cuando los datos están en una escala ordinal, es posible usar la prueba de
Kolmogorov-Smirnov de una muestra. Sin embargo, esta es una prueba que se
utiliza con poca frecuencia y la prueba utilizada para datos nominales, la prueba
de una muestra? 2, a menudo se usa en su lugar.
Por consiguiente, la prueba de una muestra de Kolmogorov-Smirnov solo se
describe en el Apéndice V.
Datos nominales
¿Una muestra?
2 prueba
A veces podemos desear ver si un patrón de resultados de una muestra difiere de
lo que podría haberse esperado de acuerdo con alguna suposición sobre cuál
podría haber sido ese patrón. Un ejemplo sería cuando estamos estudiando las
preferencias iniciales de los niños para pinturas particulares en una galería de
arte. Observamos a 25 niños cuando ingresan a una habitación que tiene cinco
pinturas y notamos, en el caso de cada niño, a qué pintura se acerca primero.
Nuestra hipótesis de investigación podría ser que los niños abordarán primero una
pintura más que las otras pinturas. La hipótesis nula sería que el número de niños
que se acerca a cada pintura primero será el mismo para todas las pinturas. Por lo
tanto, de acuerdo con la hipótesis nula, cabría esperar que cada pintura sea
abordada primero por 25 5 = 5 niños.
Los datos se pueden ver en la Tabla 14.1. La prueba de? 2 compara los números
reales u observados con los números esperados (de acuerdo con la Hipótesis
nula) para ver si difieren significativamente. Este ejemplo produce? 2 = 10. La
forma en que se calcula un grupo? 2 se muestra en el Apéndice V.
Encontrar la significancia estadística de?
2
Si realizó la prueba de? 2 usando una computadora, le diría que el resultado fue p
= .0404 (SPSS proporciona, como una opción, una probabilidad exacta para esta
prueba, que es p = .042). Tanto la probabilidad exacta como las probabilidades de
las tablas chisquare se considerarían estadísticamente significativas y podríamos
rechazar la hipótesis nula. La probabilidad de una prueba de? 2 dada por
computadoras, y en tablas estadísticas, es siempre para una hipótesis no
direccional. La noción de una prueba de una o dos colas no es aplicable aquí ya
que hay muchas formas en que los datos podrían haber caído: cualquiera de las
pinturas podría haber sido preferida.
Si no conocemos la probabilidad exacta de un? 2, podemos usar una tabla que da
las probabilidades para lo que se llama distribución chi-cuadrado. Como esta tabla
se puede usar para descubrir las probabilidades de las pruebas estadísticas que
no sean solo las pruebas de "2", voy a seguir la práctica de algunos autores y me
referiré a "chi-cuadrado" cuando estoy hablando de la tabla y "2 para el prueba.
Para buscar la probabilidad de los resultados de una prueba de? 2, necesita saber
los grados de libertad (df). En la versión de un grupo de la prueba de? 2, se basan
en el número de categorías, que en este caso era cinco (es decir, el número de
pinturas). El df se calcula restando 1 del número de categorías. Esto se debe a
que el número total de participantes es el elemento fijo en esta prueba. En este
caso, como el número total de participantes era 25, el número de participantes que
estaban en cuatro de las categorías podría cambiarse pero el número en la quinta
categoría tendría que ser tal que el total fuera 25. Por lo tanto, hay cuatro df . La
tabla de probabilidades para la distribución chi-cuadrado se da en el Apéndice XV.
La Tabla 14.2 muestra un extracto de esa tabla.
Cuando hay cuatro df, el nivel crítico para? 2 en p = .05 es 9.49; para p = .02, es
11.67. Por lo tanto, como nuestro? 2 fue 10 y este es mayor que 9.49, la
probabilidad de que este resultado se produzca por casualidad es menor a .05. Sin
embargo, como 10 es más pequeño que 11.67, la probabilidad es mayor que 0.02.
En este caso, reportaríamos la probabilidad como .02 <p <.05. La forma completa
de informar el resultado de una prueba de? 2, cuando no se conoce la
probabilidad más exacta, es:? 2 (4)
= 10, .02 <p <.05, N = 25.
Tenga en cuenta que debe informar N (el tamaño de la muestra) ya que, con esta
prueba, los df no se basan en el tamaño de la muestra.
El tamaño del efecto de?
2
Cohen (1988) usa w como su medida del tamaño del efecto para? 2, donde
w = ?? 2
norte
y N es el tamaño de muestra. Por lo tanto, en el presente caso:
w =? 10
25
=? 0.4
= .632
Cohen define una w de .1 como un tamaño de efecto pequeño, una w de .3 como
un tamaño de efecto medio y una w de .5 como un tamaño de efecto grande. Por
lo tanto, en este ejemplo, podemos decir que el tamaño del efecto fue grande.
El poder de la?
2 prueba
Las tablas en el Apéndice XVI dan el poder de la prueba de? 2. La tabla 14.3
muestra un extracto de las tablas de potencias cuando df = 4. De la tabla podemos
ver que, cuando w es aproximadamente .6, ¿con? = .05, df = 4 y N = 25, la
potencia de la prueba se encuentra entre .66 (para w = .6) y .82 (para w = .7). De
hecho, la potencia, cuando w = .632 es .72. Es decir, hay aproximadamente un
72% de probabilidad de evitar un error Tipo II. El Apéndice XVI explica cómo
encontrar niveles de potencia para muestras o tamaños de efectos que no se
presentan en las tablas.

Las suposiciones de la?


2 prueba
La primera suposición es que todas las observaciones son independientes. En
otras palabras, en este caso, cada niño debe contar solo una vez; para 25
puntajes, debe haber 25 niños. La segunda suposición es que las frecuencias
esperadas (si la Hipótesis nula es correcta) tendrá al menos un cierto tamaño. En
el caso donde solo hay una df -por ejemplo, solo dos pinturas- todas las
frecuencias esperadas deben ser de al menos 5. Cuando la df es mayor que 1,
entonces no más del 20% de las frecuencias esperadas pueden ser menores de 5.
En En el caso de cinco categorías, significaría que solo una de las frecuencias
esperadas podría ser menor a 5. Como las frecuencias esperadas se rigen en
parte por el tamaño de la muestra, para tratar de evitar el problema de las
pequeñas frecuencias esperadas, es aconsejable tener al menos cinco
participantes por categoría. Por lo tanto, el tamaño de muestra mínimo para esta
investigación habría sido 25. Si demasiadas categorías tienen frecuencias
esperadas por debajo de 5, entonces es posible combinar categorías. Por ejemplo,
si la muestra tenía solo 20 participantes, como se muestra en la Tabla 14.4,
podríamos combinar los números para diferentes cuadros.
Podríamos comparar los números que se aproximan al Klee o al Picasso con los
que se aproximan a los otros cuadros, como en la Tabla 14.5. Solo podemos
hacer esto si tiene sentido en términos de nuestra hipótesis de investigación. Por
lo tanto, solo podríamos hacer esto si nuestra hipótesis fuera que diferentes
pinturas serían abordadas por más niños que otras pinturas. No deberíamos elegir
la combinación, una vez que hayamos visto los datos, que creemos que es más
probable que den importancia o probar diferentes combinaciones en un intento de
encontrar significado. Ambos procedimientos harían la probabilidad de la prueba
totalmente inexacta y conducirían a una mayor probabilidad de cometer un error
Tipo I. Tenga en cuenta que las frecuencias esperadas para las pinturas en una
fila dada en la Tabla 14.5 es la suma (o total) de las frecuencias esperadas para
cada una de las pinturas en esa fila. El resultado de un? 2 llevado a cabo en estos
datos es? 2 (1)
= 5.21,
p = .022, N = 20, que también es estadísticamente significativo.
Este último ejemplo demuestra que las frecuencias esperadas no tienen que ser
iguales entre sí. El ejemplo original fue probar si las imágenes tenían la misma
probabilidad de ser abordadas primero. Sin embargo, otra forma de ver la prueba
de un grupo? 2 es como una prueba de bondad de ajuste. Puede haber
situaciones en las que pensamos que un conjunto de datos se distribuye de una
manera particular y deseamos probar si esta suposición es correcta. Por ejemplo,
imagina que nos dicen que la población contiene un 20% de fumadores y un 80%
de no fumadores. Tenemos una muestra de 100 participantes cuyo estado de
fumador hemos señalado y deseamos verificar que la muestra sea representativa
de la población. Los datos se muestran en la Tabla 14.6.
A diferencia de la estadística inferencial habitual en la que buscamos un resultado
estadísticamente significativo, en este caso estamos buscando un resultado que
sugiera que la diferencia entre las frecuencias esperadas y observadas no es
estadísticamente significativa. El análisis produce el siguiente resultado:? 2
(1)
= 1.56, p = .21,
N = 100. Concluiríamos que la muestra no fue significativamente no representativa
con respecto al estado de fumador.
Sin embargo, este uso de pruebas inferenciales es problemático porque está
invirtiendo el proceso habitual, ya que nuestra predicción es que no habrá
diferencia. Por lo tanto, estamos intentando confirmar una H0 que asume que la
distribución no difiere de lo que se esperaría si la muestra se hubiera seleccionado
al azar de la población. Tenemos el problema de que cuanto menor sea el poder
de la prueba, más probable es que se apoye esta suposición. Para tomar un
ejemplo extremo, imagine que fuimos lo suficientemente imprudentes como para
tener una muestra de solo 25 personas en esta encuesta. Si descubrimos que 8
de ellos eran fumadores (es decir, el 32% en vez del 20% que nos dicen que está
en la población), el análisis produce el siguiente resultado:? 2
(1)
= 2.25, p = .13,
N = 25, a pesar de que el tamaño del efecto sería w = .3, que es un tamaño de
efecto medio. El poder de la prueba sería .32. En otras palabras,? - la probabilidad
de cometer un error Tipo II (es decir, perder un efecto cuando estaba presente)
sería .68 o 68%. Cohen (1988) ha sugerido que una forma de resolver el problema
es seleccionar un tamaño de muestra que establezca el poder de la prueba en .95.
Esto significaría eso? sería .05 y por lo tanto lo mismo que?. Tendríamos que
establecer el tamaño del efecto que estábamos buscando como particularmente
pequeño, por ejemplo, una w de menos de .1. La consecuencia de esto significaría
que con df = 1 necesitaríamos alrededor de 800 participantes para tener la
potencia requerida para la prueba.
Resumen
Las pruebas paramétricas, como la prueba t, hacen ciertas suposiciones sobre la
medida que se analiza. La mayoría requiere que los datos que se analicen sean
independientes entre sí y tengan una distribución normal en la población. Si no se
cumplen las suposiciones, se deben emplear versiones modificadas de las
pruebas paramétricas o no paramétricas.
El siguiente capítulo describe pruebas estadísticas que nos permiten comparar los
datos de dos niveles de una variable independiente para ver si son
significativamente diferentes.

También podría gustarte