Está en la página 1de 5

NOTAS DE ESTADÍSTICA (Gero)

1. TABLAS DE CONTINGENCIA

El objetivo de una tabla de contingencia es averiguar si las dos variables están relacionadas.

El investigador ha de distinguir entre la variable dependiente (o a explicar) y la variable


independiente (o explicativa)

Esta distinción entre variable independiente y dependiente es importante porque la variable


independiente se sitúa en columnas, y la variable dependiente en filas.

Las variables a analizar deben ser nominales u ordinales. Las variables nominales son las que
no tienen un orden establecido (p.ej. género o estado civil), y las variables ordinales son aquellas
que sí tienen un orden establecido y el paso de una categoría a otra no es igual (p.ej. nivel
educativo, interés en la política (alto-medio-bajo-ninguno). 

Las tablas de contingencia no se utilizan para analizar relaciones de variables numéricas Si


queremos utilizar la edad como variable, en una tabla de contingencia debemos recodificarla por
rangos. Al recodificar una variable numérica como la edad por rangos, deja de ser numérica y pasa a
ser ordinal.

Por tanto, las dos condiciones para construir una tabla de contingencia son: relacionar solo 2
variables y que las variables sean nominales u ordinales. 

2. PRUEBAS POST-HOC EN ANOVA

Será necesario recurrir a la opción “post-hoc” para poder descubrir entre qué pares de
medias se encuentran las diferencias en ANOVA

3. SUPUESTOS DEL ANOVA

El ANOVA requiere el cumplimiento de los siguientes supuestos:

- Las poblaciones de la variable dependiente correspondiente a cada factor han de ser


normales.
- Las K muestras sobre las que se aplican los tratamientos han de ser independientes.
- Las poblaciones deben tener todas igual varianza (homoscedasticidad).
El ANOVA se basa en la descomposición de la variación total de los datos (SCT), que bajo el
supuesto de que H0 es cierta, en dos partes:

- Variación dentro de las muestras (SCR) o Intra-grupos, cuantifica la dispersión de los valores
de cada muestra con respecto a sus correspondientes medias.
- Variación entre muestras (SCE) o Inter-grupos, cuantifica la dispersión de las medias de las
muestras con respecto a la media global.
-

4. SUPUESTOS PARA EL ANÁLISIS DE REGRESIÓN

5. TEST DE RACHAS

El test de rachas permite verificar la hipótesis nula de que la muestra es aleatoria, es decir, si
las sucesivas observaciones son independientes.

Este contraste se basa en el número de rachas que presenta una muestra. Una racha se
define como una secuencia de valores muestrales con una característica común precedida y seguida
por valores que no presentan esa característica.

Así, se considera una racha la secuencia de k valores consecutivos superiores o iguales a la


media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte) siempre que estén
precedidos y seguidos por valores inferiores a la media muestral (o a la mediana o a la moda, o a
cualquier otro valor de corte).

El número total de rachas en una muestra proporciona un indicio de si hay o no aleatoriedad


en la muestra. Un número reducido de rachas (el caso extremo es 2) es indicio de que las
observaciones no se han extraído de forma aleatoria, los elementos de la primera racha proceden
de una población con una determinada característica (valores mayores o menores al punto de
corte) mientras que los de la segunda proceden de otra población.

De forma idéntica un número excesivo de rachas puede ser también indicio de no


aleatoriedad de la muestra.

Si la muestra es suficientemente grande y la hipótesis de aleatoriedad es cierta, la


distribución muestral del número de rachas, R, puede aproximarse mediante una distribución
normal de parámetros:

donde n1 es el número de elementos de una clase, n2 es el número de elementos de la otra


clase y n es el número total de observaciones.

6. MUESTRAS INDEPENDIENTES: CONTRASTE DE WILCOXON-MANN-WHITNEY.

Objetivo: comparar la localización de dos distribuciones desconocidas que se suponen


continuas y con la misma forma. Es el equivalente no paramétrico al test de comparación de medias
en poblaciones normales.

7. TEST DE SHAPIRO–WILKS 

El Test de Shapiro–Wilks se usa para contrastar la normalidad de un conjunto de datos. Se


plantea como hipótesis nula que una muestra x1, ..., xn proviene de una población normalmente
distribuida. Se considera uno de los test más potentes para el contraste de normalidad.

Interpretación: Siendo la hipótesis nula que la población está distribuida normalmente, si el


p-valor es menor a alfa (nivel de significancia) entonces la hipótesis nula es rechazada (se concluye
que los datos no vienen de una distribución normal). Si el p-valor es mayor a alfa, se concluye que
no se puede rechazar dicha hipótesis.
La normalidad se verifica confrontando dos estimadores alternativos de la varianza σ²:un
estimador no paramétrico al numerador, y un estimador paramétrico (varianza muestral), al
denominador.

8. TEST DE KRUSKAL WALLIS

El test de Kruskal-Wallis es la alternativa no paramétrica al test ANOVA de una vía para datos
no pareados. Se trata de una extensión del test de Mann-Whitney para más de dos grupos. Se trata
por lo tanto de un test que emplea rangos para contrastar la hipótesis de que k muestras han sido
obtenidas de una misma población.

A diferencia del ANOVA en el que se comparan medias, el test de Kruskal-Wallis contrasta si


las diferentes muestras están equidistribuidas y que por lo tanto pertenecen a una misma
población. Bajo ciertas simplificaciones puede considerarse que el test de Kruskal-Wallis compara
las medianas.

H0: todas las muestras provienen de la misma población

HA: Al menos una muestra proviene de una población distinta

El test de Kruskal-Wallis es el test adecuado cuando los datos tienen un orden natural, es
decir, cuando para darles sentido tienen que estar ordenados o bien cuando no se satisfacen las
condiciones para poder aplicar un ANOVA. Por ejemplo, si se quiere estudiar la diferencia entre
hombres y mujeres en una carrera, se puede disponer de dos tipos de datos: los tiempos de cada
participante (análisis con ANOVA) o las posiciones en las que ha terminado la carrera cada
participante (análisis con Kruskal-Wallis test).

Supóngase que se dispone de k grupos cada uno con n observaciones. Si se ordenan todas


las observaciones de menor a mayor y se le asigna a cada una de ellas su rango, cuando se obtenga

la suma de rangos para cada uno de los grupos (R i) es de esperar que, si se cumple la hipótesis
nula, todos los grupos tengan un valor similar. Partiendo de esta idea se calcula el estadístico H
como:
Condiciones del test de Kruskal Wallis

1. No es necesario que las muestras que se comparan provengan de una distribución normal.

2. Homocedasticidad: dado que la hipótesis nula asume que todos los grupos pertenecen a
una misma población y que por lo tanto tienen las mismas medianas, es requisito necesario que
todos los grupos tengan la misma varianza. Se puede comprobar con representaciones gráficas o
con los test de Levenne o Barttlet.

3. Misma distribución para todos los grupos: la distribución de los grupos no tiene que ser
normal, pero ha de ser igual en todos (por ejemplo, que todos muestren asimetría hacia la derecha).

9. ESTIMADOR CONSISTENTE

Un estimador es consistente, si el límite del error cuadrático medio tiende a cero, cuando n
tiende a infinito.

Siendo:

También podría gustarte