Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA DE PRUEBA
Las pruebas estadísticas se utilizan en las pruebas de hipótesis y se pueden usar
para determinar si una variable predictiva tiene una relación estadísticamente
significativa con una variable de resultado y para estimar la diferencia entre dos o
más grupos. Así mismo, las pruebas estadísticas suponen una hipótesis nula de no
relación o diferencia entre grupos. Luego determinan si los datos observados están
fuera del rango de los valores predichos por la hipótesis nula.
Las pruebas estadísticas funcionan calculando un estadístico de prueba, un número
que describe cuánto difiere la relación entre las variables en su prueba de la
hipótesis nula de no relación. Luego calcula un valor p (valor de probabilidad). El
valor p estima la probabilidad de que se vea la diferencia descrita por el estadístico
de prueba si la hipótesis nula de ninguna relación fuera cierta.
Si el valor del estadístico de prueba es más extremo que el estadístico calculado a
partir de la hipótesis nula, se puede inferir una relación estadísticamente significativa
entre el predictor y las variables de resultado. Si el valor del estadístico de prueba
es menos extremo que el calculado a partir de la hipótesis nula, entonces no se
puede inferir una relación estadísticamente significativa entre el predictor y las
variables de resultado.
Las pruebas estadísticas hacen algunas suposiciones comunes sobre los datos que
están probando:
Independencia de las observaciones (sin autocorrelación): las observaciones /
variables que incluyes en tu prueba no están relacionadas (por ejemplo, las
mediciones múltiples de un solo sujeto de prueba no son independientes, mientras
que las mediciones de múltiples sujetos de prueba diferentes son independientes).
Homogeneidad de la varianza: la varianza dentro de cada grupo que se compara
es similar entre todos los grupos. Si un grupo tiene mucha más variación que otros,
limitará la efectividad de la prueba.
Normalidad de los datos: los datos siguen una distribución normal (también
conocida como curva de campana). Esta suposición se aplica solo a los datos
cuantitativos.
Las variables
Los tipos de variables que tienes generalmente determinan qué tipo de prueba
estadística puedes usar.
Las variables cuantitativas representan cantidades de cosas (por ejemplo, el
número de árboles en un bosque). Los tipos de variables cuantitativas incluyen:
• Continuo (también conocido como variables de relación): representa
medidas y generalmente se puede dividir en unidades más pequeñas que
una (por ejemplo, 0,75 gramos).
• Discreto (también conocido como variables enteras): representan
recuentos y generalmente no se pueden dividir en unidades más pequeñas
que una (por ejemplo, 1 árbol).
Las variables categóricas representan agrupaciones de cosas (por ejemplo, las
diferentes especies de árboles en un bosque). Los tipos de variables categóricas
incluyen:
• Ordinal: representa datos con un orden (por ejemplo, clasificaciones).
• Nominal: representa nombres de grupos (por ejemplo, marcas o nombres de
especies).
• Binario: representa datos con un resultado sí / no o 1/0 (por ejemplo, ganar
o perder).
Un ejemplo de estadística seria: si quieres saber cuál es el salario promedio de los
pilotos de tu país deberías encuestarlos a todos, pero te tomaría mucho tiempo. Lo
que haces es reunir las respuestas de solo un grupo de pilotos y, según los
resultados, deducir la cifra promedio.
GRADO DE LIBERTAD
El concepto de grados de libertad no es fácil de explicar. Este concepto aparece en
diversos contextos en estadística, algunos de ellos avanzados y complicados. En
matemáticas, los grados de libertad se definen como la dimensión del dominio de
un vector aleatorio. EJEMPLO
Imagínese que usted sea una persona a la que le encanta divertirse y le gustan los
sombreros. Le importa muy poco lo que es un grado de libertad. Piensa que en la
variedad está el placer.
Desafortunadamente, tiene restricciones. Solo tiene 7 sombreros. Desea lucir un
sombrero diferente cada día.
El primer día, puede usar cualquiera de los 7 sombreros. El segundo día, puede
elegir entre los 6 sombreros restantes, el tercer día puede elegir entre 5 sombreros
y así sucesivamente.
Cuando llega al día 6, todavía tiene la opción de escoger entre 2 sombreros que no
ha usado todavía esa semana. Pero después de escoger su sombrero para el día
6, no tiene ninguna opción disponible para el sombrero que utilizará el día 7. Debe
usar el sombrero restante. Tenía 7-1 = 6 días de libertad de “sombreros” respecto a
la variación del sombrero que podía utilizar.
Ese es el tipo de idea que apoya el concepto de grados de libertad en estadística.
Los grados de libertad se definen frecuentemente como el número de observaciones
(piezas de información) en los datos que pueden variar libremente al estimar
parámetros estadísticos.
GRADOS DE LIBERTAD: PRUEBA T DE 1 MUESTRA
Ahora imagínese que no es un entusiasta de los sombreros. Ahora es un analista
de datos.
Tiene un conjunto de datos de 10 valores. Si no está haciendo un cálculo en
particular, cada valor puede ser cualquier número, ¿correcto? Cada valor puede
variar libremente.
Pero suponga que desea probar la media de una población con una muestra de 10
valores, usando la prueba t de 1 muestra. Ahora tiene una restricción: la estimación
de la media. ¿Cuál es esa restricción exactamente? Por definición de la media, la
relación siguiente se debe mantener: La suma de todos los valores de los datos
debe ser igual a n x media, donde n es el número de valores en el conjunto de datos.
Por ejemplo, si el conjunto de datos tiene 10 valores, la suma de los 10 valores debe
ser igual a la media x 10. Si la media de los 10 valores es 3.5 (puede escoger
cualquier número), esta restricción requiere que la suma de los 10 valores debe ser
igual a 10 x 3.5 = 35.
Con esa restricción, el primer valor del conjunto de datos varía libremente.
Independientemente del valor que sea, es posible que la suma de los 10 números
tenga un valor de 35. El segundo valor también varía libremente, debido a que
independientemente del valor que escoja, aun permite la posibilidad de que la suma
de todos los valores sea 35.
De hecho, los primeros 9 valores pueden ser cualquier número, incluyendo los 2
ejemplos siguientes:
34, -8.3, -37, -92, -1, 0, 1, -22, 99
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9
Pero para que los 10 valores sumen 35 y tengan una media de 3.5, el 10mo valor
no puede variar. Debe ser un número específico:
34, -8.3, -37, -92, -1, 0, 1, -22, 99 -----> El 10mo valor debe ser 61.3
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 ----> El 10mo valor debe ser 30.5
Por lo tanto, tiene 10 - 1 = 9 grados de libertad. Independientemente del tamaño de
la muestra o del valor de la media que utilice, el ultimo valor de la muestra no puede
variar libremente. Finalmente, tendrá n - 1 grados de libertad, donde n es el tamaño
de la muestra.
Otra manera de decir esto es que el número de grados de libertad es igual al número
de “observaciones” menos el número de relaciones requeridas entre las
observaciones (por ejemplo, el número de parámetros estimados). Para una prueba
t de 1 muestra, se gasta un grado de libertad en la estimación de la media y los n -
1 grados de libertad restantes en estimar la variabilidad.
Los grados de libertad definen la distribución t específica que se utiliza para calcular
los valores p y los valores t de la prueba t.
Tenga en cuenta que para tamaños de muestras pequeños (n), que corresponden
a grados de libertad más pequeños (n - 1 para la prueba de 1 muestra) la distribución
t tiene colas más amplias. Esto se debe a que la distribución t fue diseñada
especialmente para proporcionar resultados de pruebas más conservadores al
analizar muestras pequeñas (tal como en la industria cervecera). A medida que
aumenta el tamaño de la muestra (n), el número de grados de libertad aumenta y la
distribución t se aproxima a una distribución normal.
Si esto sucede, necesita recolectar más datos (para incrementar los grados de
libertad) o quitar términos de su modelo (con el propósito de reducir el número de
grados de libertad requeridos). Entonces, los grados de libertad sí tienen efectos
reales y tangibles en el análisis de los datos, a pesar de existir en el inframundo del
dominio de un vector aleatorio.
NIVEL DE CONFIANZA