RBH T1

ROXANA BULA HOYOS
ESTADISTICA DE PRUEBA
Las pruebas estadísticas se utilizan en las pruebas de hipótesis y se pueden usar
para determinar si una variable predictiva tiene una relación estadísticamente
significativa con una variable de resultado y para estimar la diferencia entre dos o
más grupos. Así mismo, las pruebas estadísticas suponen una hipótesis nula de no
relación o diferencia entre grupos. Luego determinan si los datos observados están
fuera del rango de los valores predichos por la hipótesis nula.
Las pruebas estadísticas funcionan calculando un estadístico de prueba, un número
que describe cuánto difiere la relación entre las variables en su prueba de la
hipótesis nula de no relación. Luego calcula un valor p (valor de probabilidad). El
valor p estima la probabilidad de que se vea la diferencia descrita por el estadístico
de prueba si la hipótesis nula de ninguna relación fuera cierta.
Si el valor del estadístico de prueba es más extremo que el estadístico calculado a
partir de la hipótesis nula, se puede inferir una relación estadísticamente significativa
entre el predictor y las variables de resultado. Si el valor del estadístico de prueba
es menos extremo que el calculado a partir de la hipótesis nula, entonces no se
puede inferir una relación estadísticamente significativa entre el predictor y las
variables de resultado.
Las pruebas estadísticas hacen algunas suposiciones comunes sobre los datos que
están probando:
Independencia de las observaciones (sin autocorrelación): las observaciones /
variables que incluyes en tu prueba no están relacionadas (por ejemplo, las
mediciones múltiples de un solo sujeto de prueba no son independientes, mientras
que las mediciones de múltiples sujetos de prueba diferentes son independientes).
Homogeneidad de la varianza: la varianza dentro de cada grupo que se compara
es similar entre todos los grupos. Si un grupo tiene mucha más variación que otros,
limitará la efectividad de la prueba.
Normalidad de los datos: los datos siguen una distribución normal (también
conocida como curva de campana). Esta suposición se aplica solo a los datos
cuantitativos.
Las variables
Los tipos de variables que tienes generalmente determinan qué tipo de prueba
estadística puedes usar.
Las variables cuantitativas representan cantidades de cosas (por ejemplo, el
número de árboles en un bosque). Los tipos de variables cuantitativas incluyen:
• Continuo (también conocido como variables de relación): representa
medidas y generalmente se puede dividir en unidades más pequeñas que
una (por ejemplo, 0,75 gramos).
• Discreto (también conocido como variables enteras): representan
recuentos y generalmente no se pueden dividir en unidades más pequeñas
que una (por ejemplo, 1 árbol).
Las variables categóricas representan agrupaciones de cosas (por ejemplo, las
diferentes especies de árboles en un bosque). Los tipos de variables categóricas
incluyen:
• Ordinal: representa datos con un orden (por ejemplo, clasificaciones).
• Nominal: representa nombres de grupos (por ejemplo, marcas o nombres de
especies).
• Binario: representa datos con un resultado sí / no o 1/0 (por ejemplo, ganar
o perder).
Un ejemplo de estadística seria: si quieres saber cuál es el salario promedio de los
pilotos de tu país deberías encuestarlos a todos, pero te tomaría mucho tiempo. Lo
que haces es reunir las respuestas de solo un grupo de pilotos y, según los
resultados, deducir la cifra promedio.
GRADO DE LIBERTAD
El concepto de grados de libertad no es fácil de explicar. Este concepto aparece en
diversos contextos en estadística, algunos de ellos avanzados y complicados. En
matemáticas, los grados de libertad se definen como la dimensión del dominio de
un vector aleatorio. EJEMPLO
Imagínese que usted sea una persona a la que le encanta divertirse y le gustan los
sombreros. Le importa muy poco lo que es un grado de libertad. Piensa que en la
variedad está el placer.
Desafortunadamente, tiene restricciones. Solo tiene 7 sombreros. Desea lucir un
sombrero diferente cada día.
El primer día, puede usar cualquiera de los 7 sombreros. El segundo día, puede
elegir entre los 6 sombreros restantes, el tercer día puede elegir entre 5 sombreros
y así sucesivamente.
Cuando llega al día 6, todavía tiene la opción de escoger entre 2 sombreros que no
ha usado todavía esa semana. Pero después de escoger su sombrero para el día
6, no tiene ninguna opción disponible para el sombrero que utilizará el día 7. Debe
usar el sombrero restante. Tenía 7-1 = 6 días de libertad de “sombreros” respecto a
la variación del sombrero que podía utilizar.
Ese es el tipo de idea que apoya el concepto de grados de libertad en estadística.
Los grados de libertad se definen frecuentemente como el número de observaciones
(piezas de información) en los datos que pueden variar libremente al estimar
parámetros estadísticos.
GRADOS DE LIBERTAD: PRUEBA T DE 1 MUESTRA
Ahora imagínese que no es un entusiasta de los sombreros. Ahora es un analista
de datos.
Tiene un conjunto de datos de 10 valores. Si no está haciendo un cálculo en
particular, cada valor puede ser cualquier número, ¿correcto? Cada valor puede
variar libremente.
Pero suponga que desea probar la media de una población con una muestra de 10
valores, usando la prueba t de 1 muestra. Ahora tiene una restricción: la estimación
de la media. ¿Cuál es esa restricción exactamente? Por definición de la media, la
relación siguiente se debe mantener: La suma de todos los valores de los datos
debe ser igual a n x media, donde n es el número de valores en el conjunto de datos.
Por ejemplo, si el conjunto de datos tiene 10 valores, la suma de los 10 valores debe
ser igual a la media x 10. Si la media de los 10 valores es 3.5 (puede escoger
cualquier número), esta restricción requiere que la suma de los 10 valores debe ser
igual a 10 x 3.5 = 35.
Con esa restricción, el primer valor del conjunto de datos varía libremente.
Independientemente del valor que sea, es posible que la suma de los 10 números
tenga un valor de 35. El segundo valor también varía libremente, debido a que
independientemente del valor que escoja, aun permite la posibilidad de que la suma
de todos los valores sea 35.
De hecho, los primeros 9 valores pueden ser cualquier número, incluyendo los 2
ejemplos siguientes:
34, -8.3, -37, -92, -1, 0, 1, -22, 99
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9
Pero para que los 10 valores sumen 35 y tengan una media de 3.5, el 10mo valor
no puede variar. Debe ser un número específico:
34, -8.3, -37, -92, -1, 0, 1, -22, 99 -----> El 10mo valor debe ser 61.3
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 ----> El 10mo valor debe ser 30.5
Por lo tanto, tiene 10 - 1 = 9 grados de libertad. Independientemente del tamaño de
la muestra o del valor de la media que utilice, el ultimo valor de la muestra no puede
variar libremente. Finalmente, tendrá n - 1 grados de libertad, donde n es el tamaño
de la muestra.
Otra manera de decir esto es que el número de grados de libertad es igual al número
de “observaciones” menos el número de relaciones requeridas entre las
observaciones (por ejemplo, el número de parámetros estimados). Para una prueba
t de 1 muestra, se gasta un grado de libertad en la estimación de la media y los n -
1 grados de libertad restantes en estimar la variabilidad.
Los grados de libertad definen la distribución t específica que se utiliza para calcular
los valores p y los valores t de la prueba t.
Tenga en cuenta que para tamaños de muestras pequeños (n), que corresponden
a grados de libertad más pequeños (n - 1 para la prueba de 1 muestra) la distribución
t tiene colas más amplias. Esto se debe a que la distribución t fue diseñada
especialmente para proporcionar resultados de pruebas más conservadores al
analizar muestras pequeñas (tal como en la industria cervecera). A medida que
aumenta el tamaño de la muestra (n), el número de grados de libertad aumenta y la
distribución t se aproxima a una distribución normal.
GRADOS DE LIBERTAD: PRUEBA CHI-CUADRADA DE INDEPENDENCIA

Observemos otro contexto. Una prueba chi-cuadrada de independencia se utiliza
para determinar si dos variables categóricas son dependientes. Para esta prueba,
los grados de libertad son el número de celdas de la tabla de dos factores de las
variables categóricas que pueden variar, dadas las restricciones de los totales
marginales de las filas y columnas. Entonces cada “observación” en este caso es la
frecuencia en una celda.
Considere el ejemplo más simple: una tabla 2 x 2, con dos categorías y dos niveles
por cada categoría:
Categoría A Total
? 6
Categoría B
15
Total 10 11 21
No importa que valores se utilizan para los totales marginales de las filas y las
columnas. Una vez que se hayan establecido estos valores, solo hay un valor de
celda que puede cambiar (mostrado aquí con un signo de interrogación, pero puede
ser cualquiera de las cuatro celdas). Una vez que ingrese un número para una celda,
los números de las otras celdas son predeterminados por los totales de las filas y
las columnas. No pueden variar libremente. De manera que la prueba de
independencia chi-cuadrada tiene solo 1 grado de libertad para una tabla 2x2.
Similarmente, una tabla 3 x 2 tiene 2 grados de libertad, debido a que solo dos de
las celdas pueden variar para un conjunto dado de totales marginales.
Categoría A Total
? ? 15
Categoría B
15
Total 10 11 9 30
Si experimenta con tablas de tamaños diferentes, eventualmente encontrará un
patrón general. Para una tabla con r filas y c columnas, el número de celdas que
puede variar es (r-1)(c-1). Y esa es la fórmula para los grados de libertad de la
prueba de independencia de chi-cuadrada.
Los grados de libertad definen la distribución chi-cuadrada que se utiliza para
evaluar la independencia de la prueba.
La distribución chi-cuadrada tiene asimetría positiva. A medida que aumentan los

grados de libertad, se aproxima a la curva normal.
GRADOS DE LIBERTAD: REGRESIÓN
Los grados de libertad se relacionan más en el contexto de la regresión. Para no
arriesgarme a perder al único lector restante de este artículo (¡Hola mamá!), iré
directo al grano.
Recuerde que los grados de libertad generalmente son iguales al número de
observaciones (elementos de información) menos el número de parámetros
estimados. Cuando se lleva a cabo una regresión, se estima un parámetro para
todos los términos del modelo, y cada uno consume un grado de libertad. Por lo
tanto, incluir una cantidad excesiva de términos en un modelo de regresión múltiple
reduce los grados de libertad disponibles para estimar la variabilidad de los
parámetros. De hecho, si la cantidad de datos no es suficiente para el número de
términos en su modelo, es posible que ni siquiera haya suficientes grados de libertad
(GL) para el término de error y no es posible calcular valores p ni valores F. Obtendrá
una salida como esta:
Si esto sucede, necesita recolectar más datos (para incrementar los grados de
libertad) o quitar términos de su modelo (con el propósito de reducir el número de
grados de libertad requeridos). Entonces, los grados de libertad sí tienen efectos
reales y tangibles en el análisis de los datos, a pesar de existir en el inframundo del
dominio de un vector aleatorio.
NIVEL DE CONFIANZA
El nivel de confianza es la probabilidad de que el parámetro a estimar se encuentre

en el intervalo de confianza.
El nivel de confianza (p) se designa mediante 1 − α, y se suele tomar en tanto por
ciento.
Los niveles de confianza más usuales son: 90%; 95% y 99%.
El nivel de significación se designa mediante α.
El valor crítico (k) como z α/2 .
P(Z>z α/2) = α/2
P[-z α/2 < z < z α/2] = 1 - α
1 - α α/2 z α/2
0.90 0.05 1.645
0.95 0.025 1.96
0.99 0.005 2.575

En una distribución N(μ, σ ) el intervalo característico correspondiente a una
probabilidad p = 1 - α es:
(μ - z α/2 · σ, μ + z α/2 · σ )
EJEMPLO
La media de las estaturas de una muestra aleatoria de 400 personas de una ciudad
es 1,75 m. Se sabe que la estatura de las personas de esa ciudad es una variable
aleatoria que sigue una distribución normal con varianza σ2 = 0,16 m2.
Construye un intervalo, de un 95% de confianza, para la media de las estaturas de
la población.
n = 400
x = 1.75 σ = 0.4
1− α = 0.95
z α/2 = 1.96
(1.75 ± 1.96 · 0.4/20 )
(1.7108,1.7892)

RBH T1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

RBH T1

Cargado por

Copyright:

Formatos disponibles

ROXANA BULA HOYOS

GRADOS DE LIBERTAD: PRUEBA CHI-CUADRADA DE INDEPENDENCIA

La distribución chi-cuadrada tiene asimetría positiva. A medida que aumentan los

El nivel de confianza es la probabilidad de que el parámetro a estimar se encuentre

0.90 0.05 1.645

0.95 0.025 1.96

0.99 0.005 2.575

También podría gustarte