Está en la página 1de 9

Prueba de hipótesis

Una prueba de hipótesis es una regla que especifica cuando se puede aceptar o rechazar
una afirmación sobre una población dependiendo de la evidencia proporcionada por una
muestra de datos.

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la
hipótesis nula y la hipótesis alternativa. La hipótesis nula es la afirmación que se está
comprobando. Normalmente la hipótesis nula es una afirmación de "sin efecto" o "sin
diferencia". La hipótesis alternativa es la afirmación que se desea ser capaz de concluir
que es verdadera basándose en la evidencia proporcionada por los datos de la muestra.

Basándose en los datos de la muestra, la prueba determina cuando rechazar la hipótesis


nula. Se utiliza un p-valor, para realizar esa determinación. Si el p-valor es menos que el
nivel de significación (conocido como α o alfa), entonces se puede rechazar la hipótesis
nula.

Un error común suele ser que las pruebas de hipótesis estadísticas están diseñadas para
seleccionar la más probable de dos hipótesis. Sin embargo, al diseñar una prueba de
hipótesis, se configura la hipótesis nula como la que se quiere rechazar. Dado que se fija
que el nivel de significación sea pequeño antes del análisis (normalmente, un valor de
0.05 funciona correctamente), Cuando se rechaza la hipótesis nula, se tiene una prueba
estadística de que la alternativa es cierta. Por el contrario, si no se rechaza la hipótesis
nula, no se tiene prueba estadística de que la hipótesis nula sea cierta. Esto es debido a
que no se ha fijado la probabilidad de que se acepte falsamente que la hipótesis nula sea
pequeña.

EJEMPLO:
Jane acaba de incorporarse al equipo de ventas de una compañía muy competitiva. En
una muestra de 16 llamadas de ventas se comprobó que cerró el contrato por un valor
promedio de 108 dólares con una desviación típica de 12 dólares. Pruebe al 5 % de
significación que la media de la población es de al menos 100 dólares contra la alternativa
de que es menor de 100 dólares. La política de la compañía exige que los nuevos
integrantes del equipo de ventas superen un promedio de 100 dólares por contrato
durante el periodo de prueba del empleo. ¿Podemos concluir que Jane ha cumplido este
requisito con un nivel de significación del 95 %?
Solución 1
H0: µ ≤ 100
Ha: µ > 100
Las hipótesis nula y alternativa son para el parámetro µ porque el número de dólares de
los contratos es una variable aleatoria continua. Además, se trata de una prueba de una
cola porque a la compañía solo le interesa si el número de dólares por contacto está por
debajo de una cifra determinada, no de una cifra "demasiado alta". Esto se considera una
afirmación de que el requisito se cumple; por ende, está en la hipótesis alternativa.
Estadístico de prueba: tc=x¯–µ0sn√=108–100(1216√)=2,67tc=x¯–µ0sn=108–
100(1216)=2,67
Valor crítico: ta=1,753ta=1,753 con n-1 grados de libertad = 15
El estadístico de prueba es una t de Student porque el tamaño de la muestra es inferior a
30; por ende, no podemos utilizar la distribución normal. Al comparar el valor calculado del
estadístico de prueba y el valor crítico de tt (ta) (ta) a un nivel de significación del 5 %,
vemos que el valor calculado está en la cola de la distribución. Así, concluimos que 108
dólares por contrato es significativamente mayor que el valor hipotético de 100; por ende,
no podemos aceptar la hipótesis nula. Hay pruebas que apoyan que el desempeño de
Jane cumple con los estándares de la compañía.
REGRESIÓN LINEAL

La regresión lineal es una técnica de análisis de datos que predice el valor de datos
desconocidos mediante el uso de otro valor de datos relacionado y conocido. Modela
matemáticamente la variable desconocida o dependiente y la variable conocida o
independiente como una ecuación lineal. Por ejemplo, supongamos que tiene datos sobre
sus gastos e ingresos del año pasado. Las técnicas de regresión lineal analizan estos
datos y determinan que tus gastos son la mitad de tus ingresos. Luego calculan un gasto
futuro desconocido al reducir a la mitad un ingreso conocido futuro.
En esencia, una técnica de regresión lineal simple intenta trazar un gráfico lineal entre dos
variables de datos, x e y. Como variable independiente, x se traza a lo largo del eje
horizontal. Las variables independientes también se denominan variables explicativas o
variables predictivas. La variable dependiente, y, se traza en el eje vertical. También
puede hacer referencia a los valores y como variables de respuesta o variables
pronosticadas.

Pasos en la regresión lineal

Para esta visión general, tenga en cuenta la forma más simple de la ecuación de gráfico
de líneas entre y y x; y=c*x+m, donde c y m son constantes para todos los valores
posibles de x e y. Así, por ejemplo, supongamos que los datos de entrada para (x, y) era
(1,5), (2,8) y (3,11). Para identificar el método de regresión lineal, debe seguir los
siguientes pasos:

1. Trace una línea recta y mida la correlación entre 1 y 5.


2. Siga cambiando la dirección de la línea recta para los nuevos valores (2,8) y (3,11) hasta
que se ajusten todos los valores.
3. Identifique la ecuación de regresión lineal como y = 3*x + 2.
4. Extrapola o predice que y es 14 cuando x es
Ejemplo del método de mínimos cuadrados

Para entender con claridad la aplicación del método veamos un ejemplo:

Encontrar la recta que mejor se ajusta a los siguientes datos:

Veamos el gráfico:

Necesitamos encontrar una recta y = mx + b. Debemos aplicar el método de mínimos


cuadrados. Como ya sabemos entonces, primero centraremos el valor (x ∙ y):
Segundo por las expresiones de m y b debemos encontrar el valor x²:

Ahora podemos obtener los valores de las sumatorias de cada columna:

Sustituimos en cada una de las expresiones:

La recta obtenida con el método de los mínimos cuadrados es la siguiente:

Observemos el gráfico:
Vemos que la recta corta al eje y en 11,48 y en el eje x en 13,57. Por lo tanto, si
queremos saber dónde corta en el eje x igualamos la ecuación y = 0:

Despejamos x:
Supuestos del modelo de regresión lineal
Como todo modelo estadístico, existen supuestos del modelo de regresión lineal, cuyo
cumplimiento son necesarios para validar su confiabilidad.

Esto supuestos o condiciones, constituyen la base teórica del análisis, por lo que su
incumplimiento, impide su ejecución de forma tácita.

Esto quiere decir que antes de intentar aplicar el modelo de regresión lineal, a nuestros
datos, es necesario examinar los supuestos que lo condicionan.

En algunos de estos, como en los de independencia, homocedasticidad y normalidad,


estrechamente relacionados con los residuos, nos será de mucha ayuda observar en
detalle, el comportamiento de estos.

Los supuestos son:

Independencia.

Los residuos son independientes entre sí, es decir, los residuos constituyen una variable
aleatoria.

Cuando se trabaja con series temporales, podemos hallar residuos auto correlacionados
entre sí.

Linealidad.
La ecuación de regresión, posee una forma particular que responde a una recta. A partir
de ello, se dan como característica que la variable dependiente constituye la suma de un
conjunto de elementos que son: el origen de la recta, una combinación lineal de variables
independientes o predictores y los residuos.

Este supuesto puede incumplirse por varias causas, como por ejemplo la no linealidad (la
relación entre las variables independientes y la dependiente no es lineal), la no aditividad
(el efecto de alguna variable independiente es sensible a los niveles de alguna otra
variable independiente), la omisión de variables independientes que son importantes para
el estudio, la inclusión de variables independientes irrelevantes, parámetros cambiantes
(los parámetros no permanecen constantes durante el tiempo que dura la recogida de
datos), entre otros.

A este incumplimiento se le denomina error de especificación y es fácilmente


predecible observando el diagrama de dispersión.

También el uso de gráficos parciales, ayudará a observar la linealidad entre las variables,
al ser herramientas que ofrecen una representación espacial, de la relación neta entre dos
variables.

Homocedasticidad.

Para cada valor de la variable independiente (o combinación de sus valores), la varianza


de los residuos es constante.

Normalidad.

Para cada valor de la variable independiente (o combinación de sus valores), los residuos
se distribuyen normalmente con media cero.

No-colinealidad.

No existe relación lineal exacta entre ninguna de las variables independientes.

El incumplimiento de este supuesto da origen a colinealidad o multicolinealidad en


dependencia de las variables que afecte.

La no-colinealidad, no tiene por supuesto sentido en el análisis de regresión simple, ya


que para su análisis es necesaria la existencia de más de una variable independiente.

Cuando los supuestos no se cumplen


Las condiciones que se han pedido hasta este punto para los procedimientos vistos, son
exigentes. Por ejemplo, en las pruebas t debemos suponer que la variable tiene
distribución normal en la población. El Teorema Central del Límite nos dice que si las
muestras son lo suficientemente grandes, la distribución muestral tiende a ser normal, por
lo que puede eliminarse el supuesto de normalidad en la población si las muestras tienen
suficiente tamaño, pero a menudo no es posible contar con muestras grandes. Todas las
pruebas que hemos visto hasta este momento hacen supuestos acerca de la población,
que son condiciones que debe cumplir la distribución de las variables bajo análisis en la
población; estos supuestos a veces se cumplen y otras no. Los resultados que se
obtengan de esas pruebas dependen del cumplimiento de esas condiciones. En algunos
casos es posible poner a prueba la veracidad de esas exigencias, para ver si se cumplen,
en otros casos, solo es posible “suponer” que es así. Por esa razón los resultados pueden
ser aproximados o directamente incorrectos, si hay violaciones graves a sus condiciones
de aplicación.
Además, los cálculos hechos en las pruebas mencionadas, requieren un nivel de medición
alto, para poder calcular medias y varianzas. Hemos resuelto parcialmente el problema
cuando, al tratar con variables nominales, usamos la proporción de casos en alguna
categoría. Sin embargo no hemos resuelto aún el problema de analizar relaciones entre
variables cualitativas, a las que no puede calcularse la media ni la varianza, pero que a
menudo aparecen en nuestros análisis. Es el mismo caso con el coeficiente de Pearson,
su cálculo requiere que se calculen medias y varianzas, lo que no puede hacerse si las
variables no son métricas.
Estos problemas son muy frecuentes en investigación social: pocos casos, variables que
no son métricas, sin certeza sobre la normalidad de las distribuciones paramétricas. Para
ellos existe un conjunto de pruebas llamadas pruebas no paramétricas. Por oposición a
ellas, todas las pruebas presentadas hasta aquí son pruebas paramétricas, que quiere
decir que especifican ciertas condiciones que deben cumplir (o que puede suponerse que
cumplan) los parámetros de la población de la que se extrae la muestra.

Son pruebas no paramétricas las pruebas de hipótesis que no especifican condiciones sobre los
parámetros de la población de la que proviene la muestra.

La limitación de las pruebas no paramétricas respecto de las paramétricas, es que tienen,


a igual nivel de significación e igual tamaño de muestra, menor potencia. Eso significa
que, para obtener la misma potencia en una prueba no paramétrica que en una
paramétrica, es necesario usar más casos.
Si el problema es el nivel de medición de las variables —que en la mayoría de los casos
no es métrico—, puede resolverse apelando a una prueba no paramétrica y lograr
resultados de la misma calidad, aunque a un mayor costo por la mayor cantidad de casos
necesarios.
Si el problema es el tamaño de la muestra, es decir, si tenemos muy pocos casos
observados y no puede suponerse distribución normal en la población, entonces no hay
alternativa y debe usarse una prueba no paramétrica.

También podría gustarte