Está en la página 1de 13

8.

1 Formulación General
Otra manera de hacer inferencia es haciendo una afirmación acerca del valor que el
parámetro de la población bajo estudio puede tomar. Esta afirmación puede estar basada en
alguna creencia o experiencia pasada que será contrastada con la evidencia que nosotros
obtengamos a través de la información contenida en la muestra. Esto es a lo que llamamos
Prueba de Hipótesis
Una prueba de hipótesis comprende cuatro
Componentes principales:
 Hipótesis Nula
 Hipótesis Alternativa
 Estadística de Prueba
 Región de Rechazo
La Hipótesis Nula. Denotada como H0 siempre especifica un solo valor del parámetro de la
población si la hipótesis es simple o un conjunto de valores si es compuesta (es lo que
queremos desacreditar).

La Hipótesis Alternativa. Denotada como H1 es la que responde nuestra pregunta, la que


se establece en base a la evidencia que tenemos. Puede tener cuatro formas:

Como las conclusiones a las que lleguemos se basan en una muestra, hay posibilidades de
que nos equivoquemos.
Dos decisiones correctas son posibles:
Rechazar H0 cuando es falsa
No Rechazar H0 cuando es verdadera.
Dos decisiones incorrectas son posibles:
Rechazar H0 cuando es verdadera
No Rechazar H0 cuando es falsa.
Distribución Normal De La Varianza Conocida
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su
propio nombre indica su extendida utilización, justificada por las frecuencias o normalidad
con la que los ciertos fenómenos tienden a parecerse en su comportamiento a esta
distribución.
Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica
tiene forma de campana.
En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un
mismo valor de p y de valores de n cada vez mayores, se ve que sus polígonos de frecuencias
se aproximan a una forma en forma de campana.
La importancia de esta distribución radica en que permite modelar numerosos
fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a
gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse
asumiendo que cada observación se obtiene como la suma de unas pocas causas
independientes.
De hecho, la estadística descriptiva sólo permite describir un fenómeno, sin
explicación alguna. Para la explicación causal es preciso el diseño experimental, de ahí que
al uso de la estadística en psicología y sociología sea conocido como método correlacional.
La distribución normal también es importante por su relación con la estimación por
mínimos cuadrados, uno de los métodos de estimación más simples y antiguos.
Además, la distribución normal maximiza la entropía entre todas las distribuciones
con media y varianza conocidas, lo cual la convierte en la elección natural de la distribución
subyacente a una lista de datos resumidos en términos de media muestral y varianza. La
distribución normal es la más extendida en estadística y muchos tests estadísticos están
basados en una supuesta "normalidad".
Los pasos a seguir para resolver el contraste son:

1) Establecer la hipótesis nula (H0) y la alternativa (H1), de acuerdo con una de las tres
posibilidades siguientes:

a) Contraste bilateral o de dos colas: corresponde a plantear en la alternativa que la media


es diferente a un cierto valor prefijado μ0, sin concretar si es mayor o menor.

H0: μ = μ0 contra H1: μ ≠ μ0

b) Contraste unilateral izquierdo: corresponde a plantear en la alternativa que la media es


inferior a un cierto valor prefijado μ0.

H0: μ ≥ μ0 contra H1: μ < μ0

c) Contraste unilateral derecho: corresponde a plantear en la alternativa que la media es


mayor que un cierto valor prefijado μ0.

H0: μ ≤ μ0 contra H1: μ > μ0

2) Cálculo del estadístico experimental

En el caso que nos ocupa, no ha de sorprender que el estadístico que corresponde al test
óptimo esté relacionado con la media muestral. Bajo H0, la variable observada y su
promedio siguen la distribución siguiente:

Si es cierta la hipótesis nula, el estadístico experimental zexp que debe utilizarse sigue la
distribución siguiente:
3) Criterio de decisión

a) Contraste bilateral o de dos colas: rechazamos la hipótesis nula H0 si:

| Zexp | ≥ zα/2

b) Contraste unilateral a la izquierda: rechazamos la hipótesis nula H0 si:

Zexp ≤ −zα

c) Contraste unilateral a la derecha: rechazamos la hipótesis nula H0 si:

Zexp ≥ zα

Nota: zα/2 y zα son los valores críticos asociados a la Normal(0,1) tales que:

prob(Z > zα/2) = α/2 prob(Z > zα) = α

Ejemplo:
Supongamos que del censo de 1990 sabemos que la talla media de los estudiantes de
la Universidad de Córdoba es de 170 cm y que su varianza es de 500 cm2.
Puesto que el censo es antiguo, ¿Podríamos afirmar que la talla media ha cambiado?
Se trata, por tanto de contrastar las siguientes hipótesis:
Hipótesis nula Ho: m= 170
Hipótesis alternativa H1: m<>170
Supuesto inicial: La variable X de que se trata, talla de los estudiantes de la Universidad de
Córdoba en el curso actual, sigue una distribución Normal de media (m) desconocida y
varianzas v2 conocida, pues supondremos que será la misma que en el censo de 1990: 500
cm2
Metodología: para realizar el contraste, tomamos una muestra de tamaño n y estimamos en
ella m con la media muestral.
La media muestral es una variable aleatoria que, por proceder de una distribución Normal
N(m; v2), sigue una distribución Normal N( m; v2/n) = N( m; 500/n)

Tipificando la media muestral, el estadístico


Si es cierta la hipótesis nula, el estadístico:
, también llamado estadístico experimental

Regiones crítica y de aceptación:


Concluiré rechazando la hipótesis nula si la media muestral es un valor que contradice
claramente dicha hipótesis: si obtengo una media muestral mucho más pequeña o mucho
mayor que 170. En otro caso, diré que no hay evidencias en contra de la hipótesis nula.
Si la media es 170, valores muy alejados de 170 son muy improbables, pero no
imposibles, existirá una probabilidad de encontrar tales valores, aún siendo cierta la hipótesis
nula. Si nos encontramos con uno de estos casos y rechazamos la hipótesis nula cometemos
un error, es el error tipo I.
La probabilidad de cometer ese error se fija de antemano, es el nivel de significación,
a =P(rechazar Ho/Ho es cierta)
Puesto que la media muestral tipificada sigue una distribución N(0;1), puedo
encontrar dos abcisas que definan un intervalo de probabilidad 1-a. En realidad estas dos
abcisas pueden ser cualesquiera que cumplan la condición de que el área bajo la curva de
densidad sea 1 - a, pero debido a la simetría de la Normal, se toman , o lo que es lo
mismo:
Si, elegida una muestra, obtenemos un Zexp fuera de ese intervalo, rechazaremos la
hipótesis nula.
Región crítica o de rechazo
Región de aceptación:

8.2 Prueba para la Bondad de Ajuste


Las pruebas de bondad de ajuste son aquellas que comparan los resultados de una
muestra con los que se espera obtener cuando la hipótesis nula es verdadera. Esta tienen por
objetivo determinar si los datos se ajustan a una determinada distribución, la cual puede estar
completamente especificada (hipótesis simple) o perteneciente a una clase para-métrica
(hipótesis compuesta).
Se destacan las siguientes:

PRUEBA DE CHI-CUADRADO
Es una prueba no para-métrica la cual se emplea tanto para distribuciones continuas
como para las discretas. Esta se utiliza para encontrar la distribución de una serie de
datos. Utiliza la siguiente formula:

Donde x2 es un valor de una variable aleatoria cuya distribución muestral se aproxima


muy de cerca con v = k – 1 grados de libertad. Los símbolos Oi y Ei representan las
frecuencias observadas y esperada, respectivamente, para la i-ésima celda.
Hipótesis:
Ho: la muestra se ajusta a una distribución teórica (esperado o modelo)
H1: la muestra no se ajusta a una distribución teórica (esperado o modelado)
Pasos para realizar la prueba de chi-cuadrado
Partiendo del supuesto de que los datos son normales y que ya se conocen la media y
desviación se hace lo siguiente:

1. Determinar el número de intervalos y partiendo del límite superior e inferior, y el


tamaño del intervalo se calcula cada uno para los intervalos
2. Determinar la frecuencia observada por cada intervalo
3. Hallar la frecuencia relativa esperada acumulada teniendo en cuenta la función de
distribución a utilizar, el límite superior, la media y desviación.
4. Hallar la frecuencia relativa esperada restando la frecuencia relativa esperada
acumulada con el dato anterior de la frecuencia dentro de la columna.
5. Hallar la frecuencia observada esperada (FOE) multiplicando la frecuencia relativa
esperada con la suma de los datos de la frecuencia observada.
6. Calcular el estimador a partir de la fórmula de chi-cuadrado
7. Se suman los datos calculados en el paso anterior
8. Se determinan los grados de libertad (V) restando el número de intervalos con 1 y
teniendo en cuenta la suma anterior se busca en la siguiente tabla:
9. Si el estimador S2 es menor o igual al valor correspondiente en la tabla entonces se
acepta Ho, en caso contrario se rechaza.

PRUEBA DE KOLMOGÓROV-SMIRNOV
Es una prueba no para-métrica la cual se emplea solo para distribuciones continuas.
Esta tiene como objetivo encontrar el tipo de distribución de una serie de datos, se considera
más eficiente que la prueba de chi-cuadrado debido a que trabaja con la distribución de
probabilidad acumulada: la distribución acumulada de los datos observados y la distribución
acumulada teórica correspondiente al modelo elegido.
Ventajas:
 Es una prueba poderosa y fácil de utilizar, puesto que no requiere que los datos se
agrupen de determinada manera.
 Es particularmente útil para juzgar qué tan cerca está la distribución de frecuencias
observada de la distribución de frecuencias esperada, porque la distribución de
probabilidad Dn depende del tamaño de muestra n, pero es independiente de la
distribución de frecuencia esperada (Dn es una estadística de distribución libre o
desviación absoluta máxima entre las frecuencias observadas y teóricas).
Pasos para realizar la prueba de Kolmogórov-Smirnov
Partiendo del supuesto de que los datos son normales y que ya se conocen la media y
desviación se hace lo siguiente:
1. identificar la muestra de la población a utilizar.
2. Plantear la hipótesis para la muestra:
 Ho, hipótesis nula.
 Hi, hipótesis alternativa.
3. calcular la frecuencia observada de cada uno de los intervalos, luego se suman todas
las frecuencias observadas.
4. calcular la frecuencia observada relativa (frecuencia observada de cada intervalo/la
sumatoria total de la frecuencia observada).
5. Luego se calcula las frecuencias observada relativa acumulada (FORA) y la
frecuencia esperada relativa acumulada (FERA).
6. se calcula el Estadístico de Prueba (D) de cada intervalo con la siguiente formula:
D = ABS (FOR Acum - FER Acum)
7. se busca en la siguiente tabla de acuerdo al tamaño de la muestra y un alfa (α), el
valor esperado:
n<40: se realiza el procedimiento normal.
n>40: se aplica la formula que se expone en la tabla.
8. Si el estimador de la prueba (D) es menor que el valor que se encontró en la tabla
entonces se acepta la hipótesis Ho planteada, de lo contrario se rechaza.

Validación de Modelos
La validación de modelos consiste en verificar que todos los elementos de datos y
valores de parámetros son válidos. La validación devolverá los procesos ejecutados a su
estado preparado para ejecutarse. Si, al validar el modelo, los procesos que estaban en el
estado preparado para ejecutarse o ejecutado cambian a no preparado para ejecutarse
(elementos de color blanco), una o más variables de entrada no serán válidas.
Validar variables de datos
Las variables de datos hacen referencia a datos en el disco y sólo contienen
información descriptiva acerca de los datos en el disco, no de datos reales.
Por ejemplo, una variable de datos de clase de entidad contiene la ruta a los datos del
disco, una lista de información sobre todos los campos de la clase de entidad (su esquema) y
otra información pertinente utilizada por las herramientas.
Cuando se crea una variable de datos en el modelo, ArcGIS abre el dataset, obtiene
toda la información descriptiva sobre los datos y la almacena en la variable de datos. Esto
ocurre sólo cuando se crea la variable de datos por primera vez, ya que obtener los datos
descriptivos puede llevar mucho tiempo. Otras alternativas, como obtenerlos cuando se abre
el modelo para su edición o cuando se accede a la variable, ralentizarían mucho más la
construcción de modelos. Con el tiempo, la descripción de los datos podría no coincidir con
el contenido real de los datos. Por ejemplo, podría haber eliminado campos del dataset, o
haber cambiado el nombre del dataset. Al validar un modelo, ocurre lo siguiente:
 Todos los datasets se abren y se actualiza la descripción del dataset.
 Todos los procesos ejecutados vuelven al estado preparado para ejecutarse, a menos
que:
o el dataset ya no exista o haya cambiado alguna de sus propiedades, de modo
que la herramienta ya no se puede ejecutar. Normalmente, esto se produce por
la eliminación de un campo. En tal caso, la variable o la herramienta perderán
su validez (no preparado para ejecutarse) y deberá abrir la variable o la
herramienta y proporcionar un nuevo valor.
Para actualizar el contenido de las variables de datos en la ventana de ModelBuilder,
haga clic en Modelo > Validar todo el modelo. También puede validar desde el icono de
validación de la barra de herramientas.

La función de Validación publica mensajes de cada herramienta. Para ver los


mensajes, haga clic con el botón derecho del ratón en un elemento y, a continuación, haga
clic en Ver mensajes o cree un informe de modelo y visualice los mensajes allí.

Validar una variable de valor

A diferencia de las variables de datos, las variables de valores (que no hacen


referencia a los datos en el disco) contienen los datos reales, como se muestra a continuación.
Al validar un modelo, el contenido de cada variable de valores se comprueba para ver si es
válido para las herramientas en las que se utiliza.

También podría gustarte