Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 Formulación General
Otra manera de hacer inferencia es haciendo una afirmación acerca del valor que el
parámetro de la población bajo estudio puede tomar. Esta afirmación puede estar basada en
alguna creencia o experiencia pasada que será contrastada con la evidencia que nosotros
obtengamos a través de la información contenida en la muestra. Esto es a lo que llamamos
Prueba de Hipótesis
Una prueba de hipótesis comprende cuatro
Componentes principales:
Hipótesis Nula
Hipótesis Alternativa
Estadística de Prueba
Región de Rechazo
La Hipótesis Nula. Denotada como H0 siempre especifica un solo valor del parámetro de la
población si la hipótesis es simple o un conjunto de valores si es compuesta (es lo que
queremos desacreditar).
Como las conclusiones a las que lleguemos se basan en una muestra, hay posibilidades de
que nos equivoquemos.
Dos decisiones correctas son posibles:
Rechazar H0 cuando es falsa
No Rechazar H0 cuando es verdadera.
Dos decisiones incorrectas son posibles:
Rechazar H0 cuando es verdadera
No Rechazar H0 cuando es falsa.
Distribución Normal De La Varianza Conocida
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su
propio nombre indica su extendida utilización, justificada por las frecuencias o normalidad
con la que los ciertos fenómenos tienden a parecerse en su comportamiento a esta
distribución.
Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica
tiene forma de campana.
En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un
mismo valor de p y de valores de n cada vez mayores, se ve que sus polígonos de frecuencias
se aproximan a una forma en forma de campana.
La importancia de esta distribución radica en que permite modelar numerosos
fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a
gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse
asumiendo que cada observación se obtiene como la suma de unas pocas causas
independientes.
De hecho, la estadística descriptiva sólo permite describir un fenómeno, sin
explicación alguna. Para la explicación causal es preciso el diseño experimental, de ahí que
al uso de la estadística en psicología y sociología sea conocido como método correlacional.
La distribución normal también es importante por su relación con la estimación por
mínimos cuadrados, uno de los métodos de estimación más simples y antiguos.
Además, la distribución normal maximiza la entropía entre todas las distribuciones
con media y varianza conocidas, lo cual la convierte en la elección natural de la distribución
subyacente a una lista de datos resumidos en términos de media muestral y varianza. La
distribución normal es la más extendida en estadística y muchos tests estadísticos están
basados en una supuesta "normalidad".
Los pasos a seguir para resolver el contraste son:
1) Establecer la hipótesis nula (H0) y la alternativa (H1), de acuerdo con una de las tres
posibilidades siguientes:
En el caso que nos ocupa, no ha de sorprender que el estadístico que corresponde al test
óptimo esté relacionado con la media muestral. Bajo H0, la variable observada y su
promedio siguen la distribución siguiente:
Si es cierta la hipótesis nula, el estadístico experimental zexp que debe utilizarse sigue la
distribución siguiente:
3) Criterio de decisión
| Zexp | ≥ zα/2
Zexp ≤ −zα
Zexp ≥ zα
Nota: zα/2 y zα son los valores críticos asociados a la Normal(0,1) tales que:
Ejemplo:
Supongamos que del censo de 1990 sabemos que la talla media de los estudiantes de
la Universidad de Córdoba es de 170 cm y que su varianza es de 500 cm2.
Puesto que el censo es antiguo, ¿Podríamos afirmar que la talla media ha cambiado?
Se trata, por tanto de contrastar las siguientes hipótesis:
Hipótesis nula Ho: m= 170
Hipótesis alternativa H1: m<>170
Supuesto inicial: La variable X de que se trata, talla de los estudiantes de la Universidad de
Córdoba en el curso actual, sigue una distribución Normal de media (m) desconocida y
varianzas v2 conocida, pues supondremos que será la misma que en el censo de 1990: 500
cm2
Metodología: para realizar el contraste, tomamos una muestra de tamaño n y estimamos en
ella m con la media muestral.
La media muestral es una variable aleatoria que, por proceder de una distribución Normal
N(m; v2), sigue una distribución Normal N( m; v2/n) = N( m; 500/n)
PRUEBA DE CHI-CUADRADO
Es una prueba no para-métrica la cual se emplea tanto para distribuciones continuas
como para las discretas. Esta se utiliza para encontrar la distribución de una serie de
datos. Utiliza la siguiente formula:
PRUEBA DE KOLMOGÓROV-SMIRNOV
Es una prueba no para-métrica la cual se emplea solo para distribuciones continuas.
Esta tiene como objetivo encontrar el tipo de distribución de una serie de datos, se considera
más eficiente que la prueba de chi-cuadrado debido a que trabaja con la distribución de
probabilidad acumulada: la distribución acumulada de los datos observados y la distribución
acumulada teórica correspondiente al modelo elegido.
Ventajas:
Es una prueba poderosa y fácil de utilizar, puesto que no requiere que los datos se
agrupen de determinada manera.
Es particularmente útil para juzgar qué tan cerca está la distribución de frecuencias
observada de la distribución de frecuencias esperada, porque la distribución de
probabilidad Dn depende del tamaño de muestra n, pero es independiente de la
distribución de frecuencia esperada (Dn es una estadística de distribución libre o
desviación absoluta máxima entre las frecuencias observadas y teóricas).
Pasos para realizar la prueba de Kolmogórov-Smirnov
Partiendo del supuesto de que los datos son normales y que ya se conocen la media y
desviación se hace lo siguiente:
1. identificar la muestra de la población a utilizar.
2. Plantear la hipótesis para la muestra:
Ho, hipótesis nula.
Hi, hipótesis alternativa.
3. calcular la frecuencia observada de cada uno de los intervalos, luego se suman todas
las frecuencias observadas.
4. calcular la frecuencia observada relativa (frecuencia observada de cada intervalo/la
sumatoria total de la frecuencia observada).
5. Luego se calcula las frecuencias observada relativa acumulada (FORA) y la
frecuencia esperada relativa acumulada (FERA).
6. se calcula el Estadístico de Prueba (D) de cada intervalo con la siguiente formula:
D = ABS (FOR Acum - FER Acum)
7. se busca en la siguiente tabla de acuerdo al tamaño de la muestra y un alfa (α), el
valor esperado:
n<40: se realiza el procedimiento normal.
n>40: se aplica la formula que se expone en la tabla.
8. Si el estimador de la prueba (D) es menor que el valor que se encontró en la tabla
entonces se acepta la hipótesis Ho planteada, de lo contrario se rechaza.
Validación de Modelos
La validación de modelos consiste en verificar que todos los elementos de datos y
valores de parámetros son válidos. La validación devolverá los procesos ejecutados a su
estado preparado para ejecutarse. Si, al validar el modelo, los procesos que estaban en el
estado preparado para ejecutarse o ejecutado cambian a no preparado para ejecutarse
(elementos de color blanco), una o más variables de entrada no serán válidas.
Validar variables de datos
Las variables de datos hacen referencia a datos en el disco y sólo contienen
información descriptiva acerca de los datos en el disco, no de datos reales.
Por ejemplo, una variable de datos de clase de entidad contiene la ruta a los datos del
disco, una lista de información sobre todos los campos de la clase de entidad (su esquema) y
otra información pertinente utilizada por las herramientas.
Cuando se crea una variable de datos en el modelo, ArcGIS abre el dataset, obtiene
toda la información descriptiva sobre los datos y la almacena en la variable de datos. Esto
ocurre sólo cuando se crea la variable de datos por primera vez, ya que obtener los datos
descriptivos puede llevar mucho tiempo. Otras alternativas, como obtenerlos cuando se abre
el modelo para su edición o cuando se accede a la variable, ralentizarían mucho más la
construcción de modelos. Con el tiempo, la descripción de los datos podría no coincidir con
el contenido real de los datos. Por ejemplo, podría haber eliminado campos del dataset, o
haber cambiado el nombre del dataset. Al validar un modelo, ocurre lo siguiente:
Todos los datasets se abren y se actualiza la descripción del dataset.
Todos los procesos ejecutados vuelven al estado preparado para ejecutarse, a menos
que:
o el dataset ya no exista o haya cambiado alguna de sus propiedades, de modo
que la herramienta ya no se puede ejecutar. Normalmente, esto se produce por
la eliminación de un campo. En tal caso, la variable o la herramienta perderán
su validez (no preparado para ejecutarse) y deberá abrir la variable o la
herramienta y proporcionar un nuevo valor.
Para actualizar el contenido de las variables de datos en la ventana de ModelBuilder,
haga clic en Modelo > Validar todo el modelo. También puede validar desde el icono de
validación de la barra de herramientas.