Está en la página 1de 10

ENSAYO DE HIPÓTESIS PARA UNA POBLACIÓN.

Dentro del estudio de la inferencia estadística, se describe como se puede tomar una
muestra aleatoria y a partir de esta muestra estimar el valor de un parámetro poblacional en
la cual se puede emplear el método de muestreo y el teorema del valor central lo que
permite explicar como a partir de una muestra se puede inferir algo acerca de una
población, lo cual nos lleva a definir y elaborar una distribución de muestreo de medias
muestrales que nos permite explicar el teorema del limite central y utilizar este teorema
para encontrar las probabilidades de obtener las distintas medias maestrales de una
población.

Pero es necesario tener conocimiento de ciertos datos de la población como la media, la


desviación estándar o la forma de la población, pero a veces no se dispone de esta
información.

En este caso es necesario hacer una estimación puntual que es un valor que se usa para
estimar un valor poblacional. Pero una estimación puntual es un solo valor y se requiere un
intervalo de valores a esto se denomina intervalote confianza y se espera que dentro de este
intervalo se encuentre el parámetro poblacional buscado. También se utiliza una estimación
mediante un intervalo, el cual es un rango de valores en el que se espera se encuentre el
parámetro poblacional

En nuestro caso se desarrolla un procedimiento para probar la validez de una aseveración


acerca de un parámetro poblacional este método es denominado Prueba de hipótesis para
una muestra.
Tenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis.
Hipótesis es una aseveración de una población elaborado con el propósito de poner
aprueba, para verificar si la afirmación es razonable se usan datos.
En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis,
después se hacen las pruebas para verificar la aseveración o para determinar que no es
verdadera.
Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la
teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación
razonable.

MEDIA CON MUESTRA GRANDE.

Bajo ciertas condiciones de regularidad, es posible construir intervalos de confianza


asintóticos de una manera bastante general.

Si suponemos que un parámetro θ tiene una estimación máximo verosímil θ*, la


distribución asintótica del estimador, bajo condiciones generales de regularidad, es Normal,
de media el valor verdadero del parámetro θ y varianza igual a la cota de Cramér-Rao
σ2(θ*). Cuando queremos estimar el valor de un parámetro poblacional θ a partir de la
información de una muestra X1, X2, ..., Xn utilizamos un estimador ˆθ. Dicho estimador
aplicado a una muestra nos proporcionará un valor numérico, que se denomina estimación
de θ. La precisión de ese estimador está relacionada con la probabilidad de que ˆθ nos
proporcione un valor próximo a θ. Esa precisión viene determinada por las propiedades
estadísticas del estimador; es decir, por su distribución en el muestreo. En esta sección
extenderemos las propiedades de la media muestra X¯ como estimador de la media
poblacional μ. El objetivo es que en el ejercicio de estimación no sólo proporcionemos el
valor estimado obtenido con la muestra, sino una medida de la incertidumbre de dicho valor
como estimación de μ. La incertidumbre procede de haber utilizado sólo una muestra de
tamaño finito. Por tanto, con otras muestras hubiéramos obtenido estimaciones diferentes
que serían igual de válidas que las que hemos proporcionado con nuestra muestra. Si
tuviésemos toda la población, no tendríamos incertidumbre sobre la media poblacional. Lo
que haremos es dar una medida de esa incertidumbre

MUESTRA CON MEDIA PEQUEÑA.


En estadística, una muestra es un subconjunto de casos o individuos de una población. En
diversas aplicaciones interesa que una muestra sea una muestra representativa y para ello
debe escogerse una técnica de muestra adecuada que produzca una muestra aleatoria
adecuada ( se obtiene una muestra sesgada cuyo interés y utilidad es más limitado
dependiendo del grado de sesgo que presente). Las muestras se obtienen con la intención de
inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de
la misma (una muestra representativa se denomina técnicamente muestra aleatoria). Para
cumplir esta característica la inclusión de sujetos en la muestra debe seguir una técnica de
muestreo. En tales casos, puede obtenerse una información similar a la de un estudio
exhaustivo con mayor rapidez y menor coste (véanse las ventajas de la elección de una
muestra, más abajo).
Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la
población porque el manejo de un menor número de datos provoca también menos errores
en su manipulación. En cualquier caso, el conjunto de individuos de la muestra son los
sujetos realmente estudiados.
El número de sujetos que componen la muestra suele ser bastante inferior a la población
total, aunque suficiente grande como para que la estimación de los parámetros
determinados tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea
idóneo es preciso recurrir a su cálculo.

MODELOS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE Y MÚLTIPLE.

En función de los resultados obtenidos en el modelo lineal (como se verá en el siguiente


ejemplo) éste se puede mejorar eliminado variables independientes que tienen poco peso
estadístico en la función. De esta forma se puede conseguir un modelo predictivo más
preciso, aunque la eliminación de estas variables puede disminuir la calidad del modelo
geoquímico-predictivo.

Por último, siempre resulta práctico comprobar gráficamente los valores del modelo
predictivo (o teórico) con los valores experimentales con el objeto de cuantificar la bondad
del modelo predictivo y evaluar si el modelo se ajusta para todo el intervalo de valores. En
primer lugar, guardamos los datos del ajuste lineal (reg$fitted.values) y en segundo lugar lo
almacenarlos (con la variable Y_teor). Es decir: Obtener la ecuación de la recta o
correlación lineal entre el la concentración de Cr (variable independiente) y la
concentración de Ni (variable dependiente) a partir de los datos obtenidos en el Ejercicio 1
de las prácticas de Matriz de correlación y gráficos de dispersión. Este ejercicio se puede
realizar cambiando los encabezados Cr por X1 y Ni por Y y usar la sintaxis genérica
explicada anteriormente: Se ha estudiado el comportamiento frente a la cristalización de las
sales 10 rocas porosas utilizadas como material de construcción. La durabilidad de estas
rocas se ha estimado mediante la pérdida de masa después de cristalización de sales.
Además se caracterizaron diferentes propiedades de la roca, como la resistencia a la
compresión simple, la densidad de conjunto (o aparente), y la porosidad efectiva y el
tamaño medio de poro, ambas obtenidas con porosimetría de intrusión de mercurio.

El objetivo de este ejercicio es seleccionar el mejor modelo lineal múltiple para predecir la
durabilidad de las rocas (variable dependiente) en función de las otras variables
(independientes). Este ejemplo muestra cómo se pueden transformar variables
independientes para que tengan una influencia lineal sobre la variable dependiente (Datos
obtenidos en: Benavente et al., (2007): The influence of petrophysical properties on the salt
weathering of porous building rocks. Environ Geol 52:197–206).

El primer paso es realizar la matriz de correlación y el grafico de dispersión. De esta forma


podemos evaluar qué variables se pueden transformar o eliminar por no ser significativas.
Los gráficos de dispersión muestran una relación inversa entre la pérdida de masa y el
tamaño de poro y la resistencia mecánica. Para ello, en la matriz de datos.txt añadir una
columna con la inversa del tamaño del poro (r-1) y otra con la inversa de la resistencia a la
compresión simple (RCS-1).

Observando los p-valores (Pr(>|t|)) de los contrastes de significatividad individual, vemos


que las variables no significativas (p-valor > 0.05) son la porosidad y la densidad de
conjunto. Eliminando estas variables (en realidad teniendo en cuenta todas las variables
menos éstas: reg<-lm(LWD~r-1+RCS-1,data=datos)), volvemos a realizar la regresión
lineal y obtenemos la siguiente regresión lineal múltiple: Los resultados obtenidos y el
procedimiento seguido en esta práctica no son tan sencillos cuando se aplican en muchos
problemas geológicos/geoquímicos, los cuales pueden llegar a ser mucho más complejos
que el mostrado aquí. En la mayoría de los problemas geológicos/geoquímicos se eliminan
las variables que menos están relacionadas (lo que el análisis factorial será de gran utilidad)
y se intenta buscar un modelo que contenga el mayor número de variables con el mayor
valor del coeficiente de correlación. Obtener una expresión lineal múltiple que relaciones
variables de la cuenca, X1, ...,X6, con la magnitud de la cuenca, Y, definida como el
número de cursos fluviales (ríos, arroyos, afluentes, etc.). Las variables (independientes) de
la cuenca son X1: elevación de la desembocadura de la cuenca (pies, ft); X2: relieve
(profundidad) de la cuenca (pies,ft); X3: área de cuenca (milla2); X4: longitud total del
cursos fluviales (ríos, arroyos, afluentes, etc.) (milla); X5: densidad de drenaje, definido
como X4 / X3 ·100; X6: factor de forma de la cuenca, la cual cuantifica su desviación con
respecto a una sección circular. El objetivo de esta práctica es predecir el valor de la
magnitud de la cuenca, Y, a partir de todas las variables de la cuenca debido a que cada una
de ellas son importantes y necesarias para el modelo físico. Para evaluar la fiabilidad del
ajuste o estimación de Y a partir de la expresión lineal múltiple, representar el valor real de
Y frente al valor estimado por la función (Davis, 2002). Muchas de las relaciones entre
variables que estudiamos en geoquímica no son lineales. Se pueden destacar las funciones
logarítmica, inversa, cuadrática, cúbica, potencia, exponencial, etc. En la siguiente tabla se
definen las funciones mas utilizadas: En general, para determinar qué modelo utilizar se
representan los datos y se ajustan al modelo más adecuado teniendo en cuenta la bondad del
ajuste dentro del rango de datos medidos experimentalmente y/o fuera del dicho rango
(debido al carácter predictivo de las funciones). Antes de cargar los datos, es necesario
comprobar que no tengamos valores de la variable dependiente o independiente igual a 0
debido a que en muchas transformaciones se obtiene el logaritmo de la variable. Para ello
se aconseja cambiar el valor 0 por 0.001 o eliminar fila. Análogamente podemos tener
problemas con valores negativos.
RECTA DE REGRESIÓN DE MÍNIMOS CUADRADOS.

Cuando la nube de puntos adopta una forma definida, se pueden aproximar sus puntos
mediante una línea curva en general, que llamamos curva de regresión. Sólo nos
ocuparemos del caso en el que la curva de regresión es una recta, llamada recta de
regresión. Nos centraremos entonces en calcular la ecuación de una recta que "mejor se
adapte" a una nube de puntos dada. En los ejemplos anteriores lo hemos hecho a ojo, ahora
lo haremos con un criterio más preciso. Para ello existen varios métodos, siendo el más
utilizado el de los mínimos cuadrados. Consiste en hacer mínima la suma de los cuadrados
de las diferencias entre los valores experimentales y los obtenidos mediante la recta. Por lo
tanto, si consideramos la Y=aX+b, mediríamos lo bien (o mal) que se ajusta a nuestros
puntos por medio de la cantidad Una recta que mejor se ajusta es una línea recta que es la
mejor aproximación del conjunto de datos dado. Es usada para estudiar la naturaleza de la
relación entre dos variables.

Una recta que mejor se ajusta puede ser determinada aproximadamente usando el método
visual al dibujar una línea recta en una gráfica de dispersión para que tanto el número de
puntos arriba de la recta y debajo de la recta sean casi iguales (y la línea pasa a tráves de
tantos puntos como sea posible).
INTERVALO DE CONFIANZA PARA LOS COEFICIENTES.

La construcción de intervalos de confianza para la estimación de la correlación en la


distribución normal invariable, digamos ρ, es un problema importante en el trabajo
estadístico aplicado. Revisamos diferentes procedimientos para su construcción y
realizamos un estudio de simulación para analizar el comportamiento de los niveles de
confianza reales y compararlos con los teóricos. El coeficiente de correlación es una de las
medidas estadísticas de mas uso dentro del trabajo aplicado. Algunas de sus propiedades
fueron estudiadas por Zheng and Matis (1994), quienes presentan y demuestran algunas de
sus propiedades. Debido a su amplia utilización, varias son sus interpretaciones. Falk and
Well (1997) sustentan que el coeficiente de correlación de Pesaron, ρ, es ampliamente
usado en campos como la educación, psicóloga, y todas las ciencias sociales, y el concepto
es empleado en diversas
metodólogas de tipo estadístico.

PRUEBA DE HIPÓTESIS PARA LOS COEFICIENTES DE REGRESIÓN.


Para probar hipótesis acerca de la pendiente y la ordenada en el origen del modelo de
regresión, debe hacerse la suposición adicional de que termino del error εi esta
normalmente distribuido. Por lo tanto, se supone que los errores εi son NID (0,σ2). Después
se pueden probar es suposiciones mediante el análisis de residuos. Supongamos que el
experimentador desea probar la hipótesis de que la pendiente es igual a un cierto valor, por
ejemplo β1,0. Las hipóte Apropiadas

COEFICIENTE DE CORRELACIÓN.

En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal


entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de
Pearson es independiente de la escala de medida de las variables. De manera menos formal,
podemos definir el coeficiente de correlación de Pearson como un índice que puede
utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean
cuantitativas
INTERVALO DE CONFIANZA PARA LOS COEFICIENTES DE
CORRELACIONA.
La construcción de intervalos de confianza para la estimación de la correlación en la
distribución normal invariable y multivariableρles un problema importante en el trabajo
estadístico aplicado. Uno de los repositos principales de este trabajo es hacer una revisión
de los diferentes procedimientos para su instrucción. Se realizo además, un estudio de
simulación para analizar el comportamiento de los niveles de confianza reales y
compararlos con los teóricos, analizar el comportamiento de las longitudes de los intervalos
de confianza logrados por los nueve métodos considerados y determinar cual metodóloga
provee los intervalos más cortos. As´ı como también se obtuvo un indicador que resume de
manera más efectiva la calidad del intervalo analizado

También podría gustarte