Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1)La media de las medias muestrales va a tener un valor que no va a ser exacto al
parámetro que se quiere estimar. Es decir, la esperanza de las medias muestrales va a ser
la media poblacional (mu).
2) Este parámetro que se está estimando va a tener una desviación, es decir, un error
estándar. Este error estándar es el desvío estándar del estimador respecto al parámetro.
Para obtener el promedio poblacional exacto a partir de una muestra se necesita un n que
tiende a infinito (tamaño poblacional muy grande), es decir, un censo.
Por eso se aplica la fórmula.
Error estándar = 0, es un censo.
Para altura y media muestral se tiene el mismo promedio. Lo que cambia es el desvío
estándar.
El estimador va a representar a la muestra y con esa información se va a poder inferir a la
población.
Los estimadores son insesgados, es decir, la esperanza tiende al valor que se quiere
estimar. La media tiene como promedio, el valor del promedio poblacional.
Al aumentar el tamaño muestral, el desvío estándar va a ser más chico.
Al aumentar el tamaño muestral, se va a tener más chance de tener valores más cercanos
al valor poblacional. Y al ser menor la probabilidad va a ser menor.
En naranja: el poblacional.
En verde: la función de probabilidad cuando el tamaño de la muestra es de 25.
En azul: cuando el tamaño muestral es de 30.
Al hacerse la curva más alta, se hace más angosta. Entonces va a estar más centrada, es
decir, con valores más cercanos al valor del parámetro.
a) Eso es del estimador. El teorema central del límite siempre habla del estimador. No hace
inferencia de la población.
El teorema central del límite dice que si se tiene un tamaño de muestra suficientemente
grande, los estimadores van a tender a una distribución normal. Habla del estimador, y
nunca de la población.
Al teorema central del límite no le importa cómo sea esa distribución (normal, weibul, etc.)
siempre habla del estimador.
Si la población ya es normal, el estimador va a seguir esa distribución, es decir, va a ser
normal.
Si no es normal, con una distribución muy asimétrica o no se puede determinar, el teorema
central del límite es clave. Porque se va a necesitar un tamaño de muestra mayor a 30,
entonces se puede recurrir al teorema central del límite. Así, se olvida de la distribución de
la población y se va a pensar que la distribución del estimador es normal.
Esto permite hacer intervalo de confianza y otras pruebas estadísticas. Todo gracias a que
el estimador es normal.
Se puede aplicar en cualquier distribución, pero la condición para usar este teorema va a
ser el tamaño muestral.
No representa el valor. El error estándar sirve para hablar de la dispersión respecto a la
media.
La varianza es el cuadrado del desvío estándar, no es el desvío estándar.
Es una medida de dispersión del estimador, no de los datos.
Todo se hace a partir de una sola muestra y se hace la inferencia a partir de ésto.
Esto se refiere a cada vez que se haga un cultivo en estas condiciones, ¿Cuál va a ser el
promedio?
Es decir, es una pregunta sobre la población y no sobre la muestra
No se puede saber exactamente cuál es el promedio, sino se requeriría de un censo.
Entonces se establece un rango de valores con un intervalo de confianza. No se puede dar
certeza, por eso se usan probabilidades.
n=20 cultivos
X raya (media de la muestra de 20 cultivos) = 607,20nmoles Si se repite el ensayo, no va a
dar lo mismo, x raya es aleatorio.
S= 79,37nm
Como la media está centrada en 0, se cambia el signo del valor de x para calcular el valor
del intervalo superior.
Alfa entonces establece que hay un 5% de probabilidad de que mu no esté dentro del
intervalo. Es decir, la probabilidad de que el intervalo no contenga a la media. La media
quedó más abajo o más arriba. Puede pasar, pero es raro (5% de chance).
O sea, al sacar la muestra por azar, se obtuvo una muestra muy extrema o rara, entonces al
armar el intervalo, la medida queda afuera.
Que haya mucha o poca probabilidad de error depende del investigador. Es decir, el
investigador determina el nivel de confianza. No importa si la dispersión es grande, si la
muestra es gigante o chica, la probabilidad de error está determinada por el complemento
del nivel de confianza (el complemento del 95%, es decir, el 5%). Y esto lo fija el
investigador. El investigador fija las probabilidades de los errores.
En vez de usar 95%, se usa 99%, es decir, se aumenta nivel de confianza:
En el primer intervalo, la probabilidad de error (es decir, que mu se encuentre fuera del
intervalo), vale 5%.
En el segundo, vale 1% el error. Bajó porque así se estableció por el investigador.
El error (alfa), lo fija el investigador.
El problema de bajar el error es que el intervalo aumenta enormemente (último intervalo de
la imagen), y ese intervalo no va a servir para nada.
Cada vez el intervalo va a ser más amplio, es decir, va a tener mayor amplitud.
A mayor nivel de confianza, mayor es la amplitud.
Se gana confianza, a costa de tener un intervalo más ancho.
Y más amplitud implica una menor precisión en la estimación.
La precisión tiene que ver con el ancho del intervalo, no con la confianza. Un intervalo más
ancho, es un intervalo menos preciso (se tienen más incertezas acerca de cuál es el
verdadero valor porque el rango es muy amplio).
El intervalo da más ancho porque cambia el percentil, no la forma de la curva (ya que el n o
grados de libertad, se mantienen).
Al ser menor el alfa/2 (0,005), el percentil (para 99%), comparado con el de arriba (95%) va
a ser un numero en valor absoluto más grande.
Lo fija el investigador.
Normalmente se usa 0,95.
Si se repitiese el proceso muchas veces, se esperaría que de cada 100 veces, 95 se
encontrarían dentro del intervalo. Pero hay 5 en donde falla.
En rojo (por azar la media queda fuera del intervalo). En negro está bien.
Que quede dentro de los rojos o negros, depende del azar. Aunque es más probable que
sea negro que rojo.
Visto de la clase pasada, en donde se puede obtener un límite inferior y superior de esta
ecuación.
Y esto asegura con cierta confianza que el parámetro de interés (mu) se va a encontrar en
estos dos límites.
El problema con esta fórmula es que se tiene S (de muestra), y no sigma (de la población).
Entonces se va a usar S en vez de sigma.
Al usar S se está en peores condiciones, porque se tiene más incertidumbre. (Antes la única
duda era mu, y ahora mu y sigma). Entonces al reemplazar por S (estimador de sigma), se
va a ver afectado el z alfa/2 y z 1-alfa/2. Y en vez de eso se usa “t”, de la distribución t de
student.
Cuando sigma es desconocido esta ecuación se reemplaza, entonces:
En vez de usar la distribución normal estándar (z), se usa otra distribución llamada t de
student (t).
Características de la distribución t de student:
Sigma no se va a tener, sino que se va a tener un estimador calculado en base a una única
muestra. Entonces en los cálculos no se usa la distribución z, sino t de student.
No hay una sola distribución t. Se estima sigma a partir de s. Entonces una estimación
basada en n=20 es mucho peor que una estimación basada en n=200.
Cuanto más grande es n, mejor es la estimación del desvío estándar.
La primera curva es una distribución t con 10 grados de libertad; la segunda con 30 grados
de libertad. Entonces si se tienen muchísimos grados de libertad porque el tamaño de
muestra es gigante, entonces el estimador es muy parecido a sigma. Es decir, la
distribución t de student con infinitos grados de libertad, converge a la normal (0,1).
Cuanto más chica es la muestra, más aplanada es la t. Entonces, al ser más aplanada, el
intervalo de confianza va a ser más ancho; sin embargo, cuanto mayor es el tamaño de la
muestra, la distribución t se va a hacer cada vez más compacta. Entonces, los números que
se obtienen de esta distribución para calcular el intervalo de confianza, van a estar cada vez
más cerca entre sí, es decir, el intervalo de confianza va a ser más angosto y por ende las
estimaciones más precisas.
Aumenta a 61.
La curva de la normal se hace compacta porque aumenta el n (es decir, baja el error
estándar). Y para bajar el error estándar se debe aumentar el tamaño de la muestra.
Si se quiere un intervalo de confianza más preciso, es decir, con una amplitud menor a 10.
Ej. 5.
Entonces el tamaño de la muestra va a aumentar
Problema 4
La toxoplasmosis se adquiere principalmente por contacto con heces de gatos y, en menor
medida, por la ingestión de carne mal cocida o productos lácteos conteniendo Toxoplasma
gondii. La gran mayoría de las toxoplasmosis adquiridas son asintomáticas; sólo un 10% de
los individuos infectados desarrolla síntomas. Un estudio epidemiológico llevado a cabo en
755 adultos aparentemente sanos reveló que 203 de ellos presentaban evidencia serológica
de infección con T. gondii.
1-Estime con una confianza del 95% la proporción de adultos sin manifestaciones clínicas
de toxoplasmosis pero infectados con T. gondii.
Hay una población de individuos asintomáticos. De los cuales una proporción está
infectados.
Se busca estimar la proporción de individuos sin síntomas, pero que están infectados.
n= 755 adultos
Parámetro: no es una media, si no un porcentaje porque una media es una variable
cuantitativa (como el de concentración de cadmio). En cambio en este ejercicio son si/no.
Cuando se tienen variables cualitativas, se estiman proporciones (es decir, %).
Cuando la variable es cuantitativa, se estima Mu.
Igual que antes que se calcula la mitad para un lado del área y la otra mitad para el otro
lado. Uno queda + y otro -. (Y esto se calcula con el probability distribution, usando
normal estándar.)
Y da +/- 1,96.
Ejercicios
Tp1: todo o hasta lo que se llegó en clase.
Tp2:
Problema 1); problema 2) ; problema 3); problema 6)
Al subir la confianza al 99%, se espera una raya roja de cada 100 intervalos. Sin embargo,
los intervalos se van a alargar. Es decir, van a ser más amplios. Se gana en confianza pero
los intervalos son menos precisos (menos informativos).
Cuanto más chica es la confianza, los intervalos son super precisos, más angostos, pero
tienen más errores.
Si se aumenta el tamaño de la muestra, los intervalos van a tener una amplitud menor. La
confianza (95%) se mantiene, pero al aumentar el tamaño de la muestra, los intervalos son
más angostos.
Se controla así: