Está en la página 1de 27

Correcciones del cuestionario 2.

1)La media de las medias muestrales va a tener un valor que no va a ser exacto al
parámetro que se quiere estimar. Es decir, la esperanza de las medias muestrales va a ser
la media poblacional (mu).
2) Este parámetro que se está estimando va a tener una desviación, es decir, un error
estándar. Este error estándar es el desvío estándar del estimador respecto al parámetro.
Para obtener el promedio poblacional exacto a partir de una muestra se necesita un n que
tiende a infinito (tamaño poblacional muy grande), es decir, un censo.
Por eso se aplica la fórmula.
Error estándar = 0, es un censo.

3) Es normal porque ya la población tiende a la normalidad. Como la población es normal,


los estimadores siguen ese comportamiento normal.
Si la población no es normal, se debe recurrir al teorema central del límite si se puede.
Función de densidad para la población (arriba) y para el estimador (abajo)

Para altura y media muestral se tiene el mismo promedio. Lo que cambia es el desvío
estándar.
El estimador va a representar a la muestra y con esa información se va a poder inferir a la
población.

Ambos gráficos en el mismo eje de coordenadas.


Ambos tienen la misma esperanza (174,5).
Tienen el mismo centro de gravedad (la media). A pesar de que tengan la misma media el
desvío es distinto.
La gráfica naranja está mas achatada y tiene mayor cantidad de valores distantes respecto
de la media. Mientras que, en el verde, hay menor cantidad de valores separados del valor
medio o la esperanza. Es decir, los valores de la media muestral van a estar más cercanos
que del valor poblacional.
Al aumentar el tamaño muestral, la curva se va a centrar mucho más en el valor verdadero
poblacional y se va a hacer más alta. Pero siempre va a estar centrada.

Los estimadores son insesgados, es decir, la esperanza tiende al valor que se quiere
estimar. La media tiene como promedio, el valor del promedio poblacional.
Al aumentar el tamaño muestral, el desvío estándar va a ser más chico.

Se hace con la página.


A lo sumo = como máximo. Quiere indicar un valor máximo. Entonces por eso x menores
a ese valor máximo.
Lo contrario es por lo menos.
Por lo menos = valor mínimo. Es decir, X mayores a tal valor.

El área bajo la curva de una función de probabilidad es la probabilidad. La probabilidad en


un número particular es 0 (el área de una línea es 0). Solo es válido para valores discretos,
pero esto es una función continua. No importa si incluye o no al valor en las continuas.
Interpretación: 86 de esas muestras van a tener una media de como máximo 176. Y 14 van
a tener un valor de la media muestral mayor a 176.

Al aumentar el tamaño muestral, se va a tener más chance de tener valores más cercanos
al valor poblacional. Y al ser menor la probabilidad va a ser menor.

En naranja: el poblacional.
En verde: la función de probabilidad cuando el tamaño de la muestra es de 25.
En azul: cuando el tamaño muestral es de 30.
Al hacerse la curva más alta, se hace más angosta. Entonces va a estar más centrada, es
decir, con valores más cercanos al valor del parámetro.
a) Eso es del estimador. El teorema central del límite siempre habla del estimador. No hace
inferencia de la población.
El teorema central del límite dice que si se tiene un tamaño de muestra suficientemente
grande, los estimadores van a tender a una distribución normal. Habla del estimador, y
nunca de la población.

Al teorema central del límite no le importa cómo sea esa distribución (normal, weibul, etc.)
siempre habla del estimador.
Si la población ya es normal, el estimador va a seguir esa distribución, es decir, va a ser
normal.
Si no es normal, con una distribución muy asimétrica o no se puede determinar, el teorema
central del límite es clave. Porque se va a necesitar un tamaño de muestra mayor a 30,
entonces se puede recurrir al teorema central del límite. Así, se olvida de la distribución de
la población y se va a pensar que la distribución del estimador es normal.
Esto permite hacer intervalo de confianza y otras pruebas estadísticas. Todo gracias a que
el estimador es normal.
Se puede aplicar en cualquier distribución, pero la condición para usar este teorema va a
ser el tamaño muestral.
No representa el valor. El error estándar sirve para hablar de la dispersión respecto a la
media.
La varianza es el cuadrado del desvío estándar, no es el desvío estándar.
Es una medida de dispersión del estimador, no de los datos.
Todo se hace a partir de una sola muestra y se hace la inferencia a partir de ésto.

No es característica de la población, porque eso es un parámetro.


Es aleatoria, porque depende de la muestra que se saque. Al sacar distintas muestras, al
ser muestreos aleatorios, van a obtenerse distintos valores de estimadores para cada una
de las muestras que se saquen.
No es un valor constante, sino que es una variable aleatoria que depende de los valores
muestrales que se tengan.
Esto aplica para cualquier estimador: promedios, desvíos, proporciones

Estandarizar: dice a cuantos desvíos estándares lejanos se está, respecto de la media o


centro de gravedad.
En el error estándar: cuanto mayor es el desvío, más dispersos están los datos respecto de
la media.

Redondeo para arriba de 5 en adelante


Redondeo para debajo de 4 para abajo
Continuación ejercicio caso 1.
7) Estime la concentración promedio de Cd intracelular en los cultivos de C.
reinhardtii con una confianza del 95%.

Esto se refiere a cada vez que se haga un cultivo en estas condiciones, ¿Cuál va a ser el
promedio?
Es decir, es una pregunta sobre la población y no sobre la muestra
No se puede saber exactamente cuál es el promedio, sino se requeriría de un censo.
Entonces se establece un rango de valores con un intervalo de confianza. No se puede dar
certeza, por eso se usan probabilidades.

n=20 cultivos
X raya (media de la muestra de 20 cultivos) = 607,20nmoles Si se repite el ensayo, no va a
dar lo mismo, x raya es aleatorio.
S= 79,37nm

Para calcular se usa el probability distribution (matt bognar) y usa la “t distribution”.


V= grados de libertad = 19 (porque son 20 cultivos)
Se busca un t de 19 grados de libertad, y que deja a su izquierda 0,025 (porque el área de
confianza es de 0,95). (Límite inferior).
En cambio, el límite superior deja por debajo 0,975
Se ponen los datos así (para límite inferior):

Como la media está centrada en 0, se cambia el signo del valor de x para calcular el valor
del intervalo superior.

Luego se reemplaza los datos y como resultado dan:


Li= 570,05nm
Ls= 644,3nm
Y se anota así: IC95%= (570, 644) nmoles
El promedio de la población (o promedio poblacional) está entre 570 y 644. Es decir, con
95% de confianza el promedio poblacional se encuentra entre 570 y 644nmoles.
Esto es para mu, no para x raya. Es decir, un cultivo individual puede tener mucho menos
de 570 o mucho más de 644, pero la mu se encuentra entre estos valores.

Con 95% de confianza se estima que la concentración promedio de cadmio intracelular de


cultivos de esta alga en esas condiciones se encuentra entre 570 y 644nmoles. Esto no
aplica para estos 20 cultivos, sino que para cualquier cultivo hecho en estas condiciones
(inferencia). Se concluye sobre la población a partir de la muestra.
Para calcular intervalos de confianza con el infostat:
Estadística/inferencia basada en una muestra/ intervalo de confianza
Se elige variable “cadmio intracelular”
Media con 95%
Y esto da:

0,95 es el 1-alfa (nivel de confianza):

Alfa entonces establece que hay un 5% de probabilidad de que mu no esté dentro del
intervalo. Es decir, la probabilidad de que el intervalo no contenga a la media. La media
quedó más abajo o más arriba. Puede pasar, pero es raro (5% de chance).
O sea, al sacar la muestra por azar, se obtuvo una muestra muy extrema o rara, entonces al
armar el intervalo, la medida queda afuera.

Que haya mucha o poca probabilidad de error depende del investigador. Es decir, el
investigador determina el nivel de confianza. No importa si la dispersión es grande, si la
muestra es gigante o chica, la probabilidad de error está determinada por el complemento
del nivel de confianza (el complemento del 95%, es decir, el 5%). Y esto lo fija el
investigador. El investigador fija las probabilidades de los errores.
En vez de usar 95%, se usa 99%, es decir, se aumenta nivel de confianza:

Entonces, el intervalo va a hacerse más grande

En el primer intervalo, la probabilidad de error (es decir, que mu se encuentre fuera del
intervalo), vale 5%.
En el segundo, vale 1% el error. Bajó porque así se estableció por el investigador.
El error (alfa), lo fija el investigador.
El problema de bajar el error es que el intervalo aumenta enormemente (último intervalo de
la imagen), y ese intervalo no va a servir para nada.

Cada vez el intervalo va a ser más amplio, es decir, va a tener mayor amplitud.
A mayor nivel de confianza, mayor es la amplitud.
Se gana confianza, a costa de tener un intervalo más ancho.
Y más amplitud implica una menor precisión en la estimación.
La precisión tiene que ver con el ancho del intervalo, no con la confianza. Un intervalo más
ancho, es un intervalo menos preciso (se tienen más incertezas acerca de cuál es el
verdadero valor porque el rango es muy amplio).

El intervalo da más ancho porque cambia el percentil, no la forma de la curva (ya que el n o
grados de libertad, se mantienen).
Al ser menor el alfa/2 (0,005), el percentil (para 99%), comparado con el de arriba (95%) va
a ser un numero en valor absoluto más grande.

El valor de x es mayor, al tener un 99% que al tener un 95%.


Es decir, al aumentar la confianza, el valor absoluto del percentil aumenta y el intervalo de
confianza se hace más amplio. Y más amplio, va a ser menos preciso.
La amplitud es la diferencia entre el límite superior e inferior.
Es el ancho, determina la precisión y son las mismas unidades de la variable.
Se busca que los intervalos sean lo más angosto posibles (que tengan poca amplitud).

Lo fija el investigador.
Normalmente se usa 0,95.
Si se repitiese el proceso muchas veces, se esperaría que de cada 100 veces, 95 se
encontrarían dentro del intervalo. Pero hay 5 en donde falla.
En rojo (por azar la media queda fuera del intervalo). En negro está bien.
Que quede dentro de los rojos o negros, depende del azar. Aunque es más probable que
sea negro que rojo.

Visto de la clase pasada, en donde se puede obtener un límite inferior y superior de esta
ecuación.
Y esto asegura con cierta confianza que el parámetro de interés (mu) se va a encontrar en
estos dos límites.
El problema con esta fórmula es que se tiene S (de muestra), y no sigma (de la población).
Entonces se va a usar S en vez de sigma.
Al usar S se está en peores condiciones, porque se tiene más incertidumbre. (Antes la única
duda era mu, y ahora mu y sigma). Entonces al reemplazar por S (estimador de sigma), se
va a ver afectado el z alfa/2 y z 1-alfa/2. Y en vez de eso se usa “t”, de la distribución t de
student.
Cuando sigma es desconocido esta ecuación se reemplaza, entonces:
En vez de usar la distribución normal estándar (z), se usa otra distribución llamada t de
student (t).
Características de la distribución t de student:

Es muy parecida a la normal (tiene la misma forma de campana).


La curva última arriba de todo es la normal. El resto de las curvas están más aplanadas y
son distintas distribuciones t de student.
Al estar más aplanadas, quiere decir que su desvío es mayor. Y esto tiene sentido porque al
construir el intervalo de confianza, éste debería ser más impreciso porque no se conoce
sigma. Entonces esta imprecisión, esta mayor amplitud del intervalo, tiene que ver porque
se usa la distribución t en vez de la distribución z.

Sigma no se va a tener, sino que se va a tener un estimador calculado en base a una única
muestra. Entonces en los cálculos no se usa la distribución z, sino t de student.
No hay una sola distribución t. Se estima sigma a partir de s. Entonces una estimación
basada en n=20 es mucho peor que una estimación basada en n=200.
Cuanto más grande es n, mejor es la estimación del desvío estándar.

Entonces la distribución t tiene un parámetro que refleja el tamaño de la muestra: grados


de libertad.
Grados de libertad = n-1

La primera curva es una distribución t con 10 grados de libertad; la segunda con 30 grados
de libertad. Entonces si se tienen muchísimos grados de libertad porque el tamaño de
muestra es gigante, entonces el estimador es muy parecido a sigma. Es decir, la
distribución t de student con infinitos grados de libertad, converge a la normal (0,1).
Cuanto más chica es la muestra, más aplanada es la t. Entonces, al ser más aplanada, el
intervalo de confianza va a ser más ancho; sin embargo, cuanto mayor es el tamaño de la
muestra, la distribución t se va a hacer cada vez más compacta. Entonces, los números que
se obtienen de esta distribución para calcular el intervalo de confianza, van a estar cada vez
más cerca entre sí, es decir, el intervalo de confianza va a ser más angosto y por ende las
estimaciones más precisas.

La distribución t es usando “S” en vez de sigma.


Dos supuestos para poder usar la fórmula de intervalo de confianza para t: La muestra
tiene que ser aleatoria y x raya tiene que ser normal. Y para que x raya sea normal esto
puede deberse a dos motivos: que la variable sea normal, o que n (el tamaño de la muestra)
sea grande.
En el ejercicio anterior, por más que n=20, es normal porque al hacer el QQ-Plot se
asemeja bastante a una normal.
(Para usarla en z, hay otro supuesto más en el ppt).

8) Se desea efectuar una estimación de la concentración promedio de Cd intracelular en


otra especie de alga, Pseudokirchneriella subcapitata, con una confianza del 95% y se
desea una amplitud del intervalo de a lo sumo10 nanomoles/célula. El desvío estándar de
la concentración de Cd se estimó mediante un muestreo piloto en 9 amoles/célula. ¿Qué
tamaño de muestra es necesario?
Definir el tamaño de la muestra. n=?

Intervalo de confianza para mu:


NC= 1- alfa= 0,95
Amplitud = LS-LI = 10nmoles
S= 9 nmoles/cel
Para despejar el n se usa la fórmula:

Para calcular con el infostat el valor de n:


Estadísticas/cálculo de tamaño muestral / para estimar una media con una precisión
deseada
Datos de cada ejercicio: Intervalo de confianza 95, amplitud 10, cota superior para la
varianza 81
Varianza = S2 = 92= 81

Se van a necesitar 12 cultivos.


Si la variable es mucho más variable y el desvío vale 20, en vez de 9 (la varianza es 400),
entonces el valor de n va a subir. Como hay más variabilidad, hay más incertidumbre, y
entonces para mantener esta amplitud de 10

Aumenta a 61.
La curva de la normal se hace compacta porque aumenta el n (es decir, baja el error
estándar). Y para bajar el error estándar se debe aumentar el tamaño de la muestra.

Si se quiere un intervalo de confianza más preciso, es decir, con una amplitud menor a 10.
Ej. 5.
Entonces el tamaño de la muestra va a aumentar

Se cuadriplico el tamaño de la muestra.


10) no se puede resolver.

Problema 4
La toxoplasmosis se adquiere principalmente por contacto con heces de gatos y, en menor
medida, por la ingestión de carne mal cocida o productos lácteos conteniendo Toxoplasma
gondii. La gran mayoría de las toxoplasmosis adquiridas son asintomáticas; sólo un 10% de
los individuos infectados desarrolla síntomas. Un estudio epidemiológico llevado a cabo en
755 adultos aparentemente sanos reveló que 203 de ellos presentaban evidencia serológica
de infección con T. gondii.
1-Estime con una confianza del 95% la proporción de adultos sin manifestaciones clínicas
de toxoplasmosis pero infectados con T. gondii.

Hay una población de individuos asintomáticos. De los cuales una proporción está
infectados.
Se busca estimar la proporción de individuos sin síntomas, pero que están infectados.

Unidad muestral= adulto aparentemente sano (adulto sin síntomas)


Variable= infección con T.gondii (valores posibles de esta variable: si / no).
Es una variable cualitativa nominal.

n= 755 adultos
Parámetro: no es una media, si no un porcentaje porque una media es una variable
cuantitativa (como el de concentración de cadmio). En cambio en este ejercicio son si/no.
Cuando se tienen variables cualitativas, se estiman proporciones (es decir, %).
Cuando la variable es cuantitativa, se estima Mu.

Parámetro= pi = proporción de adultos aparentemente sanos (asintomáticos), pero


infectados=
Estimador = p = 203 / 755= 0,27 = 27%
203= con evidencia de infección y 752 =sin evidencia de infección.

Pi es en la población (como el mu en variables cuantitativas) y p es en la muestra (como el x


raya en variables cuantitativas).

Se debe inferir el valor de pi

La binomial se aproxima a una normal cuando el valor de n es grande


Se va a usar la distribución z.
Error estándar del estimador.
Si el tamaño de la muestra es lo suficientemente grande (teorema central del límite), los
estimadores tienden a la distribución normal.
X raya tiende a la distribución normal (antes), y ahora p tiende a la distribución normal, por
lo que se puede usar esta fórmula.

Igual que antes que se calcula la mitad para un lado del área y la otra mitad para el otro
lado. Uno queda + y otro -. (Y esto se calcula con el probability distribution, usando
normal estándar.)
Y da +/- 1,96.

Conviene trabajar con 4 decimales y termina dando


24% y 30 %.

La proporción de adultos sin manifestaciones clínicas de toxoplasmosis, pero infectados en


la población, se encuentra entre 24% y 30%.
IC95%= (24-30)% (Entre estos números está pi).

Cuando pregunta: Interprete intervalo de confianza en contexto.


“Con una confianza de 95% se estima, que el porcentaje de adultos sin
manifestaciones clínicas de toxoplasmosis, pero infectados con gondii en el total de
la población, se encuentra entre el 24% y el 30%”
Para poder tratar a la binomial como una Z (normal), se requiere de dos condiciones:
*n tiene que ser de por lo menos 30.
* Y tienen que haber por lo menos 5 éxitos o 5 fracasos

Es decir, el número de 203 (éxito) tiene que ser de por lo menos 5.


Cuando n es chico o probabilidades muy bajas, la distribución nominal no se parece en
nada a la normal.
Ahí si se parece a la normal porque tiene un n grande y un p que no es demasiado chico.

Ahora si n= 5 y p es medio bajo. No se parece a nada a una normal.


Y si n es 30 y p es muy chico, tampoco se parece a una normal.

Esto se salva si el producto de p x n (la esperanza) es de por lo menos 5, tal como se


ve abajo.
La esperanza tiene que ser mas de 5. Esperanza = la cantidad de éxitos = p X n.
La cantidad de éxitos y fracasos, ninguno de los 2 tiene que ser un número más chico que
5.

2-Cuántos individuos deberán analizarse si se quiere disminuir la amplitud de la estimación


anterior en un 50%?
Se debe despejar el n
(la confianza es la misma)
A= 0,03 porque se usa la mitad de 0,06

Da 3365,24 y al ser personas, se debe redondear. Entonces el n siempre se redondea


para arriba.
Dando 3366 personas.
Como ya se vienen encuestando 755 personas, el ejercicio pregunta a cuántas personas
más se debe encuestar, entonces se resta de lo que ya se tiene para saber la cantidad que
falta.

Rta: 2611 personas adicionales


Para proporciones se debe calcular a mano (infostat no lo hace).
AL ESTUDIAR VER SI QUEDAN DIAPOSITIVAS QUE NO SE MOSTRARON EN CLASE

Ejercicios
Tp1: todo o hasta lo que se llegó en clase.

Tp2:
Problema 1); problema 2) ; problema 3); problema 6)

Problema 7) simulaciones (últimos 5min de clase)


Aplicaciones/didácticas/
A medida que se aumenta el tamaño de la muestra, converge al verdadero valor de 95%. (5
de cada 100 intervalos van a estar equivocados).

Al subir la confianza al 99%, se espera una raya roja de cada 100 intervalos. Sin embargo,
los intervalos se van a alargar. Es decir, van a ser más amplios. Se gana en confianza pero
los intervalos son menos precisos (menos informativos).
Cuanto más chica es la confianza, los intervalos son super precisos, más angostos, pero
tienen más errores.
Si se aumenta el tamaño de la muestra, los intervalos van a tener una amplitud menor. La
confianza (95%) se mantiene, pero al aumentar el tamaño de la muestra, los intervalos son
más angostos.
Se controla así:

 la confianza (cuanto más alta es peor, porque más ancha es el intervalo).


 tamaño de la muestra (cuanto más grande es el tamaño de la muestra, más
angosto es el intervalo)

Problema 5) (repetido, no hacer)

También podría gustarte