Está en la página 1de 22

Repaso cuestionario.

1)
No todos los cangrejos van a tomar la misma cantidad de metal pesado.
A medida que aumenta el n, esto no afecta al parámetro. Al tener más datos solo se estima
mejor al mismo.
Si una variable tiene cierta variación o ruido, por sacar más datos esta variación no sube ni
baja.
A medida que aumenta el n, disminuye la amplitud en el intervalo de confianza (aumenta la
precisión y se hace más angosto). La amplitud del intervalo de confianza se hace menor a
medida que aumenta el n porque en la formula de intervalo de confianza se achica.
(Campana de gauss se hace mas chica)
Entonces lo que si es sensible al n es el error estandar, y no el desvio estándar ni la
varianza. Es decir, el error estándar va a ser el desvio estándar de un estimador (de x raya
por ejemplo).
Sigma/ raíz de n = Error estándar para la media
A medida que aumenta el n, las medias muestrales van a ser más parecidas entre si y más
parecidas a mu. La curva normal de la media se hace cada vez más empinada y menos
variable.

El desvio estándar es una característica de la población que se va a ver reflejada en la


muestra que se tome. Si se aumenta el n, el desvio estándar poblacional va a ser el mismo,
pero el error estándar de la muestra va a ir disminuyendo.

2)
Cuando se habla de intervalo de confianza, no se hace referencia a un valor de
probabilidad. No se habla de probabilidad, sino de confianza.
Esto aplica una vez que se calculó el intervalo de confianza.
La probabilidad se refiere a eventos antes de que ocurran. Ej.: antes de tirar un dato
Una vez que se hizo el experimento, se calcularon los datos y el intervalo de confianza,
entonces ya ahí se habal de confianza.

El intervalo de confianza establece que el parámetros se encuentra dentro de este intervalo


con un 95% de confianza.
El intervalo de confianza no habla de valores individuales (ej: que cada cangrejo tiene una
concentración dentro de esos límites), sino que establece que en el conjunto de esos datos,
el promedio que se obtiene (y que sea representativo) se encuentra dentro de los límites del
intervalo que se calcula.
Si dice que “en el intervalo de confianza, la variable va a estar entre ciertos valores”, esto
está mal. Porque los limites son para la media poblacional (la media de todos los
cangrejos), no los valores individuales, sino mu. (No x raya ni x).

Previo a armar el intervalo, se puede decir que “al sacar una muestra y calcular la media y
se establezcan los límites, se va a tener una probabilidad del 95% de contener al
parámetro”. Pero una vez que se establece el parámetro de confianza, ahí se habla de
confianza.

Si se toman muestras, y se hacen 100 intervalos. Se espera que 95 contengan al parámetro


que se quiere estimar.

3)
Ejemplares juveniles y adultos no puede ser porque se estarían mezclado poblaciones
distintas. Se está hablando de cangrejos adultos, y si se agregan juveniles, no se puede
hacer inferencia porque las conclusiones no van a ser ciertas.

Si fuera sobre juveniles el estudio y se agregan ejemplares adultos, se esperaría que la


concentración aumentara. Y la variabilidad seria mayor, y entonces aumenta la varianza y
se agranda el intervalo de confianza.
Las conclusiones van a ser sesgadas porque se corre la media, aumenta la varianza y el
intervalo va a ser más amplio.

Si se aumenta la confianza, se va a obtener un intervalo que es mas posible que contenga


al parámetro que se está estimando. Se entregan más números como resultado, entonces
se está aumentando la amplitud del intervalo de confianza, por ende, se está siendo menos
preciso.
(Intervalo mas grande, menos preciso).
Si se disminuye el nivel de confianza, se está aumentando el nivel de precisión. Se va a
obtener así un intervalo más pequeño.

Si se disminuye la cantidad de individuos medidos, al estar dividendo n va a ser


inversamente proporcional.
Si se aumenta n, se está dando un intervalo de confianza más preciso. Entonces el intervalo
va a ser más pequeño.
En un intervalo de confianza, se puede modificar:

 El nivel de confianza (lo fija el investigador)


 El tamaño muestral

4)
La población es donde se está haciendo la inferencia. La población va a tener las mismas
características de la muestra.
Al decir sobre quien se generalizan los resultados, se debe ser lo más preciso posible al
indicar cual es la población.

5)
El estimador va a tener un valor que depende de la muestra que se tome. El estimador va a
tomar valores como una variable aleatoria.
Si se saca repetidamente a un estimador, con distintas muestras, si se le saca el promedio
a esos estimadores, se va a llegar al parámetro. Es decir, la esperanza del estimador
coincide con el parámetro.

A medida que aumenta el tamaño de muestra, el estimador converge al parámetro (esto


habla de la consistencia del parámetro).
Características de un buen estimador: insesgadez y consistencia.

Los valores limites del intervalo de confianza tienen las mismas unidades que la variable.

11)
No hay una relación lineal entre la amplitud del intervalo y el numero de muestra. No se
debe aumentar el doble el tamaño muestral si se quiere disminuir a la mitad.
No es una relación lineal sino cuadrática.
Si se quiere disminuir la amplitud del intervalo de confianza a la mitad (se quiere reducir por
2), se tiene que aumentar el tamaño muestral por 4.
Si se quiere disminuir la amplitud del intervalo 4 veces, el tamaño muestral tiene que
aumentarse 16. (Se toma 16 veces el tamaño muestral que se tenia para disminuir la
amplitud 4 veces).
n2 veces se aumenta el tamaño muestral, para disminuirlo n veces la amplitud.

(Está bien hecho con infostat también)


Para proporciones hay que usar la fórmula, no con infostat.
12)
Se debe cumplir con los supuestos para que los resultados sean válidos.

La muestra debe ser tomada de forma aleatoria.


Tiene que ser una variable con distribución normal y tamaño de muestra grande.

13)

¡No se cumplen los supuestos! no se puede resolver. Si se pudiera, se


resuelve en infostat (si es una variable cuantitativa) o manualmente (si es
cualitativa)
En infostat: estadísticas ->inferencia basada en una muestra -> int de
confianza -> proporción -> exitos (>0,40)
Cálculo del n para proporción, lo único que se hace a mano.

En este ejercicio no se puede calcular porque no se cumple el supuesto (tienen que haber 5
éxitos o 5 fracasos), y solo hay 3 éxitos en este caso.

14)
Con una muestra de por lo menos n=30 y 5 éxitos o 5 fracasos, ya funciona bien la
aproximación normal.
Para un intervalo de proporción:

 Muestra aleatoria
 Al menos 5 éxitos o 5 fracasos en la muestra.
 Tamaño de la muestra grande.

Si la variable es normal, no se requieren de muestras n>30 para que x raya sea normal.
En cambio, para la proporción si se necesita que n sea grande. (Para la aproximación de la
binomial a la normal)

Si la variable es cuantitativa: se va por x raya, desvíos y medias.


Si la variable es cualitativa: se va por proporciones.
No se le puede dar vitamina E a todo el criadero (hacer un censo es costoso); entonces se
hace un ensayo.

A diferencia del intervalo de confianza, en donde el objetivo es tener una idea del
parámetro. En cambio, la prueba de hipótesis es una herramienta para ayudar en la toma de
decisiones, en un contexto de incertidumbre.

Pregunta que se busca responder: ¿Vitamina E es efectiva para engordar? - Mu > 100g/día
Es decir, al agrega vitamina E se espera que tengan una ganancia de peso diaria mayor a
100g/día.
100g/día es la media poblacional (mu). Es un promedio (es imposible que todos tengan el
mismo valor con el que engordan).
Para concluir que la vitamina E sea efectiva, el parámetro tiene que cambiar (los 100g/día
tienen que cambiar).
Tiene que haber un: Mu > 100g/día

La respuesta es sí o no.
La prueba de hipótesis es binaria: si/no (se da o no se da esto), es decir, el universo se
divide en dos posibilidades
Luego se llega a una conclusión (sirve o no), y esta decisión se está tomando con una
muestra. Por lo tanto, no va a haber certeza (no hay 100% de seguridad). Puede haber
errores.
Se van a utilizar probabilidades a los errores (probabilidades o chances de que haya error).
No se usa confianza, confianza solo en intervalos de confianza.

La prueba de hipótesis es una herramienta que permite decidir entre dos situaciones, en un
contexto de incertidumbre, basándonos en muestras y controlando la probabilidad de error.

Las afirmaciones siempre involucran parámetros. Se hacen afirmaciones o aseveraciones a


cerca de parámetros (como mu, pi o diferencias de mu o pi).
En todas las pruebas de hipótesis se va a tener una hipótesis o pregunta de
investigación. La pregunta de investigación no es estadística.
Y luego se van a tener dos hipótesis que sí son estadísticas:
La hipótesis nula (H0): es la hipótesis de no efecto, de no cambio, es la hipótesis
conservadora. Asegura que no hay diferencias, que la población sigue teniendo las mismas
características y nada cambia.
La hipótesis alternativa (H1): dice lo opuesto a la nula, y es la que expresa un cambio. En
la hipótesis alternativa está reflejada la hipótesis de investigación
Son hipótesis incompatibles, es decir, una dice “sirve” y la otra dice “no sirve”. Son
exhaustivas, es decir, abarcan todas las posibilidades.
Las hipótesis van antes de los datos, es decir, antes de hacer el muestreo (son
conceptuales).
Pregunta de investigación: ¿La incorporación de vitamina E a la dieta es efectiva?
H0: la vitamina E no es efectiva
H1: la vitamina E si es efectiva

Usando parámetros, esto se traduce en:


H0: mu <= 100g/día
H1: mu > 100g/día
Con la dieta estándar o habitual, los cerdos engordaban 100g/día. Si ahora se agrega
vitamina E, pueden suceder 3 casos:
Mu <100 g/día
Mu = 100g/día
Mu > 100g/día
Capaz que al agregar la vitamina E, puede mejorar la ganancia de peso, capaz no cambia o
un cambio de alimentación cambia el sabor, y entonces no comen y por ende la ganancia
de peso es menor al agregar la vitamina E.

Hay 3 escenarios, pero la prueba de hipótesis va a colapsar esto en dos.


Si luego de agregar vitamina E, la media poblacional (mu) es menor a 100g/día – no es
efectiva.
Si es igual a 100g/día – no es efectiva
Si es mayor a 100g/día – si es efectiva.
En los dos primeros casos (no se recomienda agregar vitamina E ); y en el último caso si se
recomienda.
Es decir, la prueba de hipótesis es una herramienta para ayudar a tomar decisiones entre
dos cursos de acción.

Mu= 1,2mm (conocimiento que va más allá de un conjunto de datos o una muestra).
Hipótesis1: ¿El glifosato retrasa el desarrollo embrionario?
Hipótesis 2: ¿El glifosato afecta al desarrollo embrionario?

Para cada parámetro o variable o hipótesis hay una prueba distinta.


En condiciones normales – mu =1,2mm

Para la Hipotésis1:

H0: el glifosato no retarda el crecimiento


H1: el glifosato si retarda el crecimiento

Puede pasar que:


Mu<1,2 (Hay retraso en el crecimiento) -- Hay retraso
Mu=1,2 (No cambia el crecimiento) – No hay retraso
Mu>1,2 (Aumenta el crecimiento) -- No hay retraso

Sería el parámetro esperado entonces para cada hipótesis:


H0: Mu>=1,2mm
H1: Mu<1,2mm

Para la Hipótesis 2:
H0: Mu=1,2mm (No afecta)
H1: Mu > 1,2mm y Mu< 1,22mm (Mu distinto a 1,2mm) (Afecta)
Si hay un cambio, es decir, el glifosato afecta, significa que el glifosato puede propiciar o
retrasar el crecimiento

Van a haber 3 situaciones entonces.


Mu0 (un numero o un valor de dato).
Siempre van a estar estas situaciones opuestas.
Las hipótesis pueden ser:
Bilaterales: si buscan cambios. No importa si es un cambio por aumento o disminución, lo
importante es detectar cambios.
Unilaterales izquierdas: el investigador busca si hay una disminución en el parámetro (mu,
pi, etc.).
Por ejemplo, ¿Hay un retraso en el crecimiento?, en el ejercicio del glifosato.
Unilaterales derechas: el investigador busca si hay un aumento en el parámetro
Por ejemplo, en el caso de los cerdos.
¿Hay presencia de malformaciones?, al ser una variable categórica (sí y no), el parámetro
es pi.
En cambio, cuando la variable es longitud, se utiliza mu.
Así, hay pruebas de hipótesis en donde se usa mu, y otras en las que se usa pi. Pero la
lógica es la misma.

En las hipótesis nulas siempre tiene que haber una igualdad, el igual siempre está en
a nula porque por definición de la hipótesis nula, todo sigue igual y no hay cambio en el
parámetro.
(Puede estar acompañado de un > o <, pero el signo igual siempre va a estar en la nula)

El procedimiento que se hace para decidir es: ¿nos quedamos con la hipótesis nula o la
rechazamos?
Se hace el muestreo y se contrasta la evidencia muestral (lo que pasó en el experimento o
muestreo), con la hipótesis nula.
Si los datos no concuerdan (lo que pasa en el experimento), es muy distinto (o
contradictorio) de lo que dice H0.
Es decir, si el resultado no concuerda, en términos probabilísticos con la hipótesis nula (H0),
se rechaza y entonces me quedo con H1.

Y para medir el grado de concordancia, se calcula una probabilidad, llamada valor p.


El valor p va a salir de la muestra (se calcula en base a la muestra).
Si el valor p es un valor chico, quiere decir que la muestra no es concordante con la
hipótesis nula y por lo tanto la rechazamos y aceptamos H1; en caso contrario, no se
rechaza la hipótesis nula por el momento.

Nivel de significación es una probabilidad teórica que define el investigador. Se simboliza


con la letra alfa. Alfa =0.05
El nivel de significación va a ser el valor de corte para definir si un p valor es alto o bajo.

n=20
Con esta información hay definir si se rechaza o no, H0.
(Valores sacados con medidas resumen).
X raya y S (son de la muestra).
La x raya da 1,08mm que es menora 1,2mm, sin embargo, no se puede confirmar nada
todavía porque las muestras son variables y puede dar otra cosa si se repitiera el
experimento o muestreo.

Se supone que H0 es verdadero: entonces la variable se supone normal (las medias


muestrales tienden a una distribución normal). Sin embargo, el n es menor a 30 en este
caso, por eso hay que hacer un QQ plot.
Y como se puede ver que la mayoría de los puntos están casi alineados, entonces el
supuesto de normalidad aplica. X (variable longitud) sigue una distribución normal, entonces
x raya va a ser normal, a pesar de que no sea un n>30
Para hacer la prueba de hipótesis siempre se tienen que tener distribuciones normales o n>
30.
(Se puede tener un coeficiente de variación mayor a 20%, con datos heterogéneos y sin
embargo, la distribución puede seguir siendo normal.)

X raya es un estimador insesgado, por lo que va a estar centrado en la media, es decir en


mu.
Entonces a mu se le puede asignar el valor de 1,2mm, porque la prueba de hipótesis para
calcular el valor p, se hace suponiendo que H0 es verdadero. Mu =1,2mm
La dispersión o sigma de X raya, va a ser el error estándar (EE), y se calcula haciendo:
EE= S/raíz de n .
Pero al usar S (porque sigma de x raya no lo conozco), se debe usar ahora una distribución
t de student con n-1 grados de libertad.
Entonces ahora hay que calcular cuán probable es obtener es 1,08mm que se obtuvo en al
muestra. Y esa probabilidad es el p valor
Valor-p = PH0V (X raya <= 1.08)
PH0V( suponiendo que H0 es verdadera)
Suponiendo que h0 es verdadera, la probabilidad de que la media muestral valga 1.08 o sea
más chica (más rara, o más apartada de H0).
Se calcula cuán probable es encontrar un resultado muestral como el que se acaba de
obtener (1,8mm), o inclusive más raro. Es decir, más opuesto a H0
Lo pintado en violeta en el gráfico es el valor p. Ésta es una probabilidad que va a ser la
evidencia en contra de H0.
Es decir, valor p es una probabilidad que va a ser una medida de la concordancia entre los
resultados de nuestro ensayo y la hipótesis nula.
Es decir, cuan probable es encontrar un resultado como el que dio el ensayo (o inclusive
más raro), suponiendo que H0 sea verdadera.

Como se asume que H0 es verdadero, entonces se toma el valor de mu=1,2mm ya que se


asume que el glifosato no hace nada (es inocuo). De todas formas pueden quedar algunas
muestras por encima o por debajo de 1,2mm ya que éstas varían aleatoriamente alrededor
de una media poblacional.
El valor p se calcula con el probability distribution.:
t = x raya – mu / (s/raiz de n)
Reemplazando por los datos:
P (t19< (1.08-1.2) / (0.3/raíz de 20) ) = -1.79
(se estandariza la media con esta cuenta, por lo que ya dejan de ser mm)

Entonces el p valor = 0.0447


Interpretación del p valor: si el glifosato no tuviera ningún efecto sobre el crecimiento ( es
decir, si H0 es verdadera y el glifosato no retrasa el crecimiento, es decir, que la media
poblacional de renacuajos criados en presencia de glifosato, valdría 1,2mm o inclusive
más). Si todo esto fuera cierto, es bastante raro o bastante poco probable (ya que la
probabilidad es menor al 5%) obtener un resultado como el del ensayo (es decir, obtener
que la media de 20 renacuajos es de 1,08mm).
Es raro porque se fija un nivel de corte (nivel de significación), y si la probabilidad da por
debajo del 5%, va a ser una probabilidad baja. Es el nivel de corte a partir del cual
consideramos que el resultado es significativo o no.

Una vez que se obtiene el p valor, se compara con el nivel de significación.


Valor p < alfa
0.0447 < 0.05
Al ser menor que el alfa, quiere decir que nuestros resultados muestrales (nuestro ensayo),
no apoya la hipótesis nula. Es un resultado raro o poco probable si H0 fuese cierto.
Por lo tanto, rechazamos H0.
Por ende, aceptamos H1
Y al aceptar H1 se concluye que hay pruebas de que la media poblacional es menor a
1,2mm. (Mu <1,2mm). Es decir, hay evidencia de que el glifosato retrasa el crecimiento.

Otra manera:
Estadísticas/ inferencia basada en una muestra / prueba de t para una media/ se elige la
variable en cuestión.
Y luego se elige el tipo de prueba: en este caso, es unilateral izquierda (es así cuando la
alternativa dice menor).
Se saca intervalo de confianza.
Y parámetro, se pone el valor de referencia (1,2).
Y se obtienen los siguientes resultados:

Si en la hipótesis alternativa queda un distinto (es prueba bilateral), si quedó un < es


unilateral izquierda y si quedó un > es unilateral derecha
Si es unilateral izquierda, se mira un área a la izquierda.
Si p valor es más chico con el nivel de significación; se rechaza H0 y se acepta H1
(La prueba es significativa porque detectó algo).
Caso contrario: si el p valor es mayor al nivel de significación, la prueba es no
significativa y nos quedamos con H0 por el momento (no se rechaza).
Interpretación del p valor.
Si la mu es de 1,2mm, entonces las medias muestrales pueden moverse hacia izquierda o
derecha de esa mu.
Entonces se puede, en base a la teoría de la distribución muestral, como sería la
distribución teórica de probabilidades de las medias muestrales basadas en n=20, que salen
de una población con una mu=1,2mm. Y entonces pueden oscilar.
La media muestral puede caer en 1,2mm (es un resultado bastante probable), o sino muy
apartado a la izquierda (lo que es un resultado bastante raro para esta distribución).
Se está calculando cuan probable es la media muestral hallada en una distribución que
tiene una mu postulada por H0.
Hay dos escenarios: en rojo (h0) y en azul (h1).
Y luego se hace un ensayo, y se obtiene una muestra de 1,08mm. Y hay que averiguar de
cual escenario proviene.
Entonces si la muestra está muy corrida para la izquierda, hay más probabilidades de que
venga del azul.
Si ya las medias muestrales están por debajo del límite del 5%, salió de la población roja y
pertenece a la azul. Entonces es más probable que esta muestra haya salido de una
población con una mu < 1,2.
Volviendo al ejercicio de los cerdos y la vitamina E.

Valor p= 0.039
Si H0 fuera verdadera, hay un mu = 100 ( en rojo). Para H1 (mu> 100) en rojo.
Hay que calcular el área a la derecha en este caso. La prueba es unilateral derecha. Lo
que va a favor de H1
La probabilidad es menor al alfa (menor al 5%), entonces es bastante chica.

Conclusión:
Como el valor p (0.039) < alfa (0.05), se rechaza H0. Por lo tanto se acepta H1.
Y si acepto H1, la conclusión es que la vitamina E engorda, y por lo tanto se recomienda.
Sin embargo, no se está totalmente seguro de que la vitamina E engorda y que la muestra
salió de la curva azul. La evidencia es a favor de esto, pero por azar se pudo haber obtenido
una muestra rara que salió de la roja y se la atribuyó a la azul.
¿Con qué probabilidad pudo haber salido una muestra rara de la curva roja? Con una
probabilidad de 5%.
El nivel de significación es el error que se está dispuesto a admitir. Se contempla
hasta un 5% de posibilidad de que la muestra salga de la roja, y que por error se la
atribuya a la azul.
Va a haber una probabilidad, como máximo del 5%, de falsos positivos. Es decir, a
decir que la vitamina E ayuda, cuando en realidad no lo hace.
El error: 5% de recomendar la vitamina E, cuando en realidad no es efectiva.
El error de rechazar H0 erróneamente, se llama error tipo 1. Y se lo controla, es decir, se
fija de antemano.

Si p valor da mayor al 5%, me quedo con la roja.

LEER TEAMS QUE HAY QUE HACER PARA LA PROXIMA CLASE

También podría gustarte