Está en la página 1de 21

Corrección del cuestionario

Presencia de infección: si/no (variable cualitativa dicotómica, solo si o no, 2 caminos).


Cantidad de insectos por planta (1 a 5), variable cuantitativa discreta.

Gráfico de barras: cuantitativas discretas y cualitativas


Histogramas: solo para cuantitativas continuas. Rango de la variable 0 a 5, es un rango
corto. Pero si se tiene una variable que es cantidad de alumnos por aula (de 5 a 60, rango
muy amplio), ahí si se puede usar histograma.
En rangos amplios si se puede usar histograma para variables cuantitativas discretas.

Gráfico de torta: solo para cualitativas


Box plot: solo para cuantitativas en general (discreta y continua)

13) Se puede comparar a partir del coeficiente de variación. Coeficiente de variación


permite independizarse de las unidades, se puede comparar grupo por más que no
compartan la unidad. (desvio/ media, las unidades desaparecen).
20/60 (para el peso) 5/15 (para la edad), ambas tienen la misma variación.

14) Centro de gravedad de la muestra: es la media o el promedio (no es lo mismo que


mediana). El resto de las definiciones si corresponden a la mediana.
Mediana: valor de la variable que deja 50% arriba y 50% abajo, y no se ve afectada por los
valores extremos.

15) Percentil 95: valor de la variable que separa a los datos 95% para abajo y 5% para
arriba.
“Solo es superado por el 5%”: valor de la variable que tiene como máximo el 95% de los
datos. El percentil 95 Separa los datos en un 95% para abajo y un 5% para arriba

16) La media va a ser 5 (valores en el medio). Serie A, datos más cerca del 5. Pero B y C
más achatada.
Desvio estándar: es una manera de hablar de la dispersión de los datos frente al promedio
la media.
A: cercano al promedio.
B: más disperso, B más disperso que A.
C: más disperso que B. El caso en donde los individuos se alejaron mucho más de la media.
Mas cantidad de datos alejados al promedio en C, que en B donde los datos están más
centrados.
Coeficiente de variación: de A menor que el de C, mucha más dispersión en C y el promedio
no va a sr representativo.
Mediana no siempre en el medio, pero divide el área en 50% y 50%.
La media se equilibra y está en el medio.

Si el desvio es pequeño, los datos están centrados respecto al promedio. (Curva va ser
delgada y muy para arriba).
Si los valores se empiezan a separar del promedio, la dispersión es mayor. Y se tienen así
valores mas a los costados y extremos, entonces la curva va a ir achatándose.
Va a seguir centrada en el promedio, pero los valores van a estar más distribuidos a los
alrededores.

17)
18) Pueden haber varias modas. (Distribución unimodal: una moda y dos modas: bimodal).
Si no coinciden, hay una asimetría (a la derecha o a la izquierda).
Si el CV muy alto: desvio estándar muy alto. Entonces si es muy alto, no va a ser
representativa la media para hacer inferencia. Si la media no es representativa no tiene
sentido sacar conclusiones a partir de ella. Entonces si la media viene de una distribución
asimétrica, no tiene sentido.

19) Moda: no es una medida de dispersión, sino de tendencia.


Desviación estándar y varianza: si son sensibles a los valores extremos. Cuantos mayores
datos a los extremos, más se van a ver afectados.
Rango intercuartílico: separación en grupos de cuartiles en los box plot. Dentro del a caja se
representa desde el 25% (cuartil 1) al 75% (cuartil 3) de los datos. Y no se va a ver afectado
por los valores extremos, porque se está evaluando cantidad de datos, y no dónde se
ubican.
Dentro de la caja van a estar el 50% de los datos, y no se va a ver afectada por valores
extremos. No es tan sensible a valores extremos.

La media es muy sensible a valores extremos. Mediana es medida de tendencia, pero es


menos sensible. Si media no es representativa, se puede usar la mediana.

Unidades del desvio estándar, son las mismas que la variable. Las que son al cuadrado son
las de la varianza.

24) La mediana separa para arriba y para abajo. Entonces indica un máximo y un mínimo.
No se dice que tiene ese valor, sino que un 50% lo tiene como máximo y un 50% lo tiene
como mínimo.

25) Tablas de frecuencia/ y se separa el rango en distintos intervalos de clase. (Con


una amplitud de 0.05).
Y luego en la ultima clase se ven los que van de 0.4 a 0.45. Y un 8% tiene valores de
fosfolípidos de 0.40 a 0.45.

O sino: estimación de características poblacionales / calcular proporción de éxitos /


mayores o iguales que/ 0.4
Se busca estimar el pH medio en cerdos con genotipo CC.
Estimar: en una característica de la población, no de la muestra.

Población: N= todos los cerdos del frigorífico con genotipo CC


Muestra: n= 261 cerdos CC (los 403 no sirven (todos). Se saca de estadísticas/tablas de
frecuencia/genotipo

Variable: X= pH (variable cuantitativa continua)

N (Censo), en un censo y se promedia el pH de la carne, se obtiene un parámetro.


Los estadísticos que se calculan en la población se denominan parámetros. Son valores
únicos. Al hacer el censo, se obtiene un único valor de pH.

Mu (μ): promedio o media de la población.


Como tal no se puede calcular a menos que se haga un censo. Entonces se calcula el X
raya

X raya (x̄): promedio o media de la muestra. Es un estimador, porque trata de estimar a


Mu.
Para calcularlo, se saca una muestra y se calcula el pH a las muestras. Se calcula con
medidas resumen/ en criterios de clasificación poner “genotipo” (y se calcula el pH para
cada fenotipo).

n=261
Media=X raya= 6.26
No se puede decir que es la media de la población. Si se repite el sorteo no se va a tener el
mismo número, sino que va a tener una cierta variación que varía alrededor del valor de Mu
(el parámetro).
Como Mu no se tiene porque no hay censos, se va a usar estimadores (X raya), que son
aproximaciones.
DE= S= 0.59

Mu exacta no se puede sacar (se debe hacer censo), entonces existe un intervalo de
confianza, es decir un rango de valores (con cierta confianza) dentro de los cuales se
encuentra el parámetro
Para poder generar este rango de valores se necesita de probabilidades. Así para hacer el
proceso de inferencia, es decir, a partir de los datos de la muestra se infieren valores de la
población; y así se calcula el rango de Mu.
Mu (una sola, porque es constante).

X raya es un estimador puntual de Mu (media de la población).


S (desvío estándar de la muestra), es un estimador puntual de Sigma (desvío estándar la
población).
Pi (proporción de éxitos de la población) y su estimador es p

Mu/sigma/pi: de la población. Letras griegas son parámetros (características poblacionales)


X raya/s/p: de la muestra
A partir de esto se hacen rangos de valores en donde se va a encontrar el parámetro de
interés.

Los estimadores (x raya, s y p) son estimadores insesgados.

Estimador insesgado: la esperanza del estimador es exactamente igual al parámetro


(característica de un buen estimador).
E (esperanza del estimador)

Para estimar la varianza población (sigma cuadrado) se usa la formula en la que se divide
por (n-1). Esta fórmula permite obtener un estimador insesgado.
La de abajo sirve para describir una muestra, pero no para estimar el verdadero valor. (No
se usa)
Otra propiedad de estos 3 estimadores es:
Consistencia: cuanto mayor es la cantidad de datos que se tiene, más parecido es el
estimador al parámetro (y menos variable va a ser). Conviene usar estimadores que varíen
poco.
Sacar una muestra es como hacer un tiro al blanco.
El blanco: es el parámetro.
En el gráfico de abajo a la derecha: las muestras van a oscilar de acuerdo al verdadero
valor (a veces un poco más alto o más bajo, pero en promedio, es decir, el centro de masa
de estas estimaciones es el verdadero valor). Cuando pasa esto el estimador es
insesgado. En promedio coincide con el verdadero valor.
En el gráfico de arriba a la izquierda: el estimador es un estimador sesgado porque difiere
en promedio del verdadero valor (hay una diferencia sistemática). Ej.: se usa una balanza
mal calibrada; por más que pese muchas veces siempre se va a tener una diferencia de
100g respecto al verdadero valor.
En el gráfico de arriba a la derecha: Es insesgado porque, por más que las estimaciones
den bastante lejos (se aleja mucho) pero en promedio, el centro de masa es el verdadero
valor. Este estimador tiene mucha más variación que el de abajo a la derecha. (Este último
es mejor).

Comportamiento de la media
Media y mediana coinciden en una distribución normal y en cualquier distribución simétrica.
En una distribución simétrica y normocurtica el parámetro de curtosis vale 0.
Se toman dos muestras de 5 individuos y la media va a variar, se obtienen 2 medias
distintas; por esta razón los estimadores son variables:
En cambio, la media poblacional no cambió. Sigue siendo 16 (Mu).
Todo esto en base a muestras de 5 individuos.
Si esto se repite infinita veces, las medias (x rayas), pensadas como variables aleatorias se
van a ir obteniendo distintas medias muestrales. Pero se esperaría que el centro de
distribución de las x rayas sea alrededor de 16 (Mu).
La dispersión de la población es de 5. Y la dispersión de las medias muestrales (x raya) va
a ser menor, es decir, se va a compactar la distribución de x raya (los extremos van a ser
más raros).

Media = 16 (igual a población)


Desvío de medias muestrales de 5 individuos = 2.24 (menor a población)
Si ahora se toma una muestra de 20 individuos (o 20 datos):

La distribución va a ser más compacta. Cuantos más individuos formen parte de la muestra,
cada vez más raro va a ser obtener medias extremas (una media muestral va a ser una
medida central, entonces para que de un valor raro, por azar tienen que tocar cerdos con
pH en valores extremos, y eso es raro que suceda).
La dispersión va a ser cada vez más chica.
Comportamiento del estimador X raya: cuanto más grande es la muestra, el estimador se
parece más al verdadero valor del parámetro (se parece más a 16, o sea más es compacta
la distribución).
Por eso conviene más sacar muestras más grandes. En la segunda gráfica, los valores de
x raya se parecen más al verdadero mu, que en el primer caso.
A medida que aumenta el tamaño de la muestra, el desvio estándar de las medias se
hace más chico.
Si la distribución de la variable es normal, las medias también se comportan normalmente.
Tomando ahora una distribución uniforme
En una distribución uniforme, en un rango de valores todos los valores tienen la misma
probabilidad. Es decir, es una variable continua pero la función de densidad es constante.
También es una distribución simétrica: media y mediana coinciden.
Se toman 5 datos y 20 datos:

La media es la misma.
Y la dispersión va a ser menor cuanto mayor cantidad de datos se toman. Más datos,
menos variables van a ser las medias muestrales (el desvío se va achicando).

Si la distribución no es normal (uniforme, por ejemplo), las medias muestrales (x raya)


tienden a una distribución normal. Esto tiene que ver con el teorema central del límite, que
dice que: no importa la distribución de probabilidades de la variable original, si la muestra es
lo suficientemente grande, el estimador (x raya) tiende a la distribución normal.
Tomando una distribución asimétrica positiva (no normal).
Media y mediana no van a coincidir, difieren bastante. (La mediana deja la mitad del área de
un lado y la otra mitad del otro lado).
Se toman muestras de tamaño 5 y tamaño 20 y se calcula el promedio muestral:

La media sigue siendo 7 en todos los casos.


El desvio estándar se va a ir achicando, al ir aumentando el tamaño de la muestra.
En 5, el tamaño de la muestra no es suficientemente grande como para llegar a ser una
normal, pero va tendiendo. Entonces si se agranda el tamaño con 25, va a estar más cerca
de ser una normal:

Esta distribución se va a ir haciendo normal para las medias (para los promedios), pero la
variable sigue siendo igual (asimétrica). El promedio calculado en base a esa variable, va a
tender a la distribución normal.
El tamaño tiene que ser 30 o más de 30 para asegurarse que el estimador x raya
(media) tiene una distribución normal. Y así se puede usar la distribución normal para
calcular probabilidades, entonces se va a poder hacer la inferencia estadística.

Link simulación: https://onlinestatbook.com/stat_sim/sampling_dist/index.html


“Posiblemente tengan una distribución normal”: cuando el n sea lo suficientemente
grande.
El desvío estándar del estimador (en las curvas en azul), se llama error estándar
Estimador: para muestra
Parámetro (esperanza): para población
El desvío estándar del estimador se calcula como: desvío estándar de la variable de X,
sobre raíz de n (ver fórmula).
Ejercicio para aplicar teorema central del límite.

Probabilidades se calculan con:


https://homepage.divms.uiowa.edu/~mbognar/applets/normal.html
1) Probabilidad de que una manzana supere 220g.
En rojo el ejercicio
Mu: 200g
Sigma: 25g
X=220

2) Probabilidad de que el promedio de 5 manzanas supere los 220g.


La variable aleatoria es ahora X raya= peso promedio de 5 manzanas (en azul)
En promedio, X raya vale 200g (X raya es un estimador insesgado).
La forma de la distribución depende del n.
Pero en este caso, como la variable original es normal, x raya va a ser normal siempre. No
importa el n, porque ya es normal.

La campana va a ser más compacta porque los x raya varían menos que las x. (Una
manzana puede ser muy chica o muy grande, pero el promedio no varía tanto).
Y se obtiene así un sigmaX (un sigma de las medias muestrales). Esta sigma se calcula con
la fórmula del PPT.
Ya teniendo los parámetros, se calcula la probabilidad con la página.
Es más raro que un promedio supere los 220g a que una manzana individual supere
los 220g (probabilidad más baja en ejercicio 2) que en 1)).

Esto se puede aplicar por más que la distribución inicial no sea normal, siempre y cuando n
sea mayor o igual a 30.

Z= Estandarización de X raya.
1-alfa: nivel de confianza (el área).
Probabilidad de que Z se encuentre entre estos dos límites es 1-alfa.
1-alfa= 0.95
Alfa= 0.05
Alfa/2= 0.025
Alfa/2 es el percentil 2.5 o fractil que deja a su izquierda 2.5%
1-alfa/2 es el percentil 97.5, deja a su izquierda o acumula 97.5%
Distribución Z es una normal con media 0 y desvio 1.
Se calcula con la página el valor de X, tal que el área sea 0.025:

Y da -1.95.
Y el del otro lado es 1.95 positivo.

A partir de una sola muestra se estima entre que valores se encuentra el verdadero valor de
la media (mu).
1- alfa= la confianza =95% (viendo el ejercicio anterior), entonces alfa =5%
Nivel de confianza es fijado a priori por el investigador.

Resolución del ejercicio de pH medio en cada genotipo CC


Sigma es de la población y S es de la muestra (se saca una muestra y vuelve a cambiar).
Entonces en la fórmula anterior en vez de usar sigma se tiene que usar S. Entonces en vez
de usar la distribución Z hay que usar otra distribución llamada t de Student.
Hay que ir a:
Estadísticas/ inferencia basada en una muestra/intervalos de confianza para pH/ particiones
(para cada genotipo) / estimar media con 95%

EE (error estándar), es el estimador de la sigma x raya.


n = tamaño de la muestra
Dos formas de comunicar el resultado:

 IC95%= 6.19-6.33
Entonces la Mu de la población está entre estos valores. Este intervalo de confianza no es
para la muestra de 261, sino que para todos los cerdos CC de ese frigorífico.
“Con 95% de confianza, el verdadero promedio o media de pH de todos los cerdos CC de
ese frigorífico (en toda la población) se va a encontrar entre 6.19 y 6.33”
(X raya siempre entre estos valores).

 Para el genotipo CC se va a tener un pH de 6.26 +/- 0.07

En la población, el pH para estos 3 genotipos no es el mismo. En la población los cerdos


CC tienen una media de pH más alta que los otros (Mirando los intervalos, no la
estimación).
¿La media poblacional pH de toda la p TT es distinta a la de CC? – La media poblacional de
TT va a ser más chica que la de CC.

Con CT no se puede decir que las medias difieran porque los intervalos se solapan.

Dos formas de modificar un intervalo de confianza:

 Cambiando la confianza
 Aumentando el tamaño de la muestra
Entonces:
Cuanta más certeza, más se va a ampliar el rango. Si en vez de 95% se usa 99%, el
intervalo va a ser más ancho.
Y si n es más grande, el intervalo va a ser más pequeño.
Si se aumenta el tamaño de la muestra, cuanto más grande es el n, la distribución se
compacta y el desvio estándar de la media muestral es más chico y el intervalo entonces va
a ser más chico (más preciso).

Trabajo practico 2 - Problema 1


Y después el cuestionario

También podría gustarte