Documentos de Académico
Documentos de Profesional
Documentos de Cultura
15) Percentil 95: valor de la variable que separa a los datos 95% para abajo y 5% para
arriba.
“Solo es superado por el 5%”: valor de la variable que tiene como máximo el 95% de los
datos. El percentil 95 Separa los datos en un 95% para abajo y un 5% para arriba
16) La media va a ser 5 (valores en el medio). Serie A, datos más cerca del 5. Pero B y C
más achatada.
Desvio estándar: es una manera de hablar de la dispersión de los datos frente al promedio
la media.
A: cercano al promedio.
B: más disperso, B más disperso que A.
C: más disperso que B. El caso en donde los individuos se alejaron mucho más de la media.
Mas cantidad de datos alejados al promedio en C, que en B donde los datos están más
centrados.
Coeficiente de variación: de A menor que el de C, mucha más dispersión en C y el promedio
no va a sr representativo.
Mediana no siempre en el medio, pero divide el área en 50% y 50%.
La media se equilibra y está en el medio.
Si el desvio es pequeño, los datos están centrados respecto al promedio. (Curva va ser
delgada y muy para arriba).
Si los valores se empiezan a separar del promedio, la dispersión es mayor. Y se tienen así
valores mas a los costados y extremos, entonces la curva va a ir achatándose.
Va a seguir centrada en el promedio, pero los valores van a estar más distribuidos a los
alrededores.
17)
18) Pueden haber varias modas. (Distribución unimodal: una moda y dos modas: bimodal).
Si no coinciden, hay una asimetría (a la derecha o a la izquierda).
Si el CV muy alto: desvio estándar muy alto. Entonces si es muy alto, no va a ser
representativa la media para hacer inferencia. Si la media no es representativa no tiene
sentido sacar conclusiones a partir de ella. Entonces si la media viene de una distribución
asimétrica, no tiene sentido.
Unidades del desvio estándar, son las mismas que la variable. Las que son al cuadrado son
las de la varianza.
24) La mediana separa para arriba y para abajo. Entonces indica un máximo y un mínimo.
No se dice que tiene ese valor, sino que un 50% lo tiene como máximo y un 50% lo tiene
como mínimo.
n=261
Media=X raya= 6.26
No se puede decir que es la media de la población. Si se repite el sorteo no se va a tener el
mismo número, sino que va a tener una cierta variación que varía alrededor del valor de Mu
(el parámetro).
Como Mu no se tiene porque no hay censos, se va a usar estimadores (X raya), que son
aproximaciones.
DE= S= 0.59
Mu exacta no se puede sacar (se debe hacer censo), entonces existe un intervalo de
confianza, es decir un rango de valores (con cierta confianza) dentro de los cuales se
encuentra el parámetro
Para poder generar este rango de valores se necesita de probabilidades. Así para hacer el
proceso de inferencia, es decir, a partir de los datos de la muestra se infieren valores de la
población; y así se calcula el rango de Mu.
Mu (una sola, porque es constante).
Para estimar la varianza población (sigma cuadrado) se usa la formula en la que se divide
por (n-1). Esta fórmula permite obtener un estimador insesgado.
La de abajo sirve para describir una muestra, pero no para estimar el verdadero valor. (No
se usa)
Otra propiedad de estos 3 estimadores es:
Consistencia: cuanto mayor es la cantidad de datos que se tiene, más parecido es el
estimador al parámetro (y menos variable va a ser). Conviene usar estimadores que varíen
poco.
Sacar una muestra es como hacer un tiro al blanco.
El blanco: es el parámetro.
En el gráfico de abajo a la derecha: las muestras van a oscilar de acuerdo al verdadero
valor (a veces un poco más alto o más bajo, pero en promedio, es decir, el centro de masa
de estas estimaciones es el verdadero valor). Cuando pasa esto el estimador es
insesgado. En promedio coincide con el verdadero valor.
En el gráfico de arriba a la izquierda: el estimador es un estimador sesgado porque difiere
en promedio del verdadero valor (hay una diferencia sistemática). Ej.: se usa una balanza
mal calibrada; por más que pese muchas veces siempre se va a tener una diferencia de
100g respecto al verdadero valor.
En el gráfico de arriba a la derecha: Es insesgado porque, por más que las estimaciones
den bastante lejos (se aleja mucho) pero en promedio, el centro de masa es el verdadero
valor. Este estimador tiene mucha más variación que el de abajo a la derecha. (Este último
es mejor).
Comportamiento de la media
Media y mediana coinciden en una distribución normal y en cualquier distribución simétrica.
En una distribución simétrica y normocurtica el parámetro de curtosis vale 0.
Se toman dos muestras de 5 individuos y la media va a variar, se obtienen 2 medias
distintas; por esta razón los estimadores son variables:
En cambio, la media poblacional no cambió. Sigue siendo 16 (Mu).
Todo esto en base a muestras de 5 individuos.
Si esto se repite infinita veces, las medias (x rayas), pensadas como variables aleatorias se
van a ir obteniendo distintas medias muestrales. Pero se esperaría que el centro de
distribución de las x rayas sea alrededor de 16 (Mu).
La dispersión de la población es de 5. Y la dispersión de las medias muestrales (x raya) va
a ser menor, es decir, se va a compactar la distribución de x raya (los extremos van a ser
más raros).
La distribución va a ser más compacta. Cuantos más individuos formen parte de la muestra,
cada vez más raro va a ser obtener medias extremas (una media muestral va a ser una
medida central, entonces para que de un valor raro, por azar tienen que tocar cerdos con
pH en valores extremos, y eso es raro que suceda).
La dispersión va a ser cada vez más chica.
Comportamiento del estimador X raya: cuanto más grande es la muestra, el estimador se
parece más al verdadero valor del parámetro (se parece más a 16, o sea más es compacta
la distribución).
Por eso conviene más sacar muestras más grandes. En la segunda gráfica, los valores de
x raya se parecen más al verdadero mu, que en el primer caso.
A medida que aumenta el tamaño de la muestra, el desvio estándar de las medias se
hace más chico.
Si la distribución de la variable es normal, las medias también se comportan normalmente.
Tomando ahora una distribución uniforme
En una distribución uniforme, en un rango de valores todos los valores tienen la misma
probabilidad. Es decir, es una variable continua pero la función de densidad es constante.
También es una distribución simétrica: media y mediana coinciden.
Se toman 5 datos y 20 datos:
La media es la misma.
Y la dispersión va a ser menor cuanto mayor cantidad de datos se toman. Más datos,
menos variables van a ser las medias muestrales (el desvío se va achicando).
Esta distribución se va a ir haciendo normal para las medias (para los promedios), pero la
variable sigue siendo igual (asimétrica). El promedio calculado en base a esa variable, va a
tender a la distribución normal.
El tamaño tiene que ser 30 o más de 30 para asegurarse que el estimador x raya
(media) tiene una distribución normal. Y así se puede usar la distribución normal para
calcular probabilidades, entonces se va a poder hacer la inferencia estadística.
La campana va a ser más compacta porque los x raya varían menos que las x. (Una
manzana puede ser muy chica o muy grande, pero el promedio no varía tanto).
Y se obtiene así un sigmaX (un sigma de las medias muestrales). Esta sigma se calcula con
la fórmula del PPT.
Ya teniendo los parámetros, se calcula la probabilidad con la página.
Es más raro que un promedio supere los 220g a que una manzana individual supere
los 220g (probabilidad más baja en ejercicio 2) que en 1)).
Esto se puede aplicar por más que la distribución inicial no sea normal, siempre y cuando n
sea mayor o igual a 30.
Z= Estandarización de X raya.
1-alfa: nivel de confianza (el área).
Probabilidad de que Z se encuentre entre estos dos límites es 1-alfa.
1-alfa= 0.95
Alfa= 0.05
Alfa/2= 0.025
Alfa/2 es el percentil 2.5 o fractil que deja a su izquierda 2.5%
1-alfa/2 es el percentil 97.5, deja a su izquierda o acumula 97.5%
Distribución Z es una normal con media 0 y desvio 1.
Se calcula con la página el valor de X, tal que el área sea 0.025:
Y da -1.95.
Y el del otro lado es 1.95 positivo.
A partir de una sola muestra se estima entre que valores se encuentra el verdadero valor de
la media (mu).
1- alfa= la confianza =95% (viendo el ejercicio anterior), entonces alfa =5%
Nivel de confianza es fijado a priori por el investigador.
IC95%= 6.19-6.33
Entonces la Mu de la población está entre estos valores. Este intervalo de confianza no es
para la muestra de 261, sino que para todos los cerdos CC de ese frigorífico.
“Con 95% de confianza, el verdadero promedio o media de pH de todos los cerdos CC de
ese frigorífico (en toda la población) se va a encontrar entre 6.19 y 6.33”
(X raya siempre entre estos valores).
Con CT no se puede decir que las medias difieran porque los intervalos se solapan.
Cambiando la confianza
Aumentando el tamaño de la muestra
Entonces:
Cuanta más certeza, más se va a ampliar el rango. Si en vez de 95% se usa 99%, el
intervalo va a ser más ancho.
Y si n es más grande, el intervalo va a ser más pequeño.
Si se aumenta el tamaño de la muestra, cuanto más grande es el n, la distribución se
compacta y el desvio estándar de la media muestral es más chico y el intervalo entonces va
a ser más chico (más preciso).