Está en la página 1de 37

Estadística aplicada

2º cuatrimestre 2018
Programa
Unidad I: PRINCIPIOS DE INFERENCIA ESTADÍSTICA

Unidad II: INFERENCIA EN POBLACIONES NORMALES. ESTIMACIÓN DE PARÁMETROS

Unidad III: INFERENCIA EN POBLACIONES NORMALES. ENSAYOS DE HIPÓTESIS

Unidad IV: ENSAYOS DE HIPÓTESIS EN LA COMPARACIÓN DE DOS POBLACIONES

Unidad V: INFERENCIA EN LOS PROCESOS DE BERNOULLI

Unidad VI: INFERENCIA EN LOS PROCESOS DE POISSON

Unidad VII: CONSTRASTES CHI-CUADRADO

Unidad VIII: TEORÍA DEL CONTROL ESTADÍSTICO

Unidad IX: CORRELACIÓN Y REGRESIÓN LINEAL DE DOS VARIABLES

Unidad X: CONCEPTOS BÁSICOS DE REGRESIÓN MÚLTIPLE

Unidad XI: ANÁLISIS DE VARIANZA. INTRODUCCIÓN AL DISEÑO EXPERIMENTAL


Bibliografía

Básica

DEVORE, Jay L. Probabilidad y estadística para ingeniería y ciencias. 4a ed. México, D.F.:
International Thomson, 1998. 712 p. ISBN: 9789687529486

GARCÍA, Roberto Mariano. Inferencia estadística y diseño de experimentos. 1a ed., 2areimpr.


Buenos Aires: EUDEBA, 2008. 734 p. Manuales. ISBN: 9789502312958

WALPOLE, Ronald E., Myers, Raymond H. y Myers, Sharon L. Probabilidad y estadística para
ingenieros. 6a ed. México, D.F.: Pearson Educación, 1999. 739 p. ISBN: 9789701702642

Complementaria

CANAVOS, George C. Probabilidad y estadística aplicaciones y métodos. México, D.F.: McGraw Hill, 1995. 651
p. ISBN: 9684518560

HINÉS, William W. y Montgomery, Douglas C. Probabilidad y estadística para ingeniería y administración. México, D.F.:
Continental, 1987. 670 p. ISBN: 9682606551

MONTGOMERY, Douglas C. Diseño y análisis de experimentos. México, D.F.: Iberoamérica, 1991. 589
p. ISBN:9687270608

NAVIDI, William. Estadística para ingenieros y científicos. 1a ed. Mc Graw Hill, 2006. 868p.
Estadística
“estudio científico de datos que describen una variación natural”
(Sokal y Rohlf 1995)
Para que sirve la estadística?

Para describir un conjunto de datos

Estadística descriptiva

Para estimar parámetros poblacionales

Para probar hipótesis formuladas por sobre una población

Para construir modelos estadísticos y efectuar predicciones

Estadística inferencial
Unidad Experimental: es la menor unidad de la cual se obtiene una
observación independiente

Población: es el conjunto de todos los individuos de interés


• Normalmente es demasiado grande para poder abarcarla toda = censo

Muestra: es un subconjunto representativo de la población y es sobre el que


realmente hacemos las observaciones

Observación o dato: es el valor particular que toma la variable en cada


individuo

Variable: es la característica de interés que es medida en cada uno de los


individuos
Tipos de variables aleatorias

Variables categóricas o cualitativas


Cuando los miembros de la población en estudio son divididos en
categorías, (color, sexo, etc) se está en presencia de una variable
categórica.

Variables numéricas o cuantitativas


Son aquellas que pueden ser expresadas numéricamente mediante un
número que se obtiene simplemente de un conteo o de una medición.

Variables discretas son aquellas que resultan de conteos y por


lo tanto sus posibles valores se pueden expresar mediante
números enteros (0, 1, 2,......).

Variables continuas son aquellas que resultan de mediciones


cuyos posibles valores pueden ser expresados por medio de
números reales.
Definir variables aleatorias que permitan estudiar las siguientes situaciones.
Indicar cómo podrían obtenerse los valores correspondientes a cada una de
ellas.

Indicar la Unidad Experimental; cómo podría extraerse la muestra y cuál


es la población y la población estadística.

Una empresa dedicada a la fabricación de envases de vidrio, cuenta con


un plantel numeroso de operarios, y desea estimar el tiempo medio de
tardanza de los mismos.

Población

v.a.

u.e.
Para una campaña publicitaria en la Provincia de Buenos Aires, se
está interesado en estudiar la relación entre el hábito de fumar (no
fumador, ex fumador o fumador) y el haber tenido infarto de miocardio,
en individuos mayores de 50 años.

Población

v.a.

u.e.
DISTRIBUCIÓN EN PROBABILIDADES

Supongamos que se está estudiando la altura de los alumnos del segundo año de
la carrera de Ingeniería de la UADE.
Población: todos los alumnos del segundo año de la carrera de ingeniería

Muestra aleatoria de tamaño n (n alumnos de entre los N).

Pero si se utiliza toda la población (censo), la distribución de frecuencias relativas


se transformará en la distribución en probabilidades, la que también puede ser
obtenida en base a consideraciones teóricas, y que de hecho se hace cuando no
se tiene un censo.
Distribución Normal

La distribución normal aparece como caso límite de varias distribuciones (en


general cuando el tamaño de la muestra tiende a infinito), lo que permite
utilizarla como aproximación en el cálculo de probabilidades.

X ~ N(μ, σ)
Estandarización

• La variable en estudio es transformada (reescalada) en una variable


normal estándar

• Dada una variable de media µ y desvío estándar σ se denomina


valor estandarizado o valor Z, de una observación x, a la distancia
(con signo) con respecto a la media, medido en desviaciones
estándar, es decir:

• Cuanto mas grande sea el valor de Z, mas lejos estará el valor de la


media.

• Es un valor sin dimensiones, y por lo tanto es una medida útil para


comparar valores de datos de dos poblaciones distintas, para saber
cual de los dos es mas extremo.
La distribución normal estándar
Inferencias estadísticas

Población: es el conjunto de todos los individuos de interés


• Normalmente es demasiado grande para poder abarcarla toda = censo
Muestra: es un subconjunto representativo de la población y es sobre el que
realmente hacemos las observaciones

La inferencia estadística consiste en generalizar las conclusiones extraídas


de una muestra sobra una población

n
Parámetro y estimador

Parámetro: es una cantidad numérica calculada sobre la población

Estimador: es una cantidad numérica calculada sobre la muestra

Parámetro Estimador
µ x
σ s

Pero….. Como generalizamos? Podemos equivocarnos?


Necesitamos manejar probabilidades
INSESGADO
Se dice que un estimador es insesgado si la Media de la distribución del
estimador es igual al parámetro.

CONSISTENTE
Un estimador es consistente si aproxima el valor del parámetro cuanto mayor
es n (tamaño de la muestra).

EFICIENTE
Un estimador es más eficiente que otro si la Varianza de la distribución
muestral del estimador es menor a la del otro estimador.
menor eficiencia menor confianza

SUFICIENTE
Un buen estimador es suficiente cuando resume toda la información relevante
contenida en la muestra.
ej: la media muestral sería un estimador suficiente de la media poblacional,
mientras que la moda no lo sería.
Supongamos

Población 100 individuos N=100


Media de la población es 50 µ = 50
La variabilidad es 10 σ = 10
Si sacamos una muestra de mi población

El promedio de la muestra no coincide con el de la


población.

La diferencia entre el valor muestral y el poblacional es


el error muestral.
EM=43,6-50 =-6,4

Es el costo que se paga por no haber hecho un censo.


Y si sacamos otra muestra de la población???

Los parámetros se calculan sobre los N valores de la


población, por lo tanto no cambian a menos que
cambie la población, son constantes

Los estimadores se calculan sobra n valores


muestrales, por lo tanto varían de muestra en
muestra y por lo tanto son variables aleatorias.
Si repitiéramos este proceso muchas veces, que
comportamiento esperaríamos para todos los
promedios posibles???
Distribución de 𝑋ത
Distribuciones de un estimador

Un estimador es una variable aleatoria!!


Por lo tanto tiene un distribución de probabilidades asociada que
puede ser conocida o desconocida

Las distribuciones de los estimadores pueden ser:


• Aproximaciones mediante técnicas de simulación
• Derivadas matemáticamente

La distribución de un estimador, como de cualquier variable aleatoria, se


puede caracterizar por:
• Tendencia central
• Variabilidad
• Función de probabilidad
Distribución de 𝑋ത

Y si promediamos todas las medias muestrales?

Cual será la variabilidad de las medias muestrales?

El desvío estándar de un estimador se conoce como error estándar y da


idea de la precisión en la estimación
Si la variable aleatoria original X es normal

Si X es una variable aleatoria con distribución normal de media


µ y desvío estándar σ se demuestra que:

𝑋ത − 𝜇𝑋ത
= 𝑍 ∼ 𝑁(0,1)
𝜎𝑋ത
Por lo tanto:

𝑋ത − 𝜇𝑋
= 𝑍 ∼ 𝑁(0,1)
𝜎𝑋 / 𝑛

𝑋ҧ es una variable aleatoria normal


Teorema central del límite

Si de una población con distribución no normal o desconocida


con media µ y desvío estándar σ se extraen infinitas muestras
aleatorias de tamaño n y a cada una se ellas se le calcula el
promedio 𝑋ത se demuestra que:

𝑋ത − 𝜇𝑥
→ 𝑍 ∼ 𝑁(0,1)
𝜎/ 𝑛

Si la variable aleatoria original X NO es normal, igualmente 𝑋ҧ es


una variable aleatoria aproximadamente normal.
Distribución de 𝑋ത
A que llamamos un n “lo suficientemente grande”?

Combinación lineal de variables aleatorias normales es normal

• Si la variable original es normal,entonces 𝑋ത será normal,para cualquier n

Teorema central del límite

• Si la variable original es aproximadamente simétrica y unimodal, entonces 𝑋ത


tenderá a una distribución aproximadamente normal para n relativamente
bajos

• Si la variable original es marcadamente asimétrica, entonces n deberá ser


mayor para que la distribución de 𝑋ത sea normal
Distribución de 𝑋ത cuando σ es conocido
Es útil conocer la distribución de un estimador?

Nos permite calcular probabilidades Es la clave para hacer


inferencias!!!

Ejemplo:

• Se sabe que el peso de una placenta de embarazos normales a término


sigue una distribución normal con promedio de 500g y un desvío de
50g

• Se determinó el peso de la placenta de 50 partos a término de madres


fumadoras elegidas al azar y se obtuvo un promedio de 480g

• Cual es la probabilidad de que la media muestral sea de 480g o menor?


-2,86
Conclusión?
0,00214

-2,86
Que necesitamos para hacer inferencias??
• Una muestra aleatoria

• Observaciones independientes

• Un tamaño de muestra lo suficientemente grande

• Es necesario sacar muchas (infinitas) muestras para poder aplicar el


TCL?

• A mayor n mas cerca del parámetro estará mi estimador?

• A mayor n menor variabilidad de los datos?


Cierta marca de jugos comercializa jugo de ananá con una acidez media
(medida como g de ácido cítrico/100 ml de jugo) de 0.41 g /100 ml, con un
desvío estándar de 0.21 g/100 ml, pero se desconoce su ley de distribución.
Un control rutinario sobre el proceso productivo arroja, sobre un total de
30 determinaciones realizadas, un promedio de 0,5 g de ácido cítrico/100 ml
de jugo.

Calcule la probabilidad de obtener como mínimo dicho valor. ¿Aconsejaría


detener el proceso productivo?

También podría gustarte