Está en la página 1de 17

INSTITUTO TECNOLÓGICO SUPERIOR DE

ACAYUCAN

MATERIA: ESTADÍSTICA INFERENCIAL 1

INGENIERÍA INDUSTRIAL

ALUMNO: JOAHAN GONZÁLEZ BAUTISTA

FECHA DE ENTREGA: VIERNES 02 DE OCTUBRE DEL 2020

DOCENTE: DIANA CARMEN COLORADO MARTÍNEZ


UNIDAD 1

MATRICULA: 190B0240

GRUPO: 204-D

LUGAR: MECAYAPAN
DISTRIBUCION FUNDAMENTAL DEL MUESTREO
1.1INTRODUCCION A LA ESTADISTICA INFERENCIAL

1.2MUESTREO: INSTRODUCCION AL MUESTREO Y TIPO DE MUESTREO

1.3TEOREMA DEL LIMITE CENTRAL

1.4DISTRIBUCION FUNDAMENTAL DEL MUESTREO

1.4.1DISTRIBUCION FUNDAMENTAL DE LA MEDIA

1.4.2DISTRIBUCION MUESTRAL DE LA DIFERENCIAS DE MEDIAS

1.4.3DISTRIBUCION PROPORCIONAL DE LA DISTRIBUCION

1.4.4DISTRIBUCION MUESTRAL DE LA DIFERENCIA DE PROPORCIONES

1.4.5 DISTRIBUCION T-STUDENT

1.4.6 DISTRIBUCION MUESTRAL DE LA VARIANZA

1.4.7 DISTRIBUCION MUESTRAL DE LA RELACION DE LA VARIANZA

1.1INTRODUCCION A LA ESTADISTICA INFERENCIAL


ESTADÍSTICA
La Estadística es una ciencia formal que estudia la recolección, análisis e
interpretación de datos de una muestra representativa, ya sea para ayudar en la
toma de decisiones o para explicar condiciones regulares o irregulares de algún
fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin
embargo, la estadística es más que eso, es decir, es el vehículo que permite llevar
a cabo el proceso relacionado con la investigación científica.
La estadística inferencial: se dedica a la generación de los modelos, inferencias y
predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la
aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y
extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden
tomar la forma de respuestas a preguntas si/no (prueba de hipótesis),
estimaciones de unas características numéricas (estimación), pronósticos de
futuras observaciones, descripciones de asociación (correlación) o modelamiento
de relaciones entre variables (análisis de regresión). Otras técnicas de
modelamiento incluyen anova, series de tiempo y minería de datos.

IMPORTANCIA DE LA ESTADISTICA INFERENCIAL


La Estadística Inferencial se centra en tomar una pequeña muestra representativa
de la población y a partir de ésta, infiere que el resto de la población tiene el
mismo comportamiento.
En caso de que no sea factible realizar un estudio completo por cuestiones de
tiempo, recursos o costo, se puede calcular un tamaño de muestra para medir solo
algunos elementos de la población, posteriormente se infiere que el resto de la
población se comporta igual que la muestra tomada.
El hecho es que la ciencia se basa en todo aquello que se pueda constatar
empíricamente, es medible, cuantificable y se puede hacer acopio de la
información para armar cuadros estadísticos... una vez con la información
acumulada resultado de diversos experimentos verificables, se puede inferir a
partir de la información estadística..... en las ciencias sociales ocurre algo
semejante en tanto es con los datos que dan las encuestas que se puede armar o
articular la información estadística e inferir resultados a partir de una muestra que
deberá ser estadísticamente representativa para que resulte una verdadera
inferencia.

Importancia de la toma de muestras.


Es de gran importancia ya que con un muestreo de toda la población se puede
examinar y sacar conclusiones en base a una pequeña parte de la misma, dando
por sentado que los resultados obtenidos en la muestra es de hecho
representativa de toda la población, una ventaja muy grande es que es mucho
más sencillo trabajar con una pequeña parte de un todo que con su totalidad.
Además, en ocasiones, el muestreo puede ser más exacto que el estudio de toda
la población porque el manejo de un menor número de datos provoca también
menos errores en su manipulación.

Podemos definir su importancia en tres puntos:

1) Por lo general no se pueden estudiar a las poblaciones en su totalidad,


entonces estaremos obligados a hacer el muestreo.

2) Es más rápido y económico para conocer los parámetros (características) de


interés de la población.

3) Existe metodología clara y confiable para el muestreo (y tamaño de muestra).

1.2MUESTREO: INSTRODUCCION AL MUESTREO Y TIPO


DE MUESTREO
Se denomina muestreo al proceso por el que generamos las muestras. Una
muestra es una parte (un subconjunto) de la población, y se desea que la muestra
sea lo más representativa posible de la población de la que procede. Sin embargo,
por muy cuidadosa que sea la selección de la muestra difícilmente será una
representación exacta de la población. Esto significa que su tendencia central,
variabilidad, etc., aproximarán las de la población, pero habrá cierta diferencia,
que interesa sea lo menor posible. Un concepto clave de muestreo es el de
representatividad: Los procedimientos de muestreo tienen por objeto generar
muestras lo más representativas posible de las poblaciones dados los objetivos de
la investigación y las circunstancias que afectan al muestreo.

Desde un punto de vista aplicado, se denomina muestreo el proceso de selección


de la muestra o muestras a utilizar para la investigación. Esto supone generar una
o pocas muestras. Actualmente es de interés la selección de muestras para la
simulación informática de los procesos de muestreo, particularmente para la
obtención de distribuciones muestrales. En estos casos el número de muestras
generadas puede ser muy grande (10.000, 80.000, o más) y el procedimiento de
muestreo se realiza informáticamente y con procedimientos específicos.
Desde un punto de vista teórico, el concepto de muestreo es fundamental para la
Inferencia Estadística. El hecho de que las muestras no sean exactamente
representativas de las poblaciones significa que las inferencias presentan cierto
margen de incertidumbre. Para cuantificarlo y definir técnicas inferenciales es
necesario conocer cómo se comportan los estadísticos obtenidos en las muestras,
esto es, cómo son las distribuciones muestrales de los estadísticos habitualmente
utilizados para la inferencia.

Las muestras singulares generadas para investigación con sujetos suelen


utilizarse para obtener algunos estadísticos (Media, proporción, cuasivarianza,
etc.) con los que se realiza el proceso de inferencia. En cambio, las muestras
simuladas por ordenador suelen ser utilizadas para obtener distribuciones
muestrales y realizar inferencia. Esto es de interés cuando se dan circunstancias
especiales que no aconsejan utilizar los procedimientos habituales. Las
distribuciones muestrales son las distribuciones de estadísticos de muestras que
pertenecen a la misma población. Por ejemplo, la distribución muestral de la Media
es la distribución de las Medias de muestras de un mismo tamaño extraídas de la
misma población.

1. Muestreo Aletorio Simple

Es la manera más común de muestreo y básicamente consiste en seleccionar


casualmente cada elemento del conjunto. El criterio de selección de cada objeto
tiene las mismas posibilidades de ser incluído en la muestra.

2. Muestreo Aleatorio Estratificado

Con este método, el objeto de estudio se subdivide en grupos, a partir de las


característas que comparten todos los miembros, y de cada subconjunto se eligen
al azar los elementos. Así se garantiza que los grupos estén representados en el
estudio.

3. Muestreo Sistemático Aleatorio

Este método puede ser complicado en algunos casos, pero se utiliza


principalmente en poblaciones o conjuntos muy grandes, o cuando el fenómeno se
extiende en el tiempo.

Básicamente consiste en definir de manera aletoria los criterios para seleccionar


los elementos de un conjunto.

4. Muestreo por conglomerados


Otro método de muestreo es por conglomerados. En este caso se subdivide la
población en subgrupos por clases o características en común, generalmente
límites geográficos y se eligen de forma aletoria los subgrupos que serán parte de
la muestra, de los cuales se analizarán todos los elementos que los conforman.

5. Muestreo por etapas múltiples

Este último es una variable del muestreo por conglomerados, pues la población se
subdivide en grupos y los grupos para la muestra se eligen al azar, sin embargo en
lugar de analizar todos los elementos se hace un muestreo aleatorio simple dentro
de cada grupo.

1.3TEOREMA DEL LIMITE CENTRAL


El teorema del límite central es un teorema fundamental de probabilidad y
estadística. El teorema describe la distribución de la media de una muestra
aleatoria proveniente de una población con varianza finita. Cuando el tamaño de la
muestra es lo suficientemente grande, la distribución de las medias sigue
aproximadamente una distribución normal. El teorema se aplica
independientemente de la forma de la distribución de la población. Muchos
procedimientos estadísticos comunes requieren que los datos sean
aproximadamente normales. El teorema de límite central le permite aplicar estos
procedimientos útiles a poblaciones que son considerablemente no normales. El
tamaño que debe tener la muestra depende de la forma de la distribución original.
Si la distribución de la población es simétrica, un tamaño de muestra de 5 podría
producir una aproximación adecuada. Si la distribución de la población es
considerablemente asimétrica, es necesario un tamaño de muestra más grande.
Por ejemplo, la distribución de la media puede ser aproximadamente normal si el
tamaño de la muestra es mayor que 50. Las siguientes gráficas muestran ejemplos
de cómo la distribución afecta el tamaño de la muestra que se necesita.
Distribución uniforme

Medias de las muestras

Muestras de una población uniforme

Una población que sigue una distribución uniforme es simétrica, pero


marcadamente no normal, como lo demuestra el primer histograma. Sin embargo,
la distribución de las medias de 1000 muestras de tamaño 5 de esta población es
aproximadamente normal debido al teorema del límite central, como lo demuestra
el segundo histograma. Este histograma de las medias de las muestras incluye
una curva normal superpuesta para ilustrar esta normalidad.

Distribución exponencial
Medias de las muestras

Muestras de una población exponencial

Una población que sigue una distribución exponencial es asimétrica y no normal,


como lo demuestra el primer histograma. Sin embargo, la distribución de las
medias de 1000 muestras de tamaño 50 de esta población es aproximadamente
normal debido al teorema del límite central, como lo demuestra el segundo
histograma. Este histograma de las medias de las muestras incluye una curva
normal superpuesta para ilustrar esta normalidad.

1.4DISTRIBUCION FUNDAMENTAL DEL MUESTREO


En estadística, la distribución muestral es lo que resulta de considerar todas las
muestras posibles que pueden ser tomadas de una población. Su estudio permite
calcular la probabilidad que se tiene, dada una sola muestra, de acercarse al
parámetro de la población. Mediante la distribución muestral se puede estimar el
error para un tamaño de muestra dado.

La distribución de muestreo de una estadística es la distribución de esa


estadística, considerada como una variable aleatoria, cuando se deriva de una
muestra aleatoria de tamaño n. Se puede considerar como la distribución de la
estadística para todas las muestras posibles de la misma población de un tamaño
de muestra dado. La distribución del muestreo depende de la distribución
subyacente de la población, la estadística que se considera, el procedimiento de
muestreo empleado y el tamaño de muestra utilizado. A menudo existe un
considerable interés en si la distribución muestral puede aproximarse mediante
una distribución asintótica, que corresponde al caso límite ya que el número de
muestras aleatorias de tamaño finito, tomadas de una población infinita y utilizadas
para producir la distribución, tiende a infinito. Por ejemplo, considere una
población normal con una media {\displaystyle \mu

} varianza {\displaystyle \sigma ^{2}} . Supongamos que repetidamente tomamos


muestras de un tamaño dado de esta población y calculamos la media

aritmética {\displaystyle \scriptstyle {\bar {x}}} para cada muestra: esta estadística
se denomina media muestral. La distribución de estos medios, o promedios, se
denomina "distribución muestral de la media muestral". Esta distribución es normal
{\displaystyle \scriptstyle {\mathcal {N}}(\mu ,\,\sigma ^{2}/n)} (n es el tamaño de la
muestra) ya que la población subyacente es normal, aunque las distribuciones de
muestreo también pueden estar a menudo cerca de lo normal, incluso cuando la
distribución de la población no lo es (véase el teorema del límite central ). Una
alternativa a la media muestral es la mediana de la muestra. Cuando se calcula a
partir de la misma población, tiene una distribución de muestreo diferente a la de la
media y generalmente no es normal (pero puede estar cerca para tamaños de
muestra grandes).
La media de una muestra de una población que tiene una distribución normal es
un ejemplo de una estadística simple tomada de una de las poblaciones
estadísticas más simples. Para otras estadísticas y otras poblaciones, las fórmulas
son más complicadas y, a menudo, no existen en forma cerrada . En tales casos,
las distribuciones de muestreo pueden aproximarse a través de simulaciones de
Monte Carlo1[p. 2] , métodos bootstrap o teoría de distribución asintótica.

1.4.1DISTRIBUCION FUNDAMENTAL DE LA MEDIA


Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema del
límite central) que la fdp de la media muestral es también normal con media m y
varianza s2/n. Esto es exacto para poblaciones normales y aproximado (buena
aproximación con n>30) para poblaciones cualesquiera. Es decir es el error
típico, o error estándar de la media.

¿Cómo usamos esto en nuestro problema de estimación?


1º problema: No hay tablas para cualquier normal, sólo para la normal m=0 y s=1
(la llamada z); pero haciendo la transformación (llamada tipificación)
una normal de media m y desviación s se transforma en una z.

Llamando za al valor de una variable


normal tipificada que deja a su
derecha un área bajo la curva de a,
es decir, que la probabilidad que la
variable sea mayor que ese valor es
a (estos son los valores que ofrece la
tabla de la normal)

podremos construir intervalos de la


forma

para los que la probabilidad es 1 - a.

Teniendo en cuenta la simetría de la normal y manipulando algebraícamente

que también se puede escribir

o, haciendo énfasis en que es el error estándar de la media,

Recuérdese que la probabilidad de que m esté en este intervalo es 1 - a. A un


intervalo de este tipo se le denomina intervalo de confianza con un nivel de
confianza del 100(1 - a)%, o nivel de significación de 100a%. El nivel de confianza
habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96. Al valor se le denomina
estimación puntual y se dice que es un estimador de m.

Ejemplo: Si de una población normal con varianza 4 se extrae una muestra

aleatoria de tamaño 20 en la que se calcula se puede decir que m tiene


una
probabilidad de 0,95 de estar comprendida en el intervalo

que sería el intervalo de confianza al 95% para m

En general esto es poco útil, en los casos en que no se conoce m tampoco suele
conocerse s2; en el caso más realista de s2 desconocida los intervalos de
confianza se construyen con la t de Student (otra fdp continua para la que hay
tablas) en lugar de la z.

o, haciendo énfasis en que es el error estándar estimado de la media,

Este manera de construir los intervalos de confianza sólo es válido si la variable es


normal. Cuando n es grande (>30) se puede sustituir t por z sin mucho error.

1.4.2DISTRIBUCION MUESTRAL DE LA DIFERENCIAS DE


MEDIAS

Suponga que se tienen dos poblaciones distintas, la primera con media 1 y


desviación estándar 1, y la segunda con media 2 y desviación estándar 2.
Más aún, se elige una muestra aleatoria de tamaño n1 de la primera población y
una muestra independiente aleatoria de tamaño n2 de la segunda población; se
calcula la media muestral para cada muestra y la diferencia entre dichas medias.
La colección de todas esas diferencias se llama distribución muestral de las
diferencias entre medias o la distribución muestral del estadístico

30 y n 2 30 . Si las
La distribución es aproximadamente normal para n1 poblaciones son normales,
entonces la distribución muestral de medias es normal sin importar los tamaños de
las muestras.

En ejercicios anteriores se había demostrado que y que , por


lo
que
y que

no es
difícil deducir que .

La fórmula que se utilizará para el calculo de probabilidad del estadístico de


diferencia de medias es:

Ejemplo:
En un estudio para comparar los pesos promedio de niños y niñas de sexto grado
en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25
niñas. Se sabe que tanto para niños como para niñas los pesos siguen una
distribución normal. El promedio de los pesos de todos los niños de sexto grado de
esa escuela es de 100 libras y su desviación estándar es de 14.142, mientras que
el promedio de los pesos de todas las niñas del sexto grado de esa escuela es de
85 libras y su desviación estándar es de 12.247 libras. Si representa el
promedio de los pesos de 20 niños y es el promedio de los pesos de una
muestra de 25 niñas, encuentre la probabilidad de que el promedio de los pesos
de los 20 niños sea al menos 20 libras más grande que el de las 25 niñas.

Solución:

Datos:

1 = 100 libras

2 = 85 libras

1 = 14.142 libras

2 = 12.247 libras n1

= 20 niños

n2 = 25 niñas

=?

Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de


niños sea al menos 20 libras más grande que el de la muestra de las niñas es
0.1056.
1.4.3DISTRIBUCION PROPORCIONAL DE LA
DISTRIBUCION
Cuando se requiere investigar la proporción de algún atributo en una muestra
(variables cualitativas), la distribución muestral de proporciones es la adecuada
para dar respuesta a dichas situaciones. Esta distribución se genera de igual
manera que la distribución muestral de medias, a excepción de que al extraer las
muestras de la población, se calcula el estadístico proporción (p=x/n en donde "x"
es el número de éxitos u observaciones de interés y "n" el tamaño de la muestra),
en lugar del estadístico promedio.

1.4.4DISTRIBUCION MUESTRAL DE LA DIFERENCIA DE


PROPORCIONES

El estadístico de prueba que permite contrastar frente a a partir de dos muestras


aleatorias e independientes es siendo p la estimación de obtenida del total de
observaciones.

Si se consideran las proporciones como medias y se aplica la prueba t utilizada


para comparar medias poblacionales los resultados no son fiables ya que la
estimación del error típico que realiza el programa no coincide con la del
estadístico de prueba. Para resolver el problema con el programa SPSS se deberá
cruzar la variable analizada con la que define los grupos (obtener la tabla de
contingencia) y realizar el contraste de independencia Chi-cuadrado.
El estadístico de prueba Chi-cuadrado se define: y presenta una distribución
Chicuadrado con (I-1)(J-1) grados de libertad. Las Eij se calculan multiplicando las
frecuencias marginales y dividendo el producto por n. Estas Eij son estimaciones
de las frecuencias absolutas que cabría esperar en cada casilla bajo el supuesto
de que la proporción de éxitos es la obtenida a partir del total de observaciones
muestrales sin considerar diferencias entre los dos grupos.

La secuencia es:

Analizar

Estadísticos Descriptivos

Tablas de contingencia

En el cuadro de diálogo se indica la variable que se quiere contrastar (filas), la


variable que define los dos grupos (columnas) y se selecciona la opción
Chicuadrado en Estadísticos.

EJEMPLO
Con referencia a la encuesta Enctrans.sav se quiere comprobar si la proporción de
alumnos con vehículo difiere significativamente entre los grupos definidos según el
género.
La hipótesis nula del contraste es ; siendo la proporción poblacional de hombres
con vehículo y la proporción poblacional de mujeres con vehículo.
Con la secuencia Analizar > Estadísticos Descriptivos > Tablas de contingencia se
accede al cuadro de diálogo donde se indica que la variable a contrastar es
Vehículo y que la variable de agrupación es el Género, y se selecciona la opción
Chicuadrado en Estadísticos. Al aceptar se obtiene el siguiente cuadro de
resultados. Si es cierto que la proporción de propietarios de vehículo es la misma
en los dos grupos, , la estimación de es la proporción de propietarios de vehículo
para el total de alumnos de la muestra, es decir, 39/114=0,3421. La frecuencia
esperada de hombres con vehículo se obtendrá multiplicando esta proporción por
el total de hombres en la muestra, o sea, 0,3421·54=18,5; y de la misma forma se
obtendrá la frecuencia esperada de mujeres con vehículo: 0,3421·60=20,5 (veáse
que estas frecuencias esperadas coinciden con las que cabría esperar en el caso
de que las variables Género y Vehículo fueran independientes).

El estadístico Chi-cuadrado toma el valor 0,998 y el nivel de significación crítico es


0,318, por lo tanto no se rechaza la hipótesis nula para los niveles de significación
habituales y se puede aceptar que no hay diferencia entre la proporción de
hombres y mujeres propietarios de vehículos.

1.4.5 DISTRIBUCION T-STUDENT


En probabilidad y estadística, la distribución t (de Student) es una distribución de
probabilidad que surge del problema de estimar la media de una población
normalmente distribuida cuando el tamaño de la muestra es pequeño.

Aparece de manera natural al realizar la prueba t de Student para la determinación


de las diferencias entre dos varianzas muestrales y para la construcción del
intervalo de confianza para la diferencia entre las partes de dos poblaciones
cuando se desconoce la desviación típica de una población y esta debe ser
estimada a partir de los datos de una muestra.

Fue desarrollada por William Sealy Gosset, bajo el seudónimo Student.

1.4.6 DISTRIBUCION MUESTRAL DE LA VARIANZA


Si se extrae una muestra aleatoria de tamaño n de una población normal con
media µ yvarianzaσ2, y se calcula la varianza muestral, se obtiene el valor del
estadístico s2 que se utilizará para conocer la σ2, mediante una variable aleatoria
chi cuadrada con “n-1” grados de libertad. Formalizando con el siguiente teorema:
sis2es la varianza de una muestra aleatoria de tamaño “n” que se toma de una
población normal que tiene varianzaσ2, entonces el estadístico:

Tiene una distribución chi cuadrado con v=n -1, grados de libertad.

Consulte un ejemplo de distribución de varianzas muestrales.

1.4.7 DISTRIBUCION MUESTRAL DE LA RELACION DE LA


VARIANZA
En algunos problemas deseamos decidir si dos muestras de tamaños m y n
respectivamente, cuyas varianzas medidas son s21 y s22, provienen o no de la
misma población normal. En este caso utilizamos el estadístico...
.

Donde σ21 y σ22 son las varianzas de las dos poblaciones normales de donde se
extraen las muestras. Si H0 denota la hipótesis nula de que no hay diferencia entre
las varianzas poblacionales, es decir σ21 = σ22.

También podría gustarte