Está en la página 1de 13

--Ingeniería en sistemas computacionales.

Trabajo 1.- Investigación de conceptos.

Unidad 5.- Estadística Aplicada (Inferencial)

Alumno: Joel Mena May.


Materia: Probabilidad y estadística.
Grupo: MS2

Fecha: 28.04.2017.
Introducción.

La estadística inferencial es una parte de la estadística que comprende los


métodos y procedimientos que por medio de la inducción determina propiedades
de una población estadística, a partir de una pequeña parte de esta. Su objetivo es
obtener conclusiones útiles para hacer deducciones sobre una totalidad,
basándose en la información numérica.

Se dedica a la generación de los modelos, inferencias y predicciones asociadas a


los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las
observaciones. Se usa para modelar patrones en los datos y extraer inferencias
acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de
respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas
características numéricas (estimación), pronósticos de futuras observaciones,
descripciones de asociación (correlación) o modelamiento de relaciones entre
variables de Sam (análisis de regresión). Otras técnicas de modelamiento incluyen
análisis de varianza, series de tiempo y minería de datos.
Índice.
Nombre y número del tema. Número de página.
1.- La inferencia estadística.
2.- Los 2 problemas que atiende la estadística
inferencial.
3.- Razones del muestreo.
4.- El muestreo aleatorio.
5.- Métodos de muestreo.
6.- Objetivo del muestreo.
7.-
8.-
9.-

1.- La inferencia estadística.

La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la


información empírica proporcionada por una muestra, cual es el comportamiento de una
determinada población con un riesgo de error medible en términos de probabilidad.

Los métodos paramétricos de la inferencia estadística se pueden dividir, básicamente, en dos:


métodos de estimación de parámetros y métodos de contraste de hipótesis. Ambos métodos se
basan en el conocimiento teórico de la distribución de probabilidad del estadístico muestral que se
utiliza como estimador de un parámetro.

La estimación de parámetros consiste en asignar un valor concreto al parámetro o parámetros que


caracterizan la distribución de probabilidad de la población. Cuando se estima un parámetro
poblacional, aunque el estimador que se utiliza posea todas las propiedades deseables, se comete
un error de estimación que es la diferencia entre la estimación y el verdadero valor del parámetro.
El error de estimación es desconocido por lo cual es imposible saber en cada caso cual ha sido la
magnitud o el signo del error; para valorar el grado de precisión asociado con una estimación
puntual se parte de dicha estimación para construir un intervalo de confianza. En síntesis, un
intervalo de confianza está formado por un conjunto de valores numéricos tal que la probabilidad
de que éste contenga al verdadero valor del parámetro puede fijarse tan grande como se quiera.
Esta probabilidad se denomina grado de confianza del intervalo, y la amplitud de éste constituye
una medida del grado de precisión con el que se estima el parámetro.

“Una de las principales contribuciones de la estadística es emplear datos de una muestra


para hacer estimaciones y probar hipótesis acerca de las características de una población
mediante un proceso al que se le conoce como inferencia estadística.”
2.- Los 2 problemas que atiende la estadística inferencial.

Los dos tipos de problemas que atiende la estadística inferencial son: la estimación y el contraste
de hipótesis. En ambos casos se trata de generalizar la información obtenida en una muestra a una
población. Estás técnicas exigen que la muestra sea aleatoria. En la práctica rara vez se dispone
de muestras aleatorias, por lo tanto la situación ambiental es la que se esquematiza en la figura.

Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece la
denominada población de muestreo: población (la mayor parte de las veces no definida con
precisión) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la generalización
está amenazada por dos posibles tipos de errores: error aleatorio que es el que las técnicas
estadísticas permiten cuantificar y críticamente dependiente del tamaño muestral, pero también de
la variabilidad de la variable a estudiar y el error sistemático que tiene que ver con la diferencia
entre la población de muestreo y la población diana y que solo puede ser controlado por el diseño
del estudiado.

3.- Razones del muestreo.

Cuando se estudian las características de una población, existen diversas razones prácticas para
preferir algunas partes o muestras de ella para observar y medir. He aquí algunas razones para
muestrear:

1. Establecer contacto con toda la población requeriría mucho tiempo.


2. El costo de estudiar todos los elementos de una población resultaría prohibitivo.
3. Es imposible verificar de manera física todos los elementos de la población.
4. Algunas pruebas son de naturaleza destructiva.
5. Los resultados de la muestra son adecuados.

4.- El muestreo aleatorio.


Una de las mejores cosas del muestreo aleatorio simple es la facilidad para armar la muestra.
También se considera una forma justa de seleccionar una muestra a partir de una población, ya
que cada miembro tiene igualdad de oportunidades de ser seleccionado.

Otra característica clave del muestreo aleatorio simple es la representatividad de la población. En


teoría, lo único que puede poner en peligro su representatividad es la suerte. Si la muestra no es
representativa de la población, la variación aleatoria es denominada error de muestreo.

5.- Métodos de muestreo.

En repetidas ocasiones se ha enfatizado la necesidad de seleccionar una muestra representativa


de la población. Una muestra que tergiverse la población presentara un error de muestreo y
producirá estimados imprecisos de los parámetros de la población.

Hay dos fuentes básicas de error de muestreo. La primera es sencillamente conocida como “mala
suerte”, debido a la cuestión de suerte, la muestra pudiese tener características no propias de la
población.

Una segunda fuente de error de muestreo es el sesgo muestral. El sesgo resulta de la tendencia a
favorecer la selección de ciertas muestras sobre otras en la recolección de los datos de la muestra.

Tipos de muestreos.

A) Muestreo aleatorio simple.

Garantiza que cada muestra de algún tamaño dado tenga la misma probabilidad de ser
seleccionada.

B) Muestreo sistematico.

Se forma seleccionando cada iésimo ítem de la población. Si se determina que i es igual a 10,
una muestra sistemática consta de cada décima observación en la población. La población
debe ordenarse o enumerarse de forma aleatoria.

La primera selección debe determinarse aleatoriamente, y si i=10 entonces estará en algunas


de las primeras 0 observaciones.

C) Muestreo estratificado.

Primero se divide en grupos o estratos (de ahí el nombre).

La muestra se elige escogiendo en cada estrato un número representativo de individuos. La


elección de los elementos en cada estrato se realiza mediante algún método de muestreo
aleatorio simple o muestreo sistemático.

D) Muestreo por englomerado.


Consiste en dividir toda la población en conglomerados, o grupos, y luego seleccionar una
muestra de estos conglomerados. Todas las observaciones en estos conglomerados
seleccionados están dentro de la muestra.

6.- Objetivo del muestreo.


El método de muestreo del trabajo tiene varias ventajas en comparación con el procedimiento
convencional de estudio de tiempos:
1. No requiere la observación continua del analista durante largos periodos de tiempo.
2. Los tiempos de trabajo de oficina disminuyen.
3. El total de horas-trabajo dedicadas por el analista, en general, son menos.
4. El operario no está sujeto a largos periodos cronometrados.
5. Un solo analista puede estudiar con facilidad las operaciones por brigadas.
La teoría de muestreo de trabajo se basa en la ley fundamental de probabilidad: en un momento
dado, un evento puede estar presente o ausente. La siguiente expresión muestra la probabilidad de
x ocurrencias de un evento en n observaciones:

(p + q)n = 1

Donde: p = probabilidad de una sola ocurrencia,


             q = (1 – p) = probabilidad de una ausencia de ocurrencia,
             n = número de observaciones.

Estimar algún parámetro de una población de N elementos a partir de la información de una


muestra de n elementos.

El muestreo es importante porque:

1) Por lo general no se pueden estudiar a las poblaciones en su totalidad, entonces estaremos


obligados a hacer el muestreo.

2) Es más rápido y económico para conocer los parámetros (características) de interés de la


población.

3) Existe metodología clara y confiable para el muestreo (y tamaño de muestra)

Por supuesto que nunca se puede calcular realmente el tamaño del error de muestro debido a que
la media poblacional sigue siendo desconocida. Sin embargo, se debe ser consciente de que es
más probable que ocurra algún error de muestreo.

7.- ¿Se puede esperar, que al analizar una muestra de una población, un
estadístico pudiera ser igual al parámetro poblacional correspondiente?

Primero hay que definir sus características de cada uno:

En estadística un estadístico (muestral) es una medida cuantitativa, derivada de un conjunto de


datos de una muestra, con el objetivo de estimar o inferir características de una población o modelo
estadístico. 
Los parámetros poblacionales caracterizan y describen las poblaciones. Son equivalentes a los
estadísticos en las muestras. Un estadístico es una función de la muestra, esto, depende sola y
exclusivamente de nuestra muestra.

Por lo que la diferencia es que:

Varía y está sometido al error (variabilidad) del muestreo. Los parámetros no varían, son
constantes y además desconocidos. Contienen las características de la población.

Por lo que ambos no son iguales.

8.- Teorema del límite central.


El teorema del límite central o teorema central del límite indica que, en condiciones muy generales,
si Sn es la suma de n variables aleatorias independientes y de varianza no nula pero finita, entonces
la función de distribución de Sn «se aproxima bien» a una distribución normal (también
llamada distribución gaussiana, curva de Gauss o campana de Gauss). Así pues, el teorema
asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes es lo
suficientemente grande.

9.- Distribuciones de muestreo.


La inferencial estadística tiene que ver con la toma de decisiones sobre una población, con base en
la información contenida en una muestra aleatoria de esta. Por ejemplo supóngase que se tiene
interés en el volumen promedio de un envase de refresco. Se quiere que el volumen promedio de
la población sea 300 ml. Un ingeniero toma una muestra aleatoria de 25 envases y calcula el
volumen promedio en la muestra, el cual resulta ser ẋ= 298 ml. Es probable que el ingeniero decida
que la media de la población es ų=300 ml, a pesar de que la media de la muestra es 298 ml.
Incluso si la media verdadera de la población es ų=300 ml.
Una distribución de muestreo describe la probabilidad de obtener cada valor posible de un
estadístico de una muestra aleatoria de una población, en otras palabras, qué proporción de todas
las muestras aleatorias de ese tamaño ofrecerá ese valor. Supongamos que usted mide el peso de
llenado de una muestra aleatoria de 10 cajas de cereal que salen de la máquina de llenado y
calcula una media de 370 g. Junto con la población y el tamaño de la muestra, la distribución de
muestreo describe la probabilidad de obtener este valor o cualquier otro para el peso medio de
llenado.

Si usted conoce la población, puede determinar la distribución de muestreo. Sin embargo, puede
obtener información útil sobre la distribución de muestreo sin conocer la población. Por ejemplo, si
no conoce la población, podría decir que existe un 85% de certeza de que la media de la muestra
esté dentro de un cierto número de desviaciones estándar de la media de la población. También
podría decir que, si las medias de dos poblaciones son iguales, la diferencia entre las medias de
las muestras debería ubicarse entre ciertos valores.

10.- Distribuciones de muestreo de medias.


Considere la determinación de la distribución de muestreo de la media muestral ẋ. Supóngase que
se toma una muestra aleatoria de tamaño n de una población normal con media ų y varianza ō2.
Cada observación en esta muestra (por ejemplo X1, X2, etc…) es una variable aleatoria distribuida
normal e independientemente, con media ų y varianza o2. Entonces por la propiedad reproductiva
de la distribución normal.

Hasta ahora estábamos admitiendo que se conoce la varianza de la población de la que se extrae
la muestra, pero esta no ser ‘a la situación general, sino que la mayoría de las veces no
conocemos la varianza de la población, entonces como se dispone de una muestra aleatoria de
tamaño n, podemos, calcular la varianza muestral S 2 y utilizarla en lugar de la varianza
poblacional σ 2 desconocida, pues S 2 es, como veremos después, un buen estimador de σ 2.
Cuando σ 2 es desconocido, la distribución muestral de Z = X¯−µ σ/√ n depende del tamaño de la
muestra.
11.- Distribuciones de muestreo para medias, o2 desconocida, la distribución T
de Student.
Cuando se calcula un intervalo de confianza para la media poblacional, suele no contarse con una
buena estimación de la desviación estándar poblacional. En tales casos se usa la misma muestra
para estimar μ y σ. Esta situación es el caso que se conoce como σ desconocida. Cuando se usa
s para estimar σ, el margen de error y la estimación por intervalo de la media poblacional se basan
en una distribución de probabilidad conocida como distribución t. Aunque la elaboración
matemática de la distribución t parte de la suposición de que la población de la que se muestrea
tiene una distribución normal, las investigaciones han demostrado que la distribución t se aplica en
muchas situaciones en que la población se desvía significantemente de una población normal.
Más adelante, en esta misma sección, se proporcionan lineamientos para usar la distribución t
cuando la población no está distribuida normalmente.
La distribución t es una familia de distribuciones de probabilidad similares; cada distribución
t depende de un parámetro conocido como grados de libertad. La distribución t para un grado de
libertad es única, como lo es la distribución t para dos grados de libertad, para tres grados de
libertad, etc. A medida que el número de grados de libertad aumenta, la diferencia entre la
distribución t y la distribución normal estándar se va reduciendo. En la figura 8.4 se muestran las
distribuciones t para 10 y 20 grados de libertad y su relación con la distribución de probabilidad
normal estándar. Observe que una distribución t para más grados de libertad exhibe menos
variabilidad y un mayor parecido con la distribución normal estándar, también que la media de toda
distribución t es cero.
Para indicar el área en la cola superior de la distribución t, a la t se le pone un subíndice. Por
ejemplo, así como se usó z0.025 para indicar el valor de z que deja en la cola superior de la
distribución normal estándar un área de 0.025, se usará t0.025 para indicar el valor de t que deja
en la cola superior de la distribución t un área de 0.025. En general se usará la notación tα/2 para
representar el valor de t que deja un área de α/2 en la cola superior de la distribución t. Véase
figura 8.5. La tabla 2 del apéndice B contiene una tabla con la distribución t. En la tabla 8.2 se
muestra parte de esa tabla. Cada renglón de la tabla corresponde a una distribución t distinta con
los grados de libertad que se indican. Por ejemplo, en la distribución t con 9 grados de libertad,
t0.025 _ 2.262. De manera similar en la distribución t con 60 grados de libertad, t0.025 _ 2.000. A
medida que los grados de libertad aumentan, t0.025 se aproxima a z0.025 _ 1.96. En efecto, el
valor z de la distribución normal estándar se encuentra en el renglón correspondiente a infinitos
grados de libertad (cuyo encabezado es _) de la tabla de las distribuciones t. Si los grados de
libertad son más de 100, se puede usar el renglón correspondiente a infinitos grados de libertad
para aproximar el verdadero valor de t; en otras palabras, para más de 100 grados de libertad, el
valor z normal estándar proporciona una buena aproximación al valor t.

Características:
Margen de error en estimación por intervalo
En la sección 8.1 se mostró que la estimación por intervalo de la media poblacional cuando σ es
conocida es Para calcular una estimación por intervalo para μ en el caso en que no se conoce σ se
usa la desviación estándar muestral s para estimar σ, y zα/2 se sustituye por el valor ta/2 de la
distribución t.

El estadístico de prueba:
ESTIMACIÓN POR INTERVALO DE LA MEDIA POBLACIONAL: σ DESCONOCIDA

s
(8.2)
x¯ ± tα/2 Vn

donde s es la desviación estándar muestral, (1 - α) es el coeficiente de confianza y tα/2 es


el valor de t que proporciona un área de α/2 en la cola superior de la distribución t para
n - 1 grados de libertad.

Uso de la tabla:

Área o
probabilidad

0t

Grados Área en la cola superior


de libertad 0.20 0.10 0.05 0.025 0.01 0.005
1 1.376 3.078 6.314 12.706 31.821 63.656
2 1.061 1.886 2.920 4.303 6.965 9.925
3 0.978 1.638 2.353 3.182 4.541 5.841
4 0.941 1.533 2.132 2.776 3.747 4.604
5 0.920 1.476 2.015 2.571 3.365 4.032
6 0.906 1.440 1.943 2.447 3.143 3.707
7 0.896 1.415 1.895 2.365 2.998 3.499
8 0.889 1.397 1.860 2.306 2.896 3.355
9 0.883 1.383 1.833 2.262 2.821 3.250

60 0.848 1.296 1.671 2.000 2.390 2.660


61 0.848 1.296 1.670 2.000 2.389 2.659
62 0.847 1.295 1.670 1.999 2.388 2.657
63 0.847 1.295 1.669 1.998 2.387 2.656
64 0.847 1.295 1.669 1.998 2.386 2.655
65 0.847 1.295 1.669 1.997 2.385 2.654
66 0.847 1.295 1.668 1.997 2.384 2.652
67 0.847 1.294 1.668 1.996 2.383 2.651
68 0.847 1.294 1.668 1.995 2.382 2.650
69 0.847 1.294 1.667 1.995 2.382 2.649

90 0.846 1.291 1.662 1.987 2.368 2.632


91 0.846 1.291 1.662 1.986 2.368 2.631
92 0.846 1.291 1.662 1.986 2.368 2.630
93 0.846 1.291 1.661 1.986 2.367 2.630
94 0.845 1.291 1.661 1.986 2.367 2.629
95 0.845 1.291 1.661 1.985 2.366 2.629
96 0.845 1.290 1.661 1.985 2.366 2.628
97 0.845 1.290 1.661 1.985 2.365 2.627
98 0.845 1.290 1.661 1.984 2.365 2.627
99 0.845 1.290 1.660 1.984 2.364 2.626
100 0.845 1.290 1.660 1.984 2.364 2.626
00 0.842 1.282 1.645 1.960 2.326 2.576

12.- Distribución muestral para proposiciones.


Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que
queremos investigar la proporción de artículos defectuosos o la proporción de personas con
teléfono, etc. en la muestra. La distribución muestral de proporciones es la adecuada para dar
respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución
muestral de medias, a excepción de que al extraer las muestras de la población se calcula el
estadístico proporción (p=x/n en donde “x” es el número de éxitos u observaciones de interés y “n”
el tamaño de la muestra) en lugar de la media de cada muestra que era lo que calculamos antes.

Aproximación de la distancia normal a binomial.

La distribución muestral de proporciones está estrechamente relacionada con la


distribución binomial; una distribución binomial es una distribución del total de éxitos en
las muestras, mientras que una distribución de proporciones es la distribución de un
promedio (media) de los éxitos. Como consecuencia de esta relación, las afirmaciones
probabilísticas referentes a la proporción muestral pueden evaluarse usando la
aproximación normal a la binomial, siempre que: np ≥ 5 y n (1- p) ≥ 5 Una distribución
binomial es, por ejemplo, si echamos una moneda al aire y observamos el lado que cae.
Está claro que sólo hay dos posibilidades. Ahora bien, la probabilidad de que caiga la
moneda de cualquier lado es la misma siempre que ésta no esté cargada. Como cada caso
tiene igual probabilidad de ocurrir, y siendo la suma de probabilidades siempre igual a 1,
entonces la probabilidad de que caiga la moneda de algún lado es 0.5. Si realizamos el
experimento n veces y queremos saber la probabilidad d de que salga águila o sol x veces,
entonces usamos una distribución binomial.

El estadístico de prueba

ESTIMACIÓN POR INTERVALO DE UNA PROPORCIÓN POBLACIONAL


p¯ ± zα/2


p¯(1 p¯)
(8.6)
n

donde 1 α es el coeficiente de confianza y zα/2 es el valor de z que deja un área α/2 en


la cola superior de la distribución normal estándar.

13.- La estimación estadística.


14.- I. deC. Para la media de una población (ų) varianza o2 conocida. ¿Cuándo
se aplica?, ¿Cuál es el modelo?

15.- Determinación del tamaño de la muestra para medias.

16.- I. de C. Para la media de una población ( ų) varianza o2 desconocida.


¿Cuándo se aplica?, ¿Cuál es el modelo?

17.- I. de C. Para la proposición (pi) de una población ¿Cuándo se aplica?, ¿Cu ál


es el modelo?

18.- Determinación del tamaño de la muestra para proposiciones.

19.- La prueba de hipótesis, Introducción.


Se puede estimar un parámetro a partir de los datos contenidos en una muestra. Puede encontrase
ya sea un solo número (estimador puntual) o un intervalo de valores posibles (intervalo de
confianza). Sin embargo, muchos problemas de ingeniería, ciencias y administración requieren que
se tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro. Esta
proposición obtiene el nombre de hipótesis y el procedimiento de toma de decisión sobre la
hipótesis se conoce como prueba de hipótesis. Este es uno de los aspectos más útiles de la
inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o
experimentos en el mundo de la ingeniería, pueden formularse como problemas de prueba de
hipótesis. Es conveniente considerar la prueba de hipótesis estadísticos como la etapa de análisis
de datos de un experimento comparativo.

20.- Definición de hipótesis estadística.


Es una proposición sobre los parámetros de una o más poblaciones.

21.- Tipos de hipótesis.

22.- Construcción de hipótesis (agregar ejemplos).

23.- Tipos de pruebas.

24.- El estadístico de prueba.


25.- Tipos de errores.
Error tipo 1 = se define como el rechazo de la hipótesis nula H0 cuando esta es verdadera.

Error tipo 2 = se define como la aceptación de la hipótesis nula cuando ésta es falsa.

26.- Procedimiento para la P. de H.

27.- P. de H. para una media con o2 conocida.

28.- P. de H. para una media con o2 desconocida.

29.- P. de H. para una proporción (pi).

También podría gustarte