Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA
INFERENCIAL
C.I.V.- 29.894.467
1
ÍNDICE
Pág.
Introducción…………………………………………………………… 3
Distribución T de Student…………………………………………….. 10
El error estándar………………………………………………………. 19
Conclusión……………………………………………………………. 21
Referentes bibliográficos……………………………………………… 22
2
INTRODUCCIÓN
3
La teoría del muestreo como base de la estadística inferencial.
Diseño experimental.
Inferencia bayesiana.
Métodos no paramétricos.
4
Planteamiento del problema: un problema de inferencia estadística suele iniciarse
con una fijación de objetivos o algunas preguntas del tipo:
5
Ahora bien, al referirnos al Muestreo se debe considerar que una población es el
conjunto de individuos sobre los que hacemos cierto estudio, y que una muestra es un
subconjunto de la población. Resulta entonces evidente que los resultados de una
determinada encuesta tendrán un mayor grado de fiabilidad si dicha encuesta se realiza
sobre la población completa. Sin embargo, en la mayoría de las ocasiones esto no es
posible, debido a múltiples razones, como por ejemplo:
Por tanto, es habitual que se tenga que manejar con muestras, de modo que es
importante saber elegir bien una muestra de la población, una muestra que represente bien a
dicha población y que nos permita con un alto grado de fiabilidad inferir o predecir las
características de la población. Hay muchas maneras de elegir una muestra de una
población, Pero antes de pasar a analizar dichas formas de extracción de muestras, lo que si
hemos de dejar claro es que todas las muestras han de cumplir varias condiciones
indispensables. Es evidente que para que el estudio a realizar sea fiable, hay que cuidar
mucho la elección de la muestra, para que represente en la medida de lo posible a la
población de la que se extrae. Si la muestra está mal elegida, diremos que no es
representativa. En este caso, se pueden producir errores imprevistos e incontrolados. Dichos
errores se denominan sesgos y diremos que la muestra está sesgada.
Por otra parte, una de las condiciones para que una muestra sea representativa es
que el sistema que se utiliza para elegirla sea aleatorio, es decir, que todos los individuos de
la población tengan las mismas posibilidades de ser elegidos, mientras que si la elección de
la muestra es subjetiva, es probable que resulte sesgada. Las distintas maneras de elegir una
muestra de una población se denominan muestreos y básicamente hay dos tipos de
muestreos:
6
misma probabilidad de ser incluidos en la muestra. En este tipo de muestreo suele ser muy
escasa la representatividad y por tanto, poco válidas las inferencias que pueden hacerse.
7
que proporcione la muestra no coincidan o estén alejados de los valores reales de la
población. Pueden darse dos tipos de errores:
- Error aleatorio muestral. Para reducir este error hay que aumentar
el tamaño de la muestra.
- Error sistemático o Sesgo. Va asociado al proceso de selección de la
muestra y se reduce mejorando esta selección.
8
número específico de elementos de la población, ventajas de realizar una muestra al azar,
las principales ventajas de realizar una muestra al azar son las siguientes:
Ejemplo
Supongamos que se desea conocer el número de horas semanales que ven televisión
los estudiantes de un colegio determinado. Para este fin se puede tomar una muestra al azar
9
de 200 estudiantes del total de 1400 estudiantes del colegio. Se puede utilizar como marco
muestral una lista con los nombres de los estudiantes, la cual es fácil de conseguir. La lista
se puede numerar consecutivamente de 0001 hasta 1400, para identificar a cada estudiante
con un número entre 1 y 1400. Para el autor, la muestra correspondiente a 200 estudiantes
se puede seleccionar a partir de los siguientes métodos;
Por medio de una rifa con una urna de 1400 fichas: luego de lanzar en una urna
1400 fichas identificadas con números del 0001 a 1400, se seleccionan 200 de ellas sin
mirar.
Paquetes estadísticos como SPSS u hojas de cálculo como Excel: Cuando se trata
de muestras grandes por lo general es mejor utilizar paquetes estadísticos como el SPSS u
una hoja de Excel.
Distribución t de Student
Caracterización
10
Donde Z N (0,1) es decir, Z es una variable aleatoria distribuida según una normal
típica (de media nula y varianza 1).
Es una distribución unimodal. Los valores que son más frecuentes o que tienen más
probabilidad de aparecer (moda) están alrededor de la media. Cuando nos alejamos de la
media, la probabilidad de aparición de los valores y su frecuencia descienden.
Si tenemos una muestra de tamaño n, entonces tendremos una distribución t con (n-
1) grados de libertad.
Características
11
A medida que aumentan los grados de libertad, la distribución se aproxima más a
una distribución normal.
Distribución F de Fischer.
Características de la distribución F
12
Ejemplo
Solución:
Como el área que da la tabla es de cero a Fisher, se tiene que localizar primero los
grados de libertad dos que son 9, luego un área de 0.75 con 4 grados de libertad uno
En cada una de las distintas muestras que pueden ser extraídas de una población se
pueden calcular estadísticos como la media aritmética o la proporción de elementos que
presentan cierta característica; por ejemplo, la media de estaturas o la proporción de
licenciados universitarios. Cuando los elementos son escogidos de manera aleatoria, los
estadísticos pueden tomar distintos valores en cada una de las muestras, cada uno de ellos
con distinta probabilidad. En los ejemplos del inicio de esta sección ya vimos que los
valores de la media en diferentes muestras aleatorias se encontraban con mayor
probabilidad cerca del valor de la media poblacional, y que era menos probable que se
encontrasen muy alejados de ella. La probabilidad de cada uno de los posibles valores que
puede tomar un estadístico en muestras extraídas al azar viene dada por una función
matemática denominada distribución muestral, que depende del estadístico en cuestión. Se
habla así, por ejemplo, de la distribución muestral de la media aritmética o de la
distribución muestral de la proporción.
13
Una distribución muestral es una función de probabilidad, ya que asigna a cada
posible valor de un estadístico su probabilidad de aparecer en una muestra extraída al azar.
En realidad, esta definición es estrictamente cierta solo cuando la variable toma valores
discretos; por ejemplo, cuando procede de un contaje y sus posibles valores son 0, 1, 2, 3,
etc. Cuando el valor del estadístico muestral es una variable continua, la distribución
muestral correspondiente se denomina función de densidad de probabilidad. La
probabilidad en este caso corresponde gráficamente a un área bajo la curva de esa función,
delimitada por un cierto intervalo de la variable. Analíticamente, esa área se calcula como
la integral de la función entre los límites del intervalo de la variable, que en la práctica se
obtiene con un ordenador o se consulta en una tabla. El área total bajo la curva, que se
extiende a todos los posibles valores de la variable, es siempre uno, que corresponde a la
probabilidad de un suceso seguro.
Muestras independientes
Si puede suponerse que las varianzas de ambas poblaciones son iguales, el intervalo
de confianza para la diferencia de medias poblacionales está centrado en la diferencia de las
medias muestrales, siendo sus límites superior e inferior:
14
t/2 es el valor crítico correspondiente al grado de confianza 1- de la distribución t de
Student con n1+ n2-2 grados de libertad y es una
estimación de la desviación típica común a ambas poblaciones obtenida a partir de las
varianzas de las dos muestras. En la práctica si n1 y n2 son moderadamente grandes, el
valor crítico t/2 se aproxima, como ya se ha visto anteriormente, a los valores de la
distribución normal. Si las varianzas poblacionales no pueden suponerse iguales los límites
del intervalo de confianza son:
EJEMPLOS
Ejemplo 1
15
La estimación puntual del valor esperado del coste es 5236,40 Pta. Esta estimación
tiene un error típico de 365,97. Los límites inferior y superior del intervalo de confianza del
95% son 4511,34 y 5951,46, respectivamente. Este resultado se interpreta como que de los
intervalos obtenidos con este método el 95% contendrán el verdadero valor esperado del
coste. Una medida del grado de precisión con el que se está estimando el valor esperado es
la amplitud del intervalo, que en este caso es igual a 1450,12 y la mitad de la amplitud, que
es 725,06, es el error máximo de estimación que puede garantizarse con una probabilidad
de 0,95. Este error máximo es igual a donde t/2 , es el valor crítico para =0,05 de la
distribución t e Student, en este caso con 113 grados de libertad, y es el error típico de la
estimación.
Para obtener el intervalo del 99% de confianza modificamos el valor del grado de
confianza en el cuadro Explorar: Estadísticos Fijándolo en el 99%.
Los límites del intervalo de confianza del 99% son 4277,54 y 6195,27; la confianza de que
este intervalo contenga el verdadero valor esperado del coste es 0,99. La amplitud de este
intervalo es 2217,73 que es mayor que la amplitud del intervalo del 95%, por lo tanto,
1108,865, es el error máximo de estimación que puede garantizarse con una probabilidad
de
0,99. Como puede verse, a medida que aumenta el grado de confianza del intervalo
disminuye la precisión de la estimación.
Ejemplo 2.
16
Para la misma variable Coste verificar si se puede aceptar el supuesto de que el valor
esperado del Coste es superior a 6000.
Con la secuencia Analizar > Comparar medias > Prueba T para una media se abre el cuadro
de diálogo Prueba T para una muestra en el cual se selecciona la variable Coste y se indica
como Valor de prueba 6000. Esto quiere decir que las hipótesis que se están contrastando
son Se trata por tanto de un contraste a una sola cola.
Por otra parte si las hipótesis hubieran sido se rechazaría la hipótesis nula en favor de la
alternativa para niveles de significación superiores a 0,039. El intervalo del 95% de
confianza para la media calculado en el apartado anterior no contenía el valor 6000; lo que
equivale a decir que para un nivel de significación del 5% se rechaza la hipótesis nula. Por
el contrario, el intervalo del 99% contenía el valor 6000 y, por lo tanto, para un nivel de
significación del 1% no se rechazaría la hipótesis nula.
Ejemplo 3.
17
Verificar si existe diferencia significativa entre el coste esperado en transporte de los
alumnos que viven en Barcelona y el de los que viven fuera.
Con la secuencia Analizar> Comparar medias > Prueba T para muestras independientes se
abre el cuadro de diálogo Prueba T para muestras independientes en el cual se selecciona la
variable Coste y se indica como Variable de agrupación Resid. En la opción Definir grupos
se asigna al Grupo 1 el valor 1 (vive en Barcelona) y al Grupo 2 el valor 2 (no vive en
Barcelona). Aceptando se obtienen entre otros los siguientes resultados:
18
Con la secuencia Analizar > Comparar medias >Prueba T para muestras relacionadas se
abre el cuadro de diálogo en el cual se selecciona la pareja de variables Dotación-Software.
Al aceptar se obtienen los siguientes resultados:
El análisis sólo ha considerado los casos que no presentan ningún valor missing en
el par de puntuaciones, quedando únicamente 106 casos válidos de los 114. El promedio de
las diferencias entre las puntuaciones asignadas a la dotación y al software es de -1,12 con
un error típico igual a 0,19. El estadístico de prueba t es igual a -5,93 y se distribuye según
una t de Student con 105 grados de libertad. Con este valor de t se rechaza la hipótesis nula
para cualquier nivel de significación. Los resultados proporcionan también el intervalo de
confianza para la diferencia de las dos medias poblacionales con el 95% de nivel de
confianza. Como puede observarse el intervalo no contiene el valor 0, de lo que se deduce
también que no se puede aceptar que las puntuaciones medias sean significativamente
iguales.
El error Estándar.
19
tener claro de dónde proviene, ya que el error estándar es sólo una estimación.
Desafortunadamente, esto no es siempre posible y puede ser mejor usar una aproximación
que evite usar el error estándar, por ejemplo usando la estimación de máxima verosimilitud
o una aproximación más formal derivada de los intervalos de confianza. Un caso bien
conocido donde se pueda usar de forma apropiada puede ser en la distribución t de Student
para proporcionar un intervalo de confianza para una media estimada o diferencia de
medias.
En otros casos, el error estándar puede ser usado para proveer una indicación del
tamaño de la incertidumbre, pero su uso formal o semi-formal para proporcionar intervalos
de confianza o test debe ser evitado a menos que el tamaño de la muestra sea al menos
moderadamente grande. Aquí el concepto "grande" dependerá de las cantidades particulares
que vayan a ser analizadas. Las estadísticas también se comportan de una manera aleatoria,
similar a la de las mediciones individuales, y esto se mide con el error estándar. Cuando se
informa la media de una muestra, no se informa el promedio "verdadero" sino una
estimación. La estadística muestral puede resultar levemente superior o inferior al valor
verdadero desconocido. El error estándar de la media mide la diferencia que puede existir
entre la media verdadera y la estadística que se informa.
Por ejemplo, si se desea conocer la edad promedio de la población de un país
(media poblacional) se toma un pequeño grupo de habitantes, a los que llamaremos
“muestra”. De ella se extrae la edad promedio (media muestral) y se asume que la
población tiene esa edad promedio con un error estándar de estimación que varía más o
menos.
20
CONCLUSION
Luego de haber realizado la presente investigación se puede concluir que la
Estadística Inferencial está fundamentada en los resultados obtenidos del análisis de una
muestra de población, con el fin de inferir el comportamiento o característica de la
población, de donde procede, por lo que recibe también el nombre de Inferencia Estadística.
Debido a lo señalado se considera que el objetivo de la inferencia en la investigación
científica radica en conocer las clases numerosas de objetos, personas o eventos a partir
otros relativamente pequeñas compuestas por los mismos elementos. Por otra parte que el
uso de muestras para estimar valores de una población ofrece diversas ventajas. En
términos generales se puede afirmar que el muestreo permite una reducción considerable de
los costos materiales del estudio, una mayor rapidez en la obtención de la información y el
logro de resultados con máxima calidad. Igualmente que las variables aleatorias, como las
estadísticas, pueden ser discretas o continuas.
. En este sentido, es importante señalar que los espacios muestrales pueden basarse
en consideraciones teóricas o en una estimación subjetiva de la posibilidad. Se pueden
basar también en la experiencia. Así mismo, la estadística matemática y en particular los
métodos de muestreo, han jugado un papel de gran importancia y utilidad en el desarrollo
de dicha auditoría en las empresas cooperativas, precisamente por su carácter de rapidez y
economía. Cómo se seleccionó la muestra, cómo se realizó la inferencia (extrapolación de
las conclusiones obtenidas sobre la muestra, al resto de la población), y qué grado de
confianza se tuvo en ello, fueron los principales problemas que se enfrentaron.
Ahora bien, El muestreo, es un procedimiento por el que se infieren los valores
verdaderos de una población, a través de la experiencia obtenida con una muestra de esta.
El uso de muestras para estimar valores de una población ofrece diversas ventajas. En
términos generales se puede afirmar que el muestreo permite una reducción considerable de
los costos materiales del estudio, una mayor rapidez en la obtención de la información y el
logro de resultados con máxima calidad. Todo esto nos reafirma que La fundamentación
teórica realizada, permite afirmar que el muestreo estadístico puede ser considerado como
una herramienta altamente calificada que ayuda a los auditores a formar juicios, tomando
como premisa la preparación para el manejo y dominio de ciertos términos estadísticos.
21
Bibliografía
22