Está en la página 1de 14

Trabajo de Estadística I

Angie Mendoza
Nayelis Cárdenas
Santiago Linero
Shania Gnecco

Profesor Esteban Mendoza

Universidad de La Guajira
Facultad de Ciencias económicas y Administrativas
Administración de empresas
Riohacha – La Guajira
2019
La inferencia estadística
Es el conjunto de métodos que permiten inducir, a través de una muestra, el
comportamiento de una determinada población. La inferencia estadística estudia
entonces, como sacar conclusiones sobre los parámetros de población de datos.
De la misma manera estudia también el grado de fiabilidad de los resultados
extraídos del estudio.
Para entender el concepto es importante entender tres conceptos:

Inferencia: Inferir significa, literalmente, extraer juicios o conclusiones a partir de


ciertos supuestos, sean estos generales o particulares.

Población: Una población de datos, es el conjunto total de datos que existen sobre
un variable.

Muestra estadística: Una muestra es una parte de la población de datos.

Teniendo claro a lo que nos referimos con el concepto de inferir, una de las dudas
fundamentales recae en el hecho de elegir una muestra en lugar de una población.

Normalmente, en estadística, se trabaja con muestras debido a la gran cantidad


de datos que tiene una población. Por ejemplo, si queremos sacar conclusiones,
esto es, inferir, los resultados de las elecciones generales, es imposible preguntar
a toda la población del país. Para solventar ese problema se escoge una muestra
variada y representativa. Gracias a la cual se puedan extraer una estimación del
resultado final. Escoger una muestra adecuada corre a cargo de las distintas
técnicas de muestreo.

Métodos de la inferencia estadística


Los métodos y técnicas de la inferencia estadística se pueden dividir en dos:
métodos de estimación de parámetros y métodos de contraste de hipótesis.

Métodos de estimación de parámetros: Se encarga de asignar un valor al


parámetro o al conjunto de parámetros que caracterizan el campo sujeto a estudio.
Claro que al ser una estimación existe cierto error. Para obtener estimaciones
adaptadas a esa realidad, se crean intervalos de confianza que estan formados
por un conjunto de valores numéricos tal que la probabilidad de que éste contenga
al verdadero valor del parámetro puede fijarse tan grande como se quiera. Esta
probabilidad se denomina grado de confianza del intervalo, y la amplitud deéste
constituye una medida del grado de precisión con el que se estima el parámetro..

Métodos de contraste de hipótesis: su objetivo es comprobar si una estimación


corresponde con los valores poblacionales. En todo contraste de hipótesis existen
dos supuestos.

Hipótesis nula HO es aquella que recoge el supuesto de que el parámetro toma un


valor determinado y es la que soporta la carga de la prueba. La decisión de
rechazar la hipótesis nula, que en principio se considera cierta, está en función de
que sea o no compatible con la evidencia empírica contenida en la muestra. El
contraste clásico permite controlar a priori la probabilidad de cometer el error de
rechazar la hipótesis nula siendo ésta cierta; dicha probabilidad se llama nivel de
significación del contraste ( ) y suele fijarse en el 1%, 5% o 10%.

La proposición contraria a la hipótesis nula recibe el nombre de hipótesis


alternativa (H1) y suele presentar un cierto grado de indefinición: si la hipótesis
alternativa se formula simplemente como 'la hipótesis nula no es cierta', el
contraste es bilateral o a dos colas; por el contrario cuando se indica el sentido de
la diferencia, el contraste es unilateral o a una sola cola.

Extracción de la muestra

Universo o población: constituye la totalidad de un grupo de elementos u objetos


que se quiere investigar, es el conjunto de todos los casos que concuerdan con lo
que se pretende investigar.

Muestra: es un subconjunto de la población o parte representativa.

Unidad de la muestra: está constituida por uno o varios de los elementos de la


población y que dentro de ella se delimitan con precisión.

Cualidades de una buena muestra.

Para que una muestra posea validez técnico estadística es necesario que cumpla
con los siguientes requisitos:

a. ser representativa o reflejo general del conjunto o universo que se va a estudiar,


reproduciendo de la manera más exacta posible las características de éste.

b. que su tamaño sea estadísticamente proporcional al tamaño de la población.

c. que el error muestral se mantenga dentro de límites aceptables.

Los pasos a seguir para la recolección de una muestra son los siguientes:
- Definir la población en estudio especificando las unidades que la componen, el
área geográfica donde se realiza el estudio (si procede) y el periodo de tiempo en
el que se realizará el mismo.
- Definir el marco: listado o descripción de los elementos que forman la población.

- Definir la unidad de muestreo: Ciudades, calles, hogares, individuos, etc ...

- Definir las variables a medir o las preguntas que se harán si se trata de una
encuesta.

- Seleccionar el método de muestreo: Probabilístico o No Probabilístico, aunque


son los primeros los que nos permiten la estimación correcta de parámetros.

- Calcular el tamaño necesario para obtener une determinada precisión en la


estimación. Este punto se verá con más detalle en el apartado dedicado a la
estimación por intervalos.

- Elaborar el plan de muestreo que guiará el trabajo de campo

En cuanto al tipo de muestreo, algunas de las características más importantes de


los muestreos probabilísticos más usuales se detallan a continuación:

MUESTREO ALEATORIO SIMPLE (MAS)

Se trata de un procedimiento de muestreo (sin reemplazamiento), en el que se


seleccionan n unidades de las N en la población, de forma que cualquier posible
muestra del mismo tamaño tiene la misma probabilidad de ser elegidas.

Se realizan n selecciones independientes de forma que en cada selección los


individuos que no han sido elegidos tengan la misma probabilidad de serlo.

El procedimiento habitual consiste en numerar todos los elementos de la población


y se seleccionan muestras del tamaño deseado utilizando una tabla de números
aleatorios o un programa de ordenador que proporcione números aleatorios.

Recuérdese que "al azar" no significa "de cualquier manera", para que el
procedimiento de muestreo sea válido es necesario utilizar correctamente el
proceso de generación de números aleatorios.

Entre las ventajas de este procedimiento esta la compensación de valores altos y


bajos con lo que la muestra tiene una composición similar a la de la población, es
además un procedimiento sencillo y produce estimadores de los parámetros
desconocidos próximos a los valores reales de los mismos
El principal inconveniente de este tipo de muestreo es que necesita un marco
adecuado y amplio que no siempre es fácil de conseguir y que no contiene
información a priori sobre la población que podría ser útil en la descripción de la
misma.

MUESTREO SISTEMATICO

- Se ordenan los individuos de la población y se numeran. - Se divide la población


en tantos grupos como individuos se quieren tener en la muestra. Se selecciona
uno al azar en el primer grupo y se elige el que ocupa el mismo lugar en todos los
grupos.

-La ventaja principal es que es más sencillo y más barato que el muestreo
aleatorio simple, además, se comporta igual si no hay patrones o periodicidades
en los datos.

-La aparición de patrones desconocidos puede llevar a importantes errores en la


estimación de los parámetros.

Este tipo de muestreo puede utilizarse, por ejemplo, en encuestas telefónicas


programadas mediante ordenador.

MUESTREO POR CONGLOMERADOS

-Se divide la población en grupos de acuerdo con su proximidad geográfica o de


otro tipo. (conglomerados). Cada grupo ha de ser heterogéneo y tener
representados todos las características de la población.

Por ejemplo, los conglomerados en un estudio sobre la situación de las mujeres en


una determinada zona rural pueden ser los municipios de la zona.

-Se selecciona una muestra de conglomerados al azar y se toma el conglomerado


completo o una muestra del mismo.

-Necesitan menos información previa sobre los individuos particulares.


-Soluciona el problema de los patrones en los datos.

-Si el número de bloques no es muy grande se puede incurrir en errores de


estimación si se han incluido conglomerados atípicos.

-Los conglomerados que se realizan teniendo en cuenta proximidad geográfica


pueden no tener un significado importante en la población (no responden a una
característica real).

- Este tipo de muestreo se utiliza fundamentalmente para reducir los costes de


toma de muestras al tomar grupos de individuos completos.

MUESTREO ESTRATIFICADO

-Se divide la población en grupos homogéneos (estratos) de acuerdo con las


características a estudiar. Por ejemplo, en un estudio de las características
socioeconómicas de una ciudad los estratos pueden ser los barrios de la misma,
ya que los barrios suelen presentar características diferenciales.

-Se selecciona una muestra aleatoria de cada estrato tratando de que todos los
estratos de la población queden representados.

-Permite utilizar información a priori sobre la estructura de la población en relación


con las variables a estudiar.

-Obtiene representantes de todos los estratos de la población.

-Diferentes opciones de selección del tamaño de la muestra en los estratos:

-El mismo número en cada estrato.

-Proporcional. (La más común)

-Optima.

Tratamiento estadístico de los datos

En esta fase, se realiza el tratamiento estadístico de todos los datos


seleccionados, que consiste en afirmaciones estadísticas de los datos, sin
embargo, el análisis no puede quedar reducido a una operación contable, de
obtención de promedios, medias e índices, etc..
Hay que analizarlos, interpretarlos y darles sentido.
El propósito del análisis es resumir y comparar las observaciones llevadas a cabo
de tal forma que sea posible materializar los resultados de la investigación con el
fin de dar respuesta a las interrogantes formuladas en la investigación.
El objetivo de la interpretación es buscar un significado más amplio a las
respuestas mediante su conjugación con otros conocimientos disponibles,
generalizaciones, leyes, teorías, etc.

Datos cuantitativos:
Estos datos pueden ser mostrados mediante representaciones gráficas:
*Diagrama de barras
*Polígono de frecuencias
Ejemplo de diagrama de barras:

Datos cualitativos
Estos datos pueden ser mostrados mediante representaciones gráficas:
*Histogramas,
*Ciclogramas
*Pictogramas
Ejemplo de ciclograma:
La distribución normal Muchas pruebas en estadística se basan en el principio de
que se aplican a conjuntos de valores que se acercan a la distribución normal.

Uniendo mediante una línea curva los extremos de cada una de las barras,
obtendríamos lo que se conoce como campana de Gauss, o curva de la
distribución normal, caracterizada por su forma simétrica respecto del punto más
alto.
Curva de la distribución de notas en un grupo de 30 estudiantes correspondiente a
una distribución normal.

Diagrama de caja de la distribución de notas en un grupo de 30 estudiantes


correspondiente a una distribución normal.

En los datos reales, casi nunca se encuentra una distribución perfectamente


normal.
Habitualmente, cuando el número de casos es igual o mayor que 30, la
distribución de una muestra de casos elegidos al azar se acerca suficientemente a
la normal.
Con menos de 10 casos para una determinada variable encontraremos
seguramente que ésta se comporta al azar.
Con 10 casos tenemos el 90 % de posibilidades de acercarnos a una distribución
normal.
Con 35 casos llegaremos casi con toda seguridad a una distribución normal, a
condición de que después no deseemos formar grupos más pequeños en el
interior de esta variable.

Las medidas de la tendencia central


Mediana (Median)

Valor de una distribución para el que se encuentra el mismo número de casos con
un valor más alto que con un valor más bajo.
Valor situado en el centro de la distribución.

Diagrama de caja y valor de la mediana (5,5) de la distribución de notas en un


grupo de 30 estudiantes correspondiente a una distribución normal.

Moda

El valor con la frecuencia de aparición más alta en una distribución.


5 y 6 en el grupo de notas, puesto que son las notas obtenidas por seis alumnos,
mientras que el resto de notas corresponden a grupos más pequeños de
estudiantes.
Media (Mean)
Se calcula como la suma de los valores de todos los casos dividida por el número
de casos.
La nota media del grupo es 5,5 (la suma de todas las notas es 165 y el grupo tiene
30 alumnos).

Curva de la distribución de notas y media en un grupo de 30 estudiantes


correspondiente a una distribución normal.

Estimación de parámetros

En una población cuya distribución es conocida pero desconocemos algún


parámetro, podemos estimar dicho parámetro a partir de una muestra
representativa.

Un estimador es un valor que puede calcularse a partir de los datos muestrales y


que proporciona información sobre el valor del parámetro. Por ejemplo la media
muestral es un estimador de la media poblacional, la proporción observada en la
muestra es un estimador de la proporción en la población.

Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los
estimadores más probables en este caso son los estadísticos obtenidos en la
muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos.
Recordemos que la distribución muestral indica la distribución de los valores que
tomará el estimador al seleccionar distintas muestras de la población. Las dos
medidas fundamentales de esta distribución son la media que indica el valor
promedio del estimador y la desviación típica, también denominada error típico de
estimación, que indica la desviación promedio que podemos esperar entre el
estimador y el valor del parámetro.
Más útil es la estimación por intervalos en la que calculamos dos valores entre los
que se encontrará el parámetro, con un nivel de confianza fijado de antemano.

Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza,


contiene al parámetro que se está estimando.

Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al


verdadero valor del parámetro. Se indica por 1-a y habitualmente se da en
porcentaje (1-a)100%. Hablamos de nivel de confianza y no de probabilidad ya
que una vez extraída la muestra, el intervalo de confianza contendrá al verdadero
valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso con
muchas muestras podríamos afirmar que el (1-a)% de los intervalos así
construidos contendría al verdadero valor del parámetro.

Contrastes de hipótesis
Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que
puede ser cierta o no. Las hipótesis estadísticas se pueden contrastar con la
información extraída de las muestras y tanto si se aceptan como si se rechazan se
puede cometer un error.

La hipótesis formulada con intención de rechazarla se llama hipótesis nula y se


representa por H0. Rechazar H0 implica aceptar una hipótesis alternativa (H1).

La situación se puede esquematizar:

  H0 cierta H0 falsa
H1 cierta (*) Decisión
H0 rechazada Error tipo I ( ) Decisión correcta (*) correcta que se
H0 no rechazada Decisión correcta Error tipo II ( ) busca
a = p(rechazar
H0|H0 cierta)
b = p(aceptar H0|H0 falsa)
Potencia =1-b = p(rechazar H0|H0 falsa)

Detalles a tener en cuenta

1 a y b están inversamente relacionadas.


2 Sólo pueden disminuirse las dos, aumentando n.

Los pasos necesarios para realizar un contraste relativo a un parámetro q son:

1. Establecer la hipótesis nula en términos de igualdad


2. Establecer la hipótesis alternativa, que puede hacerse de tres maneras,
dependiendo del interés del investigador

en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos
de lateral (derecho en el 2º caso, o izquierdo en el 3º) o una cola.

3. Elegir un nivel de significación: nivel crítico para a

4. Elegir un estadístico de contraste: estadístico cuya distribución muestral se


conozca en H0 y que esté relacionado con q y establecer, en base a dicha
distribución, la región crítica: región en la que el estadístico tiene una probabilidad
menor que a si H0 fuera cierta y, en consecuencia, si el estadístico cayera en la
misma, se rechazaría H0.

Obsérvese que, de esta manera, se está más seguro cuando se rechaza una
hipótesis que cuando no. Por eso se fija como H0 lo que se quiere rechazar.
Cuando no se rechaza, no se ha demostrado nada, simplemente no se ha podido
rechazar. Por otro lado, la decisión se toma en base a la distribución muestral en
H0, por eso es necesario que tenga la igualdad.

5. Calcular el estadístico para una muestra aleatoria y compararlo con la región


crítica, o equivalentemente, calcular el "valor p" del estadístico (probabilidad de
obtener ese valor, u otro más alejado de la H0, si H0 fuera cierta) y compararlo
con a.

Ejemplo:

Estamos estudiando el efecto del estrés sobre la presión arterial. Nuestra hipótesis
es que la presión sistólica media en varones jóvenes estresados es mayor que 18
cm de Hg. Estudiamos una muestra de 36 sujetos y encontramos

1. Se trata de un contraste sobre medias. La hipótesis nula (lo que queremos


rechazar) es:

2. la hipótesis alternativa es un contraste lateral derecho.

3. Fijamos "a priori" el nivel de significación en 0,05 (el habitual en Biología).


4. El estadístico para el contraste es

y la región crítica T>ta


Si el contraste hubiera sido lateral izquierdo, la región crítica sería T<t1-a
y si hubiera sido bilateral T<t1- a/2 o T>t a/2
En este ejemplo t(35)0,05=1,69.

5. Calculamos el valor de t en la muestra

no está en la región crítica (no es mayor que 1,69), por tanto no rechazamos H0.

Otra manera equivalente de hacer lo mismo (lo que hacen los paquetes
estadísticos) es buscar en las tablas el "valor p" que corresponde a T=0,833, que
para 35 g.l. es aproximadamente 0,20. Es decir, si H0 fuera cierta, la probabilidad
de encontrar un valor de T como el que hemos encontrado o mayor (¿por qué
mayor? Porque la H1 es que m es mayor , lo que produciría una media muestral
mayor y por tanto mayor valor de t) es 0,20, dicho de otra manera la probabilidad
de equivocarnos si rechazamos H0 es 0,20, como la frontera se establece en 0,05
no la rechazamos.

Este valor crítico de 0,05 es arbitrario pero es la convención habitual. ¿Cuán


razonable es?

Problema al respecto : en la hipótesis de que un mazo de cartas esté bien


barajado, la probabilidad de que al sacar dos cartas sean, p.e.:1 el as de oros y 2
el rey de bastos es 1/40 x 1/39=0,000833.

Si hacemos la experiencia y obtenemos ese resultado ¿rechazaríamos la hipótesis


de que el mazo está bien barajado? ¿Cuánto se parece esto a la lógica del
contraste de hipótesis?

Volvamos al problema del estrés. Como no se rechaza H0, se puede cometer un


error tipo II. ¿Cuál es b ?. De hecho, sería la información relevante a comunicar en
este estudio (la probabilidad del error que se pude cometer en él). Habitualmente,
sin embargo, no se da porque los paquetes estadísticos no la calculan.
Para calcularla se debe concretar H1, p.e. m = 20 (el criterio para este valor no es
estadístico)
b =p(aceptar H0|H1 cierta)

Supongamos que el tamaño muestral sea suficientemente grande para poder


aproximar t a z.

¿Cuándo se acepta H0? si z £ 1,69

es decir, se acepta H0 si

¿Qué probabilidad hay de encontrar si m = 20 (zona verde del gráfico)? En esta


hipótesis lo que se distribuye como una z es

También podría gustarte