Está en la página 1de 11

Inferencia Estadística

APORTE TRABAJO COLABORATIVO #2

LUIS FERNEY ZAYA USUGA

1.068.813.225

MYLETH MUENTES PEREZ


50879592

JESÚS ANDRÉS QUEVEDO CRUZ

74360186

VICTOR MANUEL LOPEZ SALAMANCA

GRUPO

100403_20

TUTOR

DANYS BRITO

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA (UNAD)

INTRODUCCIÓN
Inferencia Estadística
Con el propósito de aplicar y comprender más a fondo los conceptos estudiados en la
Unidades correspondientes del Curso de Inferencia Estadística, se propone el desarrollo
de las siguientes

OBJETIVOS
Inferencia Estadística

 Motivar al estudiante en el abordaje de los temas referentes a familiarizarse con


conceptos básicos abordados a lo largo de la Unidad.

 Realizar lecturas que permitan conceptualizar lo referente a telemática

1. Establezca la diferencia entre: Nivel de significación y potencia de una prueba;


pruebas parámetricas y pruebas No parámetricas.
Inferencia Estadística
R// Cuando planteamos un estudio sobre una población, debemos idealmente estudiar a
todos los individuos que la conforman; pero no siempre podemos acceder todos, entonces
tenemos que escoger una muestra; sin embargo los resultados obtenidos de esta manera
nunca serán exactamente iguales, a los que se obtendrían de estudiar a toda la población;
es decir, siempre va a haber un margen de error. Por ello, antes de realizar el estudio
debemos plantearnos; que proporción de error estamos dispuestos a aceptar para dar por
válido nuestro resultado. El nivel de significancia: Es la máxima probabilidad de error que
estamos dispuestos aceptar para dar como válida nuestra hipótesis del investigador.
Potencia de una prueba: es una medida muy descriptiva y concisa de la sensibilidad de
una prueba estadística, donde se entiende por sensibilidad a la capacidad de una prueba
para detectar diferencias. puede interpretarse como la probabilidad de rechazar de
manera correcta una hipótesis nula falsa. Pruebas parámetricas: requieren de variables
medidas en la escala de razón o intercalar y de análisis de un parámetro de la población y
otros requisitos que dependen de la prueba en específico. Estas pruebas comparan los
grupos a través de una medida de tendencia central (parámetro): la media aritmética.
Pruebas no parámetricas: requieren de que los datos estén en escala nominal u ordinal.
En estas pruebas no se presupone una distribución de probabilidad para los datos, por
ello se conocen también como de distribución libre (distribution free). En la mayor parte de
ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de
ordenación y recuento, por lo que su base lógica es de fácil comprensión.

2. El tamaño de una muestra para realizar inferencia estadística depende de unos


factores, (la confiabilidad, la varianza y el error de estimación), que la
determinan. Explique los criterios que tiene un investigador para la
determinación de estos factores.

R// El nivel de confianza: que queramos que alcancen nuestros resultados también influye
en el tamaño que debamos dar a la muestra. Entre +2 y -2 sigmas de la curva de
distribución normal de Gauss, a partir de la media, está incluido el 95.5% de la población.
Esto quiere decir que tenemos una probabilidad de que 955/1000 coincidan con los de la
población total. Si queremos alcanzar una mayor certidumbre hemos de abarcar entre +3
y -3 sigmas, en cuyo caso el riesgo de que exista diferencia entre los estadísticos de la
muestra y los parámetros de la población sean distintos será de 997/100, pero
naturalmente tendremos que elevar el número de elementos de la muestra.

Para determinar el volumen de la muestra, de acuerdo con el nivel de confianza, existen


tablas. Bugeda (1974) recoge tablas que permiten determinar el volumen de la muestra y
el nivel de estimación para los niveles de confianza del 99.7% y del 95%. La varianza es
la desviación estándar al cuadrado. La variancia y la desviación estándar te dan una idea
de tu muestra y de su distribución (teniendo en cuenta que sea normal) (en caso de no ser
normal estaríamos hablando de Mediana y Espacio intercuartil IQR) . Lo puedes usar para
detectar outliers (valores fuera de lo normal). Por ejemplo, un valor que sea mayor a la
Media + 3 SD ya empieza a considerase un outlier. Cuando la varianza es muy grande, tu
muestra raramente tendrá una distribución normal... Error de estimación. Es lógico pensar
Inferencia Estadística
que no haya una coincidencia total entre los datos de la población y los de la muestra.
Hemos de indicar el máximo error tolerable, que suele establecerse en el 5%. Pero si
queremos rebajar ese error tendremos que aumentar el volumen de la muestra.

3. Qué significan el error tipo I y el error tipo II. Explique su interpretación con un
ejemplo

R// Error de tipo I: también llamado error de tipo alfa, que es la probabilidad de que
ocurra este error, es el error que se comete cuando el investigador rechaza la hipótesis
nula (Ho) siendo ésta verdadera en la población. Es equivalente a encontrar un resultado
falso positivo, porque el investigador llega a la conclusión de que existe una diferencia
entre las hipótesis cuando en realidad no existe.

Error de tipo II: también llamado error de tipo beta (aunque beta es la probabilidad de
que exista éste error), se comete cuando el investigador no rechaza la hipótesis nula
siendo ésta falsa en la población. Es equivalente a la probabilidad de un resultado falso
negativo, ya que el investigador llega a la conclusión de que ha sido incapaz de encontrar
una diferencia que existe en la realidad.

Ejemplo: se tienen dos cajas, caja A y caja B. La caja A tiene 40 fichas con el número 1;
50 fichas con el número 10 y 10 fichas con el número 100. La caja B tiene 40 fichas con el
número 100; 50 fichas con el número 10 y 10 fichas con el número 1. Se elige una caja al
azar, y de ella se saca una ficha. Usted no sabe si es la caja A o la caja B.

Se tiene las hipótesis: ü Ho: la caja es la A ü H1: la caja es la B Se establece la regla de


decisión: rechazar la hipótesis nula si la ficha es de 100.

FICHAS

# DE FICHAS EN LA CAJA A 40 50 10

# DE FICHAS EN LA CAJA B 10 50 40

1 10 100

Cuál es la probabilidad de cometer el error tipo I? La probabilidad de cometer el error tipo


I es el nivel de significación α: α = P(rechazar Ho/Ho es verdadera) α = P(sacar una ficha
de 100 de la caja A) α = 10/100 α = 0,10 Cual es la probabilidad de cometer el error tipo
II? La probabilidad de cometer el error tipo II es β: β = P(aceptar Ho/H1 es verdadera) β =
P(sacar una ficha de 1 o de 10 de la caja B) β = 60/100} β = 0,60

4. Explique cuáles son los supuestos de homogeneidad, homocedasticidad,


independencia y Normalidad, que deben cumplirse para validar un análisis de
varianzas.

R//
Inferencia Estadística
El ANOVA parte de algunos supuestos que han de cumplirse:

• La variable dependiente debe medirse al menos a nivel de intervalo.

• Independencia de las observaciones.

• La distribución de los residuales debe ser normal.

• Homocedasticidad: homogeneidad de las varianzas.

La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of


squares') en componentes relativos a los factores contemplados en el modelo. Como
ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en
diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede
resultar apropiado un análisis de regresión lineal)

SSTotal = SSError + SSFactores

El número de grados de libertad (gl) puede separarse de forma similar y se corresponde


con la forma en que la distribución chi-cuadrado describe la suma de cuadrados asociada.

glTotal = glError + glFactores

5. Comprueben a partir de dos muestras independientes de igual tamaño de


hombres y mujeres, la opinión de acuerdo o desacuerdo con algún tema de su
interés, a través del contraste de una hipótesis, en la se establezca si existen
diferencias de opinión entre los hombres y mujeres sobre el tema de interés
consultado. Interprete los resultados a que diere lugar este caso. Para dar
respuesta a este caso utilice los pasos para el contraste de una hipótesis.

R// Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que
puede ser cierta o no. Las hipótesis estadísticas se pueden contrastar con la información
extraída de las muestras y tanto si se aceptan como si se rechazan se puede cometer un
error. La hipótesis formulada con intención de rechazarla se llama hipótesis nula y se
representa por H0. Rechazar H0 implica aceptar una hipótesis alternativa (H1). La
situación se puede esquematizar: H0 cierta H0 rechazada H0 no rechazada Error tipo I
(a ) Decisión correcta H0 falsa H1 cierta Decisión correcta (*) Error tipo II (b )

(*) Decisión correcta que se busca a = p(rechazar H0|H0 cierta) b = p(aceptar H0|H0
falsa) Potencia =1-b = p(rechazar H0|H0 falsa) Detalles a tener en cuenta 1 a y b están
inversamente relacionadas. 2 Sólo pueden disminuirse las dos, aumentando n. Los pasos
necesarios para realizar un contraste relativo a un parámetro q son: 1. Establecer la
hipótesis nula en términos de igualdad
Inferencia Estadística
2. Establecer la hipótesis alternativa, que puede hacerse de tres maneras, dependiendo
del interés del investigador en el primer caso se habla de contraste bilateral o de dos
colas, y en los otros dos de lateral (derecho en el 2º caso, o izquierdo en el 3º) o una cola.

3. Elegir un nivel de significación: nivel crítico para a 4. Elegir un estadístico de contraste:


estadístico cuya distribución muestral se conozca en H0 y que esté relacionado con q y
establecer, en base a dicha distribución, la región crítica: región en la que el estadístico
tiene una probabilidad menor que a si H0 fuera cierta y, en consecuencia, si el estadístico
cayera en la misma, se rechazaría H0. Obsérvese que, de esta manera, se está más
seguro cuando se rechaza una hipótesis que cuando no. Por eso se fija como H0 lo que
se quiere rechazar. Cuando no se rechaza, no se ha demostrado nada, simplemente no
se ha podido rechazar. Por otro lado, la decisión se toma en base a la distribución
muestral en H0, por eso es necesario que tenga la igualdad. 5. Calcular el estadístico
para una muestra aleatoria y compararlo con la región crítica, o equivalentemente,
calcular el "valor p" del estadístico (probabilidad de obtener ese valor, u otro más alejado
de la H0, si H0 fuera cierta) y compararlo con a.

6. Establezca las consideraciones que deben hacerse para seleccionar entre un


modelo paramétrico o su correspondiente No paramétrico. Los métodos no
paramétricos tienen ventajas sobre los paramétrico.

R//. Los métodos paramétricos en muchas ocasiones no cumplen con los supuestos
acerca de la forma funcional del conjunto de variables aleatorias de las cuales provienen
los datos, produciendo así modelos no muy confiables que generan sesgos y deterioran la
calidad de los pronósticos. En el campo no paramétrico se evita este problema al permitir
una forma funcional flexible, y no un conjunto pequeño de modelos rígidos como lo hacen
los paramétricos.

Consideraciones de las pruebas no parametricas sobre las pruebas parametricas: Por lo


general, son fáciles de usar y entender. Eliminan la necesidad de suposiciones restrictivas
de las pruebas paramétricas. Se pueden usar con muestras pequeñas. Se pueden usar
con datos cualitativos.

Consideraciones de las pruebas parametricas sobre las pruebas no parametricas: A


veces, ignoran, desperdician o pierden información. No son tan eficientes como las
paramétricas.

Llevan a una mayor probabilidad de no rechazar una hipótesis nula falsa (incurriendo en
un error de tipo II).
Inferencia Estadística
Por lo general, las pruebas paramétricas son más poderosas que las pruebas no
paramétricas y deben usarse siempre que sea posible. Es importante observar, que
aunque las pruebas no paramétricas no hacen suposiciones sobre la distribución de la
población que se muestrea, muchas veces se apoyan en distribuciones muestrales como
la normal o la ji cuadrada.

7. Una de las opciones que tiene la estadística para realizar inferencia sobre los
parámetros de una población es la prueba de hipótesis. Explique las ventajas y
desventajas con respecto al otro método de estimación.

R//. La prueba de hipótesis es planear una hipótesis y saber si la hipótesis nula es


verdadera o no, como también si se acepta mejor la hipótesis alternativa. En otras
palabras es verificar el proceso y ver si está la bien. También que la prueba de hipótesis
que vimos hoy es que se tomaba 2 observaciones para ver si son las mismas.

8. Los dos métodos No paramétricos para realizar una bondad de ajuste de los
datos de una variable con respecto a una distribución de probabilidad son: El de
Chi – cuadrado y el de Kolmogorov – Smirnov. Explique en que condiciones
debe usarse cada uno de ellos.

R//

CHI – CUADRADO

Se utiliza cuando:

• Cuando los datos puntualizan a las escalas nominal u ordinal.

• Se utiliza solo la frecuencia.

• Poblaciones pequeñas.

• Cuando se desconocen los parámetros media, moda, etc.

• Cuando los datos son independientes.

• Cuando se quiere contrastar o comparar hipótesis.

• Investigaciones de tipo social - muestras pequeñas no representativas >5.

• Cuando se requiere de establecer el nivel de confianza o significatividad en las


diferencias.
Inferencia Estadística
• Cuando la muestra es seleccionada no probabilísticamente.

• X2 permite establecer diferencias entre f y se utiliza solo en escala nominal.

• Población > a 5 y < a 20.

KOLMOGOROV – SMIRNOV

La prueba KOLMOGOROV – SMIRNOV se aplica a distribuciones de tipo ordinal.


También se usa para probar hipótesis acerca de distribuciones discretas. Se basa en
calcular las diferencias, en valor absoluto, entre las frecuencias acumuladas relativas
observadas y las esperadas, en cada clase.

9. El análisis de varianza es una técnica estadística utilizada para medir el efecto


que tiene cada uno de los niveles en que se clasifica una variable sobre otra
variable que representa las repuestas a las mediciones realizadas una
experimentación. Explique las condiciones que se deben imponer a las dos
variables y los supuestos que deben cumplirse para que tenga validez el uso de
esta técnica.

R//. Para utilizar el ANOVA de forma satisfactoria deben cumplirse tres tipos de hipótesis,
aunque se aceptan ligeras desviaciones de las condiciones ideales: 1. Cada conjunto de
datos debe ser independiente del resto. 2. Los resultados obtenidos para cada conjunto
deben seguir una distribución normal. 3. Las varianzas de cada conjunto de datos no
deben diferir de forma significativa.

Cuando se utiliza la técnica anova se deben cumplir los siguientes supuestos: 1. Las
personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio,
a partir de poblaciones normalmente distribuidas. 2. La varianza de los subgrupos debe
ser homogénea. 3. Las muestras que constituyen los grupos deben ser independientes.
Amenos de que las muestras sean independientes, y que por lo tanto, generen
estimaciones de varianza independientes, la razón de las varianzas inter e intra no
adoptará la distribución F.

10. Existen dos tipos de modelo de análisis de varianza: de efectos fijos y de efectos
aleatorios. Explique el significado de cada uno de ellos en un análisis de
varianza.
Inferencia Estadística
R// Los modelos de efectos fijos y aleatorios difieren en la concepción de la población de
estudio de partida.

- El modelo de efectos fijos de análisis de la varianza se aplica a situaciones en las


que el experimentador ha sometido al grupo o material analizado a varios factores, cada
uno de los cuales le afecta sólo a la media, permaneciendo la "variable respuesta" con
una distribución normal.

- Los modelos de efectos aleatorios se usan para describir situaciones en que


ocurren diferencias incomparables en el material o grupo experimental. El ejemplo más
simple es el de estimar la media desconocida de una población compuesta de individuos
diferentes y en el que esas diferencias se mezclan con los errores del instrumento de
medición.

CONCLUSIÓN

Este trabajo fue de gran ayuda ya que nos permitió trabajar la unidad del modulo de
Inferencia Estadística y de esta manera trabajar en los puntos que ahí se plantean; esto
con el fin de afianzar nuestros conocimientos y de que hiciéramos cada uno de los puntos
planteados.
Inferencia Estadística

BIBLIOGRAFÍA

 Modulo de Inferencia estadística


 http://www.terra.es/personal2/jpb00000/tinferencia.htm

También podría gustarte