Está en la página 1de 11

UNIDAD II – INFERENCIA ESTADÍSTICA

TRABAJO COLABORATIVO Nº 2.

Presentado a:
Danys Brito
Director y tutor de curso

Presentado por:
GRUPO COLABORATIVO No. 100403_31
Nasly Mabel Vargas
Diego Armando Iannino
Gloria Nidia Jiménez

Programa:
INGENIERIA DE SISTEMAS

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA- UNAD


BOGOTÁ D.C.,
Noviembre 2009
INTRODUCCION

En este trabajo colaborativo se tendrán en cuenta los temas de pruebas de hipótesis, análisis de
varianzas y pruebas no paramétricas estudiadas mediante la estrategia basada de resolución de
problemas.
En cuanto a las pruebas de hipótesis podemos decir que la inferencia estadística se ocupa de la
obtención de conclusiones en relación a un gran número de sucesos, en base a la observación de una
muestra obtenida de ellos
Las técnicas estadísticas de estimación de parámetros, intervalos de confianza y prueba de hipótesis
son, en conjunto, denominadas ESTADÍSTICA PARAMETRICA y son aplicadas básicamente a
variables continuas. Estas técnicas se basan en especificar una forma de distribución de la variable
aleatoria y de los estadísticos derivados de los datos.

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más
medias; es un método que permite comparar varias medias en diversas situaciones; muy ligado, por
tanto, al diseño de experimentos y, de alguna manera, es la base del análisis multivariante.
OBJETIVOS

 En la prueba de hipótesis tratar de determinar cuándo es razonable concluir, a partir del


análisis de una muestra, que la población entera posee determinada propiedad y cuando esto
no es razonable.

 Describir los errores estadísticos que se pueden presentar en las pruebas de hipótesis.

 El objetivo del análisis de varianza es determinar cuales son las variables independientes de
importancia en un estudio, y en qué forma interactúan y afectan la respuesta.
DESARROLLO DEL TRABAJO COLABORATIVO

1. Establezca la diferencia entre: Nivel de significación y potencia de una prueba; pruebas


paramétricas y pruebas No paramétricas.

Diferencia entre Nivel de significación y potencia de una prueba

NIVEL DE SIGNIFICANCIA POTENCIA DE UNA PRUEBA


Se representa por la letra griega alfa (a), y es Se representa por la legra griega beta (B) y
la probabilidad de cometer error tipo I, y por al valor 1-B es exactamente esta potencia; es
lo general se asume que tiene un valor de 5% la probabilidad de cometer error tipo II, el
ó 1%. También puede ser interpretado como cual no es directamente controlado por el
el área de la región que contiene todos los usuario. Una buena prueba estadística es
valores posibles donde la hipótesis nula es aquella que tiene una potencia alta, pero hay
rechazada cuando en realidad es cierta que tener en cuenta que si el nivel de
significación se toma más pequeño entonces
la potencia de la prueba también disminuye.
También se interpreta como el área de la
región que contiene todos los valores
posibles donde la hipótesis nula es aceptada
cuando en realidad es falsa

Diferencia entre pruebas paramétricas y pruebas No paramétricas:

PRUEBAS PARAMETRICAS PRUEBAS NO PARAMETRICAS


Son aquellas que suponen una distribución Se denominan así porque dentro de ella se
de probabilidad determinada para los datos. analizan datos medidos por una variable
Son paramétricas aquellas pruebas cuantitativa continua, las pruebas
estadísticas que exigen que los datos a los estadísticas de estimación y contraste
que se aplican cumplan con los siguientes frecuentemente empleadas se basan en
requisitos: suponer que se ha obtenido una muestra
- Que los valores de la variable aleatoria de una distribución de
dependiente sigan la distribución de la probabilidad de tipo normal o de Gauss.
curva normal, por lo menos en la Pero en muchas ocasiones esta suposición
población a la que pertenezca la muestra no resulta válida, y en otras la sospecha de
en la que se hizo la investigación; que no sea adecuada no resulta fácil de
- Que las varianzas de los grupos que se comprobar, por tratarse de muestras
comparan en una variable dependiente pequeñas. En estos casos se dispone de dos
sean aproximadamente iguales posibles mecanismos: los datos se pueden
(homoscedasticidad, u homogeneidad de transformar de tal manera que sigan una
las varianzas); y distribución normal, o bien se puede acudir
- Que la variable dependiente esté medida a pruebas estadísticas que no se basan en
en una escala que sea por lo menos de ninguna suposición en cuanto a la
intervalo. distribución de probabilidad a partir de la
Las pruebas paramétricas más conocidas y que fueron obtenidos los datos.
usadas son la prueba t de Student, la prueba
F, llamada así en honor a Fisher, y el
coeficiente de correlación de Pearson,
simbolizado por r.
2. El tamaño de una muestra para realizar inferencia estadística depende de unos factores, (la
confiabilidad, la varianza y el error de estimación), que la determinan. Explique los criterios
que tiene un investigador para la determinación de estos factores.

El tamaño de la muestra que debe escoger un investigador para hacer una estimación del
parámetro con las características especificadas (de nivel de confianza y error de estimación)
es un problema de gran importancia teniendo en cuenta que:

1. Si se toma una muestra más grande de la indicada para alcanzar los resultados
propuestos, constituye un desperdicio de recursos (tiempo, dinero, etc.); mientras que
una muestra demasiado pequeña conduce a menudo a resultados poco confiables.
2. Cuando se elige una muestra de tamaño n sólo se revisa una fracción o parte de la
población y con base en ella tomamos decisiones que afectan a toda la población. Es
evidente que por este procedimiento se abre la posibilidad de que nos equivoquemos en
nuestras decisiones, pero esta posibilidad depende en gran medida del tamaño de
muestra o fracción de población que se haya analizado.

El tamaño que debe tener la muestra depende del nivel de confianza propuesto, así como del
máximo error que estemos dispuestos a admitir entre el valor estimado y el valor real del
parámetro que corresponde al error de estimación.

El tamaño de la muestra depende de dos elementos básicos se trata del nivel de confianza y
del error de estimación, tenemos:

1. El tamaño de la muestra aumenta a medida que aumenta el nivel de confianza para un


error de estimación y una varianza dados.

2. El tamaño de la muestra aumenta a medida que disminuye el error de estimación para un


nivel de confianza y varianza dados.

El análisis de varianza, se utiliza en situaciones en las que la muestra total está dividida en
varios grupos basados en una o varias variables independientes no métricas y las variables
dependientes analizadas son métricas. Su objetivo es averiguar si hay diferencias
significativas entre dichos grupos en cuanto a las variables dependientes se refiere.

3. Que significan el error tipo I y el error tipo II. Explique su interpretación con un ejemplo.

ERROR TIPO I ERROR TIPO II


Es el error que se comete cuando el Se comete cuando el investigador no rechaza
investigador rechaza la hipótesis nula (Ho) la hipótesis nula siendo ésta falsa en la
siendo ésta verdadera en la población. Es población. Es equivalente a la probabilidad
equivalente a encontrar un resultado falso de un resultado falso negativo, ya que el
positivo, porque el investigador llega a la investigador llega a la conclusión de que ha
conclusión de que existe una diferencia sido incapaz de encontrar una diferencia que
entre las hipótesis cuando en realidad no existe en la realidad, también mal llamado
existe, también mal llamado error de tipo error de tipo beta.
alfa.
El que un error sea de tipo I o de tipo II depende de cómo formulemos la hipótesis que
deseamos someter a una prueba decisoria.

- Supongamos que con base en una muestra aleatoria deseamos someter a prueba decisoria
la hipótesis de que el precio costo medio de casas con tres habitaciones en una ciudad es
de $50.000.000. Siendo así, en que condiciones cometería un error de tipo I y un error de
tipo II?

Error tipo I: se comete si se rechaza que el costo medio de las casas es de $50.000.000
cuando es CIERTO.

Error tipo II: se comete si aceptamos que el costo medio de las casas es de $50.000.000
cuando es FALSO.

4. Explique cuales son los supuestos de homogeneidad, homocedasticidad, independencia y


normalidad, que deben cumplirse para validar un análisis de varianzas.

Homogeneidad de varianzas: Esta prueba resulta fundamental, pues cualquier situación de


heterogeneidad de las varianzas invalida las inferencias realizadas. Pueden existir
poblaciones o grupos muy homogéneos y, en el caso de que existiese una población o grupo
heterogéneo, sería posible no detectar diferencias entre estas poblaciones homogéneas por el
efecto de la contribución a la varianza de esta población heterogénea. Cuando existe el
problema de heterogeneidad de varianzas, lo apropiado es emplear transformaciones o
métodos no paramétricos.

La homocedasticidad es una propiedad fundamental del modelo de regresión lineal general


y está dentro de sus supuestos clásicos básicos.
Se dice que existe homocedasticidad cuando la varianza de los errores estocásticos de la
regresión son los mismos para cada observación i (de 1 a n observaciones), es decir:

donde es un escalar constante para todo i. Lo que significaría que habría una
distribución de probabilidad de idéntica amplitud para cada variable aleatoria

Independencia de las Observaciones: Con el fin de obtener inferencias válidas, resulta


importante determinar si los errores se encuentran correlacionados, si se infla el efecto de los
tratamientos y es posible detectar diferencias cuando no las hay, es decir, si existe el efecto
no controlado de factores desconocidos. El supuesto más importante es la independencia de
las observaciones, pues si no hubo asignación aleatoria de tratamientos a unidades
experimentales, entonces los resultados pueden incluir un efecto persistente de factores no
considerados en el análisis. Esto invalida el experimento.
o Perturbaciones U i independientes entre sí.
o En particular, E [ U i U j ]=0 para i≠ j

Normalidad: No es tan importante como la Independencia de las Observaciones, pues el


ANOVA es robusto. Esto quiere decir que, aunque las observaciones no sean normales, las
medias de los tratamientos son aproximadamente normales debido al Teorema Central del
Límite. Sin embargo, si los datos son extremadamente no-normales, es posible
transformarlos para cubrir este requisito, o bien emplear métodos no paramétricos. Es decir,
que ante la falta de normalidad se puede optar por el uso de transformaciones o, como
último recurso, el uso de métodos no paramétricos.
o Las perturbaciones siguen distribución normal U i N ( 0 , σ 2 )
o En consecuencia y i N ( β0 + β 1 xi 1 +…+ β k x ik , σ 2 )

5. Comprueben a partir de dos muestras independientes de igual tamaño de hombres y mujeres,


la opinión de acuerdo o desacuerdo con algún tema de su interés, a través del contraste de
una hipótesis, en la se establezca si existen diferencias de opinión entre los hombres y
mujeres sobre el tema de interés consultado. Interprete los resultados a que diere lugar este
caso. Para dar respuesta a este caso utilice los pasos para el contraste de una hipótesis.

En una muestra probabilística de 12 mujeres, el 20% indico preferencia por un nuevo


programa de televisión. Con posterioridad a una campaña intensiva de los medios de
comunicación se selecciono una nueva muestra, esta vez de hombres del mismo tamaño y
clase social. En esta muestra el 22% indico la misma preferencia del grupo de mujeres por el
programa de televisión. De acuerdo con estos resultados y a un nivel del 5%, ¿podría
rechazarse la hipótesis de que la campaña de publicidad no fue efectiva?

Tenemos entonces los siguientes datos:


n1=12 n2=12, p1=0.20, p2=0.22, α=0.05

Planteamiento de hipótesis:
H0: μp1=μp2
H1: μp1<μp2
Con α=0.05

p1 q 1 p 2 q 2
S ṕ 1− ṕ 2=
n1√ +
0.20−0.22
n2
t= =−0.12
( 0.2 ) ( 0.8 ) ( 0.22 ) ( 0.78 )
√ 12
+
12

De acuerdo con este resultado se concluye que, al nivel del 5%, se puede rechazar que la
campaña publicitaria NO fue efectiva.

6. Establezca las consideraciones que deben hacerse para seleccionar entre un modelo
paramétrico o su correspondiente no paramétrico.

MODELO PARAMETRICO METODO NO PARAMETRICO


Es la que requiere que los elementos que Conocida también como distribución libre,
integran las muestras contengan elementos estudia las pruebas y modelos estadísticos
parámetros o medibles. Plantea tres tipos de cuya distribución subyacente no se ajusta a
problemas: los llamados criterios paramétricos. Su
- Estimación puntual: En la que distribución no puede ser definida a priori,
pretendemos darle un valor al pues son los datos observados los que la
parámetro a estimar. determinan. La utilización de estos métodos
- Estimación por intervalos (buscamos se hace recomendable cuando no se puede
un intervalo de confianza). asumir que los datos se ajusten a una
- Contrastes de hipótesis donde distribución normal o cuando el nivel de
buscamos contrastar información medida empleado no sea, como mínimo, de
acerca del parámetro. intervalo.

7. Una de las opciones que tiene la estadística para realizar inferencia sobre los parámetros de
una población es la prueba de hipótesis. Explique las ventajas y desventajas con respecto al
otro método de estimación.

VENTAJAS METODO NO DESVENTAJAS METODO NO


PARAMETRICO PARAMETRICO
1. No requieren que hagamos la suposición 1. Ignoran una cierta cantidad de
de que una población está distribuida en información
forma de curva normal u otra forma
específica. 2. A menudo, no son tan eficientes como las
2. Generalmente, son más fáciles de pruebas paramétricas. Cuando usamos
efectuar y comprender.
3. Algunas veces, ni siquiera se requiere el pruebas no paramétricas, efectuamos un
ordenamiento o clasificación formal. trueque: perdemos agudeza al estimar

intervalos, pero ganamos la habilidad

8. Los dos métodos No Paramétricos para realizar una bondad de ajuste de los datos de una
variable con respecto a una distribución de probabilidad son: El de Chi-cuadrado y el de
Kolmogorov – Smirnov. Explique en que condiciones debe usarse cada uno de ellos.

CHI CUADRADO KOLMOGOROV - SMIRNOV


Intervienen dos o más variables cualitativas. Puede usarse con muestras muy pequeñas, en
 Su valor sólo puede ser positivo. donde no se
 Hay una familia de distribuciones de esta  pueden aplicar otras pruebas
clase, una para cada grado de libertad. paramétricas.
 Las distribuciones tienen sesgo positivo,  Podemos usar la prueba de Kolmogorov
pero conforme aumenta el número de grados para verificar la suposición de
de libertad, la distribución se aproxima a la normalidad
de tipo normal.  subyacente en todo análisis de inferencia.
 Las variables presentan dos o más  Si bien constituye una prueba de
modalidades. implementación sencilla, tenga en cuenta
 Los datos se presentan en frecuencias que que carga con las desventajas de los
se tabulan en tablas de contingencia o tablas métodos no paramétricos en general, en
de doble entrada. el sentido de producir resultados menos
precisos que los procedimientos
convencionales.
 Cuando trabaje con muestras pequeñas,
recuerde usar la frecuencia cumulada
Experimental.

9. El análisis de varianza es una técnica estadística utilizada para medir el efecto que tiene cada
uno de los niveles en que se clasifica una variable sobre otra variable que representa las
respuestas a las mediciones realizadas una experimentación. Explique las condiciones que se
deben imponer a las dos variables y los supuestos que deben cumplirse para que tenga
validez el uso de esta técnica.

Con el análisis de la varianza se puede analizar simultáneamente la influencia de dos o más


factores de clasificación (variables independientes) sobre una variable respuesta continua.
Esto se conoce como análisis factorial de la varianza. El efecto de un factor puede añadirse
al de otro factor (modelo aditivo) o bien puede potenciarse (modelo multiplicativo). En este
último caso, aparece y se analiza un nuevo factor de interacción sobre la variable respuesta,
como resultado de la acción conjunta de dos o más factores. Este posible efecto es detectado
en el análisis de la varianza por la significación de su estadístico de contraste
correspondiente.

Las técnicas del análisis de la varianza, basadas en la partición de la variabilidad (suma de


cuadrados) de la respuesta estudiada, sirven de base para el análisis de distribuciones de
datos generados, en diseños más complejos, como es el análisis de covarianza. En este
último tipo de análisis se combinan variables explicativas discretas y continuas. La
variabilidad de la respuesta es analizada como en el análisis factorial de la varianza, una vez
que se ha eliminado la posible influencia de la o las variables continuas explicativas. Sería
un análisis análogo al de la varianza de los residuales; esto es, se analizan los residuos de la
regresión en lugar de los datos iniciales.

El planteamiento más simple de análisis de la varianza tenemos una variable numérica


cuantitativa (resultado), y queremos determinar en qué medida se puede atribuir la
variabilidad de ésta a otra variable cualitativa nominal que vamos a denominar factor.
Estamos hablando por tanto de análisis de la varianza para un solo factor, que puede tener 2
o más categorías o niveles.

Dado que a través del Análisis de la Varianza se persigue saber si los distintos niveles de un
factor influye en los valores de una variable continua, para que efectivamente sí haya
diferencias en los valores de la variable continua según el nivel del factor, se tiene que dar
simultáneamente que el comportamiento de la variable continua sea lo más distinto posible
para los distintos niveles del factor, y a su vez, que dentro de cada grupo (determinado por
los niveles del factor) los valores sean lo más homogéneos posibles.

10. Existen dos tipos de modelo de análisis de varianza: de efectos fijos y de efectos aleatorios.
Explique el significado cada uno de ellos en un análisis de varianza.

ANALISIS DE VARIANZA DE ANALISIS DE VARIANZA DE


EFECTOS FIJOS EFECTOS ALEATORIOS
Modelo de efectos fijos: Cuando los Modelo de efectos aleatorios:
resultados obtenidos sólo son Cuando los resultados obtenidos son
Válido para esos determinados niveles del válidos para cualquier nivel del factor
factor estudiado y lo que ocurra a otros estudiado
niveles del factor puede ser diferente
CONCLUSIONES

 La Inferencia Estadística comprende los métodos que son usados para sacar conclusiones de
la población en base a una muestra tomada de ella. Incluye los métodos de estimación de
parámetros y las pruebas de hipótesis.

 La afirmación que está establecida y que se espera sea rechazada después de aplicar una
prueba estadística es llamada la hipótesis nula y se representa por Ho.

 Una prueba estadística es una fórmula, basada en la distribución del estimador del parámetro
que aparece en la hipótesis y que va a permitir tomar una decisión acerca de aceptar o
rechazar una hipótesis nula.

 Para el análisis de varianza se puede decir que esta técnica estadística, normalmente es
utilizada para analizar resultados en la investigación con diseños experimentales y cuasi-
experimentales; muchas veces necesitamos comparar dos o más distribuciones que
corresponden a variaciones de una misma variable dependiente, afectada por una o más
variables independientes.

 El análisis de la varianza que consiste en descomponer la variabilidad total de los datos en


sumandos cada uno de ellos asignable a una fuente de variación.
BIBLIOGRAFIA

 Martínez Bencardino, Ciro. Estadística y muestreo. Decima edición, Bogotá D.C., agosto de
2000. Eco ediciones.
 Módulo Inferencia estadística. Brito Rosado, Danys. Rondón Duran, Jorge Eliecer.
Universidad nacional abierta y a distancia UNAD. Escuela de ciencias básicas tecnología e
ingeniería. Bogotá, mayo 2008
 Walpole Ronald y Myers Raymond, Probabilidad y Estadística. Cuarta Edición México,
noviembre de 1998.

También podría gustarte