Está en la página 1de 17

Estadstica Inferencial con Microsoft Excel (R) ESTADISTICA INFERENCIAL CON MICROSOFT EXCEL http://reyesestadistica.blogspot.com/2011/07/estadistica-inferencial-con-microsoft.

html

INTRODUCCION: La inferencia es la rama de la estadstica que se dedica a elaborar conclusiones vlidas para toda una poblacin, a partir de un conjunto de datos, que generalmente son solamente una fraccin del total de datos (muestra).

Existe una variedad de tcnicas para elaborar dichas conclusiones, las que dependen bsicamente de tres cosas: a) La naturaleza de los datos (cuantitativos, cualitativos) b) La cantidad de datos c) La naturaleza de la comparacin realizada

Microsoft Excel es una herramienta ampliamente utilizada en la sociedad actual, sin embargo se desconocen muchas de sus capacidades de clculo en diferentes reas. El objetivo de este curso corto es dar a conocer las aplicaciones de Excel en la inferencia estadstica, que estn disponibles para el usuario.

CONCEPTOS BSICOS DE LA INFERENCIA ESTADSTICA

POBLACIN: Es un conjunto, cuyos elementos poseen caractersticas comunes, las cuales son del inters del investigador, y que pueden ser observadas (medidas)

La estadstica como ciencia se dedica al estudio de las poblaciones. Sin embargo en la mayora de situaciones no es posible estudiar a la poblacin completa. La solucin es estudiar una fraccin de la poblacin (muestra) y elaborar conclusiones para toda la poblacin a partir de dichos datos.

MUESTRA: Es una fraccin de la poblacin extrada para el estudio de la misma. Para que los resultados sean vlidos, es necesario que la muestra sea REPRESENTATIVA de la poblacin de donde proviene. Para ello, debe reunir los siguientes requisitos a) Debe extraerse al azar b) Debe generar suficiente varianza c) Debe tener un tamao apropiado

NIVEL DE CONFIANZA: Debido a que la mayora de veces se trabaja con muestras, siempre existir la posibilidad de cometer errores al momento de elaborar una inferencia. Para enfrentar esta situacin, se define una probabilidad de xito llamada Nivel de confianza. Debido a costumbres que han ido quedando, se trabaja con un nivel de confianza del 95%, sin embargo el investigador tiene el derecho de escoger otro nivel a su gusto o conveniencia.

NIVEL DE SIGNIFICANCIA: Es el complemento del nivel de confianza. Usualmente se representa con la letra griega alfa (). Corresponde a la probabilidad de fracaso.

HIPTESIS Cualquier suposicin preliminar acerca de cualquier fenmeno. En el caso de la estadstica, la suposicin se realiza sobre los parmetros de una poblacin. Bsicamente existen dos tipos de hiptesis: la Nula (Ho), que se plantea con la intencin de ser rechazada, y la alterna (Ha) que se plantea con la intencin de ser aceptada. El procedimiento para una prueba de hiptesis, incluye las siguientes etapas: a) Planteamiento de las hiptesis b) Clculo de un estadstico de prueba (Z, t, F, o Chi cuadrado) c) Obtencin de un comparador, de una tabla (Z, t, F, Chi Cuadrado) d) Aplicacin de una regla de decisin En este curso no se har nfasis en las frmulas sino en las aplicaciones, tomando en cuenta la naturaleza de los datos.

MDULO DE ANLISIS DE DATOS DE MICROSOFT EXCEL

Uno de los complementos que posee Microsoft Excel es un mdulo de anlisis de datos. En la mayora de instalaciones de Excel ste mdulo no esta habilitado, por lo cual lo primero que debe hacerse es habilitarlo, siguiendo los siguientes pasos:

a) Dar Click sobre el men de Excel.(El smbolo --) b) Seleccionar la pestaa OPCIONES DE EXCEL c) Seleccionar la pestaa COMPLEMENTOS d) Seleccionar la opcin Administrar complementos (IR) e) Activar las casillas de Anlisis de Datos y Anlisis de datos VBA f) Dar click en la opcin ACEPTAR

Descripcin del Men de Anlisis El men de anlisis est dentro de la pestaa DATOS--> Anlisis de Datos El men tiene la siguiente apariencia:

Aunque las opciones se encuentran en un orden extrao, se describirn en el orden lgico de un curso de estadstica inferencial.

Anlisis descriptivo: Aunque Excel tiene funciones individuales para anlisis de datos cuantitativos, existe la opcin de un anlisis ms extenso. Para ello se selecciona la pestaa ESTADISTICA DESCRIPTIVA en el men de anlisis de datos.

Se presenta la siguiente ventana:

El rango de entrada puede tener una o ms variables, las cuales pueden estar ordenadas por filas o por columnas. Se debe definir esto activando el indicador respectivo. Si en la primera fila o columna hay nombres de variables, se debe activar la opcin Rtulos en la primera fila

Los resultados se pueden mostrar en una hoja nueva, un libro nuevo, pero usualmente es en la misma hoja, para lo cual se debe definir el lugar .

Si se desea un detalle de las estadsticas ms importantes se marca la casilla Resumen de Estadsticas.

Si se desea un intervalo de confianza para la media, debe marcarse la casilla y definirse un nivel de confianza.

Se pueden obtener los nmeros mayor y menor del conjunto o bien los segundos, terceros, etc, para lo cual se marcan las casillas y se indica el orden (1,2,3)

EJERCICIO: Para el siguiente conjunto de datos, calcule las estadsticas ms importantes y un intervalo de confianza al 97% 15 9 20 11 18 12 14 19 22 18 17 19 14 12 10 10 18 10 15

Los resultados obtenidos son los siguientes

5. Prueba de igualdad de varianzas El objetivo de esta prueba es determinar si las varianzas de dos poblaciones (o en todo caso de sus muestras son iguales) Se requieren datos de las dos poblaciones y no se asume normalidad de las variables. El estadstico de prueba es un F, la razn de dos varianzas. En el men de anlisis de datos se escoge la opcin Prueba de F para varianzas de dos muestras: Se debe ingresar la ubicacin de los datos y el nivel de significancia deseado. Ejemplo:para los siguientes datos, comprube con 5% de significancia si las varianzas son iguales Se toman 10 datos al azar de ambas secciones de un curso son los siguientes resultados:

SECCION A B

1 62 33

2 48 38

3 55 15

4 33 39

5 65 57

6 46 45

7 70 38

8 55 40

9 40 42

10 49 55

6. Prueba de medias para la diferencia de medias de dos poblaciones

Se asume que las poblaciones tienen distribucin normal. Existen tres casos para esta situacin: a) Cuando las varianzas poblacionales son conocidas b) Las varianzas poblacionales son desconocidas pero iguales c) Las varianzas poblacionales son desconocidas y no son iguales

CASO 1: VARIANZAS CONOCIDAS Se debe escoger la opcin Prueba de Z para medias de dos muestras. Adems de los datos de las dos poblaciones se ingresan los datos de las varianzas poblacionales.

Ejemplo: Se conoce que las varianzas de las calificaciones de los Cursos de Matemtica 1 Seccin A y Matemtica 1 seccin B son respecivamente 625 y 2,500 puntos cuadrados. Se toman 10 datos al azar de ambas secciones son los siguientes resultados: SECCION A B 1 62 33 2 48 38 3 55 15 4 33 39 5 65 57 6 46 45 7 70 38 8 55 40 9 40 42 10 49 55

Pruebe la hiptesis que los alumnos de la seccin A tienen mayor promedio que los de la seccin B , con un 97% de confianza.

CASO 2: VARIANZAS DESCONOCIDAS PERO IGUALES En este caso se aplica una prueba de t de student. En el men de anlisis de datos se escoge la opcin Prueba de t para dos muestras suponiendo varianzas iguales

Ejemplo: Se desea probar si hay diferencia entre los salarios diarios de los empleados de dos diferentes empresas. Los resultados del muestreo son los siguientes. POBLACION Empresa1 Empresa 2 1 2 3 4 360 375 5 405 389 6 395 385 7 389 395 8 409 425 9 375 400

350 419 385 370 425 369

a) Compruebe si las varianzas son iguales, con 95% de confianza b) Realice la prueba de medias apropiada para generar conclusiones, con 95% de confianza

Ejercicio: con los datos del archivo nuevo compruebe si las notas de los graduados de establecimientos pblicos son iguales que las de graduados de establecimientos privados.

Caso 3. Las varianzas son desconocidas y no son iguales. En este caso tambin se aplica una prueba de t de Student, pero los clculos se realizan en otra forma. En el men de anlisis de datos se escoge la opcin Prueba de t para dos medias suponiendo varianzas desiguales.

Ejemplo: comparacin del rendimiento de dos automviles compactos, uno japons y el otro coreano, del mismo cilindraje. Variable: kilmetros por galn.

ORIGEN JAPONES COREANO

1 66 61

2 67 69

3 68 66

4 66 59

5 67 60

6 67 62

7 68 69

8 65 63

9 68 65

a) Compruebe si las varianzas son iguales, con 95% de confianza b) Realice la prueba de medias apropiada para generar conclusiones, con 95% de confianza

Prueba de datos apareados En este caso se trata de dos poblaciones que de alguna manera estn correlacionadas, por ejemplo Antes/despus. El nmero de datos es el mismo para cada poblacin porque hay una correspondencia de uno a uno entre los mismos. Se aplica una prueba de t de student .

Ejemplo Un investigador compara las calificaciones de diez estudiantes antes y despus de tomar una pastilla a base de Ginko biloba (que se supone mejora la inteligencia). En base a los resultados indique con un 97% de confianza si se produce un aumento de 10 puntos en los resultados, si se usan las cpsulas.

JUAN PEDRO CARLOS ESTELA MARTIN JUANY KARLA JOSE MANUEL STEFANI ANTES 45 52 55 61 59 33 33 49 54 75 80 64 64 39 39 54 53 60 68

DESPUES 48

Ejercicio: con los datos del archivo nuevos compruebe si las notas de lgebra son iguales a las notas de fsica .

Anlisis de varianza de un factor (completamente al azar) Excel puede realizar anlisis de varianza para diseo al completo azar, ya sea balanceado (iguales repeticiones por tratamiento) o desbalanceado (desiguales repeticiones por tratamiento). En el men de anlisis de datos se escoge la opcin Anlisis de Varianza de un factor.

Ejemplo No. 1: Diseo balanceado En el centro de investigacin de los Hombres de Negro, se ensayan nuevas armas para atacar a una especie extraterrestre de plantas mutantes. El producto usado hasta la fecha es Alien X. Se aplicaron a especimenes dosis de los productos y se midi la variable respuesta: porcentaje de destruccin de tejidos. Los resultados finales fueron:

X-1 45 M6 42 L4 88 X-1 50

ALIEN X 65 M6 44 ALIEN X 62 M6 42

L4 82 X-1 52 M6 42 L4 88

ALIEN X 60 L4 86 X-1 61 ALIEN X 65

Realice el andeva al 3% de significancia y escriba conclusiones y recomendaciones Primero debe ordenarse los datos, obtenindose lo siguiente:

X1 ALIEN X L4 M6

45 65 82 42

52 60 86 44

61 50 62 65 88 88 42 42

Ejemplo 2: Diseo desbalanceado Al probar concentraciones de 1, 2, 3 y 4 ppm de cierta encima ms un control (en que no se aadi encima) para estudiar el efecto en la separacin de un jugo de naranja. A cada tratamiento se aplic 4 veces y se us un diseo al completo azar. Se aadi agua a las 20 muestras y se midi el tiempo de separacin (minutos) en cada muestra, los resultados fueron los siguientes IMPORTANTE: LAS CELDAS DONDE FALTAN DATOS SE DEJAN EN BLANCO (NO INGRESAR CEROS) Datos A CONTROL B 1PPM C 2PPM D 3PPM E 4PPM I 3.96 27.31 35.30 41.09 48.90 II 6.24 26.96 34.71 43.99 47.61 III 5.42 32.21 Perdido 48.70 50.38 IV 11.11 30.13 38.38 41.78 Perdido

a) realice el anlisis de varianza al 5% b) calcule el coeficiente de varianza c) escriba conclusiones y recomendaciones

Anlisis de varianza de dos factores (Bloques al azar) Tambin Excel puede realizar anlisis de varianza para diseo en bloques al azar. Se escoge la opcin Anlisis de varianza de dos factores con una sola muestra por grupo

Esta opcin no permite el caso de los diseos desbalanceados. En este caso se deben estimar los datos faltantes y efectuar el ajuste manual de grados de libertad, cuadrados medios, F calculada y F tabulada.

Ejemplo: En un hospital hay cuatro sillones dentales, que son operados por cinco operadores distintos. Se cree que hay diferencias en el tiempo que tardan en cada silln para realizar una extraccin, por lo que se realiza un experimento en el cual cada operador realiza una extraccin en cada silln dental. Se mide el tiempo necesario en minutos. Los resultados finales fueron: Sillones/operador 1 JOSE 15 CARLOS 9 XIMENA 20 KARLA 11 MANUEL 18

2 3 4

12 18 10

14 17 10

25 19 18

19 14 10

22 12 15

Plantee la hiptesis pertinente Calcule el anlisis de varianza al 5% de significancia Escriba conclusiones y recomendaciones

Anlisis de Regresin Excel puede realizar anlisis de regresin para modelos simples y mltiples, El mdulo de anlisis tiene una opcin para regresin:

Se debe definir el rango que contiene los datos de la variable dependiente (y) En el rango de x, si el modelo es mltiple se ingresan varias columnas segn la cantidad de variables independientes.

Ejemplo: Los siguientes datos muestran el crecimiento poblacional de una aldea del interior del pas: ao 1900 1925 1950 1975 2000 habitantes 300 750 1500 4000 7500

efecte el ajuste del modelo lineal y estime que poblacin habr en la aldea para el ao 2012

Posts Relacionados Cmo Invertir matrices con Excel? | Estadstica, Matemtica y ... Prueba de Hiptesis para datos apareados con Excel | Estadstica ... Estadstica, Matemtica y Computacin Anlisis de Regresin Logartmica | Estadstica, Matemtica y ... agosto 2011 | Estadstica, Matemtica y Computacin