Está en la página 1de 127

DANIEL HERRERA ARÁUZ

ESTADÍSTICA CON SPSS

Contiene:

  • Nociones básicas de Estadística.

  • Manual de usuario de SPSS.

PRESENTACIÓN:

Al igual que las publicaciones anteriores: Matemática Financiera y Probabilidad, Combinatoria y Distribuciones de Probabilidad, Estadística con SPSS es el resultado del material académico preparado por el autor para los cursos regulares de Estadística desarrollados en la Facultad de Ciencias Administrativas de la Universidad Central del Ecuador, a nivel de pregrado y posgrado, como también en calidad de instructor en eventos de capacitación profesional en varios Centros de Actualización de Conocimientos como también en Educación Continua.

El programa SPSS (Stadistical Package for the Social Science) es quizá en la actualidad, el paquete de software más difundido a nivel mundial para el análisis estadístico de datos, La versión actual (V24) sigue siendo de propiedad de la firma IBM.

El libro de texto Estadística con SPSS está compuesto por tres secciones:

  • La primera sección contiene las nociones básicas de Estadística; en esta parte el autor presenta un resumen de los conceptos, definiciones y procesos de cálculo para la obtención de los estadísticos que describen a un grupo de datos, su representación gráfica, como también los diferentes métodos de muestreo, y herramientas de estadística inferencial para una población como también para dos poblaciones.

  • La segunda sección contiene una detallada descripción, a manera de manual de usuario, de las distintas opciones y herramientas que dispone el programa SPSS para la organización de datos, el cálculo de los diferentes estadísticos que describen a un muestra, diversas opciones de elaboración de gráficos estadísticos, técnicas de muestreo, estadística inferencial en una población, dos poblaciones y varias poblaciones a través del ANOVA y el modelo de regresión y correlación bivariable y multivariable.

  • La tercera sección (en edición separada) contiene 13 prácticas de laboratorio de estadística con SPSS; el desarrollo académico de estas actividades permitirá al estudiante aplicar los conceptos, definiciones y procesos de la Estadística Descriptiva e Inferencial, como también adquirir destrezas y habilidades en el manejo del paquete estadístico.

El material desarrollado en las tres secciones es acorde con la malla curricular y el syllabus académico de la asignatura de Estadística en los niveles I y II de las carreras de Contabilidad y Auditoría, Administración de Empresas, Administración Pública, Economía, Marketing, Sicología y otras. Al igual que constituye un importante material en los estudios de posgrado para las maestrías en Empresas, Finanzas, Educación, etc.

A criterio del autor, en la actualidad, la enseñanza de la Estadística no puede desarrollarse sin la utilización de algún software que resuelva las operaciones aritméticas en forma rápida y precisa; de manera que el tiempo que se ahorra al evitar realizar los cálculos en forma manual se podría dedicarlo al análisis de resultados y a la creación de escenarios virtuales con la variación de las condiciones iniciales del problema.

El autor anticipa su agradecimiento a docentes y estudiantes que hagan uso de este material,

solicitando

además

remitir

sus

comentarios

y

sugerencias

para

futuras

ediciones

a

Daniel Herrera Aráuz

BREVE HISTORIA DE LA ESTADÍSTICA 1 .-

La historia de la Estadística es la historia de la humanidad, desde comienzos de la civilización, el hombre buscó la manera de llevar registros mediante representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas, para determinar número de personas, animales o ciertas cosas.

Hacia el año 3000 A.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque.

Los egipcios fueron los primeros en analizar los datos de la población y renta del país, mucho antes de construir las pirámides en el siglo XXXI A.C.

Los libros de “Números” y “Crónicas” incluyen, en algunas partes, cierta información que puede considerarse como Estadística:

  • El primero contiene dos Censos de la población de Israel.

  • El segundo describe el bienestar material de las diversas tribus judías.

En China existían registros numéricos similares con anterioridad al año 2000, anterior a la Era cristiana.

Los griegos clásicos realizaban censos, cuya información se utilizaba hacia el año 594 A.C. para cobrar impuestos.

El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control, para esto basta recordar lo que dicen las Escrituras sobre el censo a realizarse previo al nacimiento de Jesús.

Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes carolingios, Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762, respectivamente.

John Graunt.-

Hijo de un tapicero, nació en Londres de 1620, fue desde muy joven aprendiz de un comerciante de mercancía y, en esta actividad se mantuvo toda su vida. De formación autodidacta, y en base a esfuerzos propios, adquirió algunos conocimientos sobre todo de latín y francés. No tuvo una formación académica ni tampoco autodidacta en lo que a matemática se refiere, situación que de haberse dado habría sido de gran ayuda en la publicación de su obra sobre los registros de mortalidad; sin embargo el análisis de Estadísticas nació en Londres, en el año de 1662. John Graunt

publicó “Observaciones Naturales y políticas sobre los registros de Mortalidad”.

Para ese entonces, Inglaterra contaba ya con una población de cien mil habitantes. Esta ciudad tenía ya problemas propios de una superpoblación, dificultades en los servicios de salud, educación etc., que fueron la causa que originó el registro de nacimientos y muertes, registros que después de la epidemia de 1603, fueron realizados semanalmente. Llegaron a formar con el tiempo, material de gran utilidad para la previsión de eventos futuros.

1 Con la colaboración académica de Nelson Herrera Aráuz

El Análisis de Graunt se basó en comparaciones porcentuales año tras año, en lo referente a nacimientos, muertes por accidentes, muertes por enfermedades, suicidios etc. observando que eventos mortales mantenían valores constantes y que se presentaban con sorprendente regularidad. También llegó a concluir, que el número de nacimiento de los varones era superior al de mujeres, sin embargo, en ese entonces las labores destinadas a los hombres, entre estas la guerra, tendrían un mayor riesgo, por lo que, a la edad de casarse, el número de varones y mujeres se igualaba por lo que la monogamia debía ser la forma de vida que la misma naturaleza señalaba.

William Petty.-

La publicación de John Graunt fue avalada académicamente por Sir William Petty (1623-1687),

profesor de la Universidad de Oxford, y, más tarde médico del Ejercito inglés, calificó a la Estadística,

como la “Aritmética Política” y la definió como:

El arte de razonar por medio de cifras y gráficas, acerca de aspectos relacionados con el gobierno. De ahí que la palabra Estadística se relacione con la palabra Estado.

Sin embargo, el verdadero aporte de Petty al desarrollo de la Estadística, fue tratar de cuantificar las variables que conforman las ciencias sociales y, evitar así el uso de valores cualitativos y palabras comparativas en la descripción de estas variables.

Edmund Halley.-

Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley, como base para la primera tabla de mortalidad.

Halley, como astrónomo, dedujo que un cometa visto algunas décadas anteriormente, obedecía a un fenómeno cíclico y predictible. Dedicó toda su vida a estudiarlo y, con la ayuda del gran matemático inglés Isaac Newton, pudo calcular el año que retornaría. Desgraciadamente, murió algunos años antes de que el cometa reaparezca, exactamente en el lugar del cielo y la fecha previstos.

Halley era un hombre muy versátil y no solo se preocupó de la astronomía, fue el creador de las tablas de esperanzas matemáticas, empleadas para el cálculo de las pólizas del seguro de Vida, incluso investigó el lugar exacto del desembarco de Julio César en Gran Bretaña.

Jean Baptiste Colbert.-

En Francia, el rey Luis XIV, por esos mismos años, consiguió que la patria de los galos marque un siglo de hegemonía. El gran asesor del Rey Sol Jean Baptiste Colbert que fue aprendiz de pañero, se preocupó de que la economía de Francia se controle mediante los números; incluso, formó una escuela económica llamada Colbertismo, que significa la protección del Estado a la producción industrial.

Colbert, como asesor de Luis XIV se dio cuenta de la importancia de los registros numéricos almacenados para manejar las importaciones y exportaciones del reino, es más, con los matemáticos Huygens, holandés, y Leibniz, alemán sostuvo importantes diálogos científicos y fue convencido por estos, en la necesidad de crear para la gloria de Francia el Observatorio Real y la Academia de Ciencias de París.

No se puede separar el desarrollo de la Estadística de la historia del Cálculo de la Probabilidad. En este punto es necesario renombrar los aportes de brillantes matemáticos tales como: Bernoulli,

Gauss, Poisson, etc. Aportes que permitieron desarrollar modelos probabilísticos que al ser adaptados al análisis estadístico, lograron hacer de esta ciencia la herramienta de la planificación por excelencia. En el siglo XX, es donde la Estadística toma el carácter formal de una ciencia de la matemática aplicada, gracias a los aportes de:

L. T. Grosset.-

Fue el creador de la Distribución t, siendo empleado de una cervecería irlandesa a principios de 1900. Desaprobaba el hecho de que las personas publicaran sus trabajos usando sus nombres verdaderos, por lo que escribió acerca de las propiedades matemáticas de las distribuciones para pequeñas muestras, y publicó bajo el seudónimo de student.

Ronald Fisher.-

Sir Ronald Fisher nació en Londres en el año de 1890 y murió en la misma ciudad en el año de 1962, fue un científico eminente en dos campos: La Genética y la Estadística. Alrededor de los años veinte de ese siglo, se dedicó al diseño de experimentos en agricultura. De estos trabajos nació una de las herramientas más importantes en la toma de decisiones, el Análisis de Varianza, mediante la comparación de varianzas entre muestras y en el interior de las mismas con valores críticos de una distribución probabilística creada por el mismo.

Abraham Wald.-

Matemático alemán nacido en 1902, comenzó sus trabajos de investigación estadística motivado por las acuciantes necesidades de estudios matemáticos que trajo consigo la Segunda Guerra Mundial, murió en un accidente aéreo en el año de 1950, entre sus estudios y aportes importantes para la Estadística, se tiene el Análisis Secuencial y la teoría de toma de decisiones.

La Estadística y el Desarrollo Industrial.-

A principios del siglo XX el escritor e historiador inglés HG Wells, comentó cierto día que el aprendizaje y conocimiento de la estadística será tan necesario, como la aptitud y el gusto por la lectura. Tómese en cuenta que en la época de este comentario aún no había florecido el desarrollo industrial en el mundo entero; sin embargo se intuía ya la necesidad de establecer mecanismos de control y herramientas para tomar decisiones dentro del mundo industrial.

Uno de los aportes más importantes en la Estadística, son las contribuciones realizadas por W. Eduard Deming, a mediados del siglo anterior (1950). Este brillante estadístico, desarrolló modelos para el Control de Calidad de los procesos productivos, basándose en la teoría de las desviaciones alrededor de una medida de centralización.

En resumen:

En el desarrollo de la humanidad, la Estadística se ha constituido en uno de los soportes más importantes para este progreso, la investigación científica, la toma de decisiones, la planificación industrial y muchos otros campos del quehacer profesional, recurren a los métodos estadísticos en forma cada vez más confiable y concurrente, razones suficientes para que el estudiante universitario y el profesional, se interesen en el conocimiento de los diferentes métodos que esta herramienta dispone.

ESTADÍSTICA CON SPSS

ESTADÍSTICA CON SPSS NOCIONES BÁSICAS DE ESTADÍSTICA PRIMERA SECCIÓN

NOCIONES BÁSICAS DE ESTADÍSTICA

PRIMERA SECCIÓN

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 1. DEFINCICIONES BÁSICAS

4

  • 1.1. DEFINICIÓN DE

ESTADÍSTICA ...................................................................................................

4

  • 1.2. CLASIFICACIÓN DE LA ESTADÍSTICA

4

  • 1.3. POBLACIÓN ..............................................................................................................................

4

  • 1.4. MUESTRA .................................................................................................................................

4

  • 1.5. MUESTRA VS

POBLACIÓN ........................................................................................................

5

  • 1.6. VARIABLES O DATOS ESTADÍSTICOS

5

  • 1.7. ESTADÍSTICOS Y PARÁMETROS

6

  • 2. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS

7

  • 2.1. ORDENAMIENTO DE LOS DATOS .............................................................................................

7

  • 2.2. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUALITATIVA

.......................................

7

  • 2.3. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUANTITATIVA

9

  • 2.4. HISTOGRAMA DE FRECUENCIAS ..............................................................................................

9

  • 2.5. DISTRIBUCIONES DE FRECUENCIA POR INTERVALOS O

10

  • 3. ESTADÍSTICA DESCRIPTIVA

14

  • 3.1. MEDIDAS DE TENDENCIA CENTRAL

14

  • 3.1.1. DATOS NO AGRUPADOS

................................................................................................

14

  • 3.1.2. EN DATOS AGRUPADOS EN FRECUENCIA SIMPLE

.........................................................

15

  • 3.1.3. EN DATOS AGRUPADOS EN INTERVALOS DE FRECUENCIA

15

  • 3.2. MEDIDAS DE POSICIÓN EN UNA DISTRIBUCIÓN DE FRECUENCIA

17

  • 3.2.1. PRINCIPIO FUNDAMENTAL ............................................................................................

18

  • 3.2.2. CUANTILES EN DATOS NO AGRUPADOS Y AGRUPADOS EN FRECUENCIA SIMPLE

18

  • 3.2.3. CUANTILES EN DATOS AGRUPADOS EN INTERVALOS DE

19

  • 3.3. MEDIDAS DE DISPERSIÓN ......................................................................................................

19

  • 3.3.1. RANGO ...........................................................................................................................

19

  • 3.3.2. DESVIACIÓN ESTÁNDAR

19

  • 3.3.3. VARIANZA

20

  • 3.3.4. COEFICIENTE DE VARIACIÓN

20

  • 3.3.5. RANGO INTERCUARTIL

20

  • 3.3.6. DIAGRAMA DE CAJA

20

  • 3.4. MEDIDAS DE ASIMETRÍA

.......................................................................................................

21

  • 3.4.1. SIMETRÍA DE UNA MUESTRA .........................................................................................

21

  • 3.4.2. SESGO DE UNA DISTRIBUCIÓN DE FRRECUENCIAS

22

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 4. DISTRIBUCIONES DE PROBABILIDAD

23

  • 4.1. EXPERIMENTO ALEATORIO ....................................................................................................

23

  • 4.2. EVENTO ALEATORIO

23

  • 4.3. ESPACIO MUESTRAL

..............................................................................................................

23

  • 4.4. PROBABILIDAD DE UN EVENTO

23

  • 4.5. ALGEBRA DE PROBABILIDAD

.................................................................................................

24

DISTRIBUCIÓN

  • 4.6. DE PROBABILIDAD .........................................................................................

24

DISTRIBUCIÓN

  • 4.7. BINOMIAL ......................................................................................................

25

DISTRIBUCIÓN

  • 4.8. NORMAL ........................................................................................................

26

  • 5. MÉTODOS DE MUESTREO ....................................................................................................

28

  • 5.1. MUESTRA ...............................................................................................................................

28

  • 5.2. POBLACIÓN FINITA O INFINITA

28

  • 5.3. EL MUESTREO ALEATORIO

28

  • 5.4. MÉTODOS DE MUESTREO

ALEATORIO

28

  • 6. DISTRIBUCIÓN DE MUESTREO

29

  • 6.1. CLASIFICACIÓN DE LAS MUESTRAS POR SU TAMAÑO

29

  • 6.2. TEOREMA DEL LÍMITE CENTRAL

29

  • 6.3. ERROR DE MUESTREO

29

  • 7. TEORÍA DE ESTIMACIÓN

31

  • 7.1. INTRODUCCIÓN

31

  • 7.2. ESTIMADOR POR INTERVALOS

..............................................................................................

31

  • 7.3. CONSIDERACIONES ADICIONALES PARA LA ESTIMACIÓN ESTADÍSTICA

31

  • 7.4. INTERVALO PARA ESTIMACIÓN DE LA MEDIA POBLACIONAL ...............................................

31

  • 7.5. ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL

32

  • 8. TAMAÑO DE LA MUESTRA ...................................................................................................

33

  • 8.1. FACTORES QUE INFLUYEN EN EL TAMAÑO DE LA MUESTRA

................................................

33

  • 8.2. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA POBLACIONAL

.................................

33

  • 8.3. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN POBLACIONAL

34

  • 9. PRUEBAS DE HIPÓTESIS PARA LA MEDIA Y PROPORCIÓN POBLACIONAL

36

INTRODUCCIÓN

  • 9.1. .....................................................................................................................

36

  • 9.2. ...............................................................................................................................

PROCESO

36

10.

INFERENCIAS EN DOS POBLACIONES ....................................................................................

38

  • 10.1. INTRODUCCIÓN

38

  • 10.2. ESTIMACIONES DE DIFERENCIAS DE PARÁMETROS POBLACIONALES

..................................

38

  • 10.3. ESTIMACIÓN DE DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS GRANDES:

........

38

  • 10.4. ESTIMACIÓN DE LA DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS PEQUEÑAS

39

  • 10.5. ESTIMACIÓN DE LA DIFERENCIA DE LA PROPORCIÓN POBLACIONAL

..................................

40

  • 10.6. PRUEBAS DE HIPÓTESIS PARA COMPARACIÓN ENTRE DOS POBLACIONES

40

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 11. ANÁLISIS DE VARIANZA

42

  • 11.1. INTRODUCCIÓN

42

  • 11.2. FUNDAMENTOS DEL ANOVA

.................................................................................................

42

  • 11.3. PROCESO DE CÁLCULO PARA UNA SOLA VÍA

43

  • 11.4. PRESENTACIÓN DE RESULTADOS

45

  • 11.5. PRUEBA DE HIPÓTESIS PARA IGUALDAD DE MEDIAS EN VARIAS POBLACIONES

45

  • 11.6. PRUEBA DE TUKEY Y PRUEBA DMS

45

  • 12. PRUEBAS NO PARAMÉTRICAS

48

  • 12.1. INTRODUCCIÓN

48

  • 12.2. PRUEBA CHI CUADRADO PARA LA INDPENDENCIA DE VARIABLES

48

  • 13. MODELO DE REGRESIÓN Y COEFICIENTE DE CORRRELACIÓN LINEAL

50

INTRODUCCIÓN

  • 13.1. .....................................................................................................................

50

  • 13.2. EL ANÁLISIS DE REGRESIÓN ...................................................................................................

50

  • 13.3. MODELO LINEAL BIVARIABLE

51

  • 13.4. LINEAL MULTIVARIABLE .........................................................................................

MODELO

51

  • 13.5. COEFICIENTE DE CORRELACIÓN

............................................................................................

52

  • 13.6. EL COEFICIENTE DE DETERMINACIÓN

...................................................................................

52

  • 13.7. VERIFICACIÓN DE LAS VARIABLES EN EL MODELO

53

  • 14. MODELO NO LINEAL Y EXPONENCIAL

54

  • 14.1. MODELO NO LINEAL

54

  • 14.2. MODELO EXPONENCIAL O DE

54

  • 14.3. FORMULACIÓN DEL MODELO

55

  • 14.4. COEFICIENTES DEL MODELO

.................................................................................................

55

  • 14.5. MODELO DE REGRESIÓN LOGÍSTICA

55

  • 14.5.1. ECUACIÓN DEL MODELO LOGÍSTICO .............................................................................

55

  • 14.5.2. OBTENCIÓN DE LOS COEFICIENTES

56

  • 14.5.3. EVALUACIÓN DEL MODELO

56

  • 14.5.4. ESTIMACIÓN DE

56

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 1. DEFINCICIONES BÁSICAS

    • 1.1. DEFINICIÓN DE ESTADÍSTICA

Es la ciencia que trata de los métodos de recolección, organización y resumen de la información registrada sobre la variación de eventos; como también los métodos que permiten tomar decisiones sobre determinadas características de dichos eventos.

  • 1.2. CLASIFICACIÓN DE LA ESTADÍSTICA

Para su estudio, es conveniente clasificar a la estadística de la siguiente manera:

Estadística

Descriptiva:

información.

Estudia

los

métodos

de

recolección,

organización

y

resumen

de

la

Estadística Inferencial: Estudia los métodos y herramientas utilizadas para definir características y propiedades de una población, basándose en el análisis de una muestra tomada de dicha población.

De la definición de Estadística Inferencial, es conveniente tomar en cuenta las palabras: Población y Muestra.

  • 1.3. POBLACIÓN

Comúnmente, se conoce como población, a un grupo humano que ha nacido o se ha asentado en algún lugar del mundo, ejemplo: la población del Ecuador es un grupo de seres humanos que han nacido o que viven en nuestro país; dentro de la Estadística la población es un grupo formado por todos las personas u objetos que guardan alguna característica en común; a continuación se exponen algunos ejemplos de poblaciones estadísticas son los siguientes:

  • 1. Electores inscritos en el padrón electoral del Cantón Quito.

  • 2. Datos mensuales relacionados con el número de niños nacidos vivos en la maternidad de la ciudad, durante el año 2016.

  • 3. Reporte de las utilidades mensuales de una empresa de transporte pesado.

En resumen, la población estadística es un conjunto universal, puesto que contiene a todos los elementos de su especie.

  • 1.4. MUESTRA

Dentro de la Estadística, la muestra es un subconjunto de la población; es decir, un conjunto formado por algunos elementos tomados de un conjunto mayor que es la población; como ejemplos de muestra podemos mencionar a los siguientes:

  • 1. Un grupo de 100 electores, 5 de cada uno de los 20 recintos electorales del cantón; escogidos aleatoriamente.

  • 2. Número de barriles de petróleo exportados por el Ecuador que fueron explotados en la Península de Santa Elena.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 3. Un grupo de niños nacidos en la maternidad de la ciudad, que vinieron al mundo el mes de diciembre.

En conclusión, la muestra, es un subconjunto representativo tomado de una población.

  • 1.5. MUESTRA VS POBLACIÓN

Como se indicó en la definición de Estadística Inferencial, los métodos estadísticos inferenciales analizan las muestras para hacer deducciones o inferencias sobre la población; es decir: los que hacen estadísticas trabajan con datos de las muestras para llegar a determinar características de una población; las razones, entre otras, se deben a:

Resulta imposible analizar todos elementos (población) debido al tiempo de análisis, costos, etc.

Veamos un ejemplo:

Si se trata de establecer las causas por las que los niños de un cantón de la Sierra Ecuatoriana presentan signos de desnutrición; sería imposible reunir a todos los niños de este lugar, medir su estatura, su peso, averiguar la forma de alimentación, los ingresos familiares de todos ellos, etc. Es mucho más sencillo, tomar una muestra de esta población y sobre esa muestra realizar el análisis estadístico correspondiente que permitirá a su vez deducir las causas de desnutrición de dicha población.

En algunas ocasiones, el análisis de los elementos de una muestra, requiere de la destrucción o inutilización de estos elementos, ejemplo:

Se trata de determinar la resistencia de una bombilla eléctrica: para esto, se debe someter a este elemento a una serie de sobrecargas eléctricas. Esta sobrecarga, obviamente va a destruir o inutilizar dicho elemento; por esta razón, no será conveniente ensayar a todos los elementos (población), sino solamente a algunos de ellos, es decir a una muestra.

La muestra estadística debe ser tomada con un criterio apropiado, de manera que las inferencias que sobre la población de dicha muestra se hagan, sean confiables e idóneas.

  • 1.6. VARIABLES O DATOS ESTADÍSTICOS

Los datos estadísticos se presentan de dos maneras:

  • Datos cualitativos.- Tal como: el género, la religión, el estado civil, el lugar de nacimiento, etc. Es decir: la variación de estas variables se expresa con palabras y no con números. Para el trabajo estadístico es necesario expresar la variación de estas variables mediante conteo, razón proporcional o porcentaje. Veamos algunos ejemplos:

    • 1. El número de mujeres que participaron en la encuesta realizada en el cantón Atacames es de 500, mientras el número de varones encuestados en el mismo cantón llega a 425.

    • 2. Dentro de esta población se estima que el 75% es de religión católica; mientras que el 25% restante pertenece a otras religiones.

    • 3. Datos proporcionados por el registro civil del cantón indican que el 35% de la población es soltera, 45% de la población está casada y el 20% restante, corresponde a viudos, divorciados y en unión libre.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • Datos cuantitativos.- Son aquellos, cuya variación puede presentarse mediante números; ejemplo: la estatura de un grupo de niños, el saldo promedio de cuentas corrientes de un banco, la duración o vida útil de un repuesto eléctrico, etc. Los datos cuantitativos se presentan de dos maneras: Variable Discreta Son aquellos cuya variación numérica se representa por números enteros; ejemplo: el número de autos vendidos el año anterior, el número de personas que migraron hacia otros países, el número de matrículas que emitió la Universidad Tecnológica Equinoccial el semestre pasado, etc. Variable Continua Los datos de variable continua pueden asumir cualquier valor: entero o decimal, dentro de un rango o intervalo específico; ejemplo de estas variables tenemos: la estatura y el peso de un grupo de estudiantes de la costa ecuatoriana, el diámetro de un grupo de tornillos fabricados en determinado tiempo, el peso de 20 enlatados de atún, etc. Esta clasificación de datos de variable cuantitativa en discreta y continua, permitirá más adelante clasificar a las distribuciones probabilísticas en Distribuciones de variable discreta y Distribuciones de variable continua.

    • 1.7. ESTADÍSTICOS Y PARÁMETROS

Los estadísticos

son valores numéricos obtenidos mediante técnicas y métodos apropiados que

indican las características de la muestra; ejemplo: la media aritmética, la mediana, la desviación estándar, etc.

Mediante los estadísticos de muestra y con los métodos de la estadística inferencial se deducen los parámetros de la población; es decir hablar de estadísticos y parámetros es referirse a valores propios y característicos que representan a la muestra y población, respectivamente.

Los estadísticos y los parámetros, se representan con letras latinas y griegas respectivamente; el cuadro que se indica a continuación describe la simbología utilizada para los estadísticos y parámetros más utilizados en nuestro estudio:

Medida estadística

Estadístico

Parámetro

Media aritmética

x

Desviación estándar

s

Varianza

s

2

2

Tamaño

n

N

Proporción

p

 

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 2. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS

Una vez que los datos de una muestra estadística han sido recolectados es conveniente organizarlos de alguna manera; existen diversos métodos para la organización de los datos, entre ellos se encuentran los siguientes:

  • 2.1. ORDENAMIENTO DE LOS DATOS

Cuando la muestra no es muy numerosa, es posible ordenar los datos en orden creciente o decreciente; ese ordenamiento permitirá visualizar los valores extremos y determinar en forma inmediata el rango, es decir la diferencia entre el mayor y el menor de los valores de la muestra.

  • 2.2. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUALITATIVA

Cuando la variable se presenta en forma cualitativa, por ejemplo el sexo de una persona, los datos podrán organizarse en una tabla en la que se indique los casos registrados para cada uno de los valores de la variable cualitativa; se podrá también establecer el porcentaje de frecuencia en cada una de estas variables, como también el porcentaje acumulado. El programa SPSS entrega como resultado una tabla como la que se indica a continuación:

Sexo del empleado

     

Porcentaje

Porcentaje

Frecuencia

Porcentaje

válido

acumulado

Válidos

Femenino

 
  • 25 41,7

41,7

41,7

Masculino

 
  • 35 58,3

58,3

100,0

Total

 
  • 60 100,0

100,0

 

Es conveniente que estas tablas presenten además, a manera de resumen, un gráfico estadístico representativo; para variable cualitativa existen dos tipos de gráficos muy comunes:

  • a. Gráfico de barras verticales u horizontales,

  • b. Gráfico de sector circular.

El gráfico de barras verticales es una representación cartesiana de la variable de estudio, en el eje horizontal se ubicará la variable cualitativa y en cada una de ellas se dibujará un rectángulo cuya altura representa la frecuencia de la variable.

El gráfico circular, en cambio toma un círculo y distribuye su área (360º) en forma proporcional a la frecuencia de la variable cualitativa; resulta muy conveniente cuando la variable es binomial, es decir presenta dos resultados (Sexo: masculino, femenino); (Existencia: Vivo, muerto), etc.

A continuación se presenta el gráfico estadístico de barras verticales y de sector circular para los datos de la tabla:

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA Tablas cruzadas Una tabla cruzada, tabla de contingencia o
ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA Tablas cruzadas Una tabla cruzada, tabla de contingencia o

Tablas cruzadas

Una tabla cruzada, tabla de contingencia o tabla bivariable es una estructura tabular que permite registrar los casos que ocurren en dos variables; a continuación se expone algunos ejemplos de tablas cruzadas:

Tabla de contingencia Sexo del empleado * Nivel Académico

Recuento

   

Nivel Académico

Total

Posgrado

Secundaria

Superior

Sexo del empleado

Femenino

7

10

8

25

Masculino

10

7

18

35

Total

17

17

26

60

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

Esta estructura tabular, comparable con la de una matriz, registra las variables en sentido horizontal y vertical; no existe restricción en cuanto a la ubicación de las variables, inclusive, el programa SPSS podrá pivotar la tabla, es decir presentarla en sentido contrario al original, tal como sucedería con la transpuesta de una matriz.

  • 2.3. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUANTITATIVA

Cuando la variable estadística se presenta de manera cuantitativa, sea esta discreta o continua, se puede organizar la información mediante tablas de frecuencia, tablas cruzadas y tablas de frecuencia por intervalos.

Veamos un ejemplo de cómo organizar los datos que se indican la antigüedad (en años) de los empleados y funcionarios de la Agencia Nacional de Investigaciones:

ANTIGÜEDAD

FRECUENCIA

PORCENTAJE

1

 
  • 14 9.33%

2

 
  • 13 8.67%

3

 
  • 16 10.67%

4

 
  • 13 8.67%

5

 
  • 19 12.67%

6

 
  • 15 10.00%

7

 
  • 20 13.33%

8

 
  • 18 12.00%

9

 
  • 13 8.67%

10

9

6.00%

Total general

150

100,00%

  • 2.4. HISTOGRAMA DE FRECUENCIAS

El histograma de frecuencias es el resumen gráfico de la Distribución de frecuencias; en el histograma de frecuencias, se utiliza a la marca de clase como variable independiente (eje horizontal) y a los valores de: frecuencias, relativa o absoluta, como variable dependiente (eje vertical).

ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA Esta estructura tabular, comparable con la de una matriz,

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

Junto con el histograma se puede graficar el polígono de frecuencias, para lo cual es necesario agregar en los extremos de la distribución dos intervalos de frecuencia cero, llamados intervalos ficticios; el polígono de frecuencias se obtiene mediante un trazo continuo desde el intervalo ficticio inferior y por los puntos medios superiores de cada una de las barras que conforman el histograma, finalizando en el intervalo ficticio superior de la distribución de frecuencia.

Los valores que registra la variable cuantitativa continua presentan muchos casos, lo que conlleva a elaborar tablas de frecuencia que no resultan ser muy prácticas en su manejo; en estos casos es conveniente agrupar a los valores en intervalos. De esta manera, se obtendrán tablas de frecuencia agrupadas en una escala de valores.

A manera de ejemplo en la siguiente tabla se presenta la organización de datos de la variable Edad en 5 intervalos de clase: menos de 30 años; entre 30 y 40 años; entre 40 y 50 años, entre 50 y 60 años y más de 60 años.

INTERVALO EDAD

Total

 

< 30

22

  • 30 - 40

36

  • 40 - 50

28

  • 50 - 60

40

 

>

60

24

Total general

150

Por otro

lado, se

podrá también elaborar tablas cruzadas tomando en cuenta a variables

cuantitativas continuas entre sí; o una variable cuantitativa continua y una variable discreta o una variable cualitativa.

 

INTERVALO INGRESOS

 

INTERVALO EDAD

< 1000

1000 - 2000

2000 - 3000

TOTAL GENERAL

 

< 30

5

7

10

22

30

- 40

4

19

13

36

40

- 50

6

16

6

28

50

- 60

9

18

13

40

 

> 60

2

13

9

24

 

TOTAL

26

73

51

150

2.5. DISTRIBUCIONES DE FRECUENCIA POR INTERVALOS O CLASE

Cuando los datos son numerosos es conveniente organizarlos en una tabla de distribución de frecuencias; esta tabla agrupa los datos en diversas clases, intervalos o categorías y permite obtener la frecuencia absoluta, la frecuencia relativa y la frecuencia acumulada; la tabla adjunta es el modelo estándar de esta organización de datos.

 

Frecuencia

Frecuencia

Frecuencia

Marca de

INTERVALOS

absoluta

relativa

Acumulada

clase

L. Inferior

L Superior

       
           
           
           
 

=

       

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

Para

la construcción de una

siguientes definiciones:

distribución de

frecuencias es

conveniente tomar en cuenta las

Rango

El rango de una muestra es la diferencia que existe entre el valor máximo y el valor mínimo del grupo de datos a organizar.

Intervalos o Clases

Los datos recogidos se agrupan en intervalos o categorías, a estos grupos se los llama comúnmente intervalos o clases; se recomienda que la muestra se la divida entre cinco (mínimo) y quince intervalos (máximo).

Ancho de Clase

El ancho de clase ( ) es un valor que se obtiene al dividir el rango de la muestra para el número de intervalos escogidos para la formar la distribución de frecuencias.

Límites del Intervalo

Como su nombre lo indica, son valores que limitan el intervalo, habrá entonces un límite inferior y un límite superior, los límites de cada uno de los intervalos que forman la distribución de frecuencia se calculan de la siguiente manera:

  • 1. Se toma el valor mínimo, este valor será el límite inferior del primer intervalo, a este valor, se suma el ancho de clase previamente calculado y se obtendrá el límite superior del primer intervalo.

  • 2. Para el cálculo de los límites de los demás intervalos, se asume como intervalo inferior el valor del intervalo superior del intervalo anterior; a este valor, se suma el ancho de clase para obtener el límite superior de este intervalo. El límite superior del último intervalo, será el valor máximo de la muestra.

Frecuencia

La frecuencia ( ) de cada uno de los intervalos, es el número de observaciones de la muestra cuyos valores son iguales o mayores que el límite inferior y menores que el límite superior. La suma de las frecuencias de todos los intervalos, debe ser igual al tamaño de la muestra o población en análisis.

Frecuencia Relativa

La frecuencia relativa ( ) de cada uno de los intervalos, es el cociente que se obtiene al dividir la frecuencia de cada intervalo para el total de la muestra. La suma de las frecuencias relativas de todos los intervalos, es igual a la unidad. Si a cada uno de los valores de la frecuencia relativa se multiplica por 100 se tendrá el porcentaje de observaciones que se encuentran contenidas en cada uno de los intervalos, obviamente la suma de estas frecuencias porcentuales, será igual a 1 o 100.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

Frecuencia Acumulada

La frecuencia acumulada (

) de cada uno de los intervalos de la distribución de frecuencias, recoge

todas las observaciones de los intervalos anteriores y de su propio intervalo; la forma de calcular es

la siguiente:

La frecuencia acumulada del primer intervalo será igual a la frecuencia del intervalo, la frecuencia acumulada de los demás intervalos, será igual a la frecuencia acumulada del intervalo anterior más la frecuencia del intervalo; la frecuencia acumulada del último intervalo, será igual al tamaño de la muestra.

Marca de Clase

La marca de clase ( ), es el valor representativo de cada uno de los intervalos, este valor es igual al promedio de los límites de cada uno de los intervalos.

Para mejor entendimiento de esta parte, se incluye a continuación el histograma de frecuencia absoluta correspondiente a la siguiente distribución de frecuencias:

12

 
  • 10 11

9

 

15

16

9

10

 
  • 10 11

12

 
  • 13 15

14

 

11

11

12

16

 
  • 17 17

16

 
  • 16 14

15

 

12

11

11

12

 
  • 12 11

12

 

13

  • 15 14

 

16

15

18

19

 
  • 18 10

11

 
  • 12 11

12

 

13

13

15

13

 
  • 11 12

Valor máximo de la muestra

19,00

Valor mínimo de la muestra

9,00

Rango de la muestra

10,00

Número de intervalos

7,00

Cálculo del ancho de clase

1,43

 

Límites del Intervalo

Marca de

 

Frecuencia

Frecuencia

Clase

Li <x <Ls

Clase (x)

Frecuencia

Relativa

Acumulada

Li

Ls

(x)

f

fr

FA

 
  • 0 9,00

7,57

 

8,29

0

0,00

0,00

 
  • 1 10,43

9,00

 

9,71

6

0,12

6,00

 
  • 2 11,86

10,43

 

11,14

 
  • 10 16,00

0,20

 
 
  • 3 13,29

11,86

 

12,57

 
  • 15 31,00

0,30

 
 

13,29

  • 4 14,71

 

14,00

3

0,06

34,00

 
  • 5 16,14

14,71

 

15,43

11

0,22

45,00

 
  • 6 17,57

16,14

 

16,86

 
  • 2 47,00

0,04

 
 
  • 7 19,00

17,57

 

18,29

 
  • 3 50,00

0,06

 
 
  • 8 20,43

19,00

 

19,71

 
  • 0 50,00

0,00

 

Observe que se han agregado dos intervalos ficticios, al inicio y al final de la tabla; estos intervalos ficticios de frecuencia cero permitirán construir el polígono de frecuencia.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA pág. 13

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 3. ESTADÍSTICA DESCRIPTIVA

3.1. MEDIDAS DE TENDENCIA CENTRAL

Una vez que los datos han sido organizados en una tabla de distribución de frecuencia y representados gráficamente, corresponde ahora buscar ciertos valores que representen a la muestra. A estos valores representativos se conoce como Medidas de Centralización, ya que estos valores se ubican alrededor de la parte central de la misma.

Se estudiarán las siguientes Medidas de Centralización: Media Aritmética, Mediana, Moda, para datos no agrupados y para datos agrupados en distribuciones de frecuencia simple y por intervalos; por otro lado se llaman Cuantiles a las medidas de posición o ubicación de los datos de la muestra previamente ordenada.

  • 3.1.1. DATOS NO AGRUPADOS

MEDIA ARITMÉTICA

Sean:

Los valores de una muestra de tamaño

, la media aritmética ( ̅) de esta muestra es:

MEDIANA

̅

La mediana ( ̃), es el valor central de una muestra de datos previamente ordenados, es decir:

Si la muestra siguiente:

Está ordenada, la mediana será

; dado que dicha muestra es impar.

Si la muestra:

Está ordenada, la mediana será la media aritmética entre

y

, dado que la muestra es par.

MODA

La moda ( ̂) es el valor que se presenta con mayor frecuencia; en una distribución de frecuencia puede haber más de una moda o simplemente no tiene moda; si la distribución tiene una sola moda se denomina unimodal, bimodal, etc.

Las definiciones descritas hasta aquí permiten la determinación de los estadísticos de tendencia central cuando el número de datos es pequeño; cuando los datos se encuentran organizados en distribuciones de frecuencia simple o en distribuciones de frecuencia por intervalos, se deben aplicar otras expresiones de cálculo.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 3.1.2. EN DATOS AGRUPADOS EN FRECUENCIA SIMPLE

Al organizar los datos en una distribución de frecuencias simple, se debe tomar en cuenta:

Valor (

)

Frecuencia (

)

Frecuencia Acumulada

 
       
       
       

       
       

Una vez organizada la tabla de distribución de frecuencia simple, se determina los estadísticos de tendencia central de la siguiente manera:

MEDIA ARITMÉTICA

MEDIANA

̅

La mediana es el valor

ubicado en el centro de la distribución de frecuencias; entonces, el intervalo

donde está la mediana es aquel cuya Frecuencia acumulada contiene por lo menos a:

MODA

(

)

La moda es el valor que corresponde al intervalo que presenta la mayor frecuencia; pude darse el caso de que existan dos o más intervalos que contengan la máxima frecuencia entonces la distribución de frecuencias será multimodal.

  • 3.1.3. EN DATOS AGRUPADOS EN INTERVALOS DE FRECUENCIA

Al organizar los datos en una distribución de frecuencia por intervalos s debe tomar en cuenta:

INTERVALO

MARCA DE

Frecuencia (

)

Frecuencia

 

CLASE (

)

Acumulada

         
         
         

         
       

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

Una vez organizada la tabla de distribución de frecuencia simple, se determina los estadísticos de tendencia central de la siguiente manera:

  • MEDIA ARITMÉTICA

  • MEDIANA

̅

 

̂

(

)

 

:

 

:

Límite inferior del intervalo que contiene a la mediana. Frecuencia acumulada del intervalo anterior al intervalo que contiene a la mediana.

:

:

Frecuencia absoluta del intervalo que contiene a la mediana. Ancho de clase del intervalo que contiene a la mediana

El intervalo que contiene a la mediana es aquel que acumula por lo menos a la mitad de los datos.

  • MODA

 

̂

(

)

 

:

 

:

Límite inferior del intervalo que contiene a la moda. Diferencia entre la frecuencia del intervalo que contiene a la moda con la frecuencia

:

del intervalo anterior. Diferencia entre la frecuencia del intervalo que contiene a la moda con la frecuencia

:

del intervalo posterior. Ancho de clase del intervalo que contiene a la mediana

El intervalo que contiene a la moda es aquel que presenta la mayor frecuencia absoluta.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

3.2. MEDIDAS DE POSICIÓN EN UNA DISTRIBUCIÓN DE FRECUENCIA

Las medidas de posición son observaciones de la muestra que ocupan posiciones específicas una vez que esta se ha ordenado; estas medidas se conocen en general como Cuantiles.

Sea la siguiente muestra, previamente ordenada, representada por puntos,

Muestra ordenada dividida en dos partes, al valor central se denomina Mediana . . . .
Muestra ordenada dividida en dos partes, al valor central se denomina Mediana
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
̃
Muestra ordenada dividida en 4 partes, cada una de esta partes se denomina Cuartil
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Muestra ordenada dividida en 5 partes, cada una de esta partes se denomina Quintil
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Entonces:

  • La Mediana es la medida de posición que divide a la muestra en dos partes, cada una de las partes representa el 50%; de manera que la mediana está ubicada sobre el 50% más bajo de la muestra.

  • Los Cuartiles son medidas de posición que dividen a la muestra en cuatro partes, cada una de las partes representa el 25%; de manera que:

    • ) está ubicado sobre el 25% más bajo de la muestra.

El primer cuartil (

  • El segundo cuartil (

) está ubicado sobre el 50% más bajo de la muestra.

  • ) está ubicado sobre el 75% más bajo de la muestra.

El tercer cuartil (

  • Los Quintiles son medidas de posición que dividen a la muestra en cinco partes, cada una de las partes representa el 20%; de manera que:

    • ) está ubicado sobre el 20% más bajo de la muestra.

El primer quintil (

  • El segundo quintil (

) está ubicado sobre el 40% más bajo de la muestra.

  • ) está ubicado sobre el 60% más bajo de la muestra.

El tercer quintil (

  • ) está ubicado sobre el 80% más bajo de la muestra.

El cuarto quintil (

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • Los Deciles son medidas de posición que dividen a la muestra en diez partes, cada una de las partes representa el 10%; de manera que:

    • ) está ubicado sobre el 10% más bajo de la muestra.

El primer decil (

  • ) está ubicado sobre el 20% más bajo de la muestra.

El segundo decil ( ….

  • )

El quinto decil (

está ubicado sobre el 50% más bajo de la muestra.

  • Los Percentiles o simplemente Centiles son medidas de posición que dividen a la muestra en cien partes, cada una de las partes representa el 1%; de manera que:

    • ) está ubicado sobre el 23% más bajo de la muestra.

El percentil 23 (

  • ) está ubicado sobre el 38% más bajo de la muestra.

El percentil 38 ( ….

  • ) está ubicado sobre el 50% más bajo de la muestra.

El percentil 50 ( .. …

  • ) está ubicado sobre el 67% más bajo de la muestra.

El percentil 67 (

 

3.2.1.

PRINCIPIO FUNDAMENTAL

 

“Todo cuantil equivale al percentil correspondiente”, ejemplo:

El primer cuartil (

), que se ubica sobre el 25% más bajo de la muestra, equivale entonces al

percentil 25 (

).

El segundo quintil (

), que se ubica sobre el 40% más bajo de la muestra, equivale entonces al

percentil 40 (

).

El sexto decil percentil 60 (

(

).

), que se ubica sobre el 60% más bajo de la muestra, equivale entonces al

Entonces, de lo anterior se concluye:

 

̌

 

3.2.2.

EN DATOS NO AGRUPADOS Y AGRUPADOS EN FRECUENCIA SIMPLE

Una vez que se han ordenado los datos, los Cuantiles se los encuentra en la ubicación específica,

tomando en cuenta que un cuantil se expresión:

ubica en

la posición que

resulta de aplicar la siguiente

(

)

(

)

Dónde:

Cuantil a ser ubicado

,

Tamaño de la muestra (número de datos o casos)

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • ) es entero, entonces el cuantil buscado será el dato correspondiente a esa ubicación;

Si

(

  • ) no es entero entonces el cuantil buscado es el resultado de la interpolación de la parte

Si

(

decimal con la diferencia entre los Cuantiles que lo contienen.

3.2.3. CUANTILES EN DATOS AGRUPADOS EN INTERVALOS DE FRECUENCIA.

Cuando los datos se encuentran agrupados en una distribución de frecuencias por intervalos, los Cuantiles se determinan aplicando la siguiente expresión:

(

)

Donde y conforman la fracción generatriz del cuantil; a manera de ejemplo se describen a continuación las fórmulas de cálculo de los cuartiles:

 

Primer cuartil

   

Segundo cuartil

   

Tercer cuartil

 
 

(

)

 

(

)

 

(

)

     

3.3. MEDIDAS DE DISPERSIÓN

En clases anteriores se definieron algunas medidas de centralización, entre ellas, la más utilizada: la media aritmética; sin embargo, el análisis estadístico requiere de una medida que exprese la variabilidad de los datos con respecto a alguna medida de centralización; usualmente la media; en otras palabras: es necesario determinar un valor estadístico que represente la variación de los datos, tomando como punto de referencia de la variación la media aritmética.

Entre las medidas de dispersión más usuales se tiene:

3.3.1.

RANGO

A pesar de que no involucra a la media aritmética, la primera medida de la dispersión de un grupo de datos, agrupados o no, es el rango, definiéndose al rango como la diferencia entre el valor máximo y valor mínimo de los datos, es decir:

Como se recordará, el Rango permite, junto con el número de intervalos, determinar el ancho de clase.

  • 3.3.2. DESVIACIÓN ESTÁNDAR

Sea:

Un grupo

de datos de tamaño

, se define a la desviación estándar, también conocida como

desviación típica,

a

la

raíz

cuadrada

del

cociente

entre

la

sumatoria de

los

cuadrados de

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

las diferencias, de cada uno de los valores y la media aritmética, dividida para el número de términos de la serie de datos, es decir:

∑(

̅)

 

Si los datos constituyen una muestra, es decir es un subconjunto de la población, la desviación estándar está dado por:

∑(

̅)

 

Si los datos se encuentran agrupados en una distribución de frecuencias, entonces la desviación estándar será:

(

̅)

Las medidas de dispersión son proporcionales con su magnitud; un valor pequeño indica una

pequeña desviación, mientras que dispersión.

un valor grande

indica que

existe una gran variabilidad o

  • 3.3.3. VARIANZA

Se define a la varianza como el cuadrado de la desviación típica; es decir:

La varianza mide la variabilidad de los datos, esta medida estadística es de gran utilidad para el análisis comparativo entre dos o más poblaciones.

  • 3.3.4. COEFICIENTE DE VARIACIÓN

Una medida de

la dispersión o variación de un grupo

de datos es el coeficiente de variación de

Pearson, el mismo que relaciona por cociente a la desviación estándar con la media aritmética, es decir:

  • 3.3.5. RANGO INTERCUARTIL

̅

Se define al rango intercuartil como la diferencia numérica entre el tercer cuartil y el primer cuartil, es decir:

  • 3.3.6. DIAGRAMA DE CAJA

El diagrama de caja es una herramienta de representación gráfica que resume la variabilidad de un grupo de datos; en este gráfico se puede apreciar el rango y el rango intercuartilítico.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA Para elaborar el diagrama de caja es necesario: el

Para elaborar el diagrama de caja es necesario: el valor máximo, el valor mínimo, la mediana el primer cuartil y el tercer cuartil; estos valores se colocan en una recta horizontal, tal como se indica en la siguiente figura:

3.4. MEDIDAS DE ASIMETRÍA

Una vez que se dispone de las medidas de tendencia central y las medidas de dispersión que describen a un grupo de datos, sobre todo, la media aritmética y la desviación estándar, es conveniente determinar además, una medida que exprese la simetría o asimetría de los datos.

  • 3.4.1. SIMETRÍA DE UNA MUESTRA

En Estadística se conoce como distribución simétrica a aquella distribución de frecuencia en los cuales los datos se reparten en tal forma que el vértice del polígono de frecuencia se encuentra en la mitad del mismo; tal como se indica en el siguiente histograma:

ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA Para elaborar el diagrama de caja es necesario: el

En toda distribución de frecuencias simétrica se cumple que: ̅ ̃ ̂

Es decir: la media aritmética, la mediana y la moda son iguales, y se ubican en la parte central del histograma de frecuencias.

A las muestras simétricas se las conoce también como muestras asesgadas; es decir, que no tienen sesgo.

Si la distribución de frecuencias no es simétrica, entonces se trata de una distribución asimétrica o sesgada.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 3.4.2. SESGO DE UNA DISTRIBUCIÓN DE FRRECUENCIAS

El sesgo es una forma cuantitativa de expresar la asimetría de una curva, este estadístico se determina con las siguientes expresiones:

̅

̂

(

̅

̃)

Que se conocen como Primer y segundo coeficiente de Pearson; se puede observar que el primer coeficiente toma en cuenta la moda y el segundo coeficiente toma en cuenta a la mediana de la distribución de frecuencias.

Sesgo a la derecha.-

ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA 3.4.2. SESGO DE UNA DISTRIBUCIÓN DE FRRECUENCIAS El sesgo

Los datos se concentran en la parte derecha de la distribución, se cumple además que: ̂ ̃ ̅

Cuando la distribución de frecuencias presenta sesgo a la derecha los coeficientes de asimetría de Pearson son positivos.

Sesgo a la izquierda.-

ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA 3.4.2. SESGO DE UNA DISTRIBUCIÓN DE FRRECUENCIAS El sesgo

Los datos se concentran en la parte izquierda de la distribución, se cumple además que: ̅ ̃ ̂

Cuando la distribución de frecuencias presenta sesgo a la izquierda los coeficientes de asimetría de Pearson son negativos.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 4. DISTRIBUCIONES DE PROBABILIDAD

4.1.

EXPERIMENTO ALEATORIO

Se dice que un experimento es aleatorio, cuando no se conoce con certeza el resultado de dicho experimento; sin embargo se conocen todos los resultados posibles de dicho experimento.

Como ejemplos de experimentos aleatorios podemos citar los siguientes:

1.

Lanzar al aire una moneda.

2.

Extraer una carta de un mazo de naipes.

3.

Lanzar un dado.

A pesar que estos ejemplos giran en torno a los juegos de azar, esto sirvió como material de trabajo para la elaboración de un marco teórico matemático muy importante como es el cálculo de probabilidades; dentro de la administración podemos citar los siguientes ejemplos como experimentos aleatorios:

1.

El volumen de ventas de un almacén para el año próximo.

2.

La aceptación del consumidor de un nuevo producto.

3.

La tasa de interés para el siguiente semestre.

4.2.

EVENTO ALEATORIO

Dentro

del estudio

de la probabilidad, se denomina Evento al resultado de un experimento

aleatorio.

4.3.

ESPACIO MUESTRAL

Se llama Espacio Muestral al conjunto finito formado por todos los resultados posibles (eventos) de un experimento aleatorio.

4.4.

PROBABILIDAD DE UN EVENTO

La probabilidad de un evento aleatorio es la cuantificación de la ocurrencia de dicho evento, es decir, si podemos expresar mediante un número la ocurrencia de un suceso de carácter aleatorio, entonces hemos encontrado la probabilidad de ocurrencia de dicho evento.

Sea un evento aleatorio, entonces ( ) representa la probabilidad de ocurrencia del evento , este valor se puede encontrar mediante la expresión:

(

)

Ahora, la probabilidad de no-ocurrencia del suceso aleatorio

será:

(

)

La probabilidad de un evento A es un número positivo entre cero y uno, es decir:

(

)

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

Si la probabilidad del evento

es:

(

)

entonces el evento

se denomina éxito; Ahora,

si la

probabilidad del evento A es ( ) , entonces al evento a se lo denomina fracaso.

La probabilidad de ocurrencia de un evento

junto con la probabilidad de no ocurrencia del mismo

reúne todo el todo el espacio Muestral, por lo que:

 

(

)

(

)

Con lo que se puede expresar que:

 

(

)

(

)

Cuando el número de casos favorables de la ocurrencia de un evento o el total de casos resulta difícil de determinar, es conveniente recurrir a las técnicas de conteo establecidas en el Análisis Combinatorio.

4.5. ALGEBRA DE PROBABILIDAD

Sean A y B dos eventos, la probabilidad de ocurrencia de los dos eventos está dada por:

 

(

)

(

)

(

)

(

)

Si A y B son independientes:

 

(

)

(

)

(

)

Evento condicional:

 

(

)

(

(

)

)

  • 4.6. DISTRIBUCIÓN DE PROBABILIDAD

Recordemos que el Espacio muestral es el conjunto de todos y cada uno de los valores que puede tomar una variable aleatoria; dicho en otras palabras, el Espacio muestral reúne a todos los resultados posibles de un experimento aleatorio.

Si a cada uno de los valores del Espacio muestral, le hacemos corresponder su respectiva probabilidad de ocurrencia, a esta correspondencia le llamaremos Distribución de probabilidad o Función de Probabilidad o simplemente o Distribución Probabilística, es decir:

ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA Si la probabilidad del evento es: ( ) entoncesAnálisis Combinatorio. 4.5. ALGEBRA DE PROBABILIDAD Sean A y B dos eventos, la probabilidad de ocurrencia de los dos eventos está dada por: ( ) ( ) ( ) ( ) Si A y B son independientes: ( ) ( ) ( ) Evento condicional: ( ) ( ) 4.6. DISTRIBUCIÓN DE PROBABILIDAD Recordemos que el Espacio muestral es el conjunto de todos y cada uno de los valores que puede tomar una variable aleatoria; dicho en otras palabras, el Espacio muestral reúne a todos los resultados posibles de un experimento aleatorio. Si a cada uno de los valores del Espacio muestral, le hacemos corresponder su respectiva probabilidad de ocurrencia, a esta correspondencia le llamaremos Distribución de probabilidad o Función de Probabilidad o simplemente o Distribución Probabilística, es decir: pág. 24 " id="pdf-obj-29-144" src="pdf-obj-29-144.jpg">

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

Una Distribución de Probabilidad, se puede representar de dos maneras: mediante una tabla de datos o mediante un gráfico denominado histograma.

 

(

)

1

0.10

2

0.15

3

0.30

4

0.18

5

0.12

6

0.15

0,25 0,35 0,15 0,05 0,1 0,2 0,3 4 0 6 5 3 2 1
0,25
0,35
0,15
0,05
0,1
0,2
0,3
4
0
6
5
3
2
1

La Distribución de Probabilidad permite calcular probabilidades; siempre y cuando, se cumplan los requisitos que cada una de ellas exigen.

De acuerdo con la clasificación de la variable aleatoria se ha tomado en cuenta la siguiente clasificación de distribución de probabilidades:

  • Distribución Binomial (Bernoulli), para variable aleatoria discreta.

  • Distribución Normal (Gauss), para variable aleatoria continua.

4.7. DISTRIBUCIÓN BINOMIAL

Un evento está bajo Distribución Binomial, si cumple con las siguientes condiciones:

  • Existen n observaciones o ensayos idénticos.

  • Cada ensayo tiene dos posibles resultados, uno llamado “éxito” y el otro denominado “fracaso”.

  • Las probabilidades de éxito y de fracaso se mantienen constantes para todos los ensayos.

  • Los resultados de los ensayos son independientes entre sí.

La distribución Binomial se expresa con la siguiente función:

 

(

)

(

)

Dónde:

(

) Número de combinaciones o grupos de

elementos que se pueden hacer con

elementos.

:

El valor de la variable cuya probabilidad queremos calcular.

:

Total de la muestra.

 

:

Probabilidad de la ocurrencia de un evento.

:

Probabilidad de la no ocurrencia del evento.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

En el cálculo de probabilidades, bajo la distribución Binomial se presentan los siguientes casos:

  • Probabilidad de un elemento puntual.

  • Probabilidad de un evento mayor que.

  • Probabilidad de un evento menor que.

4.8. DISTRIBUCIÓN NORMAL

La distribución de probabilidad de Gauss o distribución Normal, está dada por la siguiente ecuación:

( ) √
(
)

Para mejor manejo de la ecuación de Gauss, se procede a tipificar la variable, haciendo el siguiente cambio de variable:

La ecuación de Gauss se transforma en:

ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA En el cálculo de probabilidades, bajo la distribución Binomial

Que presenta ahora el siguiente gráfico:

ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA En el cálculo de probabilidades, bajo la distribución Binomial

Características de la Curva Normal

  • La gráfica de una distribución normal, se asemeja a una campana, por eso se la conoce como la campana de Gauss.

  • La curva es suave, unimodal y simétrica, entonces: la media, la mediana y, la moda coinciden en el eje de simetría.

  • En sentido horizontal, la curva se extiende hacia el infinito, en los dos sentidos; sin embargo, con la tipificación de la variable z, la distribución normal tiene dominio entre ]-4,4[

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • La curva de distribución normal queda totalmente identificada, mediante dos parámetros: la media aritmética y la desviación estándar.

  • El área total de la curva normal, representa el 100% de probabilidad de dicha variable; simetría, el eje divide a la curva en dos áreas, representa cada una por el 50% del área total.

dada la

(

)

Con estas características se tiene que:

La probabilidad de que una variable aleatoria que está distribuida normalmente asuma un valor entre dos puntos cualesquiera, es igual al área bajo la curva normal entre estos dos puntos.

Mediante la distribución normal, se pueden calcular probabilidades para eventos de variable continua, para este cálculo se deberá contar con:

  • Media aritmética:

  • Desviación estándar:

Con estos valores procedemos a calcular el valor (variable tipificada):

Proceso para el cálculo de una probabilidad con distribución normal

  • 1. Cálculo del valor

para la probabilidad

,

  • 2. Gráfico de la campana y ubicación del valor

,

  • 3. Ubicación de las áreas en el gráfico,

  • 4. Definir el área (sombrear) que corresponde a la probabilidad a calcular,

  • 5. Cálculo del área sombreada (es el valor de la probabilidad).

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 5. MÉTODOS DE MUESTREO

    • 5.1. MUESTRA

Dentro de la Estadística, la muestra es un subconjunto de la población; es decir, un conjunto formado por algunos elementos tomados de un conjunto mayor que es la población. En conclusión: la muestra es un subconjunto representativo tomado de una población.

  • 5.2. POBLACIÓN FINITA O INFINITA

En términos estadísticos una población es finita si se conoce el tamaño de la misma, si no se conoce el tamaño se dice entonces que se trata de una población infinita.

Cuando la población es finita, el cálculo numérico se ve afectado del denominado factor de corrección de población finita, este factor se determina con la siguiente expresión:

Este factor de corrección siempre será menor que la unidad ( población y del tamaño de a muestra.

  • 5.3. EL MUESTREO ALEATORIO

) y depende del tamaño de la

La muestra estadística debe ser tomada con un criterio apropiado de manera que las inferencias que sobre la población de dicha muestra se hagan sean confiables e idóneas.

Este criterio se resume en que todos los elementos de la población deben tener la misma probabilidad de ser incluidos en la muestra; este criterio se cumple cuando los elementos de la

población que van a ser parte de la muestra son tomados al azar, el muestreo al azar se conoce también como muestreo aleatorio.

  • 5.4. MÉTODOS DE MUESTREO ALEATORIO

Dentro del muestreo aleatorio existen varios métodos de muestreo, en forma resumida se tiene:

Muestreo Aleatorio simple.- Es el método de muestreo más común, consiste en seleccionar al azar, uno a uno, los elementos de la población que van a formar parte de la muestra; el criterio del azar se establece el momento en que todos los miembros de la población tienen la misma probabilidad de ser elegidos como parte de la muestra. Una forma de realizar un muestreo aleatorio simple es numerar previamente a los elementos de la población y luego, con la ayuda de una tabla de números aleatorios escoger al azar los elementos de la muestra.

Muestreo aleatorio estratificado.- Se toma aleatoriamente y en tamaño proporcional al del estrato, los diferentes elementos que formarán la muestra; de esta manera se obtendrá una representativa de cada uno de los estratos o categoría que conforman la población.

Muestreo aleatorio sistemático.- Se divide a la población en tantos grupos como el tamaño de la muestra; luego del primer grupo se elige aleatoriamente el elemento de partida y finalmente se va tomando los elementos que coincidan con el módulo del elemento de partida.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 6. DISTRIBUCIÓN DE MUESTREO

Con la media aritmética y la proporción de muestras de diferente tamaño se pueden formar las denominadas distribuciones muestrales, entonces podrán existir:

  • Distribución muestral de medias.

  • Distribución muestral de proporciones.

    • 6.1. CLASIFICACIÓN DE LAS MUESTRAS POR SU TAMAÑO

De acuerdo con su tamaño, las muestras estadísticas se clasifican en:

  • Muestras grandes.

  • Muestras pequeñas.

Esta clasificación se debe a la experiencia estadística que señala que se considera como muestra grande cuando esta contiene al menos 30 elementos, si el tamaño de la muestra es menor a 30, se considera como muestra pequeña.

  • 6.2. TEOREMA DEL LÍMITE CENTRAL

Este es uno de los temas más importantes en la estadística inferencial, este teorema se enuncia de la siguiente manera:

“A medida que el tamaño de la muestra aumenta, la distribución de medias muestrales se aproxima a la distribución Normal”.

El teorema permite entonces asumir a una muestra grande distribución normal.

(

  • 6.3. ERROR DE MUESTREO

)

como

aproximada a la

Se define al error de muestreo como la diferencia entre los valores de los parámetros poblacionales y los estadísticos de una muestra; este error es inversamente proporcional al tamaño de la muestra, es decir mientras mayor sea el tamaño de la muestra menor será el error que se presenta en el muestreo.

A continuación se presentan algunas fórmulas que permiten determinar el error de muestreo para las siguientes distribuciones muestrales.

Para la distribución muestral de medias:

Donde:

:

: Error de la distribución muestral de medias. Desviación estándar de la población.

:

Tamaño de la muestra.

Para la distribución de las proporciones:

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

Donde:

(

)

:

:

: Error de la distribución muestral de proporciones. Proporción o probabilidad de cumplimiento del evento Tamaño de la muestra.

El caso de pequeñas muestras deberá tomarse en cuenta que los datos ya no tienen el comportamiento de una distribución normal; deberá entonces utilizar la distribución , de Student, tal como se estudiará más adelante.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 7. TEORÍA DE ESTIMACIÓN ESTADÍSTICA

    • 7.1. INTRODUCCIÓN

La Estimación es una herramienta estadística que permite: partiendo del análisis de los estadísticos de una muestra deducir los parámetros de una población; siendo las estimaciones más usuales: la media poblacional y la proporción poblacional.

  • 7.2. ESTIMADOR POR INTERVALOS

Una estimación por intervalos especifica un rango dentro del cual está el parámetro desconocido; este intervalo con frecuencia va acompañado de una afirmación sobre el nivel de confianza que se da sobre su probabilidad de ocurrencia, por esta razón a este intervalo se lo conoce también como intervalo de confianza (IC)

En la práctica, es común tomar como nivel de confianza valores tales como el 99%, el 95% y el 90%; en realidad no hay nada de especial en estos valores, por lo que el nivel de confianza puede ser cualquier valor.

  • 7.3. CONSIDERACIONES ADICIONALES PARA LA ESTIMACIÓN ESTADÍSTICA

Antes de proceder a determinar el intervalo de estimación estadística, es muy importante tomar en cuenta las siguientes consideraciones:

  • 1. Se requiere conocer si la población se encuentra bajo una Distribución Normal; sin embargo, esta información no siempre está disponible.

  • 2. En términos estadísticos, se considera que una muestra es grande cuando su tamaño es mayor o por lo menos igual a 30, entonces de acuerdo con el Teorema del Límite Central que dice: “Si una muestra es grande, entonces está bajo la Distribución Normal”.

  • 3. El intervalo de estimación está en función de la desviación estándar de la población, sin embargo, en la mayoría de las veces este parámetro es desconocido; en esta situación se requerirá remplazar este parámetro por la desviación estándar de la muestra .

    • 7.4. INTERVALO PARA ESTIMACIÓN DE LA MEDIA POBLACIONAL

Muestras grandes.-

Cuando la muestra proviene de una Distribución Normal, o si el tamaño de la muestra es grande ( ), de acuerdo al Teorema del límite central, se la puede considerar como proveniente de una Distribución Normal, entonces la media poblacional se estima como:

Donde:

̅

:

:

:

̅ :

̅

̅

Media poblacional, a estimar. Media aritmética de la muestra. Valor de la distribución normal en función del nivel de confiabilidad. Error de la distribución de medias.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

̅

(Cuando se conoce la desviación estándar de la población).

̅

(Cuando no se conoce la desviación estándar de la población).

Cuando el tamaño de la población es conocida se debe multiplicar al error estándar de la media por el factor de corrección de población finita, este factor es igual a:

 

Muestras pequeñas.-

Cuando los datos provienen de una Distribución Normal, la desviación estándar de la población es desconocida y si el tamaño de la muestra es pequeño ( ), entonces se debe trabajar con la distribución t, conocida también como la Distribución de Student; en estos casos, la media poblacional se estima como:

 

̅

̅

Donde:

:

Media poblacional, a estimar.

̅:

Media aritmética de la muestra.

:

Valor de la distribución

t, en función del nivel de confiabilidad y de los grados de libertad;

los grados de libertad .

7.5. ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL

Para determinar el intervalo de estimación de la proporción poblacional, se asume que la distribución de la que provienen los datos es normal, entonces el intervalo de estimación está dado por:

Donde:

:

:

:

:

Proporción poblacional a estimar

Proporción de la muestra.

Valor de la distribución normal en función del nivel de confiabilidad.

Error de la distribución de la proporción.

Donde:

 

(

)

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 8. TAMAÑO DE LA MUESTRA

El tamaño de la muestra es una de las inquietudes de mayor frecuencia y preocupación que se presenta en una investigación; si bien el cálculo del tamaño de la muestra es una operación sencilla puesto, que se han establecido las fórmulas de cálculo correspondientes, es necesario que el investigador tome en cuenta los diversos factores que influyen en su determinación.

  • 8.1. FACTORES QUE INFLUYEN EN EL TAMAÑO DE LA MUESTRA

Los factores generales que influyen en el tamaño de la muestra son:

  • a. Conocimiento del tamaño de la población.

  • b. Nivel de confiabilidad o probabilidad de ocurrencia del evento a investigar.

  • c. Tamaño del error de estimación, siendo este la diferencia entre el parámetro poblacional y el estadístico de la muestra.

Por otro lado, el tamaño de la muestra depende además de la estimación del parámetro que se va a realizar, entonces se tiene como factores particulares:

d.

Cuando

se

trata de estimar la media poblacional, el tamaño

de

la muestra depende de la

desviación estándar de la población, en ausencia de esta, se recomienda tomar la desviación

estándar de una muestra piloto de por lo menos 30 unidades ( ).

  • e. Cuando se trata de estimar la proporción poblacional, el tamaño de la muestra depende de la probabilidad de ocurrencia del evento en estudio en ausencia de esta, se recomienda tomar la como probabilidad de ocurrencia el 50%, es decir el criterio de equiprobabilidad - puede o no puede ocurrir- (

).

  • 8.2. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA POBLACIONAL

    • a. Si el tamaño de la población no está definida, la media poblacional se estima con: Dónde:

̅

̅

̅ Es el error típico de muestreo para la media poblacional y está dado por:

̅

Por otro lado, el error de estimación de la media poblacional , es la diferencia entre la media poblacional y la media de la muestra entonces:

̅

 

Despejando

se tiene:

 

(

)

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • b. Si el tamaño de la población está definido, el error de muestreo para la media poblacional se ve afectado por el Factor de corrección de la población finita, entonces:

̅

Dónde:

̅

Es el Factor de corrección de población finita y está dado por:

 

 

̅

 

̅

 

Despejando

se tiene:

 

(

)

8.3. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN POBLACIONAL

  • a. Si el tamaño de la población no está definido, la proporción poblacional se estima con:

Dónde:

Es el error típico de muestreo para la proporción poblacional y está dado por:

(

)

Por otro lado, el error de estimación de la proporción poblacional , es la diferencia entre la proporción poblacional y la proporción de la muestra entonces:

(

)

(

)

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

Despejando

se tiene:

(

)

  • b. Si el tamaño de la población está definido, el error de muestreo para la proporción poblacional se ve afectado por el Factor de corrección de la población finita, entonces:

Dónde:

Es el Factor de corrección de población finita y está dado por:

Despejando

se tiene:

(

)

(

)

(

)

[

(

)

(

)]

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 9. PRUEBAS DE HIPÓTESIS PARA LA MEDIA Y PROPORCIÓN POBLACIONAL

    • 9.1. INTRODUCCIÓN

El segundo método de inferencia sobre una característica de la población, basándose en el análisis de la muestra, se denomina Prueba de Hipótesis. Una hipótesis es un enunciado o afirmación que se hace sobre alguna característica estadística de la población, y mediante el análisis estadístico de la muestra, se llega a aceptar o rechazar dicha enunciado o hipótesis.

Al igual que en la estimación de los parámetros poblacionales, en este tema se realizarán las siguientes pruebas de hipótesis:

  • Pruebas de hipótesis sobre la media poblacional para muestras grandes.

  • Pruebas de hipótesis sobre la media poblacional para muestras pequeñas.

  • Pruebas de hipótesis sobre la proporción o fracción poblacional.

    • 9.2. PROCESO

Básicamente el método de pruebas de hipótesis es el mismo para este tipo de pruebas, la diferencia entre una y otra prueba está en la determinación del estadístico de prueba y la distribución estadística (Normal o t) que respalden dicha prueba.

En general, el proceso es el siguiente:

  • 1. Planteamiento de la hipótesis

Se deben plantear dos hipótesis: la Hipótesis Nula (Ho) que es un enunciado o afirmación que se hace sobre alguna característica de la población, y la Hipótesis Alternativa (H 1 ) que se plantea como la negación de la hipótesis nula.

En ocasiones las hipótesis nula y alternativa vienen como parte del enunciado del problema.

  • 2. Nivel de significancia y tipo de prueba

El nivel de significancia es el porcentaje de error que estamos resignados a cometer, es el complemento de nivel de confiabilidad, si el nivel de confiabilidad es el 95%, entonces el nivel de significancia será el 5%.

Los tipos de prueba para este modelo estadístico son:

  • Prueba de dos extremos.

  • Prueba de extremo derecho.

  • Prueba de extremo izquierdo.

La selección del tipo de prueba depende del sentido de la desigualdad expresada en la hipótesis alternativa.

  • 3. Selección del estadístico de prueba

Para pruebas de hipótesis de medias, con poblaciones bajo la Distribución Normal, o de tamaño grande o con desviación poblacional conocida, el estadístico de prueba es:

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

̅

̅

Para pruebas de hipótesis de medias, con poblaciones bajo Distribución Normal, de tamaño pequeño y con la desviación estándar de la población desconocida, el estadístico de prueba es:

̅

̅

Para pruebas de hipótesis sobre la proporción o fracción poblacional, se asume que bajo la Distribución Normal, entonces el estadístico de prueba es:

  • 4. Valores críticos de la prueba

Dependiendo del nivel de significancia escogido, como también del tipo de prueba se determina el

valor crítico de la prueba (

);

  • (

)

  • (

)

  • 5. Toma de decisión

  • En prueba de dos extremos:

  • En prueba de extremo izquierdo:

  • En prueba de extremo derecho:

Alternativa para la Toma de decisiones:

Se define como p value al mínimo valor del nivel de significancia con el que se rechaza la hipótesis nula; entonces la regla de decisión es:

  • En prueba de dos extremos:

  • En prueba de un extremo:

El programa SPSS representa al p value como sig. bilateral (nivel observado significancia de dos extremos).

  • 6. Conclusión de la prueba

Finalmente se debe expresar el resultado de la prueba traduciendo el resultado obtenido a las características del problema.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

10. INFERENCIAS EN DOS POBLACIONES

  • 10.1. INTRODUCCIÓN

En los temas anteriores se realizaron deducciones de una población en base del análisis de una muestra tomada de dicha población; en este tema se tratará de establecer herramientas estadísticas que permitan establecer estimaciones de la diferencia que existe entre los parámetros de la población, y comprobar hipótesis acerca de las semejanzas o diferencias que presentan las dos poblaciones.

Por otro lado, es muy importante conocer la forma como se han tomado las muestras de las dos poblaciones que intervienen en el análisis estadístico; estas muestras pueden ser:

Independientes: Es decir la muestra de cada población se obtiene en forma independiente.

Por pares: Las observaciones o elementos de la muestra de la primera población se toman en forma correspondiente con los elementos de la segunda población; un ejemplo característico del muestreo

por pares se denomina “antes y después”.

  • 10.2. ESTIMACIONES DE DIFERENCIAS DE PARÁMETROS POBLACIONALES

Vamos a revisar la diferencia que existe entre los parámetros de dos poblaciones, así podremos estimar:

  • La diferencia de la durabilidad promedio de las llantas de dos marcas diferentes.

  • La diferencia entre los salarios promedio de hombres y mujeres cuando realizan el mismo trabajo.

  • La diferencia entre la proporción de piezas defectuosas producidas en dos procesos industriales diferentes.

    • 10.3. ESTIMACIÓN DE DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS GRANDES:

Cuando el tamaño de cada una de las muestras tomadas de las dos poblaciones es grande, es decir:

La diferencia entre la media poblacional de dos poblaciones está dado por:

 

( ̅

̅

)

̅

̅

 

Donde:

:

Diferencia de la media poblacional de dos poblaciones

:

̅

 

:

Media aritmética de la muestra (primera población).

:

Media aritmética de la muestra (segunda población).

:

Valor de z de la Distribución normal para el nivel de confiabilidad asumido.

 

̅

̅

Error de estimación para la diferencia de medias.

El error de estimación para la diferencia de medias poblacionales está dado por:

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

̅

̅

Si las varianzas de las poblaciones no se conoce se deberá utilizar las varianzas de la muestra, por lo que la expresión anterior se transforma en:

̅

̅

Recuerde que el interés de este capítulo es estimar la diferencia que existe entre las medias poblacionales de dos poblaciones, no es el de determinar el valor de las diferencias entre las medias poblacionales.

  • 10.4. ESTIMACIÓN DE LA DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS PEQUEÑAS

Cuando las muestras tomadas de cada una de las poblaciones son pequeñas, es decir si:

Y la varianza de las poblaciones

y

son desconocidas se debe utilizar la distribución t tomando

en cuenta si existen evidencias o no de la igualdad de las varianzas aunque estas no sean

conocidas.

Suposición de igualdad de las varianzas:

Si existen evidencias de que las varianzas poblacionales son iguales, a pesar de no conocerlas se debe determinar la varianza común ponderada; en función de las varianzas muestrales y tomando como peso el tamaño de la muestra, es decir:

(

)

(

)

Una vez establecido el valor de la varianza común ponderada, se puede entonces definir el intervalo de estimación de la diferencia de la media poblacional de la siguiente manera:

 

(

̅

̅

)

̅

̅

Donde:

:

Es el valor de la distribución t para el nivel de confiabilidad asumido con de libertad.

grados

El error de estimación para la diferencia de medias poblacionales está dado por:

 

̅

̅

Si no existen evidencias de igualdad de las varianzas el proceso de cálculo requiere la determinación de los grados de libertad, para esto se aplica la siguiente expresión:

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

*

+

(

)

(

)

Una vez determinado este grado de libertad se procede

a

leer en

la

tabla el

valor de

para

finalmente poder establecer el intervalo de valores de estimación de la diferencia de la media poblacional.

10.5.

ESTIMACIÓN DE LA DIFERENCIA DE LA PROPORCIÓN POBLACIONAL

 

El intervalo de estimación para la diferencia de la proporción poblacional está dado por la expresión:

 

(

)

Donde:

 

:

Diferencia de la proporción poblacional.

 

:

Proporción muestral tomada de la población 1.

:

Proporción muestral tomada población 2.

:

Valor de z para el nivel de confiabilidad asumido.

:

Error de estimación

El error de estimación para la diferencia de la proporción poblacional está dado por:

 

(

)

(

)

10.6.

PRUEBAS DE HIPÓTESIS PARA COMPARACIÓN ENTRE DOS POBLACIONES

Al igual que en la estimación de la diferencia entre los parámetros de dos poblaciones se podrán realizar las siguientes pruebas de hipótesis.

  • Pruebas de hipótesis para igualdad de medias con muestras grandes.

  • Pruebas de hipótesis para igualdad de medias con muestras pequeñas.

  • Pruebas de hipótesis sobre la igualdad de la proporción poblacional de dos poblaciones.

PROCESO

  • 1. Planteamiento de la hipótesis:

Se deben plantear dos hipótesis: la Hipótesis Nula (Ho) que es un enunciado o afirmación que se hace sobre la relación de igualdad entre las medias de las poblaciones y la Hipótesis Alternativa (H 1 ) que se plantea como la negación de la hipótesis nula.

  • 2. Nivel de significancia y tipo de prueba:

El nivel de significancia es el porcentaje de error que estamos resignados a cometer, es el complemento de nivel de confiabilidad, si el nivel de confiabilidad es el 95%, entonces el nivel de significancia será el 5%.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

3.

Estadístico de prueba.

 

Para pruebas de hipótesis de diferencias entre las medias poblacionales, con poblaciones bajo la distribución normal, o de tamaño grande o con desviación poblacional conocida, el estadístico de prueba es:

 

(

̅

̅

)

(

)

 

̅

̅

Para pruebas de hipótesis de diferencias entre medias poblacionales, con poblaciones bajo distribución normal, de tamaño pequeño y con la desviación estándar de la población desconocida, el estadístico de prueba es:

 

(

̅

̅

)

(

)

 

̅

̅

Deberá tomarse en cuenta las consideraciones realizadas sobre el conocimiento o presencia de indicios de igualdad o desigualdad de las varianzas poblacionales, tal como se lo hizo en el acápite correspondiente a la estimación por intervalos para la diferencia de las medias poblaciones en muestras pequeñas.

Para pruebas de hipótesis sobre la diferencia proporción o fracción poblacional, se asume que la distribución es normal, entonces el estadístico de prueba es:

 

(

)

(

)

4.

Valores críticos de la prueba

 

Prueba z:

(

 

)

Prueba t:

(

 

)

5.

Toma de decisión:

  • En prueba de dos extremos:

 

Si no se rechaza.

  • En caso de p-value se tiene:

 

(

)

Si no se rechaza.

Si se ha definido con anterioridad el intervalo de confianza:

Se puede establecer otra regla de decisión en función del intervalo de confiabilidad: Si el valor del parámetro poblacional está dentro del intervalo de confiabilidad, entonces se acepta la hipótesis nula, caso contrario se rechaza.

6. Conclusión de la prueba: Expresar el resultado de la prueba en términos de las características del problema.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

11. ANÁLISIS DE VARIANZA

  • 11.1. INTRODUCCIÓN

El Análisis de Varianza, conocido como ANOVA (ANALYSIS OF VARIANCE) es una herramienta estadística diseñada para la comparación de medias muestrales de más de dos poblaciones; además esta herramienta permite realizar inferencias acerca de la varianza de una población.

La herramienta ANOVA está diseñada específicamente para probar si dos o más poblaciones tienen la misma media; aunque el propósito de la ANOVA es comparar las medias, el proceso se fundamenta en el análisis de la variabilidad de cada una de las muestras; siendo esta la razón de su nombre, en otras palabras:

Mediante el estudio de la variabilidad que presentan las muestras (ANOVA) se pueden realizar inferencias sobre la igualdad de la medias de las poblaciones de donde se tomaron dichas muestras.

Algunos ejemplos donde se puede aplicar el Análisis de Varianza.

  • Se trata de medir los efectos relativos en la producción de los empleados de una fábrica a los cuales se los ha capacitado mediante tres programas: tradicional, audiovisual y con ayuda de medios informáticos.

  • Comparar los efectos causados por cuatro promociones mensuales en las ventas de un almacén: muestra gratis; obsequios, descuentos, envío a domicilio.

  • Una cadena de restaurantes está preocupada por las excesivas quejas sobre la demora en la atención de las órdenes solicitadas en sus cuatro locales: Centro, Norte Sur y Periferia y desea saber si la demora en que incurren los empleados es la misma en los cuatro locales o en cuál de ellos la demora es diferente.

    • 11.2. FUNDAMENTOS DEL ANOVA

El análisis de varianza está basado en una comparación de dos estimaciones diferentes de la varianza de la población total; estas estimaciones de la varianza están claramente establecidas:

La primera estimación de la varianza, conocida como variación intergrupal o inter muestral está dado por la variabilidad de las medias de las muestras, en términos estadísticos se conoce como varianza entre columnas.

La segunda estimación de la varianza, se la denomina varianza dentro de las columnas y está dado por la variabilidad de los datos de cada una de las muestras o grupos, es decir será una varianza intra muestral o intra grupal.

Por otro lado se debe suponer:

  • Todas las poblaciones involucradas son normales.

  • Todas las poblaciones tiene la misma varianza.

  • Las muestras se seleccionan independientemente.

ESTADÍSTICA CON SPSS.-

NOCIONES BÁSICAS DE ESTADÍSTICA

  • 11.3. PROCESO DE CÁLCULO PARA UNA SOLA VÍA

Se presenta el siguiente modelo de organización de los datos:

Grupo 1

Grupo 2

Grupo 3

Grupo k

     

 
     

 
     

 

     

 

Se trata de un conjunto de datos agrupados en k muestras; y cada una de las muestras dispone de un número n de datos; el número de datos u observaciones de cada una de las muestras no necesariamente tienen que ser iguales.

El proceso de cálculo consta de los siguientes pasos:

  • 1. Determinación de la media aritmética de cada una de las muestras, obteniéndose entonces:

̅

̅

̅

̅

  • 2. Determinación de la gran media. La gran media o media de las medias muestrales se o