Está en la página 1de 145

`

Facultad de Ciencias de la Educación

Escuela de Orientación Educativa y Psicopedagógica

División de Postgrado y Educación Permanente

Maestría en Orientación Educativa e Intervención


Psicopedagógica

Análisis Estadístico para la Investigación Científica

Apuntes de Estadística Aplicada

Profesor
Lic. Juan Faustino Polanco Rivera, Licenciado en Estadística, Demógrafo, Maestría en
Gerencia de Proyectos, Certificado en Diseño y Evaluación de Sistemas de Compensación
Gerencial, con gran experiencia en el Diseño y Administración de Sistemas de Información,
Procesamiento de datos e Investigación Social y de Mercado. Profesor Universitario.

Lic. Faustino Polanco

Distrito Nacional. 22 de mayo 2022.

1
I. Aspectos generales de la Estadística _____________________________________ 6
1.1. Conceptos generales ____________________________________________________ 6
1.2. Escalas de Medidas ____________________________________________________ 10
1.3. División de la Estadística _______________________________________________ 11
1.4. Fuentes de datos. ______________________________________________________ 11
1.5. Uso y abuso de la Estadística ____________________________________________ 12
II. El Método Estadístico y sus etapas _____________________________________ 13
2.1. Conceptualización _____________________________________________________ 13
2.2. Planeación ___________________________________________________________ 13
2.3. Ejecución ____________________________________________________________ 13
2.4. Interpretación y Análisis. _______________________________________________ 13
2.5. Conclusiones, recomendaciones y propuesta de solución _____________________ 13
2.6. Presentación de resultados. _____________________________________________ 14
2.7. Toma de decisiones. ____________________________________________________ 14
III. Importancia la Estadística en los procesos empresariales ___________________ 15
3.1. Aportes más relevantes de la Estadística __________________________________ 15
3.2. En Investigación Científica _____________________________________________ 16
IV. Teoría de sumatoria _________________________________________________ 17
V. Organización datos y Presentación de resultados _________________________ 21
5.1. Organización de datos _________________________________________________ 21
5.1.1. Distribución de frecuencias _____________________________________________________ 21
5.1.2. Diagrama de Tallo y hoja ______________________________________________________ 25
5.1.3. Ventajas y desventajas de la agrupación de los datos _________________________________ 26
a) Ventajas ____________________________________________________________________ 26
b) Desventajas _________________________________________________________________ 26
5.2. Presentación de Resultados _____________________________________________ 27
5.3.1. Presentación tabular. __________________________________________________________ 27
5.3.2. Presentación gráfica __________________________________________________________ 29
5.3.3. Presentación escrita ___________________________________________________________ 35
5.3.4. Presentación oral _____________________________________________________________ 35

VI. Análisis Estadístico. _________________________________________________ 36


6.1. Tipos de análisis estadísticos ____________________________________________ 36
6.2. Indicadores estadísticos de mayor uso por la planificación ___________________ 36
6.3. Medidas e indicadores estadísticos. _______________________________________ 37
6.4. Medidas de tendencia Central ___________________________________________ 37
6.5. La tasa de variación y sus aplicaciones. ___________________________________ 50
6.5.1. Tasa de variación lineal ________________________________________________________ 50

2
6.5.2. Tasa de Variación Exponencial __________________________________________________ 51
6.5.3. Tasa de Variación Geométrica __________________________________________________ 51
6.5.4. Tiempo de necesario para multiplicarse el valor de una variable ________________________ 51
6.5.5. Fórmulas para calcular el valor inicial y el final _____________________________________ 52
6.6. Medidas de posición ___________________________________________________ 54
6.6.1. Los Cuartiles ________________________________________________________________ 54
6.6.2. Los Cuartiles si los datos están agrupados en clases y frecuencias. ______________________ 55
6.6.3. Los Quintiles ________________________________________________________________ 56
6.6.4. Los quintiles si los datos están agrupados en clases y frecuencias. ______________________ 57
6.6.5. Los Deciles _________________________________________________________________ 58
6.6.6. Los Deciles si los datos están agrupados en clases y frecuencias. _______________________ 59
6.6.7. Los percentiles _______________________________________________________________ 60
6.6.8. Los deciles si los datos están agrupados en clases y frecuencias. ________________________ 60
6.7. Medidas de dispersión o de variabilidad __________________________________ 61
6.7.1. Rango, recorrido o amplitud total ________________________________________________ 62
6.7.2. Medidas de dispersión referentes al promedio o media aritmética. ____________________ 63
6.7.2.1. Desviación media ____________________________________________________________ 63
6.7.2.2. La Desviación media si los datos están agrupados en clases y frecuencias ________________ 64
6.7.2.3. La Varianza ________________________________________________________________ 65
6.7.2.4. La varianza si datos agrupados en clases y frecuencias _______________________________ 66
6.7.2.5. Propiedades más importantes de la varianza ________________________________________ 66
6.7.2.6. La Desviación Típica o Estándar _______________________________________________ 67
6.7.2.7. Coeficiente de variación ______________________________________________________ 68
6.7.3. Propiedades de las medidas de variabilidad _______________________________________ 68
6.8. Interpretación y análisis de resultados __________________________________ 69
6.8.1. Descripción de los resultados finales. _____________________________________________ 69
6.8.2. Resumen. ___________________________________________________________________ 69

VII. Teoría de Probabilidades _____________________________________________ 70


7.1. Conceptos básicos _____________________________________________________ 70
7.2. Leyes de las probabilidades _____________________________________________ 72
7.3. Probabilidad conjunta, marginal y condicional ____________________________ 73
7.3.1. Distribución conjunta de probabilidad discreta ______________________________________ 73
7.3.2. La Probabilidad conjunta_______________________________________________________ 74
7.3.3. Probabilidad Marginal _________________________________________________________ 74
7.3.4. Probabilidad condicional e independencia _________________________________________ 75
7.4. Teorema de Bayes y sus aplicaciones _____________________________________ 77
 Probabilidad total ____________________________________________________________ 78
 Aplicaciόn del teorema de Bayes ________________________________________________ 78
7.3.1. Eventos independientes ________________________________________________________ 79
7.5. Distribuciones de probabilidad.__________________________________________ 79
7.6. Valor esperado o Esperanza Matemática. _________________________________ 81
7.7. Funciones de probabilidad discretas. _____________________________________ 81
7.7.1. La distribución de probabilidad de Poisson. ________________________________________ 81
7.7.2. La distribución de probabilidad Binomial __________________________________________ 84
7.7.3. La distribución de probabilidad Geométrica ________________________________________ 85
7.7.4. La distribución de probabilidad Hipergeométrica ____________________________________ 86

3
7.8. La distribución de probabilidad Continua_________________________________ 88
7.8.1. La distribución uniforme _______________________________________________________ 88
7.8.2. La distribución de probabilidad Exponencial _______________________________________ 89
7.8.3. La distribución de probabilidad Normal ___________________________________________ 89

VIII. Fundamentos de muestreo____________________________________________ 94


8.1. Algunos conceptos importantes. _________________________________________ 94
8.2. Tamaño de la muestra (n) ______________________________________________ 95
8.3. Tipos de muestreos. ____________________________________________________ 98
8.3.1. Muestreos probabilísticos ______________________________________________________ 98
8.3.1.1 Muestreo aleatorio simple. _____________________________________________________ 98
8.3.1.2 Muestreo aleatorio sistemático. __________________________________________________ 98
8.3.1.3 Muestreo estratificado. ________________________________________________________ 99
8.3.1.4 Muestreo por conglomerados. __________________________________________________ 100
8.3.1.5 Características de los tipos de muestreos probabilísticos _____________________________ 102
8.3.1.6 Fórmulas estadísticas de mayor uso en los muestreos probabilísticos. ___________________ 103
8.3.2. Muestreo no probabilísticos ___________________________________________________ 103

IX. Métodos de Estimaciones____________________________________________ 106


9.1. Concepto de estimación _______________________________________________ 106
9.2. Características de un estimador: ________________________________________ 106
9.3. Tipos de estimación ___________________________________________________ 106
9.3.1. Estimación puntual __________________________________________________________ 106
9.3.2. Estimación por intervalo. _____________________________________________________ 106
9.3.3. Concepto de Intervalo de Confianza. ____________________________________________ 107
9.3.4. Intervalo de confianza para un promedio de la población _____________________________ 108
9.3.5. Estimación por intervalos del valor medio en población normal. _______________________ 110
9.3.6. Intervalo de Confianza para una proporción. ______________________________________ 112
9.3.7. Intervalo de Confianza para varianza y la desviación estándar poblacional. ______________ 113

X. Prueba de Hipótesis y sus aplicaciones _________________________________ 114


10.1. Conceptos básicos de Pruebas de Hipótesis _______________________________ 114
10.2. Pasos básicos de la prueba de hipótesis con el método de valor crítico ________ 114
10.3. Tipos de pruebas de hipótesis __________________________________________ 116
10.3.1. Prueba de hipótesis unilateral o de una Cola. ______________________________________ 116
10.3.2. Prueba de hipótesis bilateral o de dos Colas. ______________________________________ 117
10.3.3. Prueba para la media Poblacional _______________________________________________ 117
10.3.4. Pruebas respecto a relaciones proporcionales ______________________________________ 122
10.3.5. Contraste sobre el cociente de dos varianzas ______________________________________ 124
10.3.6. Distribución Chi Cuadrado ____________________________________________________ 127
 Diferencia entre la varianza muestral y la varianza Poblacional. _______________________ 127
 Test de bondad de ajuste. _____________________________________________________ 128
 La prueba chi-square de independencia. __________________________________________ 129

XI. Análisis de regresión y correlación ____________________________________ 132


11.1. Análisis de regresión __________________________________________________ 132
11.1.1. Análisis de regresión simple ___________________________________________________ 133

4
11.2. El coeficiente de determinación _________________________________________ 135
11.3. Análisis de correlación ________________________________________________ 137
11.4. El coeficiente de correlación simple de Pearson ___________________________ 137
11.5. Coeficiente de correlación de Spearman. _________________________________ 138
11.5.1. Propiedades del análisis de correlación ___________________________________________ 140

XII. Análisis de la varianza ______________________________________________ 141

5
I. Aspectos generales de la Estadística

1.1. Conceptos generales

La estadística la rama de la matemática que constituye un conjunto de herramientas que


incluyen técnicas y procedimientos que sirven de base para la recolección, organización y
análisis de datos para la toma de decisiones.

Es aplicable a casi todas las áreas del conocimiento desde la física, ciencias sociales hasta las
operaciones que apoyan la toma de decisiones.

El objetivo básico de la estadística es reducir la incertidumbre y prever la ocurrencia de


eventos de manera aleatoria o no controlados por el hombre.

Aparentemente las distintas definiciones de estadística como disciplina científica, resultan


muy fáciles de comprenden, sin embargo en la práctica las mismas se tornan un poco más
complicadas, por lo cual se hace necesario en lo adelante, dar mayores detalles sobre las
implicaciones y el rigor de la aplicación de esta ciencia.

La estadística como ciencia se aplica en mayoría de las áreas del conocimiento, como la
sociología, la economía, negocios, la ingeniería, la química, psicología, geografía, astronomía,
biología, zoología y otras ciencias naturales, en los deportes y en muchas áreas donde se
requiera obtener y analizar datos para planificar, controlar procesos y actividades, y evaluar
sus resultados.

Estadísticas. Son cifras que representan los valores numéricos que se registran
sistemáticamente de las variables o características de los elementos de una población.
Estadísticos. Son los profesionales, analistas o los que desarrollan actividades propias del
proceso estadístico.
También se denominan estadísticos a los resultandos calculados a través de datos provenientes
de una muestra.

 Población. Es el conjunto de todos los individuos (personas, objetos, material, animales,


etc.) sobre los cuales se requiere información del fenómeno que se pretende estudiar. Es
un conjunto de individuos con características comunes para un determinado fin. Por
Ejemplo: si estudiamos el precio de la vivienda en una ciudad, la población será el total
de las viviendas de dicha ciudad.

 Muestra. Es un subconjunto que se selecciona de la población fines de análisis. Así, si


se estudia el precio de la vivienda de una ciudad, lo normal no sería recoger información
sobre una parte de las viviendas de la ciudad (sería una labor muy compleja), sino
seleccionar un subgrupo (muestra) que se entienda que se considere suficientemente
representativo.
Las medidas resultantes de una muestra suelen llamarse estadísticos o estimaciones (por

6
Ejemplo: el promedio de ingresos mensuales de las personas de una muestra), mientras
que los datos estadísticos descriptores de una población suelen llamarse parámetros (por
Ejemplo:, el promedio de ingresos mensuales de las personas de una población).

 Muestra representativa. Contiene las características más importantes de la población en


las mismas proporciones en que están contenidas en ella.

 Individuo. Cualquier elemento que cumpla con las características definidas en la


planeación del sistema estadístico para formar parte de la población objetivo. Si
estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos
el precio de la vivienda, cada vivienda es un individuo

 Las unidades de análisis. Son los elementos de los cuales se mide una propiedad y
característica. Puede ser una persona, una familia, un animal, una sustancia química, o un
objeto como una dentadura o una mesa.
 Variable. Es cualquier característica medible u observable de los elementos de una
población que durante un proceso de análisis puede tomar diferentes valores. Es una
característica (magnitud, vector o número) que puede ser medida, adoptando diferentes
valores en cada uno de los casos de un estudio.

Las variables pueden ser.

 Variables cualitativas o atributos. No se pueden medir numéricamente (por Ejemplo:


nacionalidad, color de la piel, estado civil, sexo). Sus valores son expresados literalmente.

 Variables cuantitativas. Tienen valores numéricos (edad, precio de un producto, ingresos


anuales). Por su parte, las variables cuantitativas se pueden clasificar en discretas y
continuas.

 Discretas. Sólo pueden tomar valores aislados o separados (1, 2, 8, -4, etc.). Por
Ejemplo: número de hermanos (puede ser 1, 2, 3, etc., pero, por Ejemplo: nunca podrá
ser 3.45). En ciertos casos particulares las variables discretas pueden tomar también
valores fraccionarios o con decimales. En un intervalo es posible contar la cantidad de
los valores que pueden tomar este tipo de variables.
 Continuas. Pueden tomar cualquier valor real dentro de un intervalo. Por Ejemplo:, la
edad, tiempo de servicio, la estatura, el peso corporal, velocidad de un vehículo. etc. En
un intervalo no es posible contar la cantidad de valores que pueden tomar este tipo de
variables.

El concepto de “Datos” y de “Información”

El dato es una representación simbólica (numérica, literal, algorítmica, entre otros) de un


atributo o característica de una entidad. Los datos describen hechos empíricos, sucesos y
entidades.

7
Constituye la expresión del estado de una variable o característica de un elemento de una
población definida en un momento y en un lugar determinado. Constituye el elemento crítico
para realizar un proceso de análisis.

Los datos en sí mismos no constituyen una información, el procesamiento es que lo transforma


convirtiéndolos en información, la cual permite establecer los criterios que conllevan a la toma
de decisiones. Este proceso requiere de la aplicación y uso del conocimiento de los
procedimientos, de los métodos y las técnicas adecuadas.

Los datos1 estadísticos constituyen una herramienta fundamental para medir, dar seguimiento,
controlar la ejecución de procesos y evaluar los resultados de actividades y proyectos. Estos
permiten determinar la incidencia, la evolución y la tendencia de los factores del entorno que
impactan los objetivos de una empresa o institución.

Los datos deben cumplir con las siguientes características:

a. Pertinencia. Guardar relación con el objetivo o el tema en cuestión.

b. Confiabilidad y validez. Comprende la definición del dato, la metodología, los


instrumentos, la población y demás elementos utilizados para su recolección y
tratamiento del de dicho datos, incluyendo la oportunidad y su cobertura.

c. Objetividad. Se pueden transmitir sin sesgos ideológicos o emocionales o por


influencia de la opinión del sujeto.

Los datos deben arrojar indicadores estadísticos que cuenten con las siguientes características:

a. Insesgado. Es una resultado muestral cuyo valor esperado es igual al parámetro por
estimar.

b. Imparcial. un indicador imparcial (o no sesgado) si, en promedio, tiende a tomar valores


con la misma frecuencia y la misma extensión por encima o por debajo del parámetro
de población que se está estimando.

c. Eficiencia. Se refiere al tamaño del error estándar de la estadística. El indicador de


menor error estándar o de menor desviación estándar en la distribución de muestreo, es
de mayor eficiencia.
d. Coherencia. Se aproxima al valor del parámetro de la población a medida que aumenta
en tamaño de muestra.
e. Suficiencia. Si utiliza una cantidad de información que adicionalmente ningún otro
indicador muestral podría extraer sobre el parámetro de la población que se está
estimando.

1 Un dato estadístico es el valor o la medida de una variable o característica de un elemento de una población definida en un momento y en
un lugar determinado. Constituye el elemento crítico para realizar un proceso de análisis. El Instituto de Estadística de Andalucía (IEA).

8
f. Consistente. Su resultado mantiene una diferencia no significativa estadísticamente
entre una muestra y otra.
La información es un conjunto organizado de datos procesados, que constituyen un
mensaje que puede cambiar el estado de conocimiento del sujeto que recibe dicho mensaje.
La información es el conocimiento explícito extraído como resultado de la interacción entre
factores del entorno. Puede agregar nuevos conocimientos, modificar o eliminar los ya
existentes, y sobre todo permite tomar decisiones ante la presencia de alternativas distintas.

Datos Procesamiento Informaciones Decisión

Retroalimentación

 Valor. Es el resultado de medir o de determinar el estado de una característica de un


elemento en un momento o en un espacio determinado. Ejemplo: Edad de una personas,
el ingreso de la familia, el estado civil del hijo mayor, el sexo de su mejor amigo, etc. Los
valores pueden ser numéricos o no numéricos.

Los valores numéricos son aquellos que permiten la realización de operaciones


matemáticas, como sumar, multiplicar, dividir, logarítmicas, y otras.

Los valores No numéricos son aquellos que solamente permiten conteo. Representan el
estado de una variable cualitativa.

 Cantidad. Resultado del conteo de los elementos. Ejemplo: Cantidad de personas


analfabetas, cantidad de trabajadores informales, cantidad de equipos tecnológicos, entre
otros.

 Número. Es un identificador de los elementos de una muestra o de un conjunto. Indica la


posición o el código que identifica un elemento particular. Ejemplo: Este es el hijo
número cinco, este es el carro número dos que se ha vendido, el estudiante número ocho
faltó a la clase número dos.

 Razón. Es el cociente entre dos valores, dos cantidades o dos medidas de naturaleza
diferente. Ejemplo: Ingreso per cápita = Ingreso total entre la población, número de hijos
por mujeres, el índice de masculinidad, el resultado de cociente del ingreso sobre la
inversión.

 Proporción. Es el cociente entre un subconjunto y el conjunto completo. Ejemplo:


Cantidad de mujeres entre la población total, proporción de personas en edad de trabajar.
Su resultado oscila entre 0 y 1.

9
 Fracción. Es una parte de una unidad. Por Ejemplo: un tercio de una tiza. Su resultado
también oscila entre 0 y 1.

 Porcentaje. La cantidad de elementos que cumplen con una condición por cada cien
elementos seleccionados.

Ejemplo: El 25% de las mujeres casas se divorcia, o lo mismo 25 de cada 100 mujeres
casas se divorcian.

El 4% de los niños nacidos vivos el año pasado murió antes de cumplir los doce meses
de edad, o sería lo mismo decir que de cada cien nacidos vivos el año pasado, cuatro
murieron de cumplir los doce meses de edad.

 Tasa. Existen varios conceptos de tasas. Es una medida que sirve para relacionar la
proporción de elementos que salen o entran a un conjunto en comparación con el conjunto
completo.

Ejemplo: Tasa de mortalidad = defunciones de un período de tiempo entre población de


ese período.

Expresa en qué proporción debe variar o incrementarse un valor de una variable para
llegar a otro. Ejemplo: Tasa de variación o de crecimiento anual de la población, Tasa de
interés bancaria.

1.2. Escalas de Medidas

Se entenderá por medición al proceso de asignar el valor a una variable de un elemento


en observación.

 Nominal. Se refieren las mediciones de los valores de variables que no pueden


establecerse relaciones entre sus valores. Los números funcionan como simples etiquetas,
es decir, la cantidad u otras propiedades aritméticas carecen de sentido. Por Ejemplo:, si
asignamos el valor 1 a los sujetos de raza blanca, 2 a los negros y 3 a otro tipo de razas.
 Ordinal. Son escalas mediciones de los valores de variables que permite establecer un
orden entre los elementos medidos. Toman un valor cero real, porque tienen un sentido
acumulativo. Ejemplo: La etapa de desarrollo de un individuo, El nivel de ejecución de
un proceso.

 De Intervalo. Esta escala, además de todas las propiedades de la escala ordinal, hace que
tenga sentido calcular diferencias entre las mediciones. Temperatura de una persona, La
distancia, ubicación en una carretera respecto de un punto de referencia (Kilómetro 85
Ruta 5).

 Razón. La escala de razón permite, además de lo de las otras escalas, comparar


mediciones mediante un cociente. Ejemplos. Altura de personas. Cantidad de litros de

10
agua consumido por una persona en un día. Velocidad de un auto. Número de goles
marcados por un jugador en un partido. Edad, el ingreso.

1.3. División de la Estadística

La Estadística se divide según el tipo de aplicación en dos ramas.

 Estadística Descriptiva. Se refiere a los métodos de recolección, descripción,


exploración, visualización y resumen numéricos o gráficos de los datos. Consiste en la
presentación de datos y análisis de los datos en base a tablas, gráficas y el cálculo de
medidas estadísticas como promedios, moda, mediana, porcentajes, medidas de variación,
entre otras.

 Estadística Inferencial. Comprende los métodos y procedimientos para deducir


propiedades de una población a partir de una parte de la misma. Se refiere a extraer
conclusiones generalizadas de la población a partir del estudio de una muestra. Incluye la
elaboración de modelos y predicciones asociadas de los fenómenos y la búsqueda de
explicaciones de sus causas. Establecer patrones de los datos en base a la teoría de
probabilidades, muestreo, estimación de parámetros, pruebas de hipótesis, análisis de
regresión y correlación, análisis de varianzas, series de tiempo, minería de datos, entre
otras.

1.4. Fuentes de datos.

Son los medios o los documentos de donde se extraen los datos para fines estadísticos. Estas
son. Registros periódicos y continuos, encuestas por muestreo, censos, Internet, libros y
documentos, dispositivos de almacenamiento de datos, películas, etc.
 Registros. Son anotaciones de las características de los hechos que sistemáticamente
ocurren en una población.
 Registros periódicos son las anotaciones de los hechos que ocurren de manera
esporádica y que se conoce la fecha de ocurrencia. Solo es posible registrar el hecho en
la fecha establecida previamente.

Ejemplos: Las inscripciones de estudiantes en los colegios, universidades, cursos de


postgrado, votos de los partidos políticos y candidatos el día de las elecciones, etc.
 Registros continuos son las anotaciones de los hechos que pueden ocurrir en cualquier
momento y no se conoce el momento en que ocurren. Se caracterizan por la disposición
permanente de anotar los hechos.
 Encuestas por muestreo son investigaciones donde se obtiene información sobre una
parte de la población.
 Censos. Son investigaciones en las cuales se obtiene información sobre todos los elementos
de una población.

11
 Fuentes no tradicionales. Internet, períodos, revistas, publicaciones, y otras fuentes no
formales.

La gestión educativa pública y privada, además de informarse sobre los distintos elementos
relacionados con los procesos y con las actividades que se realizan, a través de las fuentes
mencionadas, también deben utilizar otras fuentes de datos, como son: conversaciones y
reuniones con miembros de la comunidad, usuarios de los servicios, funcionarios públicos,
etc. También deben conocer las políticas y leyes, el desarrollo de nuevas tecnologías, nuevas
metodologías y estrategias de enseñanza y de los agentes de otros países que pueden impactar
en las estrategias y modelos educativos.

1.5. Uso y abuso de la Estadística


Como ya se dijo el uso de la estadística es inmenso, porque esta tiene participación en casi
todos los procesos y actividades desarrolladas por el hombre, aun de manera involuntaria tiene
que utilizar elementos de esta ciencia para planificar el desarrollo de sus actividades, medir y
evaluar sus resultados.
Sin embargo muchas veces se cometen ciertos abusos en lo que respecta a la explotación de
las potencialidades de esta ciencia, partiendo de que en base a ella se pueden explicar y
sustentar un sinnúmero de fenómenos y situaciones, y extraer conclusiones con un alto grado
de objetividad.
Los abusos de la Estadística que se comenten con mayor frecuencia son:

 Uso de sus técnicas por personas poco diestras en la materia


 Traer de extraer conclusiones parciales o generalizadas con datos no apropiados o
insuficientes para los fines
 Requerir o tratar de obtener resultados confiables con presupuestos muy bajos
 Toma de decisiones en base a datos obtenidos a través de procesos estadísticos diseñados
por personas con conocimientos limitados
 Aplicaciones incorrectas de ciertos métodos y técnicas estadísticas, por diversas razones.

12
II. El Método Estadístico y sus etapas
2.1. Conceptualización

 Términos de referencia
 Identificación de las necesidades de información
 Especificaciones y características de los requerimientos
 Expectativas y las decisiones a tomar
 Responsables del proceso y contraparte
 Condiciones del trabajo
 Disponibilidades
 Tiempo máximo para completarlo

2.2. Planeación

 Definición del objetivo


 Indicadores.
 Variables.
 El tipo información a colectar.
 La población.
 El área geográfica, actualización cartográfica.
 El período de referencia de los datos.
 Etapas y actividades del sistema.
 Metodología.
 Instrumentos de recolección de datos.
 Identificación de los recursos.
 Presupuesto
 Implementación preliminar o prueba del sistema
 Implementación definitiva del sistema estadístico

2.3. Ejecución
 Levantamiento de datos.
 Revisión, corrección y ajuste de los datos
 Organización y tabulación.

2.4. Interpretación y Análisis.


 Cálculos de las medidas e indicadores estadísticos
 Descripción de los resultados finales.
 Resumen.

2.5. Conclusiones, recomendaciones y propuesta de solución


 Conclusiones,
 Recomendaciones
 Propuesta como alternativa de solución

13
2.6. Presentación de resultados.
 Exposición del procedimiento agotado
 Tablas, gráficos, indicadores calculados
 Comparación de los resultados con los objetivos
 Explicación de los elementos relevantes
 Otros aspectos considerados importantes

2.7. Toma de decisiones.

Esta es una actividad que forma parte de la responsabilidad de los usuarios y de los que
identificaron la necesidad de ejecutar el proceso estadístico.

14
III. Importancia la Estadística en los procesos empresariales

3.1. Aportes más relevantes de la Estadística

La estadística es una ciencia de vital importancia en el proceso de gestión. Entre los aportes
de mayor relevancia están:

 Le provee los datos y otros elementos para la identificación oportunidades de mejora.


 Facilita la planeación de proyectos y actividades dentro del proceso de gestión
 Permite la evaluación y el seguimiento a la ejecución de procesos.
 Las técnicas de recolección, organización, análisis de los datos.
 Esquemas de presentación para explicar lo que expresan los datos. Cuadros y gráficos.
 Identificar los factores externos e internos que inciden en el quehacer de las empresas.
 estadísticos.

 Medir el impacto y las relaciones entre los factores que influyen en la ejecución y en los
resultados de procesos.
 Determinar el nivel de calidad los productos y servicios, así como la efectividad de la
ejecución de los proyectos y procesos que se ejecutan.
 Elaboración de pronósticos sobre el estado en el futuro de ciertos elementos que cambian
en función de factores internos o externos.

15
3.2. En Investigación Científica

Antes de explicar el aporte de la Estadística a la Investigación expresar que esta última tiene
como objetivo principal la generación de nuevos conocimientos. La investigación científica
en la que se diseña y se ejecuta basado en la estructura del método científico. el cual cuenta
con las etapas siguientes:

 La observación, a través de la cual se identifica o se percibe el síntoma o la presencia de


un problema que requiere ser estudiado desde su origen, su magnitud, sus causas y sus
consecuencias.
 La elaboración de hipótesis, las cuales constituyen los elementos que proveen luz sobre los
factores relacionados con el problema.
 Experimentación, que se refiere al diseño y la ejecución de la investigación.
 El análisis de los resultados, que consiste la identificación, medición y explicación de la
origen, su magnitud, sus causas y sus consecuencias del problema.
 Comprobación de las hipótesis, se refiere a la afirmación o negación de la incidencia o
relación de ciertos factores con el síntoma o problema percibido.
 Conclusiones, son los elementos que impactan o están relacionados con el problema, de
donde se pueden extraer teorías o leyes que se establecen sobre el origen, la magnitud, las
causas y las consecuencias del problema.

La estadística es una ciencia de vital importancia en el proceso de investigación. En los aportes


de mayor relevancia están.

 Le provee datos y otros elementos para la identificación y el planteamiento de problemas


 Aporta una gran parte de los elementos necesarios para el diseño de la investigación. Como
es la elaboración y validación de los cuestionarios, segmentación de la población, diseño
de muestra. Y división del trabajo de campo, ubicación geográfica de los elementos de la
población.

16
 Las técnicas de recolección, organización y análisis de los datos.
 Las herramientas para la presentación de los datos colectados. Cuadros y gráficos
estadísticos.
 Facilita la comprobación de las hipótesis planteadas durante la etapa de planeación de la
investigación.
 Elaboración de pronósticos sobre el estado de ciertos fenómenos sociales que cambian en
función de otros factores internos o externos.
 Medir el impacto y las relaciones entre las variables que identifican los individuos que
componen los distintos estratos sociales.

Los métodos y las demás herramientas estadísticas son la clave para la planeación,
programación, ejecución de la investigación, el análisis de los resultados y la toma de
decisiones.
Todos los libros de textos y las guías sobre metodologías y técnicas de investigación tienen
como base las herramientas estadísticas para su aplicación.

Los expertos en investigación por lo general son personas que cuentan con altos niveles de
conocimiento en estadísticas.

IV. Teoría de sumatoria

Es la operación tiene como finalidad agregar un conjunto de valores numéricos o de cantidad


y dar su resultado en una expresión numérica. Solamente se pueden valores cuantitativos y
cantidades.

Para sumar los datos deben cumplir lo siguiente:

 Estar expresados en la misma unidad


 Tener el mismo denominador
 Ser independientes. No deben tener elementos comunes
 Ser de la misma naturaleza. Pueden ser de uno o de varios elementos, pero deben
corresponder a variables que se pueden sumar. Y que con el resultado de la suma se pueda
tomar alguna decisión.
Por sumatoria se entiende la suma de un conjunto finito de valore o de cantidades Xi, que se
denota como sigue:
i=b
S= Xi=X1+X2+X3+…+Xn
i=a

Donde:
 La “X” indica los sumandos
 La “i” indica el orden de los sumandos
 La “a” indica a partir de que elementos en el orden inicia la suma
 La “b” indica a partir de que elementos en el orden termina la suma

17
 La Ʃ es el mandato de que se realice la suma
 La S es donde se almacena el resultado de la suma

Propiedades de la sumatoria

a) La sumatoria de una constante es igual a la constante por n (veces que aparece la


constante)

Si a es constante Ʃa=n x a. Si a=12

12+ 12+12+12+12+ 12+ 12+ 12 =n x a = 8 x 12=96


b) La sumatoria del producto de una constante y una variable es igual a la constante
por la sumatoria de la variable.

Si a es constante y x es variable, entonces Ʃa*x= a*Ʃx.


Ejemplo
Si a=12 y x=10, 18, 22, 14, 8, 9, 12, 15, 20

Ʃa*x = a*Ʃx =12*(10+18+22+14+8+9+12+15+20)=12*128=1,536


c) La sumatoria de la suma algebráica de una constante y una variable es igual a la
constante multiplicada por el número de veces (n) que aparezca más la sumatoria de
la variables.
Σ(a + X)= n * a + Σx

Si a=12 y x=10, 18, 22, 14, 8, 9, 12, 15, 20


Ʃ(a+x) = Ʃa + Ʃx = n*a+Ʃx =9*12 + (10+18+22+14+8+9+12+15+20)=108+128=236
d) Sí X es una variable, a y b dos constantes:

Ʃ(ax+b)= Ʃax + Ʃb) = a*Ʃx + n*b


Si a=12, b=15 y x=10, 18, 22, 14, 8, 9, 12, 15, 20
Ʃ(ax+b)=a*Ʃx+n*b =12* (10+18+22+14+8+9+12+15+20) + 9*15 =12*128+135=1671

18
e) La sumatoria de dos ó más variables es igual a la suma de las sumatorias de las
variables por separado.

Si "X" es el ingreso por salario, "Y" el ingreso por negocios y "Z" el ingreso por remesas en
una familia que recibe fijo mensualmente "A"= RD$ 1,500.00.

A X Y Z
1 1,500 9,242 11,626 10,798
2 1,500 10,865 9,728 11,290
3 1,500 9,877 8,777 9,929
4 1,500 10,216 9,954 8,623
5 1,500 10,476 8,292 11,779
6 1,500 9,442 9,508 11,146
7 1,500 10,319 8,993 8,380
8 1,500 8,773 10,494 10,783
9 1,500 10,497 8,681 8,772
10 1,500 8,805 8,994 8,794

n * A= ΣX= ΣY= ΣZ=


Total 15,000 98,512 95,047 100,294
Entonces el ingreso total de esa familia durante los diez meses fue igual a:

n * A + ΣX + ΣY + ΣZ lo que es lo mismo que


10 *1,500 + 98,512 + 95,047 + 100,294 = 308,853

Otros elementos de la sumatoria

Si queremos sumar un conjunto de valores continuos de k=1 hasta n, por ejemplo sumar todos
los valores del 1 a 5, esto es igual a 5 (5+1) /2 =15.
Lo mismo si se requiere sumar todos los valores continuos desde 21 al 40, esto se realiza de
la siguiente manera: 40 (40+1) / 2 - 20 (20+1) / 2 = 210.

19
Ejemplo: Sea Xi una variable que toma los siguientes valores 10, 18, 22, 14, 8, 9, 12, 15, 20.

La sumatoria del cuadrado de los valores de Xi es

ƩXi2 =102+182+222+142+82+92+122+152+202=2,018 y

El cuadrado la sumatoria de los valores de Xi es

(ƩXi)2 = (10+18+22+14+8+9+12+15+20)2 = 16,384

Ejemplo: Sea Xi una variable que toma los siguientes valores 10, 18, 22, 14, 8, 9, 12, 15, 20.
y Yi toma los valores 6, 3, 2, 5, 3, 4, 5, 3, 2

La sumatoria del producto de los valores de Xi y Yi es

ƩXiYi =10*6 +18*3+ 22*2+14*5+ 8*3+ 9*4+12*5+ 15*3+ 20*2 = 433

El cuadrado la sumatoria de los valores de Xi es

ƩXi* ƩYi = (10+18+22+14+8+9+12+15+20) * (6+ 3+ 2+ 5+ 3+ 4+ 5+ 3+ 2) =128 * 33 =


4,224

20
V. Organización datos y Presentación de resultados

5.1. Organización de datos

Técnicas de resumir y presentar datos. Distribuciones de frecuencias, lista de elementos con


sus características cuadros, gráficos estadísticos.

Consiste en ubicar o contar cada valor de una variable en la categoría, grupo o clase a que
corresponda, de acuerdo al objetivo del análisis.

La organización, la clasificación o la agrupación de los datos siempre dependerán de los


objetivos del análisis y de las decisiones que se tengan previsto tomar.

5.1.1. Distribución de frecuencias

Es un esquema o un arreglo donde aparecen los grupos, categorías o clases asociados sus
distintos tipos de frecuencias.

Frecuencia es la cantidad de elementos que correspondiente a cada clase, categoría o grupo.


Es el cantidad de veces que se repite cada grupo, clase o categoría.

Tipos de frecuencias

a) Frecuencia simple de clase. Se define frecuencia simple de clase al número de veces que
se repite cada clase. Se le identifica como fi, donde (f) se lee como frecuencia, y la (i)
define el orden de las clases. Al construir una distribución de frecuencias, se tienen
diferentes intervalos de valores que denominaremos clases.

b) Frecuencia relativa simple. A la suma total de la frecuencia simple de clase le llamamos


n; cuando cada valor de la frecuencia simple de clase se divide entre el total de casos u
observaciones a este cociente le denominamos frecuencia relativa simple. La suma de la
frecuencia relativa simple siempre será igual a la unidad. Vamos a identificar la
frecuencia relativa simple como hi.

c) Frecuencia acumulada. La suma de la frecuencia simple de clase es denominada como


frecuencia acumulada. Al calcular la frecuencia acumulada en una distribución de
frecuencia acumulada de la primera clase será igual a la frecuencia simple de la misma
clase. La segunda acumulada es igual a la primera acumulada más la frecuencia simple
de la segunda clase. El valor de la última frecuencia acumulada es igual al total de datos.
La frecuencia acumulada se identifica como Fi.
d) Frecuencia relativa acumulada. Es el cociente que se obtiene al dividir cada frecuencia
acumulada entre el total de observaciones. O la suma sucesiva de la frecuencia relativa
simple. La frecuencia relativa acumulada se identifica como Hi.

Para elaborar una distribución de frecuencias es necesario dar los siguientes pasos:

21
Distribución de frecuencias para variables cualitativas

Para realizar este tipo de distribuciones de frecuencias basta con contar las veces que aparezca
cada categorías de la variable de análisis en el conjunto de datos, y registrar las categorías en
una columna y en otra la cantidad de apariciones de cada una.

Ejemplo:

Población mayor de 18 años de edad por estado civil


Estado civil fi hi
Solteros 36 17.31%
Casados 34 16.35%
Unidos 25 12.02%
Separados 28 13.46%
Divorciados 22 10.58%
Viudos 32 15.38%
Otros 31 14.90%
Total 208 100.00%

Distribución de frecuencias para variables cuantitativas discretas

Para realizar este tipo de distribuciones de frecuencias basta con identificar los distintos
valores de la variable de análisis, y luego contar las veces que aparezca cada uno en el conjunto
de datos, registrar los valores en una columna y en otra sus respectivas apariciones.

Ejemplo:

Mujeres mayores de 15 años de edad por cantidad de hijos

Cantidad
fi Hi
de hijos
0 62 16.76%
1 39 10.54%
2 44 11.89%
3 43 11.62%
4 57 15.41%
5 53 14.32%
6 36 9.73%
7 36 9.73%
Total 370 100.00%

Distribución de frecuencias para datos de una variable cuantitativa continua

Para construir una distribución de frecuencias para datos correspondientes a una variable
continua es necesario agotar un proceso lógico para establecer las clases o grupos de valores

22
de la variable de análisis, y luego contar las veces que aparezca cada valor dentro de cada
categoría que corresponda de acuerdo a su medida. Registrar las clases o grupos en una
columna y en otra sus respectivas apariciones. Finalmente se calculan los demás tipos de
frecuencias.

Ejemplo del proceso:

a) Clase o grupo

Una clase o grupo es cada categoría que se forme o se utilice para organizar y clasificar los
valores de una variable cuantitativa continua de acuerdo a su medida. En la mayoría de los
casos, aunque no necesariamente es así, todas las clases o grupos son del mismo ancho en
términos numéricos.
Rangos de edad
Li Ls
13.09 - 18.92
18.92 - 24.76
24.76 - 30.60

b) Número de clases o número de grupos. Como se puede observar en el segundo y tercer


paso resultaría muy difícil resolver estas ecuaciones por simples métodos matemáticos ya
que cada una de ellas presenta dos incógnitas. Como solución a este problema surge la
fórmula de Sturges que se expresa así.

NC =1+ 3.32 * log n


Donde n = cantidad de valores.

c) Recorrido o rango. Se denomina recorrido o rango a la diferencia existente entre el valor


máximo observado y el mínimo en una distribución u ordenamiento. En una distribución
u ordenamiento de datos existe una diversidad de valores que varían de menor a mayor y
viceversa.
Rango = X máx. - X mín.
d) Intervalo de clase (IC) o Amplitud de clase (AC). Una clase está definida por un límite
inferior (Li) y un límite superior (Ls). A la diferencia entre el límite superior y el límite
inferior de una clase se la llama intervalo de clase.
Este indica el recorrido o rango de los valores incluidos en una clase.
AC= Ls – Li o también es

AC= Rango / NC
23
Donde
Ls= Li + Ac

e) Punto medio de clase o marca de clase. Para fines de análisis de datos, los valores de
las clases se representan a través del punto medio de clase o marca de clase. El punto
medio de clase se define como la semi-suma de los límites de clase. El punto medio de
clase se identifica como.

PM = ½ (límite inferior + límite superior).

PM= (Li + Ls) / 2

Tiempo de servicio de los trabajadores formales (en años)


11.07 6.14 1.43 13.17 14.79 25.46 8.38 10.78 17.56
23.76 29.78 28.81 25.10 1.41 35.02 14.54 40.13 21.21
31.39 14.99 13.76 15.69 26.66 29.57 33.59 12.27 31.00
38.56 1.56 40.03 39.22 6.85 1.58 36.34 13.04 22.31
29.33 30.15 20.74 19.95 25.28 34.16 1.68 4.18 12.14
38.29 17.35 40.18 38.29 27.61

 NC =1+ 3.32 * log n


 Rango = X máx. - X mín.
 AC= Rango / NC
 Ls= Li + Ac

n= Conteo de los datos 50


Nc= 1+ 3.32 * log 50= 6.64
X max = Buscarlo en la tabla de datos 40.18
X min = Buscarlo en la tabla de datos 1.41
Rango = X Max - X Min= 40.18 - 1.41 = 38.77
Ac = Rango / Nc 38.77 / 6.64 = 5.84

Distribución de los trabajadores formales de la


empresa por tiempo de servicio. 2020.

Clases Frecuencias
i Li Ls fi Fi hi Hi
1 1.41 - 7.25 8 8 16.00% 16.00%
2 7.25 - 13.09 6 14 12.00% 28.00%
3 13.09 - 18.92 8 22 16.00% 44.00%
4 18.92 - 24.76 5 27 10.00% 54.00%
5 24.76 - 30.60 10 37 20.00% 74.00%
6 30.60 - 36.44 6 43 12.00% 86.00%
7 36.44 - 42.28 7 50 14.00% 100.00%
Total 50 100.00%

24
hi= fi/n x 100= fi/Ʃfi x 100

Hi= Fi/n x 100= Fi/Ʃfi x 100

f) Interpretación.

 Diez trabajadores formales tienen entre 24.76 y 30.60 años de servicio.


 Veintidos trabajadores formales tienen menos de 18.92 años de servicio.
 Doce por ciento de los trabajadores formales tienen entre 30.60 y 36.44 años de servicio.
 Veintiocho por ciento de los trabajadores formales tienen menos de 13.09 años de servicio.

5.1.2. Diagrama de Tallo y hoja

Su elaboración consiste en identificar y colocar a la izquierda el primer o segundo dígito de


cada valor, dependiente de la cantidad de grupos que se prefieran formar, y colocar los demás
dígitos de los valores en orden, si alguno se repite se anota tantas veces como se repita. Luego
se cuentas los valores de cada grupo y se anotan en la columna de casos. Es posible calcular
una columna con los porcentajes y hacer un histograma para presentarlos los resultados.

Este tipo de organización de datos tiene utilidad cuando la cantidad de datos es baja. Con el
uso de las tecnologías de la información (software) se usa pocas veces.

Ordenar los datos de menor a mayor facilita mucho hacer este diagrama.

Ejemplo: Los datos que aparecen a continuación se refieren al gasto diario de los hogares en
almuerzo. Y se requiere organizarlo en base a un diagrama de tallo y hoja.

678.83 483.05 687.36 323.24 Hojas Casos %


474.73 539.20 721.69 754.45 3 74.29 93.33 18.77 15.34 22.14 23.24 6 13.64
551.19 401.00 423.97 639.95 4 74.73 01.00 83.05 23.97 66.38 22.48 27.69 38.08 68.62 75.57 10 22.73
736.85 692.48 587.60 438.08 Tallo 5 43.01 46.74 51.19 79.06 39.20 76.12 28.96 76.88 87.60 75.50 10 22.73
704.25 660.37 322.14 422.48 6 74.45 78.83 6.76 10.24 51.02 60.37 92.48 11.16 87.36 39.95 10 22.73
546.74 610.24 315.34 475.57 7 4.25 36.85 88.42 21.69 55.41 30.03 54.45 84.92 8 18.18
579.06 651.02 466.38 730.03 Total 44 100.00
393.33 788.42 576.88 468.62
543.01 576.12 611.16 575.50
374.29 606.76 528.96 784.92
674.45 318.77 755.41 427.69

25
Hogares según gasto diario en almuerzo
12
10 10 10
10
8
8
6
6
4
2
0
3 4 5 6 7

5.1.3. Ventajas y desventajas de la agrupación de los datos

a) Ventajas
 Facilidad de visualizarlos y de entenderlos
 Se ve fácilmente su concentración y la forma de su distribución
 Se observa si existe mucha dispersión entre ellos
 Son fáciles de describir y analizar
 Quedan segmentados según los rangos elaborados
 Permite reducir o ampliar la cantidad de grupos
 Conviene para presentarlos y compartirlos con los usuarios
 Reduce la cantidad de materiales y de esfuerzos para el análisis y la presentación

b) Desventajas

 Afecta el resultado de los indicadores calculados con los datos agrupados


 No siempre los datos se distribuyen de manera uniforme dentro de los valores que
contiene una clase o grupo
 En muchos casos los valores caen dentro de una clase no están próximo al centro de la
clase o al punto medio
 Si la amplitud de clase es muy ancha existe mucha dispersión entre los valores que la
componen y su punto medio
 Si el número de clases es muy alto o muy bajo afecta los indicadores calculados y por
ende el análisis de los mismos
 Si se usa uno de los métodos teóricos para agrupar los datos, muchas veces el resultado
no se corresponde con el objetivo del análisis
 Uno vez agrupados los datos no es posible volver desagregarlos, a menos que se cuente
con los micro datos
 No siempre expresan la realidad cuando ocurra cualquiera de las desventajas anteriores
 No se deben hacer cálculos de indicadores estadísticos usando datos agrupados en clases
y frecuencias. Solamente se recomienda en caso que no se disponga de los micro datos.

26
5.2. Presentación de Resultados

Constituye la forma de organizar datos en una o más direcciones. La presentación de datos


estadísticos en sus diferentes modalidades constituye uno de los aspectos que caracterizan la
estadística descriptiva. En base ella podemos visualizar los datos estadísticos y el
comportamiento de las variables.

Consiste en hacer una exposición de las informaciones y de resultados del proceso estadístico
a los usuarios, a los responsables de tomar las decisiones y a todo el público interesado.

Esta exposición debe ser explícita por sí misma, atractiva, impactante, clara, fácil de entender
y sobre todo precisa. Hoy día con el uso de la tecnología resulta muy fácil elaborar y hacer
buenas presentaciones de información

Existen tres formas diferentes` de presentar los datos estadísticos, que son.
`
5.3.1. Presentación tabular.

Cuando los datos estadísticos se presentan a través de un conjunto de filas y de columnas que
responden a un ordenamiento lógico; es de gran eso e importancia para el uso e importancia
para el usuario ya que constituye la forma más exacta de presentar las informaciones. Una
tabla consta de varias partes, las principales son las siguientes.

 Titulo. Es la parte más importante del cuadro y sirve para indicar su contenido, la
clasificación de los datos, la fecha o el período a que estos se refieren y el lugar o área
geográfica a que pertenecen.

 Encabezados. Son los diferentes subtítulos que se colocan en la parte superior del cuadro,
indica el contenido de cada columna.

 Columna matriz. Es la columna principal del cuadro. Indica el contenido de las filas.
 Cuerpo. El cuerpo contiene todas las informaciones numéricas que aparecen en el cuadro.

 Fuente. Es necesario indicar de donde fueron extraídos los datos del cuadro. En la fuente
se debe indicar el documento o medio de donde se tomaron los datos, incluyendo la fecha
exacta cuando se tomaron.

 Notas al pie. Son usadas para hacer algunas aclaraciones sobre aspectos que aparecen en
el cuadro y que no son visibles ni están explícitos en otra parte del mismo.

27
He aquí algunos ejemplos de presentación tabular:
Provincia Monte Cristi.
Población de cinco o más años edad por zona de residencia y sexo, según grupos de edades.
2016.
Total Zona de residencia y Sexo
Grupo de
Urbana Rural
edades
Total Varones Hembras Total Varones Hembras Total Varones Hembras
Total
5 a 10 1,780 871 909 973 398 575 807 473 334
10 a 15 1,448 710 738 552 249 303 896 461 435
15 a 20 1,838 950 888 986 523 463 852 427 425
20 a 25 1,721 881 840 779 427 352 942 454 488
25 a 30 1,937 1,030 907 813 375 438 1,124 655 469
30 o + 1,890 969 921 1,022 525 497 868 444 424
Total 10,614 5,411 5,203 5,125 2,497 2,628 5,489 2,914 2,575
Fuente. Encuesta provincial de asuntos sociales. 2016.
Notas. Excluye a los hijos de extranjeros con menos de dos años residiendo en el país.
* Datos ficticios.

Provincia Monte Cristi.


Distribución de la Población de 5 o más años por grupos de edades, según zona de residencia y sexo. 2016.
Total Zona de residencia y Sexo
Grupo de
Urbana Rural
edades
Total Varones Hembras Total Varones Hembras Total Varones Hembras
Total
5 a 10 15.11% 13.28% 16.94% 13.34% 12.62% 14.10% 17.00% 14.03% 19.80%
10 a 15 15.64% 16.51% 14.77% 17.38% 16.87% 17.93% 13.77% 16.10% 11.58%
15 a 20 17.18% 19.15% 15.21% 17.66% 16.90% 18.47% 16.67% 21.72% 11.93%
20 a 25 16.81% 15.87% 17.76% 16.48% 17.76% 15.12% 17.16% 13.70% 20.41%
25 a 30 18.36% 20.81% 15.91% 17.95% 19.01% 16.83% 18.80% 22.85% 14.98%
30 o + 16.90% 14.38% 19.42% 17.18% 16.83% 17.55% 16.59% 11.59% 21.29%
Total 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00%
Fuente: Encuesta provincial de asuntos sociales. 2016.
Notas: Excluye a los hijos de extranjeros con menos de dos años residiendo en el país.
* Datos ficticios.

Provincia Monte Cristi.


Composición de la población de 5 o más años por sexo, según zona de residencia, grupos de edades. 2016.
Total Zona de residencia y Sexo
Grupo de
Urbana Rural
edades
Total Varones Hembras Total Varones Hembras Total Varones Hembras
Total
5 a 10 100.00% 44.02% 55.98% 100.00% 48.83% 51.17% 100.00% 39.98% 60.02%
10 a 15 100.00% 52.86% 47.14% 100.00% 50.05% 49.95% 100.00% 56.65% 43.35%
15 a 20 100.00% 55.81% 44.19% 100.00% 49.38% 50.63% 100.00% 63.12% 36.88%
20 a 25 100.00% 47.26% 52.74% 100.00% 55.58% 44.42% 100.00% 38.69% 61.31%
25 a 30 100.00% 56.74% 43.26% 100.00% 54.61% 45.39% 100.00% 58.91% 41.09%
30 o + 100.00% 42.62% 57.38% 100.00% 50.54% 49.46% 100.00% 33.85% 66.15%
Total 100.00% 50.07% 49.93% 100.00% 51.58% 48.42% 100.00% 48.45% 51.55%
Fuente: Encuesta provincial de asuntos sociales. 2016.
Notas: Excluye a los hijos de extranjeros con menos de dos años residiendo en el país.
* Datos ficticios.

28
Algunas interpretaciones de datos de una tabla estadística

Población por sexo, según zona de residencia. 2022


ZONA Total Hombres Mujeres
Urbana 37 15 22
Rural 46 19 27
Total 83 34 49

Cálculo Interpretación
22 / 37 * 100 = 59.4% El 59.4% de la población residente en la zona urbana son mujeres
19 / 46 * 100 = 41.3% El 41.3% de la población residente en la zona rural son hombres
49 / 83 * 100 = 59.0% El 59.0% de la población total son mujeres
34 / 37 * 100 = 91.8% Por cada 100 personas residentes en la zona urbana hay 91.8
hombres residentes a nivel general.
22 / 83 * 100 = 26.5% El 26.5% de la población del país son mujeres residentes en la
zona urbana
49 / 15 * 100= 326.67% Por cada 100 hombres residentes en la zona urbana hay 326.67
mujeres residentes a nivel general
19 / 27 * 100=70.37% En la zona rural, por cada 100 mujeres hay 70.37 hombres.

5.3.2. Presentación gráfica

Proporciona al lector o usuario mayor rapidez en la comprensión de los datos, una gráfica es
una expresión artística de representar un conjunto de datos de una variable.
Tipos de gráficos

De acuerdo al tipo de variable que vaya a representar y los objetivos de dicha presentación,
las principales gráficas son las siguientes.

 Histograma. Es un conjunto de barras o rectángulos unidas una de otra, por tal razón se
utiliza para representar variables continuas. Se usa para mostrar la distribución relativa de
las frecuencias de los valores de una variable continua que esté agrupada en clases.

29
Distribución de los empleados de nuevo ingreso por edad. 2021
40.00% 37.90%

32.00%

24.00% 22.45%
18.48%

16.00% 13.78%

7.38%
8.00%

0.00%
< de 20 años 20 a 24 25 a 29 30 a 34 35 o + años

 Polígono de frecuencias. Esta gráfica se usa para representar los puntos medios de clase en
una distribución de frecuencias. Se usa para mostrar la distribución relativa de las
frecuencias de los valores de una variable continua que este agrupada en clases.

Distribución de los empleados de nuevo ingreso por edad. 2021


40.00%
37.90%

32.00%

24.00%
22.45%
18.48%
16.00%
13.78%

8.00% 7.38%

0.00%
< de 20 años 20 a 24 25 a 29 30 a 34 35 o + años

 Gráfico de barras. Es un conjunto de rectángulos o barras separadas una de la otra, en razón


de que se usa para representar variables discretas o cualitativas; las barras deben ser de igual
base o ancho y separadas a igual distancia. Pueden disponerse en forma vertical y horizontal.

El gráfico de barras verticales se usa cuando la cantidad de barras no es muy numerosa o


los nombres correspondientes a las barras no son muy largos. Y el gráfico de barras

30
horizontales se utiliza cuando son muchas barras o los nombres correspondientes a las barras
son muy largos.
Porcentajes de empresas registradas entre 2020-2021, por regiones.
25.00%

19.97%
20.00%
17.30%

14.45%
15.00% 13.51% 13.72%
12.99% 13.15% 12.65% 12.55%
12.12%
11.00%
10.00%

5.00%

0.00%
Sur Norte Noroeste Nordeste
Ozama ValdesiaEnriquilloEl Valle Cibao Higuamo Yuma Total

El gráfico de barras horizontales tiene la misma finalidad, condiciones y características que


el gráfico de barras verticales, se utiliza cuando la cantidad de barras es muy numerosa o los
nombres correspondientes a las barras son muy largos.

31
Porcentaje de empresas registradas entre 2020-2021, por provincias.
Total 12.55%
SANTO DOMINGO 13.11%
SAN JOSE DE OCOA 16.55%
HATO MAYOR 20.23%
MONTE PLATA 15.58%
MONSEÑOR NOUEL 9.95%
VALVERDE 8.76%
SANTIAGO RODRIGUEZ 15.33%
SANTIAGO 12.46%
SANCHEZ RAMIREZ 21.67%
SAN PEDRO DE MACORIS 16.91%
SAN JUAN 21.40%
SAN CRISTOBAL 10.60%
SAMANA 16.31%
SALCEDO 9.82%
PUERTO PLATA 13.28%
PERAVIA 15.47%
PEDERNALES 14.40%
MONTE CRISTI 14.52%
MARIA TRINIDAD SANCHEZ 21.92%
LA VEGA 12.27%
LA ROMANA 13.31%
LA ALTAGRACIA 13.34%
INDEPENDENCIA 13.33%
ESPAILLAT 16.88%
EL SEIBO 18.84%
ELIAS PIÑA 9.58%
DUARTE 10.89%
DAJABON 19.09%
BARAHONA 11.21%
BAHORUCO 13.37%
AZUA 20.70%
DISTRITO NACIONAL 9.69%
0.00% 5.00% 10.00% 15.00% 20.00% 25.00%

32
 Gráfica lineal. Son usadas principalmente para representar datos clasificados por cantidad
o tiempo; o sea, se usan para representar series de tiempo o cronológicas. Se usa para ilustrar
la tendencia o la evolución de los valores, una medida o la magnitud de una variable en
tiempo.

Nuevas empresas y establecimientos por año de inicio de


operaciones, 2000-2019
6000

5000

4000

3000

2000
Empresas Establecimientos
1000

0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019

 Gráfico de barra 100%. Se usa especialmente para representar las partes en que se divide
una cantidad total en varias situaciones. También permite la comparación de la distribución
de los elementos de varios conjuntos de datos.
Distribución de la empresas por tamaño, según regiones. 2020
100.00%
7.91% 10.13% 9.84% 9.28% 8.85%

80.00% 27.94% 27.81% 26.15% 28.67% 27.35%

60.00%

40.00% 51.64% 50.32% 54.92% 50.49% 52.63%

20.00%
1.65% 1.39% 1.51% 1.42%
1.08%
10.85% 10.34% 8.01% 10.06% 9.74%
0.00%
Metropolitana Sur Cibao Este Total
Grandes Medianas Micros Pequeñas No definidas

33
 Gráfico circular o de pastel. Se usa para mostrar la distribución relativa de las frecuencias
de los valores de una variable cualitativa o discreta.
Distribución de las empresas por regiones. 2020.
Este
9.58%

Cibao
34.59%

Metropolitana
49.80%
Sur
6.03%

 La ojiva. Es un gráfico lineal, consiste en la representación de las frecuencias acumuladas


de una distribución de frecuencias. Puede construirse de dos maneras diferentes; sobre la
base “menor que” o sobre la base “o más”. Puede determinar el valor de la mediana de La
distribución.
Distribución de la Población de cinco o más años por
acumuladas grupos de edades. 2021. 100.00%
100.00%
81.51%
80.00%
64.47%
60.00% 49.20%

40.00% 33.58%

20.00% 13.15%

0.00%
5 a 10 10 a 15 15 a 20 20 a 25 25 a 30 30 o +
Rangos de edad

34
5.3.3. Presentación escrita

Esta forma de presentación de informaciones se usa cuando una serie de datos incluye pocos
valores, por lo cual resulta más apropiada la palabra escrita como forma de describir su
comportamiento en base a uno o varios párrafos explicativos. Con esta se resaltan todos
aquellos elementos de mayor relevancia en un conjunto de datos.

5.3.4. Presentación oral

Es la presentación que se realiza a través de conversaciones y expresión ideas, conceptos y


definiciones, resultados e informes a en base a la explicación oral.

35
VI. Análisis Estadístico.
Es necesario explicar todos aquellos aspectos que expresan los datos y que no se visualizan a
simple vista o no son entendibles por personas con bajo nivel de conocimiento en el manejo
y análisis de datos. En el análisis estadístico es necesario conocer:

 Los objetivos, la finalidad y las decisiones previstas a tomar con los resultados.
 Las fuentes de los datos
 Características de los datos a utilizar
 La metodología de recolección y tratamiento de los datos
 La cobertura, el período de referencias
 Perfil y conocimientos de los participantes en el proceso de los datos
 Otras características de los datos

6.1. Tipos de análisis estadísticos

 Su magnitud – Los promedios


 Su distribución y su concentración
 El grado de variabilidad: Rango, Desviación media, la Varianza, Desviación estándar.
Coeficiente de Variación, Variación intercuartílica.
 El comportamiento en el tiempo y en el espacio- Tasa de variación
 Su relación con otros elementos
 Los factores que los causan y sus efectos
 Entre otros

6.2. Indicadores estadísticos de mayor uso por la planificación

 Inversión
 Producción
 Cantidad de habitantes y densidad poblacional
 Movilidad espacial
 Mortalidad y fecundidad
 Edificaciones, viviendas, hogares
 Características y uso del territorio
 Características, estructura, composición y distribución de la población
 Ingresos
 Gastos
 Balanza de pagos: Importaciones y exportaciones
 Impuestos pagados
 Estado de salud, social y económico de la población
 Riquezas
 Calidad de los productos y servicios
 Recursos Humanos y Trabajo o Empleo
 Resultados de los proyectos y procesos
 Otros
36
6.3. Medidas e indicadores estadísticos.
Se deben calcular todas las medidas e indicadores estadísticos que expresen el estado y las
relaciones de las variables contenidas en la investigación y otros datos externos, como son
porcentajes, promedios, medidas de variación, etc.
6.4. Medidas de tendencia Central

En esta sección se define una serie de medidas o valores que tratan de representar o resumir a
una distribución de frecuencias dada, sirven para comparar magnitud de los valores de
distintas variables. Estas medidas reciben el nombre de promedios o medidas de tendencia
central, porque sus resultados tienden a ubicarse próximo a los valores centrales de un
conjunto de datos de una variable.
Las medidas de tendencia central indican la magnitud o el volumen de los datos, indicando
si por su valor estos son grandes o son pequeños, altos o bajos.
Entre este tipo de medidas las más comunes son.
 La media aritmética o el promedio
 La mediana
 La moda
 Media armónica
 La media geométrica
 Tasa de variación promedio
 Otras medidas de tendencia central

6.4.1. La Media Aritmética o el promedio.


Es la medida de tendencia central que indica el valor al cual se podrían igualar todos los
valores de la variable que se está analizando. Se calcula como el cociente de la suma de todos
_ valores y la cantidad de valores.
los
X=ΣXi / n
Ejemplo: Salario mensual de los trabajadores, 2021.

X Ingreso mensual
1 11,961
2 16,692 n= 10
3 13,424 ΣX= 131,603
4 13,347 _
5 13,465 X=ΣXi / n = 131,603 /10
6 13,126 _
7 10,055 X==ΣX i / n
13,160.30
8 16,556
9 11,408
10 11,569 Interpretación: El ingreso promedio de los
Total 131,603 maestro era de 13,160.30 pesos.

37
6.4.2. Si los datos están agrupados en clases y frecuencias
_ _
X=ΣXi*fi / n lo que sería lo mismo, X==ΣX
ΣPMi*f
i /i/Σf
ni

Dónde Xi = PMi = (Li+Ls) / 2


PMi es el punto medio de cada clase
n=Σfi que representa la cantidad de datos.
Li es el inferior y Ls superior de cada clase, respectivamente.

Los trabajadores por edad. 2021.


Rango de
edad fi Xi=PMi Xi*fi
Li Ls
15 - 20 16 17.5 280.00
20 - 25 9 22.5 202.50
25 - 30 18 27.5 495.00
30 - 35 15 32.5 487.50
35 - 40 12 37.5 450.00
40 - 45 19 42.5 807.50
_ Total 89 2,722.50
X=ΣXi*fi =2,722.50
/n
n_=Σfi=89
X=ΣPMi*fi / n =2,722.50 / 89 =30.59 años

La edad promedio de los trabajadores en el 2021 era 30.59 años.

6.4.3. Media aritmética ponderada o promedio ponderado.

Se denomina Media ponderada al promedio de un conjunto de valores que se obtiene


considerando el peso, la incidencia o el impacto de los valores de una variable externa sobre
los valores de la variable de análisis.

La variable externa o de ponderación afecta de manera diferente a los valores de la variable


que se está analizando.

Se calcula como la suma de los productos de los valores de la variable de análisis por su valor
correspondiente en la variable externa o de ponderación, dividida por los suma de los valores
de la variable externa o de ponderación.

La media ponderada de un conjunto de números X1, X2, .., Xn, con las ponderaciones
correspondientes w1, w2, ... ,wn, se calcula con la fórmula.
_
w = Σxiwi /Σwi o
X

38
n

 w x  i i
xw  i 1
n

w
i 1
i

Donde la wi es la externa o de variable de ponderación y xi es la variable de análisis.

Ejemplo:

Sea xi el salario mensual de los trabajadores y wi la cantidad de horas de labores a la semana.

Usando la siguiente fórmula:


n

 w x  i i

_ xw  i 1
n

w = Σxiwi /Σwi
X w
i 1
i

Salario mensual de los trabajadores y horas de


labores semanales de los 2021
Salario Horas
Trabajador
Mensual semanal X i * Wi
(i)
Xi Wi

1 10,103 34 343,502
2 14,460 22 318,120
3 17,701 23 407,123
4 14,200 44 624,800
5 14,095 31 436,945
6 11,363 27 306,801
7 10,122 39 394,758
8 12,171 25 304,275
9 11,829 33 390,357
10 10,323 35 361,305
11 13,505 15 202,575
Total 328 4,090,561

Σw
_ixi = 4,090,561 y Σwi = 328, resulta que la media aritmética ponderada
X
w = 4,090,561 / 328 = 12,471.22 pesos.

En el 2021, el salario promedio de los trabajadores era de 12,471.22 pesos mensuales.

6.4.4. Propiedades de la media aritmética.

 El cálculo de la media aritmética requiere que los datos sean tomados al mismo tiempo
durante un período muy corto.
 Los datos deben corresponder a elementos distintos.
39
 Es la medida de tendencia central de mayor uso en el análisis estadístico
 Es una medida totalmente numérica o sea sólo puede calcularse en datos de características
cuantitativas.
 Solamente se puede calcular para datos que se puedan sumar.
 Aplica para datos correspondientes a varios elementos distintos, que fueron tomados con
diferencias mínimas de tiempo.
 En su cálculo se toman en cuenta todos los valores de la variable.
 Es lógica desde el punto de vista algebraico.
 No puede ser calculada en distribuciones de frecuencia que tengan clases abiertas.
 La media aritmética es única, o sea, un conjunto de datos numéricos tiene una y solo una
media aritmética.
 Debe ser representativa de los datos
 La
_ media aritmética de un constante es igual a la constante
K=K siendo K una contante.
 Si le sumamos a todas las observaciones un mismo número, la media aumentará en dicha
cantidad. Lo que es lo mismo decir que: La media aritmética de la suma algebráica de una
variable
_____ y una__ constante es igual a la constante más la media aritmética de la variable.
K + X = K + X siendo K una contante y X una variable.
 Si multiplicamos o dividimos todas las observaciones por un mismo número, la media
queda multiplicada o dividida por dicho número. Lo que indica que la media aritmética
del producto de una constante
____ _ y una variable es igual a la constante por la media aritmética
de la variable K*X = K*X siendo K una contante y X una variable.
 La media Aritmética de suma de dos o más variables es igual a la suma de las medias
aritmética de esas variables.
Esta propiedad solamente se cumple cuando:
i. Las variables se pueden sumar, es decir están expresadas en la misma unidad, tienen
el mismo denominar, son independientes, y de la misma naturaleza o contexto.
ii. Cuando las variables tienen la misma cantidad de valores
________ __ __ __
X + Y +Z = X + Y +Z siendo X, Y y Z variables.
 La suma de las diferencias entre cada uno de los valores _ de la variable_ que se esté
analizando y la media aritmética y, es igual a cero. Σ(Xi - X
) =0 ó Σ(Xi - X
)*f=0.

6.4.5. Desventajas de la media aritmética.


 La media aritmética es altamente afectada por valores extremos,
 La forma de la distribución de los datos afecta su carácter de representatividad
 El nivel de dispersión o de variabilidad de los datos también reduce el grado de
representatividad de esta medida.
 Si los datos están agrupados, el valor de la media puede ser afectado grandemente por el
método de designación de los intervalos de clases.

6.4.6. La Mediana.

40
La mediana se define como aquel valor de la variable que divide un conjunto de datos
ordenados en forma ascendente o descendente dos subconjuntos iguales, donde la primera
mitad son los menores y la otra mitad son los mayores.
Para calcular la mediana se requiere.
 Contar los valores para obtener (n)
 Ordenar los valores en forma ascendente o descendente
 Determinar la posición de la mediana con la fórmula PMd=(n+1)/2
 Y final calcular el valor que aparezca en esa posición.

Ejemplo: cuando n es par: Salario mensual de los trabajadores, 2021.

X Ingreso X Ingreso
mensual mensual
ordenado
1 16,901 9,597 Calcule la posición de la mediana (PMd)
2 13,232 10,103
3 14,932 10,892 PMd = (n+1) / 2 = (10 +1) / 2 = 5.5
4 10,892 13,232 Implica que la mediana está entre el quinto y sexto valor.
5 14,815 13,963
Mediana
6 16,850 14,744
7 10,103 14,815 Md=(13,963+14,744) /2 = 14,353.50
8 13,963 14,932
9 9,597 16,850 En el 2021 la mitad de los trabajadores tenía un ingreso
10 14,744 16,901 mensual menor a los 14,353.50 pesos.

Ejemplo: cuando n es impar: Salario mensual de los trabajadores, 2021.


X Ingreso X Ingreso
mensual mensual
ordenado

1 16,901 9,597 Calcule la posición de la mediana (PMd)


2 13,232 10,103
3 14,932 10,892 PMd = (n+1) / 2 = (11 +1) / 2 = 6
4 10,892 13,232 Implica que la mediana está en el sexto valor.
5 14,815 13,963
6 16,850 14,744 Mediana
7 10,103 14,815
8 13,963 14,932 Md= 14,744.00
9 9,597 15,378
10 14,744 16,850 En 2021, la mitad de los trabajadores tenía un ingreso
11 15,378 16,901 mensual menor o igual a los 14,744 pesos.

6.4.7. Mediana si los datos están agrupados en clases y frecuencias.

Md=Li + (PMd-Fa) / fi *AC, donde


PMd = n/2 es posición de la mediana

41
Li es el límite inferior de la clase donde se localiza la mediana
Ls es el límite superior de la clase donde se localiza la mediana
n es la cantidad de datos o lo mismo que Ʃfi
Fa es la frecuencia acumulada hasta la clase anterior a la que contiene la mediana
Ac es la amplitud de clase = Ls -Li, también Ac= Rango / Nc
f es la frecuencia absoluta de la clase que contiene la mediana

La mediana está localizada en la primera clase donde la frecuencia acumulada sea mayor o
igual que la PMd.

Los trabajadores por edad. 2021.

Clases
fi Fi
Li Ls Calcule la posición de la mediana (PMd)
15 - 20 16 16
20 - 25 9 25 PMd = n / 2 = 89 / 2 = 44.5
25 - 30 18 43 Implica que la mediana está en la primera clase donde la Fi ≥ PMd.
30 - 35 15 58
35 - 40 12 70 Ac = Ls – Li = 35 - 30 = 5
40 - 45 19 89 Md=Li + (PMd - Fa) / fi *AC
Total 89
Md=30 + (44.5 - 43) / 15 * 5= 30.50 años

Interpretación:

En el 2021 la mitad de los trabajadores tenía menos de 30.50 años de edad.

Propiedades de la mediana.

 En su cálculo no intervienen todos los valores de la variable.


 La Mediana no es afectada por valores extremos.
 Puede ser calculada en distribuciones de frecuencia con clases abiertas.
 No es lógica desde el punto de vista algebráico.
 No le afecta la forma de la distribución de los datos.
 Tampoco le impacta el nivel de dispersión o de variabilidad de los datos.
 No siempre es representativa de los datos
 Si los datos están agrupados, el valor de la mediana puede ser afectado grandemente por el
método de designación de los intervalos de clases.

6.4.8. La Moda.
La moda se define como aquel valor de una variable que aparece mayor cantidad de veces en
un conjunto de datos. Es el que más se repite
Para calcular la moda se requiere:
 Contar los valores para obtener la cantidad de veces que se repita cada uno.
 El que se repita más veces, ese es la moda.

42
Ejemplo:
X Ingreso
mensual de
los
trabajadores

1 16,901
2 13,232 La Moda es 14,815, porque es valor que aparece con mayor cantidad de
3 16,850 veces.
4 14,932 La mayor cantidad de maestros con el mismo salario mensual ganan
5 10,892 14,815 pesos
6 14,815
7 16,850
8 14,815
9 10,103
10 13,963
11 14,815

6.4.9. La moda si los datos están agrupados en clases y frecuencias.

Mo=Li + d1 / (d1+ d2) *Ac


Donde:
 d1=frecuencia mayor – frecuencia anterior
 d2=frecuencia mayor – frecuencia posterior
 Li es el límite inferior de la clase donde se localiza la moda
 Ac es la amplitud de clase = Ls-Li, también Ac= Rango /NC
 fi es la frecuencia absoluta de la clase que contiene la moda
La moda está localizada en la clase de mayor frecuencia.
Un conjunto de datos puede tener hasta dos modas, si tiene tres o más, se dice que no hay
moda, por tanto no siempre en un conjunto de datos hay moda.
Cuando un conjunto de datos tiene dos modas, se llama bimodal.
Ejemplo:
Los trabajadores por edad. 2021.

Clases
fi
Li Ls
15 - 20 16 La Moda (Mo) está en la clase 25 - 30, porque es la tiene la mayor
20 - 25 9 frecuencia
25 - 30 19
30 - 35 15 Mo=Li + d1 / (d1+ d2) *Ac
35 - 40 12 d1= fi mayor - fi anterior = 19 - 9 =10 Ac=Ls-Li=30-25=5
40 - 45 18 d2= fi mayor - fi posterior =19-15 =4
Total 89 Mo=25+10 / (10 +4) * 5 = 28.57 años

43
Interpretación: En el 2021 la mayor de los trabajadores con una misma edad tenían 28.57
años.

6.4.10. Propiedades de la moda.

 En su cálculo no intervienen todos los valores de la variable.


 La Moda no es afectada por valores extremos.
 Puede ser calculada en distribuciones de frecuencia con clases abiertas.
 No es lógica desde el punto de vista algebraico.
 No le afecta la forma de la distribución de los datos.
 Tampoco le impacta el nivel de dispersión o de variabilidad de los datos.
 No siempre es representativa de los datos
 Puede estar en cualquier posición de los datos
 Si los datos están agrupados, el valor de la moda puede ser afectado grandemente por el
método de designación de los intervalos de clases.

6.4.11. Relación entre la Media Aritmética, la Mediana y la Moda

 Si la Media Aritmética es menor que la mediana y la mediana menor que la moda. La


distribución de los datos es asimétrica negativa o sesgada hacia la izquierda.
_____ __
K + X = K + X < Md < Mo
Distribución Asimétrica Negativa
40

32

24

16

0
1 2 3 4 5 6 7

 Si la Media Aritmética es mayor que la mediana y la mediana mayor que la moda. La


distribución de los datos es asimétrica positiva o sesgada hacia la derecha.
_____ __
KM+o X
<M=Kd <+ X

44
Distibución Asimétrica Positiva
40

32

24

16

0
1 2 3 4 5 6 7

 Si la Media Aritmética es igual a la mediana y la mediana igual a la moda. La distribución


de los datos es simétrica o insesgada o normal.
_____ __
KM+o X
=M=K
d =+ X

20
Distribución Simétrica o normal
16
12
8
4
0
1 2 3 4 5 6 7

6.4.12. Media Armónica.

La media armónica de una cantidad finita de números es igual al recíproco, o inverso, de la


media aritmética de los recíprocos de dichos valores y es recomendada para promediar
velocidades o en cualquier otro análisis donde se utilice una variable para expresa la relación
por cociente entre otras dos.

Se entiende que la mayor utilidad de media armónica es cuando se tiene previsto medir el
rendimiento o logro de una variable con relación uso o consumo de otra.

La misma se expresa por la letra H, la cual solo puede calcularse para un conjunto finito de
valores donde no esté incluido el cero.

Cuando los datos son simples su fórmula de cálculo es la siguiente:

Ejemplo:

Trece personas trabajan en labores agrícolas, quienes tienen el mismo espacio, tiempo y
recursos para producir vegetales, los resultados fueron los siguientes:

45
Se requiere calcular la producción promedio con relación al gasto en que incurrió cada
persona, través de la media armónica.

Producción
Persona Gastos Y Y/X
X
1 28,663.72 13,516.84 0.47157
2 33,443.63 12,289.60 0.36747
3 27,204.28 17,031.43 0.62606
4 23,870.20 11,762.11 0.49275
5 34,612.21 12,714.97 0.36736
6 28,765.64 16,364.44 0.56889
7 30,703.12 14,526.42 0.47313
8 36,448.41 15,156.87 0.41584
9 21,664.18 12,573.45 0.58038
10 23,388.47 17,414.10 0.74456
11 32,311.71 12,517.19 0.38739
12 29,012.82 16,188.67 0.55798
13 27,457.05 14,041.58 0.51140
Total 186,097.65 6.56477

H= Ʃ Y / Ʃ( Y / X) =
186,097.65 / 6.56477 = 28,347.92

Ocho atletas estuvieron corriendo durante una hora, cada uno corrió la cantidad de kilómetros
X como aparece en la siguiente tabla:

Se requiere calcular el promedio de kilómetros recorridos, través de la media armónica.

n=8 y las X son: 12, 14, 10, 13, 14, 9, 15, 17

X f f/X
12 1 0.08333
14 1 0.07143
10 1 0.10000
13 1 0.07692
14 1 0.07143
9 1 0.11111
15 1 0.06667
17 1 0.05882
Total 8 0.63971

46
H=Ʃ f / Ʃ(f /X) = n / Ʃ(1 /X) = 8 / 0.63971 = 12.51 Kilómetros

6.4.13. La Media Armónica si los datos están agrupados en clases y frecuencias


H = n / Ʃ (f / X) ό H = n / Ʃ (f / PM)
n=Ʃf X= PM=(Li+Ls)/2
Ejemplo:
Un grupo de veintiocho estudiantes realizaron sus exámenes en los siguientes tiempos:
26 22 23 11 16 16 19
27 17 26 16 11 22 22
12 20 17 19 16 21 23
25 19 16 14 21 23 24

Clases fi X=PM fi / PM
Li Ls
8.00 - 11.10 6 9.55 0.63
11.10 - 14.20 8 12.65 0.63
14.20 - 17.30 3 15.75 0.19
17.30 - 20.40 2 18.85 0.11
20.40 - 23.51 1 21.95 0.05
23.51 - 26.61 8 25.06 0.32
Total 28 1.922

H = n / Ʃ (fi / Xi) ó H = n / Ʃ (fi / PMi) H = 28 / 1.922 = 14.57 minutos.

6.4.14. Propiedades de la media armónica.

 El cálculo de la media armónica requiere que los datos sean tomados al mismo tiempo
durante un período muy corto.
 Los datos deben corresponder a elementos distintos.
 Es la medida de tendencia central de menor uso en el análisis estadístico
 Es una medida totalmente numérica, sólo puede calcularse para datos correspondientes a
una variable cuantitativa.
 Aplica para datos correspondientes a varios elementos distintos, que fueron tomados con
diferencias mínimas de tiempo.
 En su cálculo se toman en cuenta todos los valores de la variable.
 Es lógica desde el punto de vista algebraico.
 No puede ser calculada en distribuciones de frecuencia que tengan clases abiertas.
 Solamente se puede calcular cuando todos los valores son distintos de cero.
 La media armónica es única, o sea, un conjunto de datos numéricos tiene una y solo una
media armónica.
 No necesariamente es representativa de los datos
 La media armónica siempre es menor que la media aritmética
 La media armónica de un constante es igual a la constante
H(k)=K  siendo K una contante.

47
6.4.15. Media geométrica.
Es el promedio de los valores de una variable cuando estos corresponden a un mismo
individuo pero que han sido tomados en momentos distintos de un período de tiempo.
Una forma de entender con facilidad en significado de la media geométrica es la siguiente:
Una persona que se le toma el peso corporal siete veces durante un año, el peso promedio que
tuvo esa persona durante ese período se debe calcular utilizando la media geométrica.
Esta medida se calcula de la manera siguiente:
n_____________________
G = √ X1 * X2 * X3 * X4 *… Xn

G = antilog [ΣlogXi / n]
Ejemplo:
Distrito Escolar V. Cantidad de estudiantes por años. 2011-2021.
Estudiantes
Año Log(X)
(X)
2011 279,311 5.4461
2012 255,969 5.4082
2013 290,172 5.4627
G = antilog [ΣlogXi / n]
2014 311,253 5.4931
2015 267,897 5.4280
2016 322,440 5.5084
G = antilog [60.0105/11]=Antilog (5.4555)
2017 315,151 5.4985 G= 285,427.79 Pesos
2018 279,960 5.4471
2019 239,733 5.3797 Interpretación: En el Distrito Escolar V hubo un
2020 305,728 5.4853 promedio anual de 285,427.79 estudiantes, durante el
2021 284,001 5.4533 período 2011-2021.
Total 60.0105

6.4.16. La Media Geométrica si los datos están agrupados en clases y frecuencias.

n _________________________________________
G= √ X1f1* X2 f2 * X3 f3 * X4 f4 *… Xn fn

G = antilog [ΣlogXi*fi / n]

Dónde Xi = PMi = (Li+Ls) / 2

48
Por Ejemplo:

Ingreso mensual del colegio J&K.


2006-2021.

Frecuen- Punto
Clases
cias medio Log (Xi) Log (Xi) * fi
Li Ls fi Xi = PMi
20,046.00 - 24,650.81 5 22,348.41 4.349 21.746
24,650.81 - 29,255.62 5 26,953.22 4.431 22.153
29,255.62 - 33,860.43 3 31,558.03 4.499 13.497
33,860.43 - 38,465.24 11 36,162.84 4.558 50.141
38,465.24 - 43,070.05 6 40,767.65 4.610 27.662
43,070.05 - 47,674.86 7 45,372.46 4.657 32.598
47,674.86 - 52,279.68 5 49,977.27 4.699 23.494
Total 42 191.291

Xi = PMi = (Li+Ls) / n

G = antilog (ΣlogXi*fi / n)

G = antilog (Σlog PMi*fi / n)= antilog (191.291 / 42)= antilog (4.5555)

G=35,854.44 pesos

Interpretación: En volumen de venta promedio mensual en la empresa M&K fue de 35,854.44


pesos, durante el período 2006-2021.

6.4.17. Propiedades de la media geométrica.

 En su cálculo se incluyen todos los valores de la variable.


 Su cálculo no exige la independencia de los datos
 Se aplica cuando los datos están organizados en el tiempo
 La Media geométrica es afectada por valores extremos.
 Su resultado siempre es mayor que cero.
 No puede ser calculada en distribuciones de frecuencia con clases abiertas.
 No puede ser se calculada si hay valores nulos (0) o negativos.
 Se afecta la forma de la distribución de los datos.
 Le impacta el nivel de dispersión o de variabilidad de los datos.
 No siempre es representativa de los datos
 La media geométrica de una constante es igual a la constante
G(k) = K siendo K una constante
 Es posible establecer el comportamiento en el tiempo de una variable y pronosticar su
estado pasado o futuro en base a la media geométrica.
Si la G=35,854.44 = 35,000(1+854.44/35,854.44)t= 35,000(1+0.023831)t donde t=1
En este caso N0 =35,000
r=0.023831dándole a t el valor de 5 años
Nt = N0 (1 + r)t = 35,000(1+0.023831)5= 39,373.99

49
Pronóstico Tiempo
de X t años
35,000.00 0
35,834.09 1
36,688.05 2
37,562.36 3
38,457.51 4
39,373.99 5

 Si los datos están agrupados, el valor de la media geométrica puede ser afectado
grandemente por el método de designación de los intervalos de clases.

6.5. La tasa de variación y sus aplicaciones.

Las tasas de crecimiento se calculan y se usan dependiendo del tipo de evolución o tendencia
de los valores de la variable que se esté analizando.

6.5.1. Tasa de variación lineal

Si los datos tienen un comportamiento lineal, indica que la variación absoluta de la variable
es la misma cada ano. En este caso la tasa de variación r se calcula de la siguiente manera:

r = [(Nt – N0) / N0] / t x100

Dónde la N0 la población al inicio del período de análisis y Nt es la cantidad de personal al


final de dicho período. Y (t) es el tiempo transcurrido entre el momento final y el inicial.

Ejemplo:

Al 17 de noviembre del año 2014 la cantidad de estudiantes (N0) era 150,000 personas, y al
28 de abril del 2021 esta (Nt) era de 234,000 personas. Se requiere calcular la tasa de variación
lineal.

Calcule el tiempo

t = Añot + (Mest-1) / 12 + Diat / 365 –[Año0+ (Mes0-1) / 12 + Dia0 / 365]

t = 2021 + (04-1) / 12 + 28 / 365 – [2014 + (11-1) /12 + 17 / 365 ]= 6.46 años.

r = [(Nt – N0) / N0] / t x100

r = [(234,000 – 150,000) / 150,000] / 6.46 =0.0867 o 8.67%.

Lo que implica que entre el 17 de noviembre del año 2014 y el 28 de abril del 2021 la cantidad

50
de estudiantes tuvo un crecimiento de 8.67% en promedio anual.

6.5.2. Tasa de Variación Exponencial

Si los datos tienen un comportamiento exponencial, la tasa de variación r se calcula de la


siguiente manera:

r = 1 / t * Ln (Nt / N0) * 100.

Ejemplo:

Usando los mismos datos del Ejemplo: anterior, resulta.

r = 1 / 6.46 * Ln (234,000 / 150,000) * 100 = 6.89%.

Lo que implica que entre el 17 de noviembre del año 2014 y el 28 de abril del 2021 la cantidad
de estudiante tuvo un crecimiento de 6.89% en promedio anual.

6.5.3. Tasa de Variación Geométrica

En el caso que los datos tengan un comportamiento geométrico, la tasa de variación r se


calcula de la siguiente manera:
t ______
r = [√ Nt / N0 - 1] * 100 . la cual se interpreta como la raíz t de Nt / N0, menos uno.

Ejemplo:

Haciendo uso de los datos anteriores, la tasa de crecimiento o de variación geométrica es.
6.46 _______________
r=[ √ 234,000 / 150,000- 1] * 100= 7.13%

Lo que implica que en el 17 de noviembre del año 2014 y al 28 de abril del 2021 la población
desocupada tuvo un crecimiento de 7.13% en promedio anual.

Como se observa siempre la r lineal es mayor la r geométrica y esta mayor que la r


exponencial.

6.5.4. Tiempo de necesario para multiplicarse el valor de una variable

a) Tiempo de duplicación

td = Ln 2 / Ln (1+ r / 100)

b) Tiempo de triplicación

51
tt = Ln 3 / Ln (1+ r / 100)
La r se debe dividir entre 100 si en su cálculo anterior la misma fue multiplicada por 100.

Si la tasa geométrica de variación anual de la cantidad de estudiantes es de 7.13%, cuanto


tiempo tardará en duplicarse y en triplicarse esa población?

td = Ln 2 / Ln (1+ r / 100) = Ln 2 / Ln (1+ 7.13/100)=


Ln 2 / Ln (1+ 0.0713) = Ln 2 / Ln (1.0713)=10.064 años

Cuanto tiempo tarda en triplicarse esa población?

tt = Ln 3 / Ln (1+ r / 100) = Ln 3 / Ln (1+ 7.13/100)=


Ln 3 / Ln (1+ 0.0713) = Ln 3 / Ln (1.0713)= 15.951 años

6.5.5. Fórmulas para calcular el valor inicial y el final

a) Valor final en función de un valor inicial.

Nt = N0 * (1+r)t

Ejemplo: Si la población de estudiantes al 13/04/2021 erad de 245,863 personas,


si la tasa de variación geométrica es de 0.0713, cuantos será la población al 17/11/2026.

Tiempo t

t = Añot + (Mest-1) / 12 + Diat / 365 –[Año0+ (Mes0-1) / 12 + Dia0 / 365]

t = 2026 + (11-1) / 12 + 17 / 365 –[2021+ (04-1) / 12 + 13 / 365]

t= 5.5943 años.

Entonces la población de estudiantes 17/11/2026 será:

Nt = N0 * (1+r)t = 245,863 * (1+0.0713)5.5943


Nt = 361,431 personas

b) Valor inicial en función de un valor final.


N0 = Nt / (1+r)t

Con los datos del Ejemplo: anterior a cuantos debió ser la población de estudiantes al
15/07/2018?

52
Tiempo t

t = Añot + (Mest-1) / 12 + Diat / 365 –[Año0+ (Mes0-1) / 12 + Dia0 / 365]

t = 2021+ (04-1) / 12 + 13 / 365 –[2018+ (07-1) / 12 + 15 / 365]

t = 3.8267, entonces la población de estudiantes al 15/07/2018 era:

N0 = Nt / (1+r)t = 245,863 /(1+0.0713)3.8267

N0 = 188,900 personas

c) Valor final en función de un valor fijo (A) en cada unidad de tiempo.


Nt =A*[((1+r)t – 1)/r]

d) Valor inicial en función de un valor fijo (A) en cada unidad de tiempo.


N0 =A * [(1+r)-t - 1) / ( r (1+r)t)]

e) Valor fijo (A) en función de un valor inicial.


A= N0 * [ r (1+r)t / ((1=r)t -1)]

f) Valor fijo (A) en función de un valor final.


A= Nt * [r/((1+r)t-1)]

Nomenclatura
Nt  valor final o a una fecha futura
N0  valor inicial o a una fecha pasada
A  valor fijo o constante por unidad de tiempo durante el período

53
6.6. Medidas de posición

Son indicadores estadísticos que presentan los valores hasta donde se acumula una proporción
específica de un conjunto de datos de una variable.

De estas medidas las más comúnmente usadas son:


 Los Cuartiles Qk
 Los Quintiles Tk
 Los Deciles Dk
 Los Percentiles Ck

Para calcular cualquier medida de posición es necesario que los datos estén ordenados de
manera ascendente, y haber determinado la posición donde esté ubicada la medida de éstas
que se requiera calcular.

6.6.1. Los Cuartiles


Los cuartiles (Qk) son los valores que sirven de límite a cada una de las cuatro partes de un
conjunto de datos. Hay cuatro cuartiles denotados usualmente Q1, Q2, Q3, Q4. El primer
cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores
de la sucesión (ordenada); el segundo cuartil es precisamente la mediana, el tercer cuartil, es
el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos y el
cuarto cuartil es igual al valor máximo de los datos.
Un cuartil se calcula de la siguiente manera:
Se determina la Posición del Qk.
PQk=k (n+1)/4, donde “n” es la cantidad de datos y “k” indica el orden cuartil que se requiere
calcular.
K puede ser igual a 1, 2, 3 o 4.

54
Ejemplo:
X Ingreso
mensual de X Ingreso
los mensual
trabajadores ordenado
1 16,901 9,597 Calcular el cuartil 3 o el Q3
2 13,232 10,103
3 14,932 10,892 Calcule la posición de Qk
4 10,892 13,232 PQk = K*(n+1) / 4
5 14,815 13,963 PQ3 = 3 * (12 +1) / 4 = 9.750
6 16,850 14,744
7 10,103 14,815 Implica que el Q3 está entre el noveno y el décimo valor.
8 13,963 14,932 Q3 = 15,378+(16850-15378)*0.750 =
9 9,597 15,378 El factor 0.750 es la parte decimal de valor de la posición del Qk
10 14,744 16,850 Q3= 16,482.00
11 15,378 16,901
12 17,344 17,344

El resultado indica que tres cuartas partes de los trabajadores tienen un ingreso mensual menor
de 16,482.00 pesos.

6.6.2. Los Cuartiles si los datos están agrupados en clases y frecuencias.

Qk=Li + (PQk-Fa) / fi *AC donde


 PQk=k n /4 es posición del cuartil k
 n es la cantidad de datos o lo mismo que Ʃfi
 Li es el límite inferior de la clase donde se localiza el Qk
 Ls es el límite superior de la clase donde se localiza el Qk
 Fa es la frecuencia acumulada hasta la clase anterior a la que contiene el Qk
 Ac es la amplitud de clase = Ls-Li, también Ac= Rango /Nc
 fi es la frecuencia absoluta de la clase que contiene el Qk
El Qk está localizado en la primera clase donde le frecuencia acumulada sea mayor o igual
que la PQk

55
Ejemplo:
Los trabajadores por edad. 2021.
Grupos de
edades fi F i
Li Ls Calcular el cuartil 1 o el Q1
15 - 20 16 16 Calcule la posición del cuartil 1 (PQ1)
20 - 25 9 25 PQ1 = K* n / 4 = 1* 89 /4 = 22.25
25 - 30 18 43 El cuartil 1 está en la primera clase donde la Fi ≥ PQ1.
30 - 35 15 58 Implica que el cuartil 1 está en la clase 20 - 25.
35 - 40 12 70 Ac= Ls - Li= 25 - 20 = 5
40 - 45 19 89 Qk=Li + (PQk-Fa) / f *AC = Q1=20+ (22.25-16) / 9*5 = 23.47
Total 89

Interpretación: En el 2021, una cuarta parte de los trabajadores tenía menos de 23.47 años de
edad.

6.6.3. Los Quintiles

Los quintiles (Tk) son los valores que sirven de límite a cada una de las cinco partes de un
conjunto de datos. Hay cinco quintiles denotados usualmente T1, T2, T3, T4, T5. El primer
quintil, es el valor en el cual o por debajo del cual queda un quinto (20%) de todos los valores
de la sucesión (ordenada); el segundo quintil es el valor en el cual o por debajo del cual queda
el 40% de todos los valores; el tercer quintil, es el valor en el cual o por debajo del cual quedan
el 60%de los datos y el cuarto quintil, es el valor en el cual o por debajo del cual quedan el
80%, y el quinto quintil es igual al valor máximo de los datos.

Un quintil se calcula de la siguiente manera:


Se determina la Posición del Tk.

PTk=k (n+1)/5, donde “n” es la cantidad de datos y “k” indica el orden quintil que se requiere
calcular.
K puede ser igual a 1, 2, 3, 4 o 5.

56
Ejemplo:
X Ingreso X
mensual de Ingreso
los mensual
trabajadores ordenado
1 16,901 9,597 Calcular el quintil 3 o el T3
2 13,232 10,103
3 14,932 10,892 Calcule la posición de Tk
4 10,892 13,232 PTk = K*(n+1) / 5
5 14,815 13,963 PT3 = 3 * (12 +1) / 5 =7.800
6 16,850 14,744
7 10,103 14,815 Implica que el T3 está entre el séptimo y el octavo valor.
8 13,963 14,932 T3 = 14,815 + (14,932 - 14,815) * 0.800 =
9 9,597 15,378
10 14,744 16,850 T3=14,908.60
11 15,378 16,901
12 17,344 17,344

El resultado indica que tres quintas partes de los trabajadores tenían un ingreso mensual menor
de 14,908.60 pesos.

6.6.4. Los quintiles si los datos están agrupados en clases y frecuencias.

Tk=Li + (PTk-Fa) / fi *AC donde

 PTk=k n /5 es posición del cuartil k


 n es la cantidad de datos o lo mismo que Ʃfi
 Li es el límite inferior de la clase donde se localiza el Tk
 Ls es el límite superior de la clase donde se localiza el Tk
 Fa es la frecuencia acumulada hasta la clase anterior a la que contiene el Tk
 Ac es la amplitud de clase = Ls -Li, también Ac = Rango /Nc
 fi es la frecuencia absoluta de la clase que contiene el Tk

El Tk está localizado en la primera clase donde le frecuencia acumulada sea mayor o igual
que la PTk.

57
Ejemplo:

Los trabajadores por edad. 2021.

Grupos de
edades fi Fi
Li Ls Calcular el quintil 2 o el T2
15 - 20 16 16 Calcule la posición del quintil 2 (PT2)
20 - 25 9 25 PT2 = K* n / 5 = 2* 89 /5 = 35.60
25 - 30 18 43 El quintil 2 está en la primera clase donde la Fi ≥ PT2
30 - 35 15 58 Implica que el quintil 2 está en la clase 25 - 30.
35 - 40 12 70 Ac= Ls - Li= 30 - 25 = 5
40 - 45 19 89 Tk=Li + (PTk - Fa) / fi *AC
Total 89
T2=25+ (35.60 - 25) / 18 * 5 =27.94
Interpretación: En el 2021, dos quintas partes de los trabajadores tenían menos de 27.94 años
de edad.

6.6.5. Los Deciles

Los Deciles (Dk) son los valores que sirven de límite a cada una de las diez partes de un
conjunto de datos. Hay diez deciles denotados usualmente D1, D2, D3 ,.., D10. El primer decil
es el valor en el cual o por debajo del cual queda una décima parte (10%) de todos los valores
de la sucesión (ordenada); el segundo decil es el valor en el cual o por debajo del cual queda
dos décimas partes(20%) de todos los valores; el tercer quintil, es el valor en el cual o por
debajo de tres décimas pares (30%)de los datos, y así sucesivamente. El décimo decil es igual
al valor máximo de los datos.

Un quintil se calcula de la siguiente manera:

Se determina la Posición del Dk.

PDk=k (n+1)/10, donde “n” es la cantidad de datos y “k” indica el orden del decil que se
requiere calcular.

K puede ser igual a 1, 2, 3, …, 10.

58
Ejemplo:
X Ingreso X Ingreso
mensual de los mensual
trabajadores ordenado
1 16,901 9,597 Calcular el Decil 4 o el D4
2 13,232 10,103
3 14,932 10,892 Calcule la posición de Dk
4 10,892 13,232 PDk = K*(n+1) / 10
5 14,815 13,963 PD4 = 4 * (12 +1) / 10 = 5.20
6 16,850 14,744
7 10,103 14,815 Implica que el D4 está entre el quinto y el sexto valor.
8 13,963 14,932 D4 = 13,963 + (14,744 - 13,963) * 0.200 =
9 9,597 15,378
10 14,744 16,850 D4= 14,119.20
11 15,378 16,901
12 17,344 17,344

El resultado indica que cuatro décimas partes de los trabajadores tenían un ingreso mensual
menor de 14,119.20 pesos.
6.6.6. Los Deciles si los datos están agrupados en clases y frecuencias.

Dk=Li + (PDk - Fa) / fi *AC donde


 PDk=k n /10 es posición del cuartil k
 n es la cantidad de datos o lo mismo que Ʃfi
 Li es el límite inferior de la clase donde se localiza el Dk
 Ls es el límite superior de la clase donde se localiza el Dk
 Fa es la frecuencia acumulada hasta la clase anterior a la que contiene el Dk
 Ac es la amplitud de clase = Ls - Li, también Ac= Rango /Nc
 fi es la frecuencia absoluta de la clase que contiene el Dk
El Dk está localizado en la primera clase donde le frecuencia acumulada sea mayor o igual
que la PDk
Ejemplo:
Los trabajadores por edad

Grupos de
edades fi Fi
Li Ls Calcular el decil 6 o el D6
15 - 20 16 16 Calcule la posición del decil 6 (PD6)
20 - 25 9 25 PD6 = K* n / 10 = 6* 89 / 10 = 53.40
25 - 30 18 43 El decil 6 está en la primera clase donde la Fi ≥ PD6
30 - 35 15 58 Implica que el decil 6 está en la clase 30 - 35.
35 - 40 12 70 Ac= Ls - Li= 35 - 30 = 5
40 - 45 19 89 Dk=Li + (PDk-Fa) / f *AC
Total 89 D6=30+ (53.40 - 43) /15 * 5 =33.47
Interpretación: En el 2021, seis décimas partes de los trabajadores tenían menos de 33.47 años
de edad.

59
6.6.7. Los percentiles

Los percentiles (Ck) son los valores que sirven de límite a cada una de las cien partes de un
conjunto de datos. Hay cien percentiles denotados usualmente C1, C2, C3,.. C100. El primer
percentil es el valor en el cual o por debajo del cual queda una centésima parte (1%) de todos
los valores de la sucesión (ordenada); el segundo percentil es el valor en el cual o por debajo
del cual queda dos centésima partes (2%) de todos los valores; el tercer percentil es el valor
en el cual o por debajo de tres centésima partes (3%) de los datos, y así sucesivamente. El
percentil 100 es igual al valor máximo de los datos.
Un percentil se calcula de la siguiente manera:

Se determina la Posición del Ck.


PCk=k (n+1)/100, donde “n” es la cantidad de datos y “k” indica el orden del percentil que
se requiere calcular.
K puede ser igual a 1, 2, 3, …, 100.
Ejemplo:
X Ingreso X Ingreso
mensual los mensual
trabajadores ordenado
1 16,901 9,597 Calcular el Percentil 66 o el C66
2 13,232 10,103
3 14,932 10,892 Calcule la posición de Ck
4 10,892 13,232 PCk = K*(n+1) / 100
5 14,815 13,963 PC66 = 66 * (12 +1) / 100 = 8.580
6 16,850 14,744
7 10,103 14,815 Implica que el C66 está entre el octavo y el noveno valor.
8 13,963 14,932 C66 = 14,932 + (15,378 - 14,932) * 0.580 =
9 9,597 15,378
10 14,744 16,850 C66= 15,190.68
11 15,378 16,901 Interpretación: El66% de los trabajadores tenía un ingreso mensual
12 17,344 17,344 menor de 15,190.68 pesos

6.6.8. Los deciles si los datos están agrupados en clases y frecuencias.


Ck=Li + (Pck-Fa) / fi *AC
Donde:
 PCk=k n /100 es posición del cuartil k
 n es la cantidad de datos o lo mismo que Ʃfi
 Li es el límite inferior de la clase donde se localiza el Ck
 Ls es el límite superior de la clase donde se localiza el Ck
 Fa es la frecuencia acumulada hasta la clase anterior a la que contiene el Ck

60
 Ac es la amplitud de clase = Ls -Li, también Ac = Rango /Nc
 fi es la frecuencia absoluta de la clase que contiene el Ck
El Ck está localizado en la primera clase donde le frecuencia acumulada sea mayor o igual
que la PCk
Ejemplo:
Los trabajadores por edad

Grupos de
edades fi Fi
Li Ls Calcular el percentil 38 o el C38
15 - 20 16 16 Calcule la posición del percentil 38 (PC38)
20 - 25 9 25 PC43 = K* n / 100 = 38* 89 / 100 = 33.82
25 - 30 18 43 El percentil 38 está en la primera clase donde la Fi ≥ PC38
30 - 35 15 58 Implica que el percentil 38 está en la clase 25 - 30.
35 - 40 12 70 Ac= Ls - Li= 30 - 25 = 5
40 - 45 19 89 Ck=Li + (PCk - Fa) / f *AC
Total 89 C38=25 + (33.82 - 25) /18 * 5 = 27.45

Interpretación: En el 2021, el 38% de los trabajadores tenía menos de 27.45 años de edad.

Equivalencias
 El Q1= C25
 El Q2=D5=C50=Md
 El Q3= C75
 El D1= C10
 El D2= T1= C20
 El D3= C30
 El D4= T2= C40
 El D5= Q2= C50=Md
 El D6= T3= C60
 El D7= C70
 El D8= T4= C80
 El D9= C90
 El D10= Q4= T5= C100=Valor máximo.

6.7. Medidas de dispersión o de variabilidad

Las medidas de dispersión permiten determinar el grado de dispersión o de concentración de


los valores de una variable. Su finalidad es cuantificar que tanto se diferencia un valor de otro.
En sentido general estas medidas expresan en distanciamiento en un valor y otro.

61
Las medidas de dispersión tienen como finalidad estudiar hasta qué punto, para una
determinada distribución de frecuencias, las medidas de tendencia central o de posición son
representativas de los valores que constituyen la información de la distribución.
Medir la representatividad de una medida de tendencia central o de posición, explica la
separación de los valores de la distribución respecto a dicha medida.
A medida que las medidas de variación son mayores indican que hay una mayor dispersión o
una mayor diferencia entre los datos; o lo que sería lo mismo, existe una menor concentración
entre ellos. En otros casos se dice que son muy heterogéneos.
Las medidas de dispersión más comunes son:
 El rango, recorrido o amplitud total
 La desviación media
 La varianza
 La desviación estándar o desviación típica
 Coeficiente de variación

6.7.1. Rango, recorrido o amplitud total

Este expresa la diferencia máxima posible entre dos valores cualesquiera correspondientes a
un conjunto de datos de una variable.
El rango se calcula como la diferencia en el valor mayor y el menor.

Rango= X máx. - X mín.


Ejemplo:
El ingreso mensual de la población ocupada está representado por los siguientes valores:
10,955 13,983 22,807 10,166 20,512 25,653 12,827 22,206 24,524 14,248
11,889 26,434 23,586 12,337,
Rango= X máx. - X mín.

En este caso el Rango= 26,434 - 10,166=16,268

Interpretación: En el 2021, la diferencia entre el ingreso de los trabajadores que más gana y
el de la menos gana, es de 16,268 pesos.

Comparar el Rango con el valor mínimo

Aunque los libros de estadística no explican esto ni la mayoría de las personas que enseña esta
ciencia, esta comparación expresa en que magnitud supera el valor máximo al mínimo. Lo
mismo podrían observarse dividiendo el valor máximo entre el mínimo.

62
 Rango / Mínimo= 16,268/10,166=1.60

 Máximo / Mínimo= 26,434/10,166=2.60

En algunos casos resulta necesario que el rango sea comparado con el mínimo o con el valor
medio para poder expresar de manera relativa en que porcentaje se diferencia el máximo del
mínimo o cuantas veces el máximo contiene el mínimo.
Siendo el valor medio la semisuma del mínimo y el máximo.
VM= (Mínimo + Máximo) / 2 = (26,434 -10,166) / 2 = 18,300

 Rango / valor medio= 16,268/18,300 = 0.89

6.7.2. Medidas de dispersión referentes al promedio o media aritmética.


Estas son la Desviación Media, la Varianza, la Desviación Stándar o Típica y el
Coeficiente de Variación. Estas medidas permiten cuantificar en qué medida los datos se
diferencia de la media aritmética.
6.7.2.1. Desviación media
La desviación media respecto de la media aritmética, que se define como la media
aritmética de las diferencias absolutas de los valores de la variable y la media aritmét ica,
y cuya expresión es la siguiente.
Es la diferencia absoluta promedio entre cada valor de la variable y la media aritmética.
Ejemplo:
_
DM =Σ│Xi - X│/n Donde Xi son los valores de la variable que se esté analizando.
X Ingreso _ _
mensual los Xi - X │Xi - X│
trabajadores

1 16,901 2,838.42 2,838.42


2 13,232 -830.58 830.58
3 14,932 869.42 869.42
4 10,892 -3,170.58 3,170.58
5 14,815 752.42 752.42
6 16,850 2,787.42 2,787.42
7 10,103 -3,959.58 3,959.58
8 13,963 -99.58 99.58
9 9,597 -4,465.58 4,465.58
10 14,744 681.42 681.42
11 15,378 1,315.42 1,315.42
12 17,344 3,281.42 3,281.42
Total 168,751 0.00 25,051.83

63
_
= ΣXi/n=168,751 / 12= 14,063
│Xi - X│ _
DM =Σ│Xi - X│/n=25,051.83 /12 = 2,087.65
Comparación de la DM con el promedio = 2,087.65 / 14,063 x 100=14.84%.

Interpretación: En el 2021, la diferencia promedio que hay entre el ingreso mensual de las
personas y su ingreso promedio, es de 2,087.65 pesos.

6.7.2.2. La Desviación media si los datos están agrupados en clases y frecuencias


_ _
DM =Σ│Xi- X│ *fi / n ó DM =Σ│PMi- X│ *fi /n
_ _
DM =Σ│Xi- X│ *fi / Σfi ó DM =Σ│PMi- X│ *fi / Σfi

n= Σfi

Xi = PMi = (Li+Ls)/2  Li es límite inferior de la clase y Ls es el superior


_
X= ΣXifi /n = ΣPMifi / Σfi

Ejemplo:

Los trabajadores por edad _ _ _


Li Ls fi Xi=PM X*fi Xi - X │Xi- X│ │Xi- X│*fi
15 - 20 16 17.5 280.00 -13.09 13.09 209.44
20 - 25 9 22.5 202.50 -8.09 8.09 72.81
25 - 30 18 27.5 495.00 -3.09 3.09 55.62
30 - 35 15 32.5 487.50 1.91 1.91 28.65
35 - 40 12 37.5 450.00 6.91 6.91 82.92
40 - 45 19 42.5 807.50 11.91 11.91 226.29
Total 89 2,722.50 675.73
_
X= ΣXifi /n = ΣPMifi / Σfi = 2,722.50 / 89 = 30.59 años
_
DM =Σ│Xi- X│*fi / Σfi=
_
DM =Σ│Xi - X│*f / n =675.73 / 89 =7.50 años
_
Comparo la DM con el promedio: DM /*X
100 =7.50/30.59*100=24.52%

Interpretación: En el 2021, la diferencia promedio entre la edad de cada maestro y la edad


promedio es 7.50 años.

64
También en algunos casos resulta necesario que la desviación media sea comparada con el
promedio o media aritmética para poder expresar de manera relativa en que porcentaje se
diferencian los valores de promedio o media aritmética. Aunque no es un concepto
generalizado, si este porcentaje excede en el 15%, se entiende que hay mucha diferencia entre
los distintos valores y el promedio, podría decirse que el promedio no es representativo de una
alta proporción de los datos.

6.7.2.3. La Varianza

De todas las medidas de dispersión absolutas respecto a la media aritmética, la varianza,


es una de las más importantes. Es la diferencia cuadrática promedio que existe entre cada
valor de una variable y la aritmética.
Como la varianza viene dada en las unidades elevadas al cuadrado, esto dificulta su
interpretación y hace necesario definir la desviación típica o desviación estándar.
Se obtiene mediante la expresión.
m

 x  x  fi
2
i
S2  i 1

n
_
X = ΣXi / n n es la cantidad de datos.

S2 = ΣXi2 / n - (ΣXi /n)2


Ejemplo:
X Ingreso
mensual _ _
de los Xi - X (X- X)2
trabajadores

1 16,901 2,838.42 8,056,609.17


2 13,232 -830.58 689,868.67
3 14,932 869.42 755,885.34
4 10,892 -3,170.58 10,052,598.67
5 14,815 752.42 566,130.84
6 16,850 2,787.42 7,769,691.67
7 10,103 -3,959.58 15,678,300.17
8 13,963 -99.58 9,916.84
9 9,597 -4,465.58 19,941,434.51
10 14,744 681.42 464,328.67
11 15,378 1,315.42 1,730,321.01
12 17,344 3,281.42 10,767,695.34
Total 168,751 0.00 76,482,780.92
_
│Xi - X│
= ΣXi / n=168,751 / 12=14,063

65
_
S2 = Σ(X- X)2 / n = 76,482,780.92 / 12
= 6,373,565.08

6.7.2.4. La varianza si datos agrupados en clases y frecuencias


m

 x  x  fi
2
i
S 2 i 1

Dónde m es el número de clases o agrupamientos y f i la frecuencia para el respectivo dato x i


.
_
X = ΣXifi /n = ΣPMifi / Σfi
Podemos construir otra relación muy similar a la que teníamos para el caso de datos no
agrupados, como se muestra en el siguiente teorema.

Teorema. La varianza para un conjunto de datos agrupados es dada como la media aritmética
de los cuadrados menor el cuadrado de la media aritmética.
m

x 2
i fi
S  i 1
 x 
2 2

6.7.2.5. Propiedades más importantes de la varianza

 Nunca puede ser negativa


 La varianza de una constante es igual a cero. S2(k)=0
 Si se suma o se resta una constante “k” a todos los valores de una variable, la varianza
permanece igual.

S2(X+k)=S2(X) o lo mismo es S2(X-k)=S2(X)

 Si se multiplican todos los valores de una variable por una constante k, la varianza queda
multiplicada por el cuadrado de la constante.

S2(k*X)=k2S2(X)
La varianza de la suma algebráica de dos o más variables es igual a la suma de las varianzas
de las variables. S2(X+Y+Z)= S2(X) + S2(Y) + S2(Z).

Esta propiedad es cierta solamente cuando:


 Las variables X, Y, Z se pueden sumar
 Cuando las variables X, Y, Z tienen la misma cantidad de valores.

66
Ejemplo:
Los trabajadores por edad _ _ _
2
Li Ls fi X=PM X*fi (X- X) (X- X
S)2=Σ (X- X )2 *f / n
15 - 20 16 17.5 280.00 -13.09 171.35 2,741.57
20 - 25 9 22.5 202.50 -8.09 65.45 589.03
25 - 30 18 27.5 495.00 -3.09 9.55 171.87
30 - 35 15 32.5 487.50 1.91 3.65 54.72
35 - 40 12 37.5 450.00 6.91 47.75 572.98
40 - 45 19 42.5 807.50 11.91 141.85 2,695.11
Total 89 2,722.50 6,825.28
_
X= ΣXifi /n = ΣPMifi / Σfi =2,722.50/89=30.59 años
_
S =Σ (X- X)2 *f / n
2

S2 = 6,825.28/ 89 =76.69

6.7.2.6. La Desviación Típica o Estándar


La desviación típica es la raíz cuadrada de la varianza, con lo que su expresión será.
__ __________
_ ____________ _________
2 2 2 2 2 2
S= √S =√Σ(Xi- X
) /n =√ΣXi –(ΣXi/n) =√ΣXi – X
___________________
S=√S2 =√ΣXi2 /n - (ΣXi /n)2
___________ _
S=√S2 = √ΣXi2 /n -2X = ΣXi / n
Si los datos están agrupados en clases y frecuencias la desviación estándar se calcula de la
siguiente
__ forma.
___________ __________________ ___________
_ _
2 2 2 2 2 2
S= √S =√Σ(Xi- X
) *fi/n = √[ΣXi *fi –(ΣXi*fi/n) ]=√[ΣXi *fi – X ]
La desviación estándar es simplemente la "diferencia promedio” que existe entre los valores
de una variable y la media aritmética.
Es la medida de variabilidad de mayor uso en el análisis estadístico.
Ejemplo:

67
__ ___________
_ __________________ ___________ _
2 2 2 2 2 2
S= √S =√Σ(Xi- X
) *fi/n = √[ΣXi *fi –(ΣXi*fi/n) ]=√[ΣXi *fi – X ]
__ ______________________
S=√S = √ΣXi2*fi /n - (ΣXi*fi /n)2
2

__ __________________________
S=√S = √ΣPMi2*fi /n - (ΣPMi*fi /n)2
2

___ _
___________________
S=√S = √ΣXi2fi /n - X 2= ΣXi / n
2

__ ___________
_ __________________ ___________ _
2 2 2 2 2 2
S= √S =√Σ(Xi- X √[ΣXi *fi –(ΣXi*fi/n) ]=√[ΣXi *fi – X
) *fi/n = √76.69=8.76 ]

6.7.2.7. Coeficiente de variación

Es una medida relativa que expresa la relación entre la desviación típica y la media aritmética,
indicando la proporción de la media aritmética que representa la desviación típica, por lo
general se expresa en porcentaje.
Se obtiene con la finalidad de comparar la variación relativa entre dos o más conjuntos de
datos independientemente
_ de su magnitud y de su naturaleza.
CV=S / X * 100
Al comparar la variabilidad relativa entre dos o más conjuntos de datos, siempre el que resulte
con menor coeficiente de variación es más homogéneo, indicando que hay mayor cercanía
entre los valores de ese conjunto que entre los de los otros.

En base a resultados empíricos se tiene establecido que si el coeficiente de variación es mayor


de 16% indica que la media aritmética no es representativa de los datos de donde fue
calculada, por lo tanto en tal caso no se recomienda tomar una decisión muy rigurosa. Para
ello vale la pena hacer otras evaluaciones de los datos y si es posible usar otras medidas.

Ejemplo:
_
CV=S / X * 100 = 8.76 / 30.59 * 100 = 28.63%

Como el coeficiente de variación supera el 16% indica que la media aritmética no es


representativa de los datos. En este caso porque existe mucha variabilidad entre las edades de
las personas que constituyen la muestra. Podría decirse que el promedio no es representativo
de una alta proporción de los datos. Existe mucha diferencia entre la edad de los trabajadores.

6.7.3. Propiedades de las medidas de variabilidad

 Permite determinar en qué medida se diferencia un elemento de otro de acuerdo a una


característica
 Siempre son distintas de cero a menos que todos los valores sean iguales
 Si una medida de variabilidad es igual a cero, todas las demás son cero

68
 Nunca son negativas
 A medida que una medida de variabilidad se aleja del cero indica que existe una mayor
dispersión entre los valores de la variable. Por lo tanto, los elementos presentan mayor
diferencia
 El coeficiente de variación permite comparar la variabilidad relativa de dos o más conjuntos
de datos correspondientes a una variable numérica, sin importar su magnitud ni su
naturaleza.

6.8. Interpretación y análisis de resultados

6.8.1. Descripción de los resultados finales.

Consiste en explicar todos los hallazgos relevantes y que responden o contradicen los
objetivos planteados en el sistema estadístico. El análisis requiere del uso de las técnicas y los
procedimientos estadísticos pertinentes para explicar la relación entre los indicadores y
medidas resultantes. Todo análisis estadístico debe ser claro, preciso, expresado en un
lenguaje sencillo y fácil de entender por los usuarios finales.

6.8.2. Resumen.

Expresar en pocas palabras los hallazgos relevantes y de impacto en los objetivos. El proceso
estadístico debe contener un resumen final de los resultados obtenidos, que incluya las
conclusiones y las recomendaciones que sirvan de base a los responsables de tomar las
decisiones con la mayor certeza posible.

69
VII. Teoría de Probabilidades

7.1. Conceptos básicos

La probabilidad. Se define como el grado de posibilidad de que ocurra un hecho. Las


probabilidades se estudian con la finalidad de prever los que con mayor propensión puede
suceder en un espacio y en un período de tiempo determinado.

Es importante conocer las probabilidades de que ocurra cada hecho como forma de
contrarrestar su efecto. El conocimiento de las probabilidades no asegura la ocurrencia de un
hecho, sin embargo se puede deducir el que tenga mayor posibilidad de presentarse, y en base
a estos buscar alternativas inteligentes que eviten ser afectados significativamente.

Constituye uno de los temas de la Estadística y de la Matemática que requieren mayor


razonamiento lógico.

Todo lo que ocurre en el mundo está contenido dentro de un esquema como este:

Ocurrencia de los hechos


Imposible Posible
Difícil Fácil
P(X=a)=0 0 P(X=a) P(X=a) 1
0 1

Siendo “a” un evento o un suceso y “X” un experimento


P(X=a) se pronuncia “probabilidad de X=a”.

Propiedades básicas de las probabilidades:

I) 0 ≤ P(X=a) ≤ 1
II) ΣP(X=a) = 1
Las probabilidades se expresan como fracciones o como decimales que están entre cero y uno.
Tener una probabilidad de cero significa que el evento nunca va a suceder, si una probabilidad
es igual a uno indica que el evento va a suceder siempre.

Las probabilidades tienen como finalidad predeterminar el grado de posibilidad de que un


hecho ocurra en el futuro ante un conjunto de condiciones dadas. Las mismas no tienen
utilidad para hechos que ya ocurrieron. Por supuesto, basa en patrones, relaciones entre
fenómenos, hechos observados, etc.

70
Experimento aleatorio. Es una actividad o un proceso que puede arrojar distintos resultados.
Prueba donde existen dos o más resultados posibles, y no se pude anticipar cuál de ellos va a
ocurrir.
Evento o suceso. Es cada uno de los resultados posibles de un experimento aleatorio. Los
eventos están constituidos por una cantidad específica de elementos.
Espacio muestral. Es la cantidad de elementos que constituyen los distintos eventos o sucesos
de un experimento aleatorio.
Existe distintos métodos para calcular probabilidades, es parte solamente se hará referencia a
los métodos generales y a la distribución normal. Los primeros para entender las
características básicas de estas medidas y el segundo porque su conocimiento es básico para
hacer uso de algunos elementos de los métodos muestreo.
Probabilidad clásica o de Laplace). Número de resultados favorables a la presentación de un
evento dividido entre el número total de resultados posibles.

P(X=a)=CF / CP
Ejemplo:
Asignaturas
Repetidas Estudiantes P(X)
X
0 15 0.1014
1 20 0.1351
2 13 0.0878
3 17 0.1149
4 16 0.1081
5 15 0.1014
6 19 0.1284
7 24 0.1622
8 9 0.0608
Total 148 1.0000

Interpretación: La probabilidad de seleccionar aleatoriamente un estudiante que repita


cuatro asignaturas, es 0.1081.

En una base de datos hay (A=36) empleados públicos y (B=47) privados. Si


aleatoriamente se selecciona un empleado, cual es la probabilidad de que este sea privado
P(X=B)=CF/CP=47/(47+36)=47/83=0.5663.

Ejemplo:

Si se toma una muestra de manera aleatoria de los estudiantes de un colegio para hacer una
evaluación del rendimiento docente, la cual se distribuye de acuerdo a la asignatura de mayor
calificación de los estudiantes:

Asignatura(X) Cantidad P(x)

71
A Matemática 26 0.0977
B Física 46 0.1729
C Historia 37 0.1391
D Gramática 38 0.1429
E Idiomas 40 0.1504
F Informática 49 0.1842
G Biología 30 0.1128
Total 266 1.0000

Se requiere calcular las siguientes probabilidades:

 P(X=A) = 26 /266 = 0.0977

 P(X=E) = 40 /266 = 0.1504

 P(X=C o X=F) = P(X=C) +P(X=F)= 37/266 + 49/266 = 0.1391 + 0.1842 =0.3433

 P(X≠D)=1- P(X=D) = 1 - 0.1429 = 0.8571

 Probabilidad subjetiva. Se basa en las creencias personales de quien hace la estimación


de probabilidad. Asignación de probabilidad en forma intuitiva, en base a la experiencia
o el conocimiento.

 Definición matemática de Probabilidad. Es el límite del cociente k/n cuando n tiende a


infinito. Esto indica que llegará un punto que aunque la cantidad de casos posibles
aumente, el cociente k/n se mantendrá constante.
P(X=a)=lim (k/n)
n→∞

En este caso el valor de n y el de k aumentan paralelamente, por tanto el cociente (k/n) tiende
a hacerse una constante cuando n alcanza un valor grande.

Experimento Aleatorio. Es el proceso o la actividad que puede arrojar distintos resultados.


Los resultados de este proceso ocurren de manera aleatoria.

7.2. Leyes de las probabilidades

En teoría de probabilidades hay dos leyes básicas:

 Ley de la suma. Se aplica cuando se tiene la probabilidad de dos o más eventos


independientes de un mismo experimento, y se requiere obtener la probabilidad total de
la unión de esos eventos. Por ejemplo si el experimento X tiene los eventos posibles: X 1,
X2, X3, X4, X5, X6, X7; donde cada uno tiene una probabilidad definida P(X i), la
probabilidad de que ocurran los eventos X2, X3 o X6 serían igual P(Xi=X2, X3 o X6) =
P(Xi=X2) + P(Xi=X3) + P(Xi=X6).

72
Ejemplo: Sea X la cantidad de miembros de los hogares vulnerables y P(X) sus respectivas
probabilidades:

Xi P(Xi)
1 0.148
2 0.064 Si los Xi=2, Xi=3 o Xi=6 son independientes
3 0.161 P(Xi=2, Xi=3 o Xi=6) = P(Xi=2) + P(Xi=3) + P(Xi=6)
4 0.139 = 0.064 + 0.161 +0.034 = 0.259
5 0.202 Si los Xi=2, Xi=3 o Xi=6 no son independientes, entonces se requiere restar la
0.034 parte común en entre ellos.
6
P(Xi=2, Xi=3 o Xi=6) = P(Xi=2) + P(Xi=3) + P(Xi=6) – [P(Xi=2 y Xi=3) + P(Xi=2
7 0.202
y Xi=6) + P(Xi=3 y Xi=6) + P(Xi=2, Xi=3 y Xi=6)]
8 0.050
Total 1.000

 Regla de la multiplicación o regla del producto. Permite determinar la probabilidad de


que ocurra el evento A y el evento B al mismo tiempo (probabilidad conjunta). Esta regla
depende de si los eventos son dependientes o independientes. Por lo general aplica para
eventos que corresponden a dos experimentos que se ejecutan al mismo tiempo o uno debe
esperar que haya ejecutado el otro.

Ejemplo: Si en un curso universitario hay de 20 estudiantes de los cuales 7 provienen de


colegios públicos “A” y 13 de colegios privados “B”, si se seleccionan dos estudiantes
aleatoriamente para un careo, la probabilidad de uno sea de un colegio público y el otro de un
colegio privado sería igual a P(A) * P(B) = 7 /20 * 13 /20=91/400=0.2275.

7.3. Probabilidad conjunta, marginal y condicional

7.3.1. Distribución conjunta de probabilidad discreta

Hablar de una distribución conjunta de probabilidad es equivalente a referirse al grado de


posibilidad de que simultáneamente ocurran dos o más eventos pertenecientes a experimentos
distintos. Es lo mismo que decir el grado de posibilidad de que ocurra la combinación de
varios eventos donde cada uno corresponde a un experimento distinto. Es combinación de
eventos se puede definir como un evento compuesto.

Sean X, Y y Z eventos distintos que ocurren de manera simultánea, entonces:


k
k m
m n
k m n
n

Ʃ
ƩƩƩƩ
Ʃ P(X,Y,Z)=1
P(X,Y,Z)=1 0 ≤ P(X,Y,Z)≤ 1
1 1 1
1 1 1

73
Ejemplo: Para que una persona consiga un trabajo (Yi) debe tener los siguientes atributos:
Edad mayor de 18 años (x>18), Estudios universitarios (n=4), conocimientos de tecnología
(t=1) y hablar correctamente idioma inglés (h=1).

P(Yi) =P(x>18, n=4, t=1, h=1)


Ejemplo: Para un mejor entendimiento aquí se presenta en siguiente esquema que se refiere
a la combinación de tres variables: edad, nivel educativo y sexo.
Entrevistados por sexo y nivel educativo, según edad,
Sexo (S)
Total
1. VARON 2. HEMBRA
Nivel educativo (Y) Nivel educativo (Y) Nivel educativo (Y)
Edad (X)
1. 2. 3. 1. 2. 3. 1. 2. 3.
Prima- Secun- Univer- Total Prima- Secun- Univer- Total Prima- Secun- Univer- Total
rio dario sitario rio dario sitario rio dario sitario
1 < 20 años 44 46 46 136 28 12 24 64 16 34 22 72
2 20 a 30 46 29 39 114 21 14 26 61 25 15 13 53
3 30 a 40 48 43 45 136 14 16 21 51 34 27 24 85
4 40 a 50 28 49 31 108 13 14 16 43 15 35 15 65
5 50 a 60 44 48 30 122 22 16 19 57 22 32 11 65
6 60 o + 35 36 43 114 20 23 27 70 15 13 16 44
Total 245 251 234 730 118 95 133 346 127 156 101 384

7.3.2. La Probabilidad conjunta


La probabilidad de seleccionar aleatoriamente una persona que tenga edad entre 20 y 30
años, un nivel educativo universitario y que sea varón,
P(X=2, Y=3, S=1)=26 / 730 =0.03561

La probabilidad de seleccionar aleatoriamente una persona que tenga edad menor de 30 años,
un nivel educativo secundario o universitario y que no sea hembra.

P(X≤2, Y˃1, S≠2)=(12+14+24+26) / 730 =0.1041

La probabilidad de seleccionar aleatoriamente una persona que tenga edad entre 40 y 50


años, un nivel educativo secundario y que sea hembra.

P(X=4, Y=2, S=2)=35 / 730 =0.04795

La probabilidad de seleccionar aleatoriamente una persona que tenga mayor de 50 años, un


nivel educativo mayor a secundario y que sea hembra.

P(X˃4, Y≥2, S=2)= (32+11+13+16) / 730=0.0986

7.3.3. Probabilidad Marginal

74
7.3.4. Probabilidad condicional e independencia

Es el grado de posibilidad de que ocurra un hecho, evento o suceso de experimento, luego de


haber ocurrido o seleccionado otro evento correspondiente a otro experimento. Por la
expresión P(A|B) indica la probabilidad de que ocurra el u A habiendo pasado el evento B.
Matemáticamente se define como la probabilidad de que presente la intercepción entre evento
A y B dividida la probabilidad de que ocurra el evento B, o sea P(A|B)=P(A ∩ B)/P(B)
Entrevistados por nivel educativo, según edad
Nivel educativo (Y)
1. 2. 3.
Edad (X)
Prima- Secun Univer- Total
rio -dario sitario
1 < 20 años 44 46 46 136
2 20 a 30 46 29 39 114
3 30 a 40 48 43 45 136
4 40 a 50 28 49 31 108
5 50 a 60 44 48 30 122
6 60 o + 35 36 43 114
Total 245 251 234 730

La probabilidad de seleccionar aleatoriamente una persona que tenga edad entre 30 y 40 años,
dentro del grupo que tiene un nivel educativo secundario.

P(X=3|Y=2)=P(X=3,Y=2) / P(Y=2) = (43 / 730) / (251 /730)= 43 / 251=0.1713

La probabilidad de seleccionar aleatoriamente una persona que tenga edad mayor de 30 años
y menor de 50, dentro del grupo que tiene un nivel educativo secundario o universitario.

P(2<X≤4|Y˃1)=P(2<X≤4, Y˃1) / P(Y˃1) =


[(43+49+45+31) / 730] / [(251+ 234) /730]=168 / 485=03464

La probabilidad de seleccionar aleatoriamente una persona que tenga un nivel educativo


mayor o igual al secundario, dentro del grupo que tenga una edad mayor 30 años y menor de
60.

P(Y≥2|3≤X≤5)= P(Y≥2,3≤X≤5) / P(3≤X≤5) =


[(43+45+49+31+48+30)/ 730] /[(136+108+122)/ 730]=246/366=0.67213

Ejemplo: l

La empresa R&K está compuesta por el departamentos “A1” donde laboran 47 empleados, de
los cuales (B1=18) son personas con especialidad, y el resto (B2=29) no tiene especialidad; y
“A2” donde laboran 34 empleados de los cuales (B2=15) son personas con especialidad, y el
resto (B2=19) no tiene especialidad.

Calcule todas las probabilidades conjuntas, marginales y condicionales de seleccionar


aleatoriamente un empleado en los departamentos A1y A2 relacionados con la tenencia o no
de especialidad B1 y B2.

75
Composición de la empresa

Departamentos Tenencia de
A1 y A2 Conoc. B1 y B2
Dpto. A1 = Con Exp. "B1"=18
Total (47 + 34)= 47 Sin Exp. "B2"=29
81 Dpto. A2 = Con Exp. "B1"=15
34 Sin Exp. "B2"=19

Cálculo de probabilidades

P(A1, B1)=18/81
P(A1)=47/81 0.2222
0.5802 P(A1, B2)=29/81
P(A1 o A2)= 0.3580
1.0000 P(A2, B1)=15/81
P(A2)=34/81 0.1852
0.4198 P(A2, B2)=19/81
0.2346

Probabilidades Conjuntas

 P(A1, B1) =18/81=0.2222


 P(A2, B1) =15/81=0.1852
 P(A1, B2) =29/81=0.3580
 P(A2, B2) =19/81=0.2346
Probabilidades Marginales
 P(A1) = P(A1, B1) +P(A1, B2)=18/81 + 29/81= 02222 + 0.3580 = 0.5802
 P(A2) = P(A2, B1) +P(A2, B2) =15/81 + 19/81= 0.1852 + 0.2346 = 0.4198
 P(B1) = P(A1, B1) +P(A2, B1) =18/81 + 15/81= 0.2222 + 0.1852 = 0.4074
 P(B2) = P(A1, B2) +P(A2, B2) =29/81 + 19/81= 0.3580 + 0.2346 = 0.5926

Probabilidades Condicionales
 P(A1 | B1) = P(A1, B1) / P(B1) =0.2222 / 0.4074=0.5454
 P(A1 | B2) = P(A1, B2) / P(B2) =0.3580 / 0.5926=0.6041
 P(A2 | B1) = P(A2, B1) / P(B1) =0.1852 / 0.4074=0.4546
 P(A2 | B2) = P(A2, B2) / P(B2)= 0.2346 / 0.5926=0.3959
 P(B1 | A1) = P(B1, A1) / P(A1)= 0.2222 / 0.5802=c
 P(B1 | A2) = P(B1, A2) / P(A2)= 0.1852 / 0.4198=0.4412
 P(B2 | A1) = P(B2, A1) / P(A1)= 0.1852 / 0.5802=0.3192
 P(B2 | A2) = P(B2, A2) / P(A2)= 0.2346 / 0.4198=0.5588

76
7.4. Teorema de Bayes y sus aplicaciones

Es utilizado para calcular la probabilidad de un suceso, teniendo información de antemano


sobre la probabilidad de haber ocurrido otro suceso que esté relacionado.

En sentido general éste expresa la probabilidad condicional de que ocurra un evento aleatorio
“Bi” del experimento B, habiendo ocurrido el evento “Ai” dentro del experimento A, donde
la probabilidad de evento “Ai” es distinta de cero.

El teorema o la regla de Bayes se puede escribir como:

P(Bj|Ai ) P(Bj) P(Ai |Bj) P(Ai )


P(Ai | Bj) = P(Bj | Ai ) =
ƩP(Bj|Ai ) P(Bj) ƩP(Ai |Bj) P(Ai )
Donde:

 La P(Ai|Bi) es la probabilidad condicional de que ocurra el evento específico “Ai” habiendo


ocurrido un evento especifica Bi.

 La P(Bi|Ai) es la probabilidad condicional de que ocurra el evento específico “Bi” habiendo


ocurrido un evento especifica Ai.

1≤i≤n y 1≤j≤k

 0 ≤ P(Ai| Bj) ≤ 1 0 ≤ P(Bj | Ai) ≤ 1 0 < P(Ai) ≤ 1 0 < P(Bj) ≤ 1

 ƩP(Ai| Bj) = 1 y ƩP(Bj | Ai) = 1

Ejemplo 1: Se selecciona aleatoriamente un empleado de la empresa R&K, cual es la


probabilidad de que el empleado pertenezca al departamento “A1”, habiendo sido escogido
en el grupo que tiene especialidad “B1”.
Tenencia de
Departamento especialidad B1=
A1 y A2 sí y B1= No
P(B1)=18/47
P(A1)=47/81 0.3830
0.5802 P(B2)=29/47
A1+A2=47+34= 0.6170
81 P(B1)=15/34
P(A2)=34/81 0.4412
0.4198 P(B2)=19/34
0.5588

77
 Probabilidad total

En este caso se refiere a la probabilidad total de seleccionar aleatoriamente un empleado de


la empresa que tenga especialidad “P(B1)”.

P(B1)= P(A1) * P(B1|A1)+ P(A2) * P(B1|A2) = 0.5802*0.3830+0.4198*0.4412=0.4070.

 Aplicaciόn del teorema de Bayes

Calcular la probabilidad de que el empleado seleccionado aleatoriamente en la empresa con


especialidad “B1” pertenezca al departamento A1.

P(A1|B1)= P(A1)x P(B1|A1)/P(B1) = 0.5802*0.3830/0.4070 =0.5420

Ejemplo 2: Un proveedor de productos agrícolas tiene tres naves (A1, A2 y A3) donde los
clientes pueden adquirir los productos, los cuales están ubicados en los depósitos (B1, B2 y
B3). Los productos están distribuidos como se indica en la siguiente tabla:
Naves Depósitos
P(A1, B1)=86/344
0.2500
P(A1)=344/1,200 P(A1, B2)=179/344
0.2867 0.5203
P(A1, B3)=79/344
0.2297
P(A2, B1)=154/465
0.3312
A1+A2+A3= P(A2)=465/1,200 P(A2, B2)=194/465
1,200 0.3875 0.4194
P(A2, B3)=116/465
0.2495
P(A3, B1)=80/391
0.2046
P(A3)=391/1,200 P(A3, B2)=179/391
0.3258 0.4578
P(A3, B3)=132/391
0.3376

Se selecciona aleatoriamente un producto, se requiere saber la probabilidad de que pertenezca


a la nave “A3”, habiéndolo escogido de antemano del depósito “B2”.

78
a) Probabilidad total

Calcule la probabilidad total de seleccionar aleatoriamente un producto del depósito


“P(B2)”.

P(B2)= P(A1) * P(B2|A1) + P(A2) * P(B2|A2) + P(A3) * P(B2|A3) =

P(B2)= P(A1) * P(B2∩A1) + P(A2) * P(B2∩A2) + P(A3) * P(B2∩A3) =

0.2867*0.5203 + 0.3875*0.4194 + 0.3258*0.4578= 0.4608.

b) Aplicaciόn del teorema de Bayes

Calcular la probabilidad de que el producto seleccionado aleatoriamente sea de la nave “A1”


y haya sido tomado del depósito “B1”.

P(A3|B2)= P(A3)x P(B2|A3)/P(B2) = 0.3258*0.2495/0.4608 =0.1764

P(A3|B2)= P(A3)x P(B2∩A3)/P(B2) = 0.3258*0.2495/0.4608 =0.1764

7.3.1. Eventos independientes

Dos eventos A y B son independientes si y solo si la probabilidad del evento B no está influida
por el evento A. Lo mismo si y solo si la probabilidad del evento A no está influida por
el evento B

En tal caso se debe cumplir P(X∩Y)= P(X)P(Y). De igual manera la P(X|Y)= P(X)

Ejemplos:

El empleado “X” tiene una probabilidad de llegar tarde (p=0.3676) y de llegar temprano
(q=0.6324), y el empleado “Y” tiene una probabilidad de llegar tarde (l=0.4893) y de llegar
temprano (m=0.5107)

La probabilidad de que ambos lleguen temprano se expresa de la siguiente manera


P(X=p∩Y=m)= P(X=p) x P(Y=m)= 0.6324 x 0.5107)=0.3230

7.5. Distribuciones de probabilidad.

Variable aleatoria. Sus valores ocurren al azar.


Variable aleatoria discreta. Sus valores ocurren al azar, toma un número finito o infinito de
valores numerables o que se pueden contar.
Variable aleatoria continua. Sus valores ocurren al azar, puede tomar infinitos valores
dentro de un intervalo. Sus valores son no numerables ni se pueden contar. En general se
define como una variable aleatoria que puede tomar cualquier valor dentro de un intervalo.

79
Distribución de probabilidades. Modelo teórico que describe la forma en que varían los
resultados de un experimento aleatorio. Lista de los resultados de un experimento con sus
respectivas probabilidades.

No. de actos
delictivos
P(X)
cometidos
X
0 0.2088
1 0.1508
2 0.1160
3 0.1021
4 0.0974
5 0.0951
6 0.0766
7 0.0742
8 0.0441
9 0.0348
Total 1.0000

Función de probabilidad. Es una expresión o fórmula matemática que asigna o genera las
probabilidades a cada uno de los valores de una variable aleatoria.

P(X=x) = (1-p)x p
Sea p= 0.35 que es la proporción de documentos con errores de ortografía, y “x” la cantidad
de documentos con este tipo de errores.

Errores
P(X=x)
x
0 0.3500
1 0.2275
2 0.1479 Dándole valores a X en la
3 0.0961 función:
4 0.0625 P(X=x) =(1-0.35)x 0.35,
5 0.0406 se obtienen los valores de
6 0.0264 probabilidad P(X=x)
7 0.0172
8 0.0112
9 0.0072
10 0.0047

80
7.6. Valor esperado o Esperanza Matemática.

Es el valor promedio de eventos de experimento que se estima deben cumplir con una
condición específica, de acuerdo a una distribución de probabilidades. Aplicando la definición
clásica de probabilidad.
E(x)=ΣX*P(X) = 3.987
Interpretación: El promedio de asignaturas repetidas 3.987.
Varianza esperada. Es la varianza del valor los eventos de un experimento que se estima
deben cumplir con una condición específica, de acuerdo a una distribución de probabilidades.
Aplicando la definición clásica de probabilidad.
V(x)=ΣX2*P(X) – (ΣX*P(X))2 =22.2464 - 3.9872=6.35023
Interpretación: Varianza de la cantidad de asignaturas repetidas 6.35023.

Asignaturas
Estudiantes P(X) X * P(X) X2* P(X)
Repetidas X
0 15 0.1014 0 0
1 20 0.1351 0.1351 0.1351
2 13 0.0878 0.1756 0.3512
3 17 0.1149 0.3447 1.0341
4 16 0.1081 0.4324 1.7296
5 15 0.1014 0.5070 2.5350
6 19 0.1284 0.7704 4.6224
7 24 0.1622 1.1354 7.9478
8 9 0.0608 0.4864 3.8912
Total 148 1 3.987 22.2464

7.7. Funciones de probabilidad discretas.

Son aquellas que permite calcular las probabilidades o la posibilidad de ocurrencia de cada
uno de los eventos de un experimento o de una variable discreta.

7.7.1. La distribución de probabilidad de Poisson.

Aplica cuando se requiere calcular la probabilidad de que se presenten hechos poco frecuentes,
donde la proporción de casos sea (p≤0.20) y la cantidad de casos posible (n˃30). Esta forma
parte de las distribuciones de probabilidad que aplican a los llamados casos raros. Esta
distribución de probabilidad se basa en el promedio de hechos que ocurran en una unidad de
tiempo o de espacio. Por Ejemplo: el que un artículo salga defectuoso de un proceso de
producción, tiempo que tardan las personas en espera, etc.

La misma tiene varias aplicaciones, por eso se presentan varios tipos de ejemplos.

Donde.

81
 λ >0 y representa la media aritmética de la característica que se esté analizando. λ es el
promedio, el valor esperado o la esperanza matemática. λ =np=e(x)=μ.
 Var(x) también es igual a λ =np=e(x)=μ. Esta es una propiedad exclusiva la distribución
de probabilidad de Poisson.
 p es la proporción de eventos que cumplen con la condición que se tenga como objetivo. Por
lo general p<0.20.
 n es la cantidad de eventos posibles, por lo general n>30.
 “x” es la cantidad de elementos que se prefiere obtener con la característica o la condición
objetivo en una muestra de “n” elementos. Siempre 0 ≤ x ≤ n.
 e=2.7183
 Se aplica a hechos que se repiten pocos veces, por esta distribución de probabilidad pertenece
a lo se llaman casos raros.

Ejemplo 1: Se sabe por análisis anteriores que el 8% de los jóvenes que se inscriben en el
programa de emprendimiento tienen éxitos en los proyectos que emprenden. Si 40 jóvenes se
inscriben y reciben todas las orientaciones del lugar, cual es la probabilidad de que menos de
cinco de ellos tengan éxito en sus iniciativas productivas?

λ =np=e(x)=μ=40*0.08=3.20.
x=k=0, 1, 2, 3, 4 ó k<5
k=4
P(X<5)=Σ P(X=k) =P(X=0)+ P(X=1)+ P(X=2)+ P(X=3)+ P(X=4).
k=0

P(X=0)=2.7183-3.20 x 3.200 / 0!= 0.0408


P(X=1)=2.7183-3.20 x 3.201 / 1!= 0.1304
P(X=2)=2.7183-3.20 x 3.202 / 2!= 0.2087
P(X=3)=2.7183-3.20 x 3.203 / 3!= 0.2226
P(X=4)=2.7183-3.20 x 3.204 / 4!= 0.1781
Total …………………………=0.6910
Total P(X<5) = 0.6910

La probabilidad de seleccionar aleatoriamente menos de cinco jóvenes emprendedores que


tengan éxito en los proyectos que emprendan es de 0.6910.

Ejemplo 2: Los empleados del Ministerio realizan distintos cursos de especialización para
fortalecer sus capacidades de responder a las necesidades de los usuarios. El Departamento de
Capacitación ha determinado que los empleados en promedio han realizado 8.37 de esos
cursos. Para enviar a un entrenamiento a nivel internacional se requiere saber la probabilidad
de seleccionar aleatoriamente un empleado que cumpla las siguientes especificaciones:

82
9.2.1. Que haya hecho menos de tres cursos de especialización

P(X=k)=e-λ*λk/k!
K=0,1,2 ó k≤2

λ =e(x)=μ=8.37
k=2
P(X<3)=Σ P(X=k) =P(X=0)+ P(X=1)+ P(X=2)
k=0
P(X=0)=2.7183-8.37 x 8.370 / 0!=0.0002
P(X=1)=2.7183-8.37 x 8.371 / 1!=0.0019
P(X=2)=2.7183-8.37 x 8.372 / 2!=0.0081
Total = P(X<3)= ..…………… 0.0103

9.2.2. Que haya hecho entre tres y seis cursos de especialización

P(X=k)=e-λ*λk/k!
K=3,4,5,6 ó 3≤k≤6

k=6
P(3≤X≤6)=Σ P(X=k) =P(X=3)+ P(X=4)+ P(X=5) + P(X=6)
k=3

P(X=3)=2.7183-8.37 x 8.373 / 3!=0.0226


P(X=4)=2.7183-8.37 x 8.374 / 4!=0.0474
P(X=5)=2.7183-8.37 x 8.375 / 5!=0.0793
P(X=6)=2.7183-8.37 x 8.376 / 6!=0.1106
Total = P(3≤X≤6)= …..……… 0.2600

9.2.3. Que haya hecho más de cuatro cursos de especialización

P(=k)=e-λ*λk/k!
K >4
K=4
P(X >4) = 1- P(X≤4) = 1- ΣP(X=k)= 1- [P(X=0)+ P(X=1)+ P(X=2)+ P(X=3)+ P(X=4)]
K=0

83
P(X=0)=2.7183-8.37 x 8.370 / 0!=0.0002
P(X=1)=2.7183-8.37 x 8.371 / 1!=0.0019
P(X=2)=2.7183-8.37 x 8.372 / 2!=0.0081
P(X=3)=2.7183-8.37 x 8.373 / 3!=0.0226
P(X=4)=2.7183-8.37 x 8.374 / 4!=0.0474
Total = P(X≤4)= …..………….0.0803
P(X >4) = 1-0.0803= 0.9197
Ejemplo 3: Durante los días de consulta los pacientes hacen largas filas o colas en los
consultorios médicos para recibir atención. Los analistas de proceso han determinado que en
promedio los pacientes tardan (μ=17.45) minutos para ser atendidos. Y requieren saber la
probabilidad de que un paciente sea atendido por el médico en 12 minutos.

λ = e(x)=μ=17.45.

K=12

P(X=k)=e-λ*λk/k!

P(X=12)= 2.7183-17.45*17.4512/12! = 0.0439

7.7.2. La distribución de probabilidad Binomial

Es una ampliación de la distribución Bernoulli, donde el experimento se repite varias veces.


Aplica específicamente cuando la proporción de casos favorables o que cumplen con la
característica objetivo oscila en el rango (0.30 ≤ p ≤ 0.70) y la cantidad de casos posibles (1<
n ≤30)

Dónde
 =n!/(x!(n-x)!)
 “n”en la cantidad de elementos que se esté analizando. Por lo general oscila entre “n≤30”.
 “p” es la proporción de elementos que presentan la característica o la condición que se tiene
como objetivo. Por lo general el valor varía entre “0.30<p<0.70”.
 “q=1-p” que es la proporción de elementos que no presentan la característica o la condición
objetivo.
 En todo caso p+q=1.
 “x” es la cantidad de elementos que se prefiere obtener con la característica o la condición
objetivo en una muestra de “n” elementos. Siempre 0 ≤ x ≤ n.

La media aritmética es µ=np

La varianza es S2=np(1-p)
84
El coeficiente de asimetría viene dado por la expresión

El índice de curtosis se calcula de la manera siguiente:

Ejemplo:
Se ha determinado que el 43.17% de las personas registradas en los programas nunca han
recibido orientación. Si se eligen aleatoriamente n=16 jóvenes, cual es la probabilidad de que
aparezcan entre 5 y 8 jóvenes que no hayan tomado ese tipo de servicio.

K=8
P(5 ≤ X ≤8) = Ʃ P(X=k) = P(X=5)+ P(X=6)+ P(X=7)+ P(X=8)
K=5

P(X=5)= 16! /(5! x (16-5)!) x 0.43175x(1-0.4317)(16-5)= 0.1308.


P(X=6)= 16! /(6! x (16-6)!) x 0.43176x(1-0.4317)(16-6)= 0.1821
P(X=7)= 16! /(7! x (16-7)!) x 0.43177x(1-0.4317)(16-7)= 0.1977
P(X=8)= 16! /(8! x (16-8)!) x 0.43178x(1-0.4317)(16-8)= 0.1689
Total = 0.6795

La probabilidad de que aparezcan cinco jóvenes que hayan trabajado antes es 0.1308.

7.7.3. La distribución de probabilidad Geométrica

Describe la posibilidad de que un elemento tomado aleatoriamente pertenezca a un subgrupo


que forme parte de un conjunto.

P(X=k) = (1-p)K p

Donde.

 “p” es la proporción de elementos que presentan la característica o la condición que se tiene


como objetivo. En todo caso “0 ≤ p ≤ 1”.
 “x” es la cantidad de elementos que se prefiere obtener con la característica o la condición
objetivo en una muestra de “n” elementos. Siempre x ≥0.

La media aritmética µ= 1 / p, indica la cantidad promedio de elementos que cumplen la


condición x.

85
La moda es igual a cero, Mo=0.

La varianza de las cantidades de elementos que cumplen la condición x viene dada por la
expresión S2= (1-P)/P2

Coeficiente de asimetría As=

Curtosis de la función geométrica. α4=

Ejemplo: Los analistas financieros han determinado a lo largo de su tiempo de labores que
un 12.71% o (0.1271) de los contratos presentan algún tipo de errores que ellos han tenido
que corregir. En el último mes se elaboraron una gran cantidad de contratos a igual cantidad
de suplidores, se requiere saber la probabilidad de que aparezcan no más de tres contratos con
algún error.
x=3
P(X≤3) = Ʃ(1-p)x p
x=1

P(X≤3)= P(X=0)+P(X=1)+ P(X=2)+ P(X=3) =


P(X=0) =(1-0.1271)0 x 0.1271=0.12710
P(X=1) =(1-0.1271)1 x 0.1271=0.11095
P(X=2) =(1-0.1271)2 x 0.1271=0.09684
P(X=3) =(1-0.1271)3 x 0.1271=0.08454
Total o P(X≤3)=………….... =0.41943.

7.7.4. La distribución de probabilidad Hipergeométrica

En teoría de la probabilidad y estadística es una distribución de probabilidad discreta


relacionada con muestreos aleatorios y sin reemplazo. Suponga que se tiene una población de
N elementos de los cuales, dentro de los cuales K de ellos pertenecen a la categoría A y N-K
pertenecen a la categoría B. Esta mide el grado de posibilidad de obtener “x” elementos de la
categoría “A” en una muestra de “n” elementos tomados aleatoriamente sin reemplazo de la
población N.

Una aplicación sería: Si en una institución hay (N=40) empleados entre los cuales hay (k=17)
que ingresaron en el último año. Se seleccionan aleatoriamente (n=12) de los “N” empleados
para participar en un curso, se requiere calcular la probabilidad de que en “n” a parezca una
cantidad aparezcan “x=4” empleados de los que ingresaron en el último año.

86
 N=k+(N-k)
 n=x + (n-x)

 =N!/(n!(N-n)!)

Dónde:

 “N” es la cantidad total de elementos de un conjunto de elementos.

 “k” es la cantidad de elementos que presentan la característica o la condición que se tiene


como objetivo.

 “N-k” es la cantidad de elementos que no presentan la característica o la condición que se


tiene como objetivo.

 “n” es la muestra de elementos tomada del conjunto de elementos.

 “k” es la parte de la muestra “n” de elementos que presentan la característica o la condición


que se tiene como objetivo.

 “n-x” es la parte de la muestra “n” de elementos que no presentan la característica o la


condición que se tiene como objetivo.

N ≥ n
k ≥ x

El promedio o la media aritmética viene dada por µ=nK/N, el cual indica la cantidad de
esperada de elementos con la característica de interés en la muestra n.
Mo=
La moda viene dada por la expresión Mo= , que indica la cantidad de elementos
con mayor probabilidad de obtener la características de interés.

La varianza de las cantidades de elementos con la característica de interés viene expresada


como por S2= . Con la misma se mide el grado dispersión entre los eventos
“x” de la distribución de probabilidad.

El coeficiente de asimetría que indica la forma en que se distribuye las cantidades de eventos
con la característica de interés, viene dada por la siguiente expresión:

As= ..
Curtosis de la función hipergeométrica, que indica el grado de concentración de las
cantidades de elementos que podrían tener la característica de interés:

87
(α4)=

Ejemplo: En un lote de (N=53) unidades de productos los supervisores han identificado (k=8)
unidades defectuosas, los analistas han seleccionado de manera aleatoria (n=12) unidades de
esos productos, se requiere saber la probabilidad de que aparezcan no más de dos (x ≤ 2)
unidades defectuosas.

N=53, k=8, n =12, x ≤ 2,N-k=53-8=45,n-x=12-0=12, 12-1=11 y 12-2=10


P(X ≤ 2)=P(X=0)+P(X=1)+ P(X=2)=0.10780+0.30438+0.33482 = 0.74701

7.8. La distribución de probabilidad Continua

7.8.1. La distribución uniforme

Es útil para describir una variable aleatoria con probabilidad constante sobre los límites (a,b)
en el que está definida. También es conocida como distribución rectangular por su función
de densidad.
Función de distribución

Función de densidad

Media aritmética y la mediana

Varianza

Ejemplo: El ingreso los hogares oscila entre (A=20,154 y B=27,634) pesos. La probabilidad
de seleccionar un hogar tenga un ingreso entre (a=23,193 y b=24,365) sería:
 A=20,154 B=27,634 siempre A<B
 a= 23,193 b=24,365 siempre a<b
 (b-a) Ɛ (B-A) → El intervalo (b-a) pertenece al intervalo (B-A)

A a b B

88
P(a< x < b)= (b-a) / (B-A)= (24,365 – 23,193) / (27,634 -20,154)=1,172/7,480=0.1567

7.8.2. La distribución de probabilidad Exponencial

Es una distribución continua que se utiliza para modelar tiempos de espera para la ocurrencia
de un cierto evento.
Su función de distribución es viene dada por la expresión f(x)=ꞵe-ꞵx, donde x>0 y ꞵ>0
La funcion de distribución acumulada o de densidad es F(x)=1-e-ꞵx.
Ejemplo: El tiempo promedio para que un empleado permanezca de la empresa es µ=6.45
años, calcular las probilidades:

 Un empleado permanezca la empresa menos de cinco años f(X<5)

ꞵ=1/µ=1/6.45

F(X<5)=1-e-ꞵx=1-e-1/6.45(5)=0.5394

 Un empleado permanezca la empresa mas de siete años f(X>7)

ꞵ=1/µ=1/6.45

F(X>7)=1-e-ꞵx=1-(1-e-1/6.45(7))=1-0.6622 =0.3378

 Un empleado permanezca la empresa entre 4 y 8 añosf(4<X<8 )


ꞵ=1/µ=1/6.45

F(4<X<8)= F(X=8)- F(X=4)=1-e-1/6.45(8)- (1-e-1/6.45(4))=(1-0.7107)-(1-0.4621)= 0.2486

7.8.3. La distribución de probabilidad Normal


Está dada por la siguiente función:

Donde

 μ es la media aritmética de la característica que se esté analizando.


 σ la desviación estándar de la característica que se esté analizando.
 “x” es la medida objetivo de la característica que se esté analizando, la cual puede tomar
valores dentro del intervalo de “ -∞, ∞”.
 Π= 3.14286
 e= 2.7183
89
Esta es distribución continua de probabilidad que con mayor frecuencia se utiliza en el análisis
estadístico y en las aplicaciones de la teoría de probabilidades.
La distribución de probabilidad de los valores de la variable X usando la función normal tiene
una forma de campana como la que aparece a continuación.

Por esa forma de campana recibe el nombre de Campana de Gaus, en honor a quién la
desarrolló.
La misma tiene gran utilidad en el diseño de muestras, en la prueba de hipótesis, en el control
de calidad, en análisis de regresión; procedimientos que se usan frecuentemente en la
industria, en la medicina, economía sociología, psicología, política, ingeniería, ciencias
naturales, entre otras áreas de aplicación.
Tipificación

Es el proceso a través del cual se transforma la variable de análisis (X) en la variable tipificada
(Z).
_
Z=(X- X)/S

La Z toma valores entre -5 y 5, con un promedio de “0” y su desviación estándar igual a “1”.
Esto se puede comprobar a través de la siguiente tabla.

Cantidad de horas de labores semanales por los trabajadores.

I X Z
1 41 -0.0264
2 30 -1.4769
3 42 0.1055
4 44 0.3692
5 57 2.0834
6 40 -0.1582
7 49 1.0285
8 36 -0.6857
9 36 -0.6857
10 37 -0.5538
_
Promedio X 41.2 0.0000
Desviación Estandar S 7.5836 1.0000
_
Donde Xes la media aritmética y S es la desviación estándar.

90
Características de la distribución normal.

 x=μ entonces f(x) es el máximo, o si z=0 entonces f(z) es máximo.


 ∞ < z ≤ 0, el valor acumulado de f(z) es igual a 0.5.
 0 < z ≤ ∞, el valor acumulado de f(z) es igual a 0.5.
 -∞< z <∞, el valor acumulado de f(z) es igual a 1.
 -3.09< z < 3.09, el valor acumulado de f(z)=0.997.
 -1.96< z < 1.96, el valor acumulado de f(z)=0.95.
 -1.65< z < 1.65, el valor acumulado de f(z)=0.90.
 El valor mínimo de f(z) diente a cero pero nunca llega a ser cero.
 El valor máximo de f(z) se alcanza cuando z=0.
 f(z) es una función asintótica.
 f(z) es una simétrica en el punto (z=0).
 Por lo general “z” oscila entre -5 y 5.
Las probabilidades de los valores de variable tipificada (Z) aparecen tabuladas en la tabla
normal estándar Z que se presenta a continuación.
Ejemplo:

Si el ingreso promedio de los trabajadores es 23,548 pesos y la desviación estándar es de


2,459. Determine la probabilidad de seleccionar aleatoriamente un trabajador que tenga un
ingreso entre 20,000 y 25,000 pesos..
_
X= 23,548 y S=2,459

P(20,000 ≤ X ≤ 25,000)
_
Z1=(X1- X) / S=(20,000-23,548)/2,459=-1.44
_
Z2=(X2- X) / S=(25,000-23,548)/2,459=0.59

P(20,000 ≤X≤ 25,000) = P(-1.44 ≤ z≤0.59)= ϕ(z=0.59)- ϕ(z=-1.44)= 0.72240- 0.07493

P(20,000 ≤X≤ 25,000)=0.64747

91
Tabla Normal (-Z)

Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-4.00 0.00003 0.00003 0.00003 0.00003 0.00003 0.00003 0.00002 0.00002 0.00002 0.00002
-3.90 0.00005 0.00005 0.00004 0.00004 0.00004 0.00004 0.00004 0.00004 0.00003 0.00003
-3.80 0.00007 0.00007 0.00007 0.00006 0.00006 0.00006 0.00006 0.00005 0.00005 0.00005
-3.70 0.00011 0.00010 0.00010 0.00010 0.00009 0.00009 0.00008 0.00008 0.00008 0.00008
-3.60 0.00016 0.00015 0.00015 0.00014 0.00014 0.00013 0.00013 0.00012 0.00012 0.00011
-3.50 0.00023 0.00022 0.00022 0.00021 0.00020 0.00019 0.00019 0.00018 0.00017 0.00017
-3.40 0.00034 0.00032 0.00031 0.00030 0.00029 0.00028 0.00027 0.00026 0.00025 0.00024
-3.30 0.00048 0.00047 0.00045 0.00043 0.00042 0.00040 0.00039 0.00038 0.00036 0.00035
-3.20 0.00069 0.00066 0.00064 0.00062 0.00060 0.00058 0.00056 0.00054 0.00052 0.00050
-3.10 0.00097 0.00094 0.00090 0.00087 0.00084 0.00082 0.00079 0.00076 0.00074 0.00071
-3.00 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00104 0.00100
-2.90 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139
-2.80 0.00256 0.00248 0.00240 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193
-2.70 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.00280 0.00272 0.00264
-2.60 0.00466 0.00453 0.00440 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357
-2.50 0.00621 0.00604 0.00587 0.00570 0.00554 0.00539 0.00523 0.00508 0.00494 0.00480
-2.40 0.00820 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639
-2.30 0.01072 0.01044 0.01017 0.00990 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842
-2.20 0.01390 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.01160 0.01130 0.01101
-2.10 0.01786 0.01743 0.01700 0.01659 0.01618 0.01578 0.01539 0.01500 0.01463 0.01426
-2.00 0.02275 0.02222 0.02169 0.02118 0.02068 0.02018 0.01970 0.01923 0.01876 0.01831
-1.90 0.02872 0.02807 0.02743 0.02680 0.02619 0.02559 0.02500 0.02442 0.02385 0.02330
-1.80 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938
-1.70 0.04457 0.04363 0.04272 0.04182 0.04093 0.04006 0.03920 0.03836 0.03754 0.03673
-1.60 0.05480 0.05370 0.05262 0.05155 0.05050 0.04947 0.04846 0.04746 0.04648 0.04551
-1.50 0.06681 0.06552 0.06426 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592
-1.40 0.08076 0.07927 0.07780 0.07636 0.07493 0.07353 0.07215 0.07078 0.06944 0.06811
-1.30 0.09680 0.09510 0.09342 0.09176 0.09012 0.08851 0.08692 0.08534 0.08379 0.08226
-1.20 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09853
-1.10 0.13567 0.13350 0.13136 0.12924 0.12714 0.12507 0.12302 0.12100 0.11900 0.11702
-1.00 0.15866 0.15625 0.15386 0.15151 0.15 0.14686 0.14457 0.14231 0.14007 0.13786
-0.90 0.18406 0.18141 0.17879 0.17619 0.17361 0.17106 0.16853 0.16602 0.16354 0.16109
-0.80 0.21186 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673
-0.70 0.24196 0.23885 0.23576 0.23270 0.22965 0.22663 0.22363 0.22065 0.21770 0.21476
-0.60 0.27425 0.27093 0.26763 0.26435 0.26109 0.25785 0.25463 0.25143 0.24825 0.24510
-0.50 0.30854 0.30503 0.30153 0.29806 0.29460 0.29116 0.28774 0.28434 0.28096 0.27760
-0.40 0.34458 0.34090 0.33724 0.33360 0.32997 0.32636 0.32276 0.31918 0.31561 0.31207
-0.30 0.38209 0.37828 0.37448 0.37070 0.36693 0.36317 0.35942 0.35569 0.35197 0.34827
-0.20 0.42074 0.41683 0.41294 0.40905 0.40517 0.40129 0.39743 0.39358 0.38974 0.38591
-0.10 0.46017 0.45620 0.45224 0.44828 0.44433 0.44038 0.43644 0.43251 0.42858 0.42465
0.00 0.50000 0.49601 0.49202 0.48803 0.48405 0.48006 0.47608 0.47210 0.46812 0.46414

92
Tabla Normal (+Z)

Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.00 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.10 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.20 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.30 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.40 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.50 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.60 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.70 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.80 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.90 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.00 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.10 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.20 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.30 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91308 0.91466 0.91621 0.91774
1.40 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189
1.50 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.60 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.70 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.80 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.90 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.00 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.10 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.20 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.30 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.40 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.50 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.60 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.70 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.80 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.90 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
3.00 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.99900
3.10 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929
3.20 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950
3.30 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965
3.40 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976
3.50 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.99983
3.60 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.99989
3.70 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99992 0.99992 0.99992 0.99992
3.80 0.99993 0.99993 0.99993 0.99994 0.99994 0.99994 0.99994 0.99995 0.99995 0.99995
3.90 0.99995 0.99995 0.99996 0.99996 0.99996 0.99996 0.99996 0.99996 0.99997 0.99997
4.00 0.99997 0.99997 0.99997 0.99997 0.99997 0.99997 0.99998 0.99998 0.99998 0.99998

93
VIII. Fundamentos de muestreo
El concepto de muestreo se basa en la probabilidad de que un conjunto de elementos escogidos
de forma aleatoria de una población sean distribuidos de forma que representen dicha
población en todas sus características.

El muestreo es el procedimiento que se utiliza para los siguientes fines:

 Determinar el tamaño de la muestra (n)


 Seleccionar los elementos de la población que constituyen la muestra
 Analizar los indicadores y medidas resultantes de los datos obtenidos a través de la muestra.
 Distribución de los elementos de la muestra de acuerdo a los componentes de la población.

El muestreo se utiliza como forma de reducir el consumo tiempo y de otros recursos, y obtener
información más precisa sobre las características de los elementos de una población que
constituyen la muestra.

8.1. Algunos conceptos importantes.

 Población. Es la totalidad de los elementos con características comunes para un determinado


fin. Generalmente la población se representa por N.

 Población objetivo. Es el conjunto de unidades del que se desea realizar un análisis y tomar
alguna decisión. Este conjunto debe ser definido de tal forma que manera segura, si una
unidad específica pertenece o no a dicha población.

 El tamaño de la población. es la cantidad de elementos o unidades que constituye dicha


población, se presenta por N.

 Elemento muestral. Entendemos cada uno de los orígenes de la información o sucesos que
intentamos medir. Digamos que sería cada uno de los “elementos” de esa población.

 Unidad muestral. Es cada uno de los individuos o fuentes de la información que se pretende
medir, es decir, cada uno de los posibles componentes de la muestra.

 Marco muestral. Es una enumeración exhaustiva de todas las unidades muestrales. La


utilización del marco muestral tiene como finalidad la extracción de un conjunto de
unidades. Se define como lista de todas las unidades que componen la población objetivo.

 Alcance de una muestra. Viene determinado por las limitaciones que establezca el propio
investigador en la descripción del marco muestral. Es decir son los límites que pone el
investigador.

94
 Cantidad de muestras posibles tamaño “n”. Al calcular el tamaño de la muestra podemos
determinar la cantidad de muestras de ese mismo tamaño que podrían extraerse de la
Población N. Esa cantidad se calcula a través de la siguiente expresión:

Haciendo el mismo calculo dentro de cada estrato, sería:

M= CNn= N! / ( n! x (N=n)!)
Por Ejemplo: de una población de tamaño (N=10 elementos) se pueden obtener 210
combinaciones o muestras tamaño (n=4).

M= C10,4 = 10!/( 4! x (10 - 4)! )=210.

 Fracción de muestreo. Es la proporción de población que forma parte de la muestra. Es


justo la relación inversa. f =n / N

 Distribución de la muestra. hace referencia a las distintas muestras del mismo tamaño
extraídas de una misma población y la frecuencia con que los estimadores muestrales toman
el mismo valor.

 Factor de Expansión. Es la cantidad de elementos de la población que representa cada


elemento de la muestra. W=N / n.

 Encuesta por muestreo. Es la técnica de investigación a través de la cual se toman datos


sobre ciertas características de cada uno de los elementos de la población que forman
la muestra.

 Las ventajas de las encuestas por muestreo son:


 Reducción del tiempo
 Reducción de los costos y el uso de otros recursos
 Control del proceso
 Mayor calidad de los datos colectados

8.2. Tamaño de la muestra (n)

Una vez seleccionado el método de muestreo a utilizar se procederá al cálculo del tamaño de
la muestra. Es la cantidad de elementos de la población necesarios para hacer un análisis
estadístico que explique la situación de los elementos de la población de acuerdo a las
características de interés.

El tamaño de la muestra depende de:

 El porcentaje de fiabilidad o nivel de confianza deseado (ẞ)


 El error máximo permitido (e) ó (d).
 La varianza entre los elementos la población (σ2).
 El tamaño de la población (N).

95
 El detalle de los resultados de la muestra
 La disponibilidad de recursos (c).

En caso que la variable utilizada para calcular el tamaño de la muestra se mida a través de
una proporción, se usa las siguientes formulas.

Si la población es infinita, es decir se desconoce la cantidad de elementos de la población.

Ejemplo:

Se requiere determinar el tamaño de la muestra, para estudiar las características demográficas


de la población ocupada y desocupada en la provincia de Dajabón.

Si la proporción que trabaja es de p=0.76. Si el usuario principal de los resultados de la


investigación acepta error de muestreo es (e=d=6.4%) con un nivel de confianza ẞ=0.96, el
cual equivale a Z=2.05.

Usando la siguiente fórmula:

2
2,05 x 0.76 x (1-0.76)
n = ---------------------------- = 187.
2
0.064
Si la población es finita, es decir conocemos el total de la población y deseásemos saber
cuántas del total tendremos que estudiar la respuesta seria.

Donde:

 Z depende del nivel de confianza establecido (ẞ)


 N es el tamaño de la población
 p = proporción de casos que cumplen con la condición objetivo de la variable de
muestreo
 q = 1 – p es proporción de casos que no cumplen con la condición objetivo de la variable
de muestreo
 e= d = es el error de muestreo establecido, la diferencia máxima aceptado entre una
medida de muestra y su valor correspondiente en la población.

96
Ejemplo:

Se requiere determinar el tamaño de la muestra, para estudiar las características


demográficas de la población ocupada y desocupada en la provincia de Dajabón.

La población económicamente activa es N=23,586, la cual se obtuvo que la proporción que


trabaja es de p=0.76. Si el usuario principal de los resultados de la investigación acepta
error de muestreo es (e=d=6.4%) con un nivel de confianza ẞ=0.96, el cual equivale a
Z=2.05 en la tabla normal.
Aplicando la fórmula anterior:

2
23,586*2,05 *0.76*(1-0.76)
n = ------------------------------------------------- = 185.68 = 186 personas
2 2
0.064 *(23,586-1)+2.05 *0.76*(1-0.76)

En caso que la variable utilizada para calcular el tamaño de la muestra se mida a través de
un promedio, se usa la siguiente formula.
Si la población es finita, es decir se conoce la cantidad de elementos de la población.
Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula.

Donde:
 n = el tamaño de la muestra.
 N = tamaño de la población.
 σ2 = La varianza entre los elementos la población (σ2).
 Z = depende del nivel de confianza establecido (ẞ)
 e= d = es el error de muestreo establecido, la diferencia máxima aceptado entre una
medida de muestra y su valor correspondiente en la población.

Ejemplo: Usando como variable de muestreo el gasto diario de los hogares, que es una
variable continua, calcule el tamaño de la muestra requerido para un estudio de mercado.

Tamaño de población N Cantidad de hogares 256,000


Varianza del gasto diario de
Varianza σ2 = los hogares estimado 2,400,473.19
Gasto promedio diario de los
Promedio µ= hogares estimado 3,693.17
ꞵ=0.96 → Z= Nivel de confianza 2.05

97
Diferencia máxima permitida
entre el promedio resultante
Error =5% de µ→ e= de la muestra y el de la 184.66
población µ.
Tamaño de la muestra Cantidad mínima de hogares 256,000*2,400,473.19*2.052
a ser seleccionada para el
análisis n=――――――――――――――――=296
((256,000-1)*184.662 +2,400,473.19*2.052)

Valores de Z para distintos niveles de confianza.

Zα/2 ẞ α=1-ẞ Zα/2 ẞ α=1-ẞ


3.09 0.997 0.003 1.60 0.890 0.110
2.33 0.980 0.020 1.56 0.880 0.120
2.17 0.970 0.030 1.51 0.870 0.130
2.05 0.960 0.040 1.48 0.860 0.140
1.96 0.950 0.050 1.44 0.850 0.150
1.88 0.940 0.060 1.41 0.840 0.160
1.81 0.930 0.070 1.37 0.830 0.170
1.75 0.920 0.080 1.35 0.820 0.180
1.70 0.910 0.090 0.88 0.810 0.190
1.65 0.900 0.100

El error de muestreo o error muestral se calcula en base a la siguiente fórmula

8.3. Tipos de muestreos.

Tenemos dos tipos de muestreos, los probabilísticos y los no probabilísticos. Los muestreos
probabilísticos se basan en que cada elemento del universo o población tiene una probabilidad
conocida de formar parte de la muestra. Existen diversas modalidades.

8.3.1. Muestreos probabilísticos

8.3.1.1 Muestreo aleatorio simple.

Debemos conocer el tamaño de la muestra objeto de estudio y además disponer de una lista
completa de los individuos que forman parte de la población o universo. Se elegirá a los
individuos mediante un procedimiento estadístico.

8.3.1.2 Muestreo aleatorio sistemático.

Se necesita también una lista de la población (N) y el tamaño de la muestra (n) y se calcula el
coeficiente de elevación (k=N/n). Se selecciona aleatoriamente un miembro de la muestra y

98
se obtienen los demás seleccionando al individuo que se encuentra N/n posiciones después
del primero, repitiendo la operación hasta completar la muestra.

El primero elemento se toma de forma aleatoria entre 1 y k, el cual estará ubicado en la


posición i del listado, donde (1 ≤ i ≤ k).

Elemento Posición
1 1≤i≤k
2 i+k
3 i+2k
… …
n i+(n-1)k

8.3.1.3 Muestreo estratificado.

Se usa cuando se conoce la existencia de diversos grupos en la población que sean


representativos, y se quiere mantener una proporción en la muestra.

El criterio a seguir en la formación de los estratos será formarlos de tal manera que haya la
máxima homogeneidad en relación a la variable a estudio dentro de cada estrato y la máxima
heterogeneidad entre los estratos

Cuando de utiliza este tipo de muestreo, es necesario incluir el concepto de factor de expansión
(Wh). Este representa la cantidad de elementos del estrato “h” que representa cada elemento
de dicho estrato (nh).

Wh = N h / nh
Fracción de muestreo (fh) por estrato. Es la proporción de la cantidad de elementos del
estrato “h” que representa cada elemento de dicho estrato (nh).
f h = nh / N h
La cantidad de muestra posibles tamaño nh en cada estrado Nh sería.
Nh !
CnNh h 
nh ! N h  nh  !
Distribución de la muestra general entre los distintos estratos
Una vez calculado el tamaño de la muestra, se procede a su distribución entre los diferentes
grupos o estratos identificados; el proceso se llama afijación. Veamos tres tipos de afijación.
 Afijación simple. Reparto a partes iguales de la muestra entre el número de estratos
conocidos, donde nh= n /L, siendo el número de estratos.
/
 Afijación proporcional. Reparto de la muestra entre los estratos de forma proporcional
al tamaño de los mismos. Donde nh=Nh / N x n

99
El número de elementos muestrales de cada estrato es directamente proporcional al tamaño
del estrato dentro de la población.

En el caso específico de la afijación proporcional se dice que la muestra es


autoponderada, porque cada submuestra representa en la muestra general la misma
proporción que la que representa su correspondiente estrato en la población.

 Afijación óptima.

Si se conoce la variabilidad de la característica o variable de muestreo en cada estrato la


muestra se distribuye entre los estratos de la siguiente manera:

El tamaño de la muestra de cada estrato viene dado por:

En este caso se elige nh de forma que minimicen la varianza. El costo viene dado por ch,
el cual representa el costo promedio por unidad en cada estrato h.

Distribución de la muestra (n) por estratos.


L es la cantidad de estratos.
Pobla Estratos Muestra por estratos (Afijación)
-ción h Nh Simple Proporcional Optima
1 N1 n1= n/L n1= N1/N x n n1= n x N1 S1 / ƩNh Sh
2 N2 n2= n/L n2= N2/N x n n2= n x N2 S2 / ƩNh Sh
N 3 N3 n3= n/L n3= N3/N x n n3= n x N3 S3 / ƩNh Sh
… … … … …
L NL nL= n/L nL= NL/N x n nL= n x NL SL / ƩNh Sh
Total N n n N

Es necesario estimar la varianza S2h de la variable de maestreo en cada estrato.

8.3.1.4 Muestreo por conglomerados.

Consiste en la selección aleatoria de los grupos o conglomerados de unidades muestrales.


Luego dentro los conglomerados seleccionados se dividen e grupos de unidades a una
menor escala, y después se seleccionan otros subgrupos más pequeños, hasta llegar a la
sección de las unidades mínimas, de las cuales se escogen los elementos a que se les
aplican las entrevistas o se toman los datos requeridos para el análisis.

100
El siguiente esquema muestra este proceso de manera gráfica. La población (N) está
dividida en 16 conglomerados identificados de la A a la P y cada uno subdividido en 4
segmentos (círculos), y los círculos están compuestos por los puntos que representan los
individuos que pueden ser hogares, personas u otros elementos simples de análisis.

Por Ejemplo:

Primea se seleccionaron aleatoriamente las áreas o conglomerados C, F, H, J, K, N y P. Luego


dentro de los conglomerados seleccionados se tomaron los subgrupos que aparecen en los
círculos:
C →2 y 4 K →1 y 2
F →2 y 3 N →2 y 4
H →1 y 4 P→3 y 4
J→3 y 4
Y finalmente dentro de cada círculo se seleccionaron aleatoriamente los individuos, que
aparecen representados por los puntos. Por lo estos puntos se seleccionan usando un muestreo
sistemático o aleatorio simple dentro de cada circulo.

Otro Ejemplo:

El país está dividido por regiones, las regiones en provincias y las provincias en municipios,
los municipios en urbano y rural, la zona urbana en barrios y la rural en secciones y parajes.
Tanto los barrios como los parajes se dividen en UPM’s.

101
En este cado la aplicación del muestro por conglomerados consiste en primero, seleccionar en
cada región las provincias que la representan para hacer el estudio. Luego dentro de las
provincias seleccionadas se escogen aleatoriamente o por un criterio de importancia, los
municipios a incluir en dicho estudio, en esos municipios escogidos se toman los barrios de
la zona urbana y en la rural las secciones y parajes, y por último de manera al azar se
seleccionan los UPM’s que en mayoría de los casos son los segmentos censales que ha
establecidos la Oficina Nacional de Estadística.

En este procedimiento se debe establecer y asegurar la participación de todas las áreas


geográficas hasta donde se requiere la representatividad de la muestra general.

8.3.1.5 Características de los tipos de muestreos probabilísticos

Tipo de
Características Ventajas Inconvenientes
muestreo
Aleatorio simple  Se selecciona una muestra de Sencillo y de fácil Requiere de un listado de
tamaño n de una población de comprensión. todos los elementos de la
N unidades, cada elemento Es uno de los más población.
tiene una probabilidad de precisos, en términos de
inclusión n/N. los errores de muestreo
Sistemático  Un listado de los N elementos Fácil de aplicar. Requiere de un listado de
de la población Asegura una cobertura de todos los elementos de la
 Determinar la muestra n. los elementos de cada uno población.
 Calcula k = N/n. de los “n” subgrupos. Los resultados pueden ser
 Elegir un número aleatorio “i”, afectados por algún
entre 1 y k. ordenamiento de los
 Seleccionar los elementos de elementos en el listado.
la lista usando la formula
i+(i-1)k.
Estratificado  Dividir la población en Asegura que la muestra Se ha de conocer la
estratos represente a la población distribución en la
 Se requiere conocer la en cada uno de los grupos. población por las variables
composición de la población. utilizadas para la
La muestra de distribuye entre estratificación.
los distintos estratos definidos.
 Los estratos deben ser
internamente homogéneos, y
externamente heterogéneos.
Conglomerados  Se realizan varias etapas de Es muy eficiente cuando la El error estándar es mayor
muestreo sucesivas población es muy grande y que en el muestreo
 La necesidad de listados de las dispersa. aleatorio simple o
unidades de las etapas No es preciso tener un estratificado.
principales. listado de toda la El cálculo del error
 Se requiere del auxilio de otros población, sólo para las estándar es complejo.
tipos de muestreo para principales etapas.

102
seleccionar los elementos El costo por unidad
requeridos en cada etapa. muestral es menor que en
otros tipos de muestreo.

8.3.1.6 Fórmulas estadísticas de mayor uso en los muestreos probabilísticos.

8.3.2. Muestreo no probabilísticos

Los métodos de muestreo no probabilísticos no garantizan la representatividad de la muestra,


por lo tanto no permiten realizar inferencias sobre la población.

Es aquel utilizado en forma empírica, es decir, no se efectúa bajo normas probabilística de


selección, por lo que sus procesos intervienen opiniones y criterios personales del investigador
103
o muestrista o no existe norma bien definida o validada. Normalmente se acude a este tipo de
muestreo cuando es difícil enumerar, listar o precisar el universo objeto de estudio o cuando
no existen registros de los datos.

Los métodos de muestreo no probabilísticos no garantizan la representatividad de la muestra


y por lo tanto no permiten realizar inferencias sobre una medida en la población completa.

Son procedimientos de selección de los elementos donde se desconoce la probabilidad que


tienen los elementos de la población para integrar la muestra, o por conveniencia y las
características del análisis, se requiere la participación de elementos específicos en la muestra.

8.3.2.1 Muestreo causal o accidental.

Es un procedimiento que permite elegir arbitrariamente los elementos sin un juicio o criterio
preestablecido. Por Ejemplo: la gente que circula por determinada calle a una hora especifica
del día, los visitantes que acuden a un museo en un determinado lapso, etc.

8.3.2.2 Muestreo intencional.

En este caso los elementos son escogidos con base en criterios o juicios preestablecidos por
el investigador. Ejemplo: Para un estudio sobre calidad de la educación, previamente, se
establecen como criterios de selección de la muestra poseer mínimo de 20 años de experiencia
en el campo educativo los siguientes: Haber ocupado un cargo directivo

8.3.2.3 Muestreo por cuotas.

Consiste en dividir a la población bajo estudio en subgrupos o cuotas según ciertas


características: edad, sexo, estado civil, etc. Por Ejemplo: 30 hombres y 50 mujeres, 45
hombres mayores de 25 años; 40 mujeres divorciadas desde hace más de 5 años, etc.

Se trata de fijar un conjunto de condiciones que deben cumplir los individuos para entrar a
formar parte de la muestra.

8.3.2.4 Muestreo bola de nieve.

Particularmente útil cuando se muestrean poblaciones cuyos componentes, por motivos


morales, ideológicos, legales o políticos tienen a ocultar su identidad. A partir de unos pocos
individuos el entrevistador, con ayuda de los primeros va “conociendo” a nuevos miembros
de la muestra.

8.3.2.5 Muestreo de juicios.

En este muestreo accedemos a expertos en la materia para que nos ayuden en la determinación
de una muestra representativa.

 Muestreo no probabilísticos
 Las unidades no tienen igual probabilidad de participar en la muestra.

104
 No se puede calcular el error muestral
 Alto riesgo de invalidar

105
IX. Métodos de Estimaciones

9.1. Concepto de estimación

Se refiere a medidas o indicadores resultantes de datos maestrales. Si los datos


corresponden a todos los elementos de la población las medidas resultantes de ellos se
llaman parámetros.

9.2. Características de un estimador:

 Insesgado es una estadística muestral cuyo valor esperado es igual al parámetro por
estimar.
 Imparcial. un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar
valores con la misma frecuencia y la misma extensión por encima o por debajo del
parámetro de población que se está estiman.
 Eficiencia. Se refiere al tamaño del error estándar de la estadística. El de menor error
estándar o la menor desviación estándar de la distribución de muestreo.
 Coherencia. Se aproxima al valor del parámetro de la población a medida que aumenta
en tamaño de muestra.
 Suficiencia. Si utiliza una cantidad de información que adicionalmente ningún otro
estimador muestral podría extraer sobre el parámetro de la población que se está
estimando.
 Consistente. Su resultado mantiene una diferencia no significativa estadísticamente
entre una muestra y otra.

9.3. Tipos de estimación

9.3.1. Estimación puntual

Podemos hacer dos tipos de estimaciones concernientes a una población: una estimación
puntual y una estimación de intervalo.

Un estimador puntual es el valor numérico de una estadística muestral empleado para


estimar el valor de un parámetro de la población o proceso.

Ejemplo:

El ingreso promedio de los hogares dominicanos es µ=26,748 pesos.

9.3.2. Estimación por intervalo.

Es una expresión del rango en el cual se espera con cierto grado de probabilidad (ẞ) de
que este incluido el valor del parámetro que se pretende estimar. Se pueden obtener
estimaciones por intervalos para distintas medidas estadísticas, como la media aritmética,
una proporción, la varianza, o cualquier otra medida obtenido a través de una muestra,
para la cual se conozca su error estándar.

106
Esta se puede expresar de la forma (a < μ < b). Siendo a y b los límites inferior y superior
del intervalo, respectivamente.

Ejemplo:

El ingreso promedio de los hogares dominicanos oscila entre (23,698 ≤ µ ≤ 29,537) pesos.

9.3.3. Concepto de Intervalo de Confianza.

En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango


de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del
parámetro, con una probabilidad determinada.

La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo


construido se denomina nivel de confianza, y se denota β = 1-α. La probabilidad de
equivocarnos se llama nivel de significancia y se simboliza α.

Por lo general α varía entre (0.01< α < 0.10) y β varía entre (0.90< β < 0.99). Por lo tanto
β + α = 1.

Generalmente se construyen intervalos con un nivel de confianza 1- α =0.95 o con un nivel


de significancia α =0.05. Los intervalos conα =10% oα =1% son menos frecuentes.

Para construir un intervalo de confianza, se puede comprobar que la distribución Normal


Estándar en la cual se cumple que:

P (-1.96 < z < 1.96) = 0.95

Esto se puede comprobar con una tabla de probabilidades o un programa computacional


que calcule las probabilidades de una función normal.

Si una variable X tiene distribución normal N(µ,s), donde µ es el promedio y s es la


desviación estándar, en este caso se cumple que el 95% de las muestras tamaño n se
cumple:

También
_
-1.96 ≤ (X-X=ΣX
) / s ≤i 1.96
/n
El resultado es un intervalo de confianza que incluye alel 95% de las veces. Es decir, es
un intervalo de confianza al 95% para la media cuando la variable X es normal y es
conocido.

107
Despejando en la ecuación se tiene:

9.3.4. Intervalo de confianza para un promedio de la población

Generalmente, cuando se quiere construir un intervalo de confianza para la media


poblacional, la varianza poblacional es desconocida, por lo que el intervalo para
construido al final de II es muy poco práctico.

Si en el intervalo se reemplaza la desviación estándar poblacional por la desviación


estándar muestral, el intervalo de confianza toma la forma:

De lo cual se obtendrá el intervalo de confianza:

Si no se conoce y n es grande (habitualmente se toma n ≥ 30)

donde s es la desviación típica de una muestra

Haciendo operaciones es posible despejar para obtener el intervalo:

La cual es una buena aproximación para el intervalo de confianza de 95% para con
desconocido. Esta aproximación es mejor en la medida que el tamaño muestral sea grande.

Cuando el tamaño muestral es pequeño, el intervalo de confianza requiere utilizar la


distribución t de Student (con n-1 grados de libertad, siendo n el tamaño de la muestra),
en vez de la distribución normal (por Ejemplo:, para un intervalo de 95% de confianza,
los límites del intervalo ya no serán construidos usando el valor 1,96).

Ejemplo: 1:

Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de
depresión (mayor puntaje significa mayor depresión).

108
2 5 6 8 8 9 9 10 11
11 11 13 13 14 14 14 14 14
14 15 15 16 16 16 16 16 16
16 16 17 17 17 18 18 18 19
19 19 19 19 19 19 19 20 20

Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos


que los datos tienen distribución normal, con varianza poblacional desconocida. Como es
desconocido, lo estimamos por s2 =18.7, lo que seria los mismo una desviación estándar
s=4.3. La depresión promedio de las 45 personas es igual a 14.5. Luego, un intervalo de
confianza.

,siendo el intervalo de
confianza para el promedio de la población igual a 13.24 ≤ µ ≤ 15.76

Ejemplo: 2.

Supongamos que se plantea la hipótesis de que el promedio de peso de los niños al


momento de nacer es igual a la media nacional de 3,250 gramos.

Al tomar una muestra de 30 recién nacidos de la población en estudio, se obtuvo:

= 2,930
s= 450
n= 30

Al construir un intervalo de 95% de confianza para la media poblacional, se obtiene:

,lo que sería igual a 2,769≤ µ ≤ 3,091


El peso promedio de la población de niños al momento de nacer varía entre 2,769 y 3,091
gramos, con una confianza de 95%.

109
 Valores de Z para distintos niveles de confianza.

Zα/2 ẞ α=1-ẞ Zα/2 ẞ α=1-ẞ


3.09 0.997 0.003 1.60 0.890 0.110
2.33 0.980 0.020 1.56 0.880 0.120
2.17 0.970 0.030 1.51 0.870 0.130
2.05 0.960 0.040 1.48 0.860 0.140
1.96 0.950 0.050 1.44 0.850 0.150
1.88 0.940 0.060 1.41 0.840 0.160
1.81 0.930 0.070 1.37 0.830 0.170
1.75 0.920 0.080 1.35 0.820 0.180
1.70 0.910 0.090 0.88 0.810 0.190
1.65 0.900 0.100

9.3.5. Estimación por intervalos del valor medio en población normal.

Vamos a ilustrar el procedimiento de obtención de un intervalo de confianza, considerando


una población normal X con varianza desconocida, siendo el parámetro a estimar su valor
medio μ. Para ello se deberá disponer de:

 Una muestra aleatoria X1, X2 ,..., Xn de tamaño n extraída de la población X.


 Un estimador Θ del parámetro poblacional μ, que en este caso es la media muestral pero
que, debido al desconocimiento de la varianza de la población, tendremos que reemplazar
este último parámetro por la varianza muestral. El que emplearemos, relacionado con el
parámetro μ, será:

Este estadístico sigue una distribución t de Student con (n-1) grados de libertad.

El nivel de confianza 1- α, establecido a priori por el experimentador (los usuales son 0.95,
0.90 y 0.99).

Dada la distribución del estadístico y el nivel de confianza, se tiene la siguiente igualdad


probabilística:

110
La expresión anterior es equivalente a:

que hace referencia a que con una probabilidad 1- α el intervalo aleatorio

contendrá el valor medio μ . El intervalo es aleatorio ya que sus extremos se determinan a


partir de los estimadores media muestral y desviación típica muestral, tratándose de variables
aleatorias. La probabilidad a que se refiere dicho intervalo aleatorio, puede interpretarse de
manera informal pero quizás más clara:

"Si consideramos todas las muestras distintas de tamaño n que puedan ser extraídas de la
población X, y con las observaciones de cada una construimos los correspondientes intervalos,
según la estructura anterior, el (1-α)% de estos intervalos contendrán el parámetro μ".

Por tanto, si extraemos una muestra de tamaño n y con los datos u observaciones, x1, x2… ,xn,
calculamos los extremos del intervalo, dispondremos del concreto intervalo de confianza
para el parámetro μ .

que, en función de la interpretación informal anterior, contendrá dicho parámetro con un nivel
de confianza de (1-α)%

Ejemplo:

El promedio de consumo de la población en salud es estimó en base a una muestra de (n=27)


hogares, obteniéndose que en promedio gastan 1,767.63 pesos para satisfacer esa necesidad y
la desviación estándar resultante fue de 246.35 pesos. Se requiere determinar el intervalo de
confianza para el gasto promedio en salud de la población general, a un nivel de confianza
(ꞵ=0.93). O sea α=1 - ꞵ = 1 - 0.93=0.07.

111
α/2=0.07/2=0.035, gl=n-1=27-1=26 → t=2.056 la tabla de t de student
_ _
IC= X=ΣPM
- tα/2*Si*fi / n≤ µ ≤ X=ΣPM
/ √n i*f/i √n=
+ tα/2*S /n
1,767.63 – 2.056 x 246.35/√27 ≤ µ ≤ 1,767.63 +2.056 x 246.35/√27=
1,670.15 ≤ µ ≤ 1,865.10

El gasto promedio en salud de la población oscila entre 1,670.15 y 1,865.10 pesos


mensuales.

9.3.6. Intervalo de Confianza para una proporción.

En este caso, interesa construir un intervalo de confianza para una proporción o un porcentaje
poblacional (por Ejemplo:, el porcentaje de personas con hipertensión, fumadoras, etc.)

Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:

O bien:

El intervalo de confianza para estimar una proporción p, conocida una proporción muestral p
de una muestra de tamaño n, a un nivel de confianza del (1-α)100% es:

Donde p es el porcentaje de personas con la característica de interés en la población (o sea, es


el parámetro de interés) y p es su estimador muestral.
/
Luego, procediendo en forma análoga al caso de la media, podemos construir un intervalo de
95% de confianza para la proporción poblacional p.

Ejemplo: 3:

En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres mayores de


15 años en la Región Metropolitana, se encontró que el 17.6% eran hipertensas. Un intervalo
de 95% de confianza para la proporción de mujeres hipertensas en la Región Metropolitana
está dado por:

112
La proporción de personas hipertensas en la población oscila entre 0.139 ≤ P≤ 0.212. Con una
confianza de 95%.

9.3.7. Intervalo de Confianza para varianza y la desviación estándar poblacional.

Basado en los resultados de una muestra de elementos tomados de manera aleatoria de una
población, es posible determinar el intervalo de confianza de la varianza de la población, para
ello es necesario apoyarse en la distribución de probabilidad Chi Cuadrado.

Para ilustrar sobre este procedimiento se presenta el siguiente ejemplo:


Determinar el intervalo de confianza para la varianza con un nivel de significancia de 0.05.
Precios del alquiler de carros de transporte diario por compañías.

Compañía Precio Compañía Precio


Compañía A 1,495.00 Compañía I 1,379.00
Compañía B 1,671.00 Compañía J 1,557.00
Compañía C 1,375.00 Compañía K 1,417.00 S2 = 21,675.83
Compañía D 1,347.00 Compañía L 1,410.00 Usando la tabla Chi Cuadrado con gl=n-1 y
Compañía E 1,734.00 Compañía M 1,561.00 α=0.05,
Compañía F 1,285.00 Compañía N 1,396.00
Compañía G 1,668.00 Compañía O 1,675.00
Compañía H 1,671.00

(15-1) x 21,675.83 / 26.1 ≤ σ2≤ (15-1) x 21,675.83 / 5.63 =11,626.88 ≤σ2≤ 53,900.82

La varianza de la población del precio de alquiler de vehículos por empresa varia oscila
entre 11,626.88 y 53,900.82 pesos

113
X. Prueba de Hipótesis y sus aplicaciones

10.1. Conceptos básicos de Pruebas de Hipótesis

Hipótesis: enunciado acerca de una población elaborado con el propósito de ponerse a prueba.

Ejemplos de hipótesis acerca de un parámetro de población son:


 la media del ingreso mensual de los analistas de sistemas es $3625,
 el 20% de los delincuentes juveniles son capturados y sentenciados a prisión.

Conceptos Prueba de hipótesis: procedimiento basado en la evidencia muestral y en la teoría


de probabilidad que se emplea para determinar si la hipótesis es un enunciado razonable y no
debe rechazarse o si no es razonable y debe ser rechazado.

Hipótesis nula H0: afirmación acerca del valor de un parámetro poblacional.


Hipótesis alterna H1: afirmación que se aceptará si los datos muestrales proporcionan
evidencia de que la hipótesis nula es falsa.

Nivel de significancia: probabilidad de rechazar la hipótesis nula cuando es verdadera.

 Error Tipo I o error alfa: rechazar la hipótesis nula cuando en realidad es verdadera.
 Error Tipo II o error beta: aceptar la hipótesis nula cuando en realidad es falsa.

Estadístico de prueba: valor obtenido a partir de la información muestral, se utiliza para


determinar si se rechaza o no la hipótesis.

Valor crítico: el punto que divide la región de aceptación y la región de rechazo de la hipótesis
nula.

Una prueba es de una cola cuando la hipótesis alterna, H1, establece una dirección, como:

H0: el ingreso medio de las mujeres es menor o igual al ingreso medio de los hombres.
H1: el ingreso medio de las mujeres es mayor que el de los hombres.

Una prueba es de dos colas cuando no se establece una dirección específica de la hipótesis
alterna H1, como:

H0: el ingreso medio de las mujeres es igual al ingreso medio de los hombres.
H1: el ingreso medio de las mujeres no es igual al ingreso medio de los hombres.

10.2. Pasos básicos de la prueba de hipótesis con el método de valor crítico

Pasos para elaborar una Prueba de hipótesis son:

114
 Paso1.Formule la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0 es el valor
paramétrico hipotético que se compara con el resultado muestral. Se le rechaza sólo si es
poco probable que el resultado muestral haya ocurrido dado lo correcto de la hipótesis. La
hipótesis alternativa (H1) se acepta sólo si la hipótesis nula es rechazada. En muchos libros
de texto la hipótesis alternativa también se designa como H1.

Ejemplo: Un auditor desea probar el supuesto de que el valor medio de la totalidad de las
cuentas por cobrar de una empresa dada es de $260.00 tomando una muestra de n = 36 y
calculando la media muestral. El auditor desea rechazar el valor supuesto de $260.00 sólo
si es claramente contradicho por la media muestral, caso éste en el que el valor hipotético
recibiría el beneficio de la duda en el procedimiento de prueba. Las hipótesis nula y
alternativa de esta prueba son H0: µ = $260.00 y H1: µ ≠ $260.00.

 Paso 2. Especifique el nivel de significancia por aplicar. El nivel de significancia es el


estándar estadístico que se especifica para rechazar la hipótesis nula. Si se especifica un
nivel de significancia de 5%, la hipótesis nula se rechaza sólo si el resultado muestral es
tan diferente del valor hipotético que una diferencia por ese monto o un monto superior
ocurriría al azar con una probabilidad de 0.05 o menos.

Nótese que si se usa el nivel de significancia de 5%, hay una probabilidad de 0.05 de
rechazar la hipótesis nula aun siendo efectivamente cierta. Esto se llama error tipo I La
probabilidad del error tipo I siempre es igual al nivel de significancia empleado como
estándar para rechazar la hipótesis nula; se le designa con la letra griega minúscula a (alfa),
de modo que a designa también al nivel de significancia. Los niveles de significancia de
uso más frecuente en la prueba de hipótesis son los de 5% y 1%.

Ocurre un error tipo II si la hipótesis nula no se rechaza, y es por lo tanto aceptada, cuando
en realidad es falsa. La determinación de la probabilidad del error tipo II se explica. En la
tabla correspondiente se resumen los tipos de decisiones y las posibles consecuencias de
las decisiones tomadas en pruebas de hipótesis.

115
 Paso 3. Seleccione la estadística de prueba. La estadística de prueba será ya sea la
estadística muestral (el estimador insesgado del parámetro a prueba) o una versión
estandarizada de la estadística muestral. Por ejemplo, para probar un valor hipotético de la
media Poblacional, la media de una muestra aleatoria tomada de esa población podría servir
como la estadística de prueba. Sin embargo, si la distribución de muestreo de la media es
normal, el valor de la media muestral se convierte usualmente en un valor z, el cual funge
entonces como la estadística de prueba.

 Paso 4. Establezca el valor o valores críticos de la estadística de prueba. Habiendo


especificado la hipótesis nula, el nivel de significancia y la estadística de prueba por usar,
se establece entonces el(los) valor(es) crítico(s) de la estadística de prueba. Estos valores
pueden ser uno o dos, dependiendo de si están implicadas las así llamadas pruebas
unilaterales o bilaterales. En cualquier caso, un valor crítico identifica el valor de la
estadística de prueba requerido para rechazar la hipótesis nula.

 Paso 5. Determine el valor de la estadística de prueba. Por ejemplo, al probar un valor


hipotético de la media Poblacional, se recolecta una muestra aleatoria y se determina el
valor de la media muestral. Si el valor crítico fue establecido como un valor z, la media
muestral se convierte a un valor z.

 Paso 6. Tome la decisión. El valor observado de la estadística muestral se compara con el


valor (o valores) crítico(s) de la estadística de prueba. Se rechaza o no entonces la hipótesis
nula. Si la hipótesis nula es rechazada, se acepta la hipótesis alternativa. Esta decisión
tendrá relevancia a su vez para otras decisiones por tomar por los gerentes de operación,
como la de si se está sosteniendo o no cierto estándar de desempeño o cuál de dos
estrategias de comercialización seguir.

10.3. Tipos de pruebas de hipótesis

10.3.1. Prueba de hipótesis unilateral o de una Cola.

En este caso la hipótesis nula y la alternativa se plantean de la siguiente manera:

H0: ≤
H1: >

Donde el nivel de significación α se toma completo sin dividirlo entre dos.

116
10.3.2. Prueba de hipótesis bilateral o de dos Colas.

En este caso la hipótesis nula y la alternativa se plantean de la siguiente manera:

H0: =
H1: ≠

Donde el nivel de significación α se divide entre dos.

10.3.3. Prueba para la media Poblacional

 Muestra grande, desviación estándar poblacional es conocida

Cuando se hace una prueba para la media Poblacional de una muestra grande y se conoce la
desviación estándar, el estadístico de prueba está dado por:

Los fabricantes de Fries’ Catsup indican en su etiqueta que el contenido de la botella es de 16


onzas. Cada hora se toma una muestra de 36 botellas y se pesa el contenido. La muestra de la
última hora tiene un peso promedio de 16.12 onzas con una desviación estándar de 0.5 onzas.
¿Está el proceso fuera de control para un nivel de significancia de 0.05?

Paso 1: establezca la hipótesis nula y alterna

Como se plantean las hipótesis indica que la prueba es bilateral

Paso 2: En base al nivel de significación establecido, se determina el valor de Zt en la tabla


normal.

ᾳ=0.05
ᾳ/2=0.05/2=0.025
ꞵ=1- ᾳ/2 = 1-0.05/2 = 0.97500.  Zt=1.96 en la tabla normal

Paso 3: Calcule el valor del estadístico de prueba:

117
Paso 4: Establezca la regla de decisión:

Paso 5: Se acepta H0 porque, debido a que Zc=1.44 es menor que el valor crítico Zt=1.96

 Para una muestra grande, desviación estándar poblacional desconocida

Aquí σ es desconocida, así que se estimará con la desviación estándar de la muestras.

Siempre que el tamaño de muestra n >30, Z puede aproximarse con:

Ejemplo:

La cadena Roder’s Discount emite su propia tarjeta de crédito. Lisa, la gerente de crédito,
quiere encontrar si la media mensual de saldos no pagados es mayor que $400. El nivel de
significancia es de 0.05. Una revisión al azar de 172 saldos reveló que la media muestral es
$407 y la desviación estándar muestral es $38. ¿Debe Lisa concluir que la media de población
es mayor que $400, o es razonable suponer que la diferencia de $7 ($407-$400) se debe al
azar?

Paso 1: Planteo de las hipótesis

Como se plantean las hipótesis indica que la prueba es unilateral

Paso 2: En base al nivel de significación establecido, se determina el valor de Zt en la tabla


normal.

ᾳ=0.05
ꞵ=1- ᾳ = 1-0.05 = 0.95000.  Zt=1.645 en la tabla normal

Paso 3: Calcule el valor del estadístico de prueba:

Paso 4: Establezca la regla de decisión:

Paso 5: Se rechaza H0 porque, debido a que Zc=2.42 es mayor que el valor crítico Zt=1.645.

118
Se puede concluir que la media aritmética de saldos no pagados en la población es mayor de
$400.

 Prueba de hipótesis para comparar los promedios de dos poblaciones.

Para determinar si existe diferencia estadísticamente significativa en las medias aritméticas de


dos poblacionales, en base a dos muestras seleccionadas de sendas poblaciones. En este caso
ambas muestras son grandes y se desconocen las desviaciones estándares de cada una.

El estadístico de prueba es:

Ejemplo:

Se realizó un estudio para comparar los años promedio de servicio de quienes se retiraron en
1979 con los que se retiraron el año anterior en Delong Manufacturing Co. Con un nivel
de significancia de 0.01 ¿podemos concluir que los trabajadores que se retiraron el año pasado
trabajaron más años según la siguiente muestra? Nota: sea población #1= año anterior.

Paso 1: Planteo de las hipótesis

Como se plantean las hipótesis indica que la prueba es unilateral

Paso 2: En base al nivel de significación establecido, se determina el valor de Zt en la tabla


normal.

ᾳ=0.01
ꞵ=1- ᾳ = 1-0.01 = 0.99000.  Zt=2.33 en la tabla normal

Paso 3: Calcule el valor del estadístico de prueba:

119
Paso 4: Establezca la regla de decisión:

Paso 5: Como Zc = 6.80 > Zt=2.33, H0 se rechaza. Los empleados que se retiraron el año
anterior tenían más años de servicio que los que se retiraron el año 1979. La diferencia
observada entre el promedio de años de servicio de los empleados que se retiraron en el año
anterior a 1979 y los que se retiraron en ese año, es significativa estadísticamente.

 Prueba de hipótesis con variancia muestral combinada

La prueba de hipótesis para determinar si existe diferencia estadísticamente significativa entre


los promedios de muestras pequeñas, se basa en el procedimiento de variancia muestral
combinada. La cual se obtiene de forma ponderada de la siguiente manera:

Sean S12 y S22 las varianzas de la variable de análisis y las n 1 y n2 el tamaño de las muestras,
respectivamente.

En este caso el estadístico de prueba es la t de Student.

Ejemplo:

Un estudio EPA reciente compara la economía de combustible en carretera de los automóviles


nacionales e importados. Una muestra de 15 autos nacionales reveló una media de 33.7mpg
con desviación estándar de 2.4mpg. Una muestra de 12 autos importados indicó una media de
35.7mpg con desviación estándar de 3.9. Para 0.05 de nivel de significancia, ¿puede EPA
concluir que el consumo de las mpg para los autos importados es mayor? (Asocie el subíndice
1 con los autos nacionales.)

Paso 1: Planteo de las hipótesis

Como se plantean las hipótesis indica que la prueba es unilateral

120
Paso 2: En base al nivel de significación α establecido y los grados de libertad calculados
como n1 + n2 -2, se determina el valor de tt en la tabla t de Student.

gl = n1 + n2 - 2 = 12 + 15 – 2 =25.
ᾳ=0.05

tt = t(gl, α) =t(25, 0.05)=1.708 en la tabla t de Student

Paso 3: Calcule el valor del estadístico de prueba:

35.7 – 33.7
tc = =1.64
√(9.918 * (1/12+1/25))

(12-1) * 3.92 + (15-1) * 2.42


S2p= =9.918
12 + 15 -2

Paso 4: Establezca la regla de decisión:

Paso 5: Como tc = 1.64 < tt=1.708, H0 no se rechaza. Los automóviles nacionales tienen un
menor consumo de combustible en carretera que los importados.

 Pruebas de hipótesis con observaciones por pares

Las muestras independientes que no están relacionadas. Las muestras dependientes están
pareadas o relacionadas de alguna manera: Por ejemplo, si se desea comprar un auto se busca
el mismo modelo en dos (o más) distribuidores diferentes y se comparan los precios.

Use la siguiente prueba cuando las muestras son dependientes:

2
Sd = √Ʃ(di - ) / (n-1)

Ejemplo:

Una empresa independiente de pruebas estadísticas compara el costo diario de renta de un


auto compacto en Hertz y en Avis. Se obtiene una muestra aleatoria de ocho ciudades con la

121
siguiente información. Para 0.05 de nivel de significancia, ¿puede la empresa de pruebas
concluir que existe una diferencia en los costos de renta?

Cuidad Hertz $ Avis $ di ((di - )2


Atlanta 42 40 2 1
Chicago 56 52 4 9
Ccleveland 45 43 2 1
Denver 48 48 0 1
Honolulu 37 32 5 16
Kansas City 45 48 -3 16
Miami 41 39 2 1
Seatle 46 50 -4 25
Total 8 70
n= 8
1.00
S2(di) ______ 10
S(di)=√ S2(di) 3.162

Paso 1: Planteo de las hipótesis

Paso 2: Con el nivel de significación α=0.05 y n-1 gl =8-1=7, valor de tt =2.365 en la tabla t
de Student.

Paso 3: Calcular el estadístico de prueba

tc = 1.00 / (3.162 /√8)=0.89

Paso 4: Regla de decisión

Paso 5: H0 no se rechaza. No existe diferencia significativa entre el costo diario de renta de


autos compactos de Hertz y Avis; a un nivel de significación de 0.05. Debido a que le valor
de tc es menor que tt.

10.3.4. Pruebas respecto a relaciones proporcionales

 Diferencia entre la proporción de la población y la de una muestra

Relación proporcional: parte fraccional o porcentaje que indica la parte de la población o


muestra que tiene un atributo particular de interés.

122
La relación proporcional muestral se representa por `R donde

Estadístico de prueba para ensayos con una sola relación proporcional de población

Ejemplo:

En el pasado, 15% de la propaganda por correo para donativos dio como resultado
contribuciones. Se mandó una nueva carta a una muestra de 200 personas y 45 enviaron un
donativo. Para 0.05 de significancia, ¿se puede concluir que la nueva carta fue más efectiva?

Paso 1: Establecer H0 y H1

Por el planteamiento de las hipótesis es una prueba unilateral.

Paso 2: Con α=0.05, valor de zt = 1.645 en la tabla normal.

Paso 3: Calcular el estadístico de prueba

Paso 4: La decisión.
Paso 5: Como zc = 2.97 >zt=1.645, H0 se rechaza. En envío de la nueva carta fue más efectivo
que el resultado obtenido en el pasado.

 Diferencia entre dos relaciones proporcionales de población

El estadístico de prueba en este caso es:

123
Ejemplo:

¿Es más probable que los trabajadores solteros falten más que los trabajadores casados?

Una muestra de 250 trabajadores casados indicó que 22 faltaron más de 5días el año pasado,
mientras que una muestra de 300 trabajadores solteros indicó que 35 faltaron más de 5 días.
Utilice 0.05 de nivel de significancia.

Nota: sea población #1 = trabajadores solteros.

Paso 1: H0: P1 = P2 H1: P1≠ P2

Por el planteamiento de las hipótesis la prueba es bilateral.


Paso 2: con α =0.05  valor de Zt = 1.96 en la tabla normal

p2 = 22/250= 0.09

= p1 = 35/300= 0.12

pc = (35+22) / (300+250) = 0.10

0.12 - 0.09
zc = 0.10x(1-0.10) + 0.10x(1-0.10) = 1.10
300 250

Paso 4: H0 no se rechaza.

Paso 5: Como Zc=1.10< Zt=1.96, indica que no existe diferencia estadísticamente significativa
entre la proporción de trabajadores casados y solteros que faltan más de 5 días al trabajo al
año, a un nivel de significación de 0.05.

10.3.5. Contraste sobre el cociente de dos varianzas

 Distribución F de Snedecor

La distribución F de Snedecor aparece en los contrastes asociados a comparaciones entre


las varianzas de dos poblaciones normales. El objetivo básico consiste en determinar si la

124
diferencia entre las dos varianzas es estadísticamente significativa a un nivel de
significación dado.

Si (X1, X2,..., Xm) y (Z1, Z2,..., Zn) son m+n variables aleatorias normales independientes de
media =0 y varianza , la variable

tiene una distribución Fm,n de Snedecor de m y n grados de libertad.


Se realizan dos muestras aleatorias simples de tamaños n y m a dos Poblaciones normales
independientes, y , de medias desconocidas.
Se trata de contrastar la hipótesis nula

H0: las varianzas de ambas poblaciones son iguales: frente a la alternativa:

H1: las Poblaciones tienen diferentes varianzas: . Para ello se hará uso del
estadístico
Fc = S2(mayor) / S2(menor)con
 Gl del numerador (n1-1)
 Gl del denominador (n2-1)
 α= que es el nivel de significación establecido,

Se distribuye como una Fn-1, m-1 de Snedecor.


Ejemplo 1:

125
Para resolver este ejercicio se utilizará un nivel de significación α=0.05.

Paso 1: Establecer H0 y H1

H0: S21 = S22


H1: S21 ≠ S22

Paso 2: Con α=0.05, con Gl1=n1-1=43-1=42 y Gl2=n2-2=54-1=53, el valor de Ft = 1.65 en la


tabla F de Fisher.

Paso 3: Calcular el estadístico de prueba

Fc = S21 / S22= 446,702.59 / 388,319.13 = 1.15

Paso 4: Regla de decisión

Paso 5: Como Fc=1.15 < Ft=1.65 indica que la diferencia observada entre la varianza del gasto
diario de los hogares de la región Santo Domingo y el Este, y la varianza del gasto diario de
los hogares de la región Cibao y Sur, no es estadísticamente significativa, a un nivel de
significación α=0.05.

Ejemplo 2:

Una empresa de remesas tiene la intención crear un establecimiento en Santiago y otro en


Santo Domingo, con la finalidad de recibir y enviar dinero desde y otros países de personas
que residen en el extranjero y de los que residen en este. Para ello se tomaron dos muestras de
las personas que reciben o envían dinero. Y se requiere determinar si existe diferencia
estadísticamente entre las varianzas ambas muestras, con un nivel de significación de α=0.05.
Los resultados son los que aparecen a continuación:

S22= 51,194,411.41
n2= 32
2
S 1= 52,412,352.97
n1= 36

H0: S21 = S22 Conclusión:


H1: S21 ≠ S22 Como Fc < F(n1-1, n2-1 y α=0.05) indica que
no se evidencia una diferencia
α=0.05 estadísticamente significativa entre la
Gl1=n1-1=36-1=35 varianza de las remesas de Santiago y las de
Gl2=n2-1=32-1=31 Santo Domingo. Por lo tanto se puede
F(n1-1, n2-1 y α=0.05)= 1.77 en la tabla F. aplicar la misma estrategia en ambas
ciudades.
Fc= S21/ S22 = 52,412,352.97 / 51,194,411.41 =1.02.

126
10.3.6. Distribución Chi Cuadrado

Decimos que una variable aleatoria se distribuye ji-cuadrado con n grados de libertad
cuando sigue la misma distribución que la suma de n variables aleatorias normales (0,1)
elevadas al cuadrado, independientes
n
 2   zi2
i 1

Grados de libertad: Los grados de libertad pueden ser interpretados como el número de
valores de la muestra que pueden ser fijados arbitrariamente y su cuantificación depende
del número de variables o del tamaño de la muestra .Una muestra de tamaño n tienen-1
grados de libertad.

Para tamaños grandes de la muestra la distribución ji-cuadrado puede aproximarse a una


normal mediante la expresión

2  2  2n  1  N (0,1)

Las pruebas Chi-Cuadrada de independencia y de bondad de ajuste se usan para detectar


diferencias de grupos usando valores de frecuencia (números).

 Diferencia entre la varianza muestral y la varianza Poblacional .

Muchas veces se requiere determinar si existe diferencia estadísticamente significativa entre


la varianza (s2) de la muestra y la de la población.

Donde σ02 es la varianza de una variable de la población y s2 es la varianza de la muestra y


n el tamaño de la muestra. El procedimiento es el siguiente:
H0: S2= σ02
H1: S2≠ σ02

α=0.05 es el nivel de significación


gl=n-1 son los grados de libertad

Ejemplo: Una empresa requiere determinar si existe diferencia estadísticamente significativa


entre la varianza (σ2=59.72) del tiempo de servicio de todos sus empleados y la varianza
(S2=74.97) resultante de una muestra (n=26) empleados seleccionados aleatoriamente para
trabajar en un proyecto especializado. Los datos básicos son los siguientes:
127
χ2 (n-1, α=0.05) = χ2 (26-1, α=0.05) = χ2(25, α=0.05) =37.7 en la tabla χ2

gl = n-1 = 26 -1=25
χ2(c) = (n-1) S2 / σ2 =(26-1) x 74.97 / 59.72=31.38

Como χ2 (26-1, α=0.05) > χ2(c), se acepta la hipótesis H0, indicando que la varianza del tiempo de
servicio de todos los trabajadores de la empresa es no diferente a la varianza del tiempo de
servicio de los empleados seleccionados en la muestra, a un nivel de significación de 0.05.

 Test de bondad de ajuste.


Consideramos una población y el carácter X que presenta las siguientes modalidades x 1, x2,
..xk excluyentes con sus respectivas probabilidades p 1, p2, ....., pk. Tenemos una muestra de
tamaño n en la que observamos el carácter X y nos planteamos hasta qué punto esta muestra
se puede considerar como perteneciente a una población con una distribución teórica ya
conocida.

Independientemente de la distribución teórica que consideremos siempre existirán diferencias


entre los valores teóricos esperados y los valores observados. El problema está en saber en
qué medida dichos valores son debidos al azar o a que los datos no se ajustan a la distribución
teórica considerada.

Las oi o las fo se denominan frecuencias observadas


Las ei o las ft se denominan frecuencias esperadas

Ejemplo: Las Oi representan la distribución de los visitadores al psicólogo la primera vez, y


las Ei representan la misma distribución pero luego de aplicarle el tratamiento para bajar el
peso corporal.
Peso corporal Oi Ei (Oi-Ei) (Oi-Ei)2 (Oi-Ei)2/Ei
< 40 8 4 4 16 4.0000
40 a 50 6 5 1 1 0.2000
50 a 60 7 8 -1 1 0.1250
60 a 70 10 11 -1 1 0.0909
70 a 80 6 8 -2 4 0.5000
80 a 90 9 10 -1 1 0.1000
Total 46 46 χc2= 5.0159
χt con gl=fila-1=6-1=5 y α =0.025 =12.83 en la tabla Chi
2

Cuadrado
Comparando el valor de nuestra estadística de prueba (χ2c=5.0159) con el valor de χ2t de gl=5
y α =0.025 que es igual a 12.83.

128
Como ꭓ2c=5.0159 < ꭓ2t 12.83, se acepta la hipótesis nula, diciendo que no hubo cambio en la
distribución de los pacientes de acuerdo a su peso corporal antes y después del tratamiento
establecido por el psicólogo.

 La prueba chi-square de independencia.

Permite ver si la frecuencia de los casos que representan una característica varían entre
niveles de un factor dado o entre combinaciones de niveles de dos o más factores. En tales
situaciones, la prueba apropiada es la prueba chi-cuadrada de bondad de ajuste o la prueba
chi-cuadrada de independencia de los k grupos.

Para realizar la prueba de chi-cuadrada, se toman en cuentas las frecuencias observadas


correspondientes a las combinaciones de niveles de factores relevantes. Luego se calculan
las sumas de los elementos dentro de los renglones y dentro de las columnas. Se usa para
probar la hipótesis nula de que la frecuencia dentro de las celdas es la esperada.

La chi-cuadrada para la bondad de ajuste se usa para probar la hipótesis de que la muestra
total n se distribuye de manera uniforme entre todos los niveles del factor relevante.

Si Oij es la frecuencia observada y Eij la frecuencia esperada para la celda correspondiente


a la iva condición y el jvo grupo, la chi-cudarada es:

Si hay un sólo factor opera la misma fórmula, con un sólo i ó j. Arreglos de más dimensiones
son posibles; se basan en el mismo principio y en la misma fórmula, aunque implican
muchas sumas internas.

El estadístico se distribuye como una con (Cols - 1)(Filas - 1) grados de libertad y a un


nivel de significación α.

129
Ejemplo: Se requiere determinar si existe una relación estadísticamente significativa entre
la asignatura de mayor destreza del padre y la de mayor destreza del hijo-estudiante. Usando
un nivel de significación α=0.05.

Hijos y padres según asignatura de mayor destreza.


Oij
Asignatura de Asignatura de mayor destreza de hijo
mayor destreza Mate- Ciencias Ciencias Total
Lenguaje Idiomas Negocios
padres mática Naturales sociales
Matemática 18 21 9 16 22 21 107
Lenguaje 17 10 22 10 16 23 98
Ciencias Naturales 8 16 19 21 16 24 104
Ciencias sociales 17 12 13 16 9 21 88
Idiomas 21 20 18 8 13 19 99
Negocios 23 15 8 8 18 10 82
Total 104 94 89 79 94 118 578
Eij = Ei. x E.j / ƩƩOij
Asignatura de Asignatura de mayor destreza de hijo
Mate- Ciencias Ciencias Total
padres mática
Lenguaje
Naturales sociales
Idiomas Negocios
Matemática 19.25 17.40 16.48 14.62 17.40 21.84 107.00
Lenguaje 17.63 15.94 15.09 13.39 15.94 20.01 98.00
Ciencias Naturales 18.71 16.91 16.01 14.21 16.91 21.23 104.00
Ciencias sociales 15.83 14.31 13.55 12.03 14.31 17.97 88.00
Idiomas 17.81 16.10 15.24 13.53 16.10 20.21 99.00
Negocios 14.75 13.34 12.63 11.21 13.34 16.74 82.00
Total 104.00 94.00 89.00 79.00 94.00 118.00 578.00
2
(Oij-Eij) / Eij
Asignatura de Asignatura de mayor destreza de hijo
Mate- Ciencias Ciencias Total
padres mática
Lenguaje
Naturales
Idiomas Negocios
sociales
Matemática 0.08 0.74 3.39 0.13 1.22 0.03 5.60
Lenguaje 0.02 2.21 3.16 0.86 0.00 0.45 6.71
Ciencias Naturales 6.13 0.05 0.56 3.24 0.05 0.36 10.39
Ciencias sociales 0.09 0.37 0.02 1.31 1.97 0.51 4.28
Idiomas 0.57 0.94 0.50 2.26 0.60 0.07 4.94
Negocios 4.61 0.21 1.70 0.92 1.63 2.71 11.77
Total 11.50 4.53 9.33 8.72 5.46 4.14 43.69

H0: La asignatura de mayor destreza de hijo es independiente de la de su padre


H0: La asignatura de mayor destreza de hijo no es independiente de la de su padre

Gl=(Filas – 1)(Columnas – 1)=(6-1)(6-1)=25


Un nivel de significación α=0.05.
El valor de χ2t = 34.4 en la tabla chi-cuadrado

130
El valor de la chi-cuadrado χ2c=ƩƩ(Oij-Eij)2 / Eij =43.69

Como el valor de χc2 =43.69 > χt2 = 34.4 significa que existe relación entre la asignatura
donde el padre tiene mayor destreza y la del hijo. O sea, la asignatura donde el padre tiene
mayor destreza no es independiente de la del hijo.

131
XI. Análisis de regresión y correlación

11.1. Análisis de regresión

El análisis de regresión determina la relación o la dependencia entre una o varias variables


independientes con una dependiente y permite realizar la correspondiente predicción.

La idea es expresar esta relación mediante una expresión matemática, hallando una ecuación
que explique dicha relación entre las variables independientes y la dependiente.

El elemento crítico consiste en encontrar un modelo que represente esa relación de mejor
manera posible.

Por ejemplo en qué manera incide el ingreso familiar sobre el gasto del hogar. Se sabe que el
gasto depende del ingreso, sin embargo el análisis de regresión sirve para medir
matemáticamente esa dependencia.

 Diagrama de dispersión
Talla Peso
4.47 163.00
5.86 178.00
4.97 170.00
6.80 201.00
4.24 140.00
5.80 183.31
6.30 189.00
4.34 155.33
4.83 158.00
5.06 193.00

Diagrama de dispensión

200.00
Peso en libras

180.00

160.00

140.00

120.00
4.00 4.50 5.00 5.50 6.00 6.50 7.00
Talla (pies)

132
Existen distintos tipos de regresión:

 Regresión lineal simple →Y = a + bX


 Regresión no lineal simple →Y = a + b2x o también Y=a+bX2
 Regresión lineal múltiple →Y = a + b1X1 + b2 X2 + b3X3 +… + bnXn
 Regresión no lineal múltiple →Y = a + b1X1 + b2 X22 + b3 log(X3) +… + bnXn

Cualquier coeficientes ꞵk ó bn de un modelo de regresión pueden variar desde (-∞< ꞵk<∞).

 Si resulta ꞵk=0 indica que la variable independiente o predictora no tiene influencia sobre
la dependiente.
 Si resulta ꞵk<0 indica que la variable independiente o predictora tiene una influencia
negativa sobre la dependiente.
 Si resulta ꞵk>0 indica que la variable independiente o predictora tiene una influencia
positiva sobre la dependiente.
 Si resulta ꞵ0=0 o a=0 indica que el modelo o ecuación de regresión atraviesa por el punto
(x=0,y=0) o por el origen de un plano o sistema cartesiano

11.1.1. Análisis de regresión simple

Y = a + b*X

 Diagrama de dispersión

El diagrama de dispersión o gráfica de dispersión o gráfico de burbujas gráfico de bolas se


utiliza para mostrar el tipo de relación que existe entre los valores de dos variables de dos
variables cuantitativas. Es un gráfico de puntos en base a los cuales se observa el
comportamiento de una variable con respecto a otra. Por ejemplo: si se quisiera ver cómo
cambia el peso del cuerpo en función de la talla o estatura.
Persona Talla Peso Diagrama de dispensión
1 4.47 163.00
200.00
2 5.86 178.00
Peso en libras

3 4.97 170.00 180.00


4 6.80 201.00
5 4.24 140.00 160.00
6 5.80 183.31 140.00
7 6.30 189.00
8 4.34 155.33 120.00
9 4.83 158.00 4.00 4.50 5.00 5.50 6.00 6.50 7.00
Talla (pies)
10 5.06 193.00

133
 Coeficientes del modelo de regresión lineal simple
Un modelo de regresión lineal simple, como este Y = a + b*X = ꞵ0+ꞵ1X, tiene dos parámetros
(a y b o ꞵ0 y ꞵ1).
Para determinar los valores (a y b), se procede de la siguiente manera:
 Se formula el sistema de ecuaciones

 Resolviendo el sistema se despejan los valores (a y b)

a
 y  x   x xy
2

b
n *  xy   x y
n *  x  ( x )
2 2
n *  x 2  ( x) 2

En una ecuación de regresión lineal simple Y = a + b*X.


 La variable “X” se le identifica como la variable independiente.
 La variable “Y” se denomina variable dependiente, la cual asume valores en función de la
X.
 El valor “a” expresa el valor que asume la variable Y cuando la X sea cero.
 El valor “b” indica la cantidad de unidades que incrementa la variable Y por cada unidad
que se incremente la variable X.
Emple- Horas Ingreso
ados extra Marginal
i X Y X*Y X2
1
2
4
8
22,915.00
17,890.00
91,660
143,120
16
64 a

y x 2  x xy 
3 5 20,113.00 100,565 25 
n * x 2  ( x) 2 
4 4 19,481.00 77,924 16
5 8 26,351.00 210,808 64 247,741 *685 - 85*1,797,686
6 7 18,462.00 129,234 49 a= ―――――――――――――`=
7 11 23,622.00 259,842 121 12*685 – 852
8 8 20,553.00 164,424 64
9 4 16,139.00 64,556 16 a=16,984.20
10 5 18,440.00 92,200 25
11 12 23,126.00 277,512 144 n *  xy   x y
b
12 9 20,649.00 185,841 81 n *  x 2  ( x) 2
Total 85 247,741.00 1,797,686 685
12*1,797,686 - 85*247,741
b= ――――――――――――― =
12*685 - 852

b=516.83

134
La ecuación resultante es Ŷ = a + b*X = 16,984.20 + 516.83X, lo que indica que cada vez
que se incremente una hora extra de trabajo el ingreso marginal de la empresa se incrementará
en 516.83 pesos.

11.2. El coeficiente de determinación

El coeficiente de determinación, mide la bondad del ajuste relativo del modelo o ecuación de
regresión. Indica la cantidad de variación de Y que se explica en la ecuación de regresión.
Desviación total de Y

Es la diferencia entre los valores observados y su promedio.

Desviación Total = y - ӯ

Desviación no explicada

Corresponde al Error o Residual y se define como la diferencia entre los valores observados
y los valores calculados a través de la ecuación de regresión:

Desviación no explicada = y - ŷ

Desviación Explicada

Corresponde ala diferencia entre los valores calculados a través de la ecuación de regresión y
el valor promedio de los valores observados.
Desviación explicada = ŷ - ӯ

Desviación Total = Desviación No Explicada + Desviación Explicada

( y  y )  ( y  yˆ )  ( yˆ  y )

Dentro de la teoría de los mínimos cuadrados, elevando al cuadrado cada una de las
desviaciones y sumando las correspondientes a los “n valores, se obtienen los siguientes
estadísticos:
a) SCT o suma de cuadrados total
 ( y  y) 2
b) SCE o suma del cuadrado del error
 ( y  yˆ ) 2
135
c) SCR o suma del cuadrado de la regresión
 ( yˆ  y ) 2
De lo cual, se cumple la relación:
SCT=SCE+SCR
El coeficiente de determinación R2 se calcula:
SCR SCE
R2  R2 1
SCT SCT

Este coeficiente toma valores entre: [0 y 1]

Si el valor de R2=0.75,indicaqueel75% delas variaciones, son explicadas por las variables


utilizadas para calcular el modelo de regresión.

Cantidad de Ingreso
I horas extra Marginal
Ŷ=a+bX (Y-Ŷ)2 (Y - ӯ)2 (x - )2
X Y
1 4 22,915.00 19,052 14,926,473.05 5,152,521.67 9.51
2 8 17,890.00 21,119 10,425,441.49 7,590,484.17 0.84
3 5 20,113.00 19,568 296,641.71 283,112.67 4.34
4 4 19,481.00 19,052 184,452.55 1,355,090.01 9.51
5 8 26,351.00 21,119 27,375,443.58 32,557,485.01 0.84
6 7 18,462.00 20,602 4,579,660.22 4,765,852.84 0.01
7 11 23,622.00 22,669 907,563.56 8,862,032.84 15.34
8 8 20,553.00 21,119 320,180.82 8,479.34 0.84
9 4 16,139.00 19,052 8,482,776.26 20,304,787.01 9.51
10 5 18,440.00 19,568 1,273,177.69 4,862,392.51 4.34
11 12 23,126.00 23,186 3,620.41 `6,154,947.51 24.17
12 9 20,649.00 21,636 973,530.28 15.34 3.67
Total 85 247,741.00 247,741 69,748,961.64 91,897,200.92 82.92

Ŷ = a + b*X = 16,984.20 + 516.83X

Ӯ = Ʃy / n

 ( y  y ) -  ( y  yˆ )
2 2

R2= =
 ( y  y) 2

R2 = (91,897,200.9- 69,748,961.64)/ 91,897,200.9 =0.241. Este R2 tan bajo indica que la


ecuación de regresión Ŷ = a + b X no expresa muy bien el impacto de la cantidad de horas
extra pagadas sobre el ingreso marginal de la empresa.

136
11.3. Análisis de correlación

El coeficiente de correlación establece una medida del grado de asociación lineal entre dos
variables. En este caso una variable no depende de la otra, sino que comparten un relación
presencia conjunta.
-
Por ejemplo la demanda de arroz y la demanda de habichuelas, son dos variables
independientes pero que mantienen una conjunción en lo que respecta al consumo de ambas.
Esta asociación se mide y se analiza a través del Coeficiente de correlación, el cual se expresa
en dos modalidades de acuerdo a los autores.

Este indicador puede tomar valores dentro del rango [-1,1], donde el valor de r=0 indica que
no hay asociación entre las dos variables, si es r>0 indica una asociación positiva, en este caso
las variables crecen o decrecen en un mismo sentido. Un valor de r<0 indica una asociación
negativa o que significa que a medida que aumenta una variable, la otra disminuye.

11.4. El coeficiente de correlación simple de Pearson

Es una prueba que mide la relación estadística entre dos variables continuas que tienen una
asociación lineal. Mide la covarianza estandarizada, y su ecuación difiere dependiendo de si
se aplica a una muestra, Coeficiente de Pearson muestral (r),

Ʃ
Ʃ XY –
XY – ƩX *ƩY /// n
ƩX *ƩY n
Ʃ
Ʃ XYXY –
– ƩX
ƩX *ƩY
─────────────────
= ─────────────────
rr = *ƩY / n n
rr = ─────────────────
= ─────────────────
___________ ___________
___________
___________ ___________
___________
√ƩX
√ƩX 2 - (ƩX)22/n √ƩY
___________
2 ___________
√ƩY
22
(ƩY)222/n
- (ƩY)2
√ƩX 2 - (ƩX)2/n √ƩY22-
2 - (ƩX) 2/n /n
√ƩX - (ƩX) /n √ƩY -- (ƩY)(ƩY) /n/n
Ʃ
Ʃ XY ––– ƩX
XY *ƩY /// n
ƩX *ƩY n
Ʃ
Ʃ XYXY – ƩXƩX *ƩY
───────────────── *ƩY / n n
= ─────────────────
rrr = ─────────────────
= ─────────────────
r= ___________ ___________
___________ ___________
___________
√ƩX ___________
___________ /n √ƩY
___________
22
√ƩX - (ƩX)222/n √ƩY
22 2
(ƩY)222/n
2-- (ƩY)
√ƩX22 --- (ƩX)
√ƩX (ƩX) /n √ƩY
(ƩX)2/n √ƩY2-- (ƩY)
(ƩY) /n
/n
/n

Es una medida del grado de asociación lineal entre las variables X e Y. Se representa por r.
donde sx, sy son las desviaciones típicas de las variables X e Y respectivamente, y Sxy es la
covarianza muestral de X e Y.

137
Ejemplo:

horas Ingreso
extra Marginal
Emple-
ados X Y X*Y X2 Y2
1 4 22,915.00 91,660 16 525,097,225
2 8 17,890.00 143,120 64 320,052,100
3 5 20,113.00 100,565 25 404,532,769
4 4 19,481.00 77,924 16 379,509,361
5 8 26,351.00 210,808 64 694,375,201
6 7 18,462.00 129,234 49 340,845,444
7 11 23,622.00 259,842 121 557,998,884
8 8 20,553.00 164,424 64 422,425,809
9 4 16,139.00 64,556 16 260,467,321
10 5 18,440.00 92,200 25 340,033,600
11 12 23,126.00 277,512 144 534,811,876
12 9 20,649.00 185,841 81 426,381,201
Total 85 247,741 1,797,686 685 5,206,530,791
Media 7.08 20,645.08

12 x 1,797,686 - 85x247,741
r= = 0.491
2 2
12 x 685 - 85 x 12x5,206,530,791 - 247,741

Este coeficiente de correlación de r=0.491 indica que existe una baja o pobre relación entre
horas extra pagadas y el ingreso marginal. Por lo general se espera que r ≥ 0.80.

Si se aplica a la población, el Coeficiente de Pearson poblacional (ρ).

ρ=2 
( y  y )  ( y  yˆ )
2 2
-
R= =
 ( y  y) 2

11.5. Coeficiente de correlación de Spearman.

Es una medida no paramétrica de la correlación de rango (dependencia estadística del ranking


entre dos variables). Mide la fuerza y la dirección de la asociación entre dos variables
clasificadas.

138
Las pruebas no paramétricas son aquellas que se encargan de analizar datos que no tienen
una distribución particular y se basan una hipótesis, pero los datos no están organizados de
forma normal. Aunque tienen algunas limitaciones, cuentan con resultados estadísticos
ordenados que facilita su comprensión.

Las pruebas paramétricas, en cambio, se basan en las leyes de distribución normal para
analizar los elementos de una muestra. Generalmente, solo se aplican a variables numéricas y
para su análisis debe mantener una población grande, ya que permite que el cálculo sea más
exacto.

Estos tipos de pruebas se caracterizan los siguientes atributos:

Pruebas no paramétricas Pruebas paramétricas


 Mayor potencia estadística.  Menor potencia estadística.
 Se aplican en variables categóricas.  Se aplican en variables normales o de intervalo.
 Se utilizan para muestras pequeñas.  Se utilizan para muestras grandes.
 No se conoce la forma de distribución de datos.  Su distribución de datos es normal.
 No hacen muchas suposiciones.  Hacen muchas suposiciones.
 Exigen una menor condición de validez.  Exigen mayor condición de validez.
 Mayor probabilidad de errores.  Menor probabilidad de errores.
 El cálculo es menos complicado de hacer.  El cálculo es complicado de hacer.
 Las hipótesis se basan en rangos, mediana y  Las hipótesis se basan en datos numéricos.
frecuencia de datos.
 Los cálculos no son exactos.  Los cálculos son demasiado exactos.
 Considera los valores perdidos para obtener  No toma en cuenta los valores perdidos para
información. obtener información.

Para hacer cualquier tipo de aplicación de la Estadística no paramétrica o de la paramétrica es


importante conocer ciertos elementos del proceso, como son los objetivos de la investigación,
el tamaño de la población y la escala utilizada en la medición de los datos.

Los mismos contribuyen en gran medida en la identificación los requisitos de los datos que
requiere cada tipo de prueba, que el tamaño de la muestra y la que distribución de los
estimadores sea normal o no.

El coeficiente de correlación de Spearman se calcula de la siguiente manera:

139
n= número de puntos de datos de las dos variables
di= diferencia de rango del elemento “n”

Nueve personas asistieron al médico para tratarse las patologías de infección pulmonar y de
alergia, a cada una se le preguntó la cantidad de horas que se sentían con los síntomas, los
resultados se presentan en la siguiente tabla.

A los datos se les asigna un código o rango iniciando por el de mayor medida

Infección
Rango Alergia Rango d=
Persona pulmonar d2
R1 (horas) R2 R1-R2
(horas)
1 35 3 30 5 2 4
2 23 5 33 3 2 4
3 47 1 45 2 1 1
4 17 6 23 6 0 0
5 10 7 8 8 1 1
6 43 2 49 1 1 1
7 9 8 12 7 1 1
8 6 9 4 9 0 0
9 28 4 31 4 0 0
Total 12

rR=⍴=1 – 6 x 12 / [9 x (92-1)] = 1 - 0.0989=0.9011

Como valor de ⍴ se acerca a 1 indica que hay una alta asociación entre los rangos de la cantidad
de horas con los síntomas de Infección pulmonar y de Alergia.

11.5.1. Propiedades del análisis de correlación

Regresión
140
Correlación
Esto indica que siempre que haya regresión entre dos variables
habrá correlación entre ellas. Pero, no siempre que haya
correlación hay regresión. Porque el análisis de correlación es más
amplio que el de regresión.

 r está siempre comprendido entre -1 y 1.


 Si r = 1 ó r = -1 entonces los puntos de la muestra están situados en línea recta (correlación lineal
perfecta).
 Si r está próximo a 1 ó a -1, habrá una asociación lineal fuerte entre ambas variables.
 Si r es cercano a 0, habrá una asociación lineal muy débil.
 r no varía cuando en las variables se realiza un cambio de escala o de origen. Esto demuestra que
r no tiene dimensión.

XII. Análisis de la varianza

El análisis de la varianza (ANOVA por sus siglas en inglés, ANalysis Of VAriance) se basa
en procedimientos estadísticos, a través de los cuales se identifican los factores que componen
la varianza total resultante de diferentes variables explicativas. Es gran utilidad en el diseño
de experimentos para medir el efecto de tratamientos en la variabilidad de la variable
dependiente.

Esta técnica de análisis fue desarrollada por el genetista R. A. Fisher en los años 1920 y 1930,
se conoce también como "Anova de Fisher" o "análisis de varianza de Fisher" debido al uso
de la distribución F de Fisher como parte del contraste de hipótesis. Por su naturaleza
multifactorial, esta forma parte del análisis multivariado.

Del mismo se derivan otros análisis como es el análisis de covarianza (ANCOVA).


Existen distintos procedimientos para realizar un análisis de varianza, aquí se mencionan los
más usuales:
 Diseño simple al azar
 Diseño en bloques al azar
 Cuadros latinos
 Cuadros greco-latinos
 Entre otros

141
Este tipo de análisis se aplica en diversas áreas del conocimiento y de la investigación, como
es el caso de la Ciencias Sociales, la Economía, Negocios, Psicología, Ciencias Naturales,
Agronomía, Veterinaria, etc.

La complejidad de mismo depende de la cantidad de factores que se requieran incluir en el


análisis, aquí se está presentando un ejemplo de análisis de varianza aplicando un Diseño de
Experimento Simple al Azar.

Procedimiento:

 Se define la población o el área donde se requiere hace el análisis de varianza


 Se toma una muestra aleatoria de los elementos y a cada uno se le mide la magnitud de la
variable o característica de interés. Estas a estas medidas de magnitud se le denominan
tratamientos.
 Se establece el nivel de significación “α” a que se requiere hacer el análisis.
 Luego se procede como se presenta en el ejemplo desarrollado a continuación.

Análisis de varianza en base a un diseño simple al azar de dos factores


Gasto diario en materiales por los estudiantes.

Región de Procedencia
Rama y cantidad de trimestres Total
Capital Sur Este Cibao
Ciencias exactas Hasta 3 semestres 80.17 76.82 89.21 89.51 335.70
Ciencias exactas 4 a 6 semestres 79.12 76.96 91.62 82.83 330.53
Ciencias exactas7 o más semestres 87.77 82.97 89.98 84.57 345.30
Ciencias naturales Hasta 3 semestres 83.04 81.09 90.87 90.57 345.56
Ciencias naturales 4 a 6 semestres 77.71 94.03 90.00 76.39 338.13
Ciencias naturales 7 o más semestres 91.39 83.62 79.90 86.63 341.54
Ciencias Sociales Hasta 3 semestres 83.80 86.82 91.28 91.36 353.26
Ciencias Sociales 4 a 6 semestres 87.10 78.51 81.37 75.43 322.41
Ciencias Sociales 7 o más semestres 86.30 88.11 87.15 92.85 354.41
Ciencias de la salud Hasta 3 semestres 83.78 80.00 94.46 95.68 353.92
Ciencias de la salud 4 a 6 semestres 78.80 93.86 74.42 77.69 324.77
Ciencias de la salud 7 o más semestres 73.09 85.66 75.47 74.67 308.89
Total 992.08 1,008.45 1,035.72 1,018.17 4,054.42
Promedio 82.67 84.04 86.31 84.85 84.47

142
Suma de cuadrado
Región de Procedencia Total
Rama y cantidad de trimestres Total
Capital Sur Este Cibao columnas
Ciencias exactas Hasta 3 semestres 6,427.83 5,900.83 7,957.88 8,011.59 28,298.12 112,697.85
Ciencias exactas 4 a 6 semestres 6,259.22 5,923.17 8,394.91 6,860.01 27,437.31 109,247.63
Ciencias exactas7 o más semestres 7,703.51 6,884.63 8,097.00 7,152.75 29,837.89 119,232.48
Ciencias naturales Hasta 3 semestres 6,895.05 6,575.60 8,257.52 8,202.16 29,930.33 119,413.92
Ciencias naturales 4 a 6 semestres 6,039.20 8,841.85 8,099.71 5,835.62 28,816.39 114,333.98
Ciencias naturales 7 o más semestres 8,352.24 6,992.33 6,383.44 7,504.44 29,232.45 116,646.41
Ciencias Sociales Hasta 3 semestres 7,022.58 7,537.89 8,331.28 8,346.68 31,238.44 124,791.16
Ciencias Sociales 4 a 6 semestres 7,586.79 6,163.26 6,620.92 5,689.93 26,060.91 103,947.77
Ciencias Sociales 7 o más semestres 7,448.45 7,763.86 7,595.22 8,620.56 31,428.08 125,609.73
Ciencias de la salud Hasta 3 semestres 7,019.73 6,399.52 8,921.97 9,154.38 31,495.61 125,256.23
Ciencias de la salud 4 a 6 semestres 6,208.97 8,810.04 5,538.71 6,035.67 26,593.40 105,476.17
Ciencias de la salud 7 o más semestres 5,342.18 7,337.62 5,695.34 5,575.24 23,950.38 95,410.01
Total 82,305.73 85,130.61 89,893.91 86,989.04 344,319.30 1,372,063.33
Cuadrados total filas 984,215.44 1,016,977.47 1,072,718.84 1,036,662.51 4,110,574.26

Suma de cuadrados
Factor de corrección = (ƩƩXij)2 /n 4,054.422 / 48= 342,464.52
TOTAL SCT=ƩƩXij2 - (ƩƩXij)2 /n 344,319.30 - 342,464.52= 1,854.77
Columna SCC=ƩƩX.j - (ƩƩXij) /n 4,110,574.26 / 12- 342,464.52=
2 2
83.33
Filas SCF=ƩƩXi. - (ƩƩXij)2 /n
2
1,372,063.33 /4 - 342,464.52= 551.31
Del Error= SCT - SCC – SCF 1,854.77 - 83.33 - 551.31= 1,220.14
Grados de libertad Gl
Gl TOTAL = n-1 48-1= 47
Gl de Columna = c-1 4-1= 3
Gl de Filas = f-1 12-1= 11
Gl del Error o de los residuos 47-3-11= 33
Cuadrado medio
TOTAL= SCT /n-1 1,854.77 / 47= 39.46
Columnas= SCC / c-1 83.33 / 3= 27.78
Filas= SCF / f-1 551.31 / 11= 50.12
Error = Del Error /Gl del Error 1,220.14 / 33= 36.97
F calculada y F tabulada Fc Ft
Cuadrado medio de columnas / Cuadrado medio del error 27.78 / 36.97= 0.75 2.89
Cuadrado medio de Filas / Cuadrado medio del error 50.12 / 36.97= 1.36 2.09

 La Ft de las columnas de obtiene de la tabla F de Fisher con α=0.05 y los Gl de Columna

y los Gl del Error.

 La Ft de las Filas de obtiene de la tabla F de Fisher con α=0.05 y los Gl de filas y los Gl
del Error.

143
Conclusión.

 Como Fc calculada de las columnas es menor que la Ft de las columnas, se dice que la
variable Región de Procedencia no tiene un efecto significativo en la variabilidad del
Gasto diario de los estudiantes en materiales.

 Como Fc calculada de las filas es menor que la Ft de las filas, se dice que la variable “Rama
y cantidad de trimestres” no tiene un efecto significativo en la variabilidad del Gasto
diario de los estudiantes en materiales.

144
SCT = ƩƩxij2- (ƩƩxij)2 /n
SCfila = Ʃxi.2- (ƩƩxij)2 /n
SCCol = Ʃx.j2- (ƩƩxij)2 /n

145

También podría gustarte