Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Profesor
Lic. Juan Faustino Polanco Rivera, Licenciado en Estadística, Demógrafo, Maestría en
Gerencia de Proyectos, Certificado en Diseño y Evaluación de Sistemas de Compensación
Gerencial, con gran experiencia en el Diseño y Administración de Sistemas de Información,
Procesamiento de datos e Investigación Social y de Mercado. Profesor Universitario.
1
I. Aspectos generales de la Estadística _____________________________________ 6
1.1. Conceptos generales ____________________________________________________ 6
1.2. Escalas de Medidas ____________________________________________________ 10
1.3. División de la Estadística _______________________________________________ 11
1.4. Fuentes de datos. ______________________________________________________ 11
1.5. Uso y abuso de la Estadística ____________________________________________ 12
II. El Método Estadístico y sus etapas _____________________________________ 13
2.1. Conceptualización _____________________________________________________ 13
2.2. Planeación ___________________________________________________________ 13
2.3. Ejecución ____________________________________________________________ 13
2.4. Interpretación y Análisis. _______________________________________________ 13
2.5. Conclusiones, recomendaciones y propuesta de solución _____________________ 13
2.6. Presentación de resultados. _____________________________________________ 14
2.7. Toma de decisiones. ____________________________________________________ 14
III. Importancia la Estadística en los procesos empresariales ___________________ 15
3.1. Aportes más relevantes de la Estadística __________________________________ 15
3.2. En Investigación Científica _____________________________________________ 16
IV. Teoría de sumatoria _________________________________________________ 17
V. Organización datos y Presentación de resultados _________________________ 21
5.1. Organización de datos _________________________________________________ 21
5.1.1. Distribución de frecuencias _____________________________________________________ 21
5.1.2. Diagrama de Tallo y hoja ______________________________________________________ 25
5.1.3. Ventajas y desventajas de la agrupación de los datos _________________________________ 26
a) Ventajas ____________________________________________________________________ 26
b) Desventajas _________________________________________________________________ 26
5.2. Presentación de Resultados _____________________________________________ 27
5.3.1. Presentación tabular. __________________________________________________________ 27
5.3.2. Presentación gráfica __________________________________________________________ 29
5.3.3. Presentación escrita ___________________________________________________________ 35
5.3.4. Presentación oral _____________________________________________________________ 35
2
6.5.2. Tasa de Variación Exponencial __________________________________________________ 51
6.5.3. Tasa de Variación Geométrica __________________________________________________ 51
6.5.4. Tiempo de necesario para multiplicarse el valor de una variable ________________________ 51
6.5.5. Fórmulas para calcular el valor inicial y el final _____________________________________ 52
6.6. Medidas de posición ___________________________________________________ 54
6.6.1. Los Cuartiles ________________________________________________________________ 54
6.6.2. Los Cuartiles si los datos están agrupados en clases y frecuencias. ______________________ 55
6.6.3. Los Quintiles ________________________________________________________________ 56
6.6.4. Los quintiles si los datos están agrupados en clases y frecuencias. ______________________ 57
6.6.5. Los Deciles _________________________________________________________________ 58
6.6.6. Los Deciles si los datos están agrupados en clases y frecuencias. _______________________ 59
6.6.7. Los percentiles _______________________________________________________________ 60
6.6.8. Los deciles si los datos están agrupados en clases y frecuencias. ________________________ 60
6.7. Medidas de dispersión o de variabilidad __________________________________ 61
6.7.1. Rango, recorrido o amplitud total ________________________________________________ 62
6.7.2. Medidas de dispersión referentes al promedio o media aritmética. ____________________ 63
6.7.2.1. Desviación media ____________________________________________________________ 63
6.7.2.2. La Desviación media si los datos están agrupados en clases y frecuencias ________________ 64
6.7.2.3. La Varianza ________________________________________________________________ 65
6.7.2.4. La varianza si datos agrupados en clases y frecuencias _______________________________ 66
6.7.2.5. Propiedades más importantes de la varianza ________________________________________ 66
6.7.2.6. La Desviación Típica o Estándar _______________________________________________ 67
6.7.2.7. Coeficiente de variación ______________________________________________________ 68
6.7.3. Propiedades de las medidas de variabilidad _______________________________________ 68
6.8. Interpretación y análisis de resultados __________________________________ 69
6.8.1. Descripción de los resultados finales. _____________________________________________ 69
6.8.2. Resumen. ___________________________________________________________________ 69
3
7.8. La distribución de probabilidad Continua_________________________________ 88
7.8.1. La distribución uniforme _______________________________________________________ 88
7.8.2. La distribución de probabilidad Exponencial _______________________________________ 89
7.8.3. La distribución de probabilidad Normal ___________________________________________ 89
4
11.2. El coeficiente de determinación _________________________________________ 135
11.3. Análisis de correlación ________________________________________________ 137
11.4. El coeficiente de correlación simple de Pearson ___________________________ 137
11.5. Coeficiente de correlación de Spearman. _________________________________ 138
11.5.1. Propiedades del análisis de correlación ___________________________________________ 140
5
I. Aspectos generales de la Estadística
Es aplicable a casi todas las áreas del conocimiento desde la física, ciencias sociales hasta las
operaciones que apoyan la toma de decisiones.
La estadística como ciencia se aplica en mayoría de las áreas del conocimiento, como la
sociología, la economía, negocios, la ingeniería, la química, psicología, geografía, astronomía,
biología, zoología y otras ciencias naturales, en los deportes y en muchas áreas donde se
requiera obtener y analizar datos para planificar, controlar procesos y actividades, y evaluar
sus resultados.
Estadísticas. Son cifras que representan los valores numéricos que se registran
sistemáticamente de las variables o características de los elementos de una población.
Estadísticos. Son los profesionales, analistas o los que desarrollan actividades propias del
proceso estadístico.
También se denominan estadísticos a los resultandos calculados a través de datos provenientes
de una muestra.
6
Ejemplo: el promedio de ingresos mensuales de las personas de una muestra), mientras
que los datos estadísticos descriptores de una población suelen llamarse parámetros (por
Ejemplo:, el promedio de ingresos mensuales de las personas de una población).
Las unidades de análisis. Son los elementos de los cuales se mide una propiedad y
característica. Puede ser una persona, una familia, un animal, una sustancia química, o un
objeto como una dentadura o una mesa.
Variable. Es cualquier característica medible u observable de los elementos de una
población que durante un proceso de análisis puede tomar diferentes valores. Es una
característica (magnitud, vector o número) que puede ser medida, adoptando diferentes
valores en cada uno de los casos de un estudio.
Discretas. Sólo pueden tomar valores aislados o separados (1, 2, 8, -4, etc.). Por
Ejemplo: número de hermanos (puede ser 1, 2, 3, etc., pero, por Ejemplo: nunca podrá
ser 3.45). En ciertos casos particulares las variables discretas pueden tomar también
valores fraccionarios o con decimales. En un intervalo es posible contar la cantidad de
los valores que pueden tomar este tipo de variables.
Continuas. Pueden tomar cualquier valor real dentro de un intervalo. Por Ejemplo:, la
edad, tiempo de servicio, la estatura, el peso corporal, velocidad de un vehículo. etc. En
un intervalo no es posible contar la cantidad de valores que pueden tomar este tipo de
variables.
7
Constituye la expresión del estado de una variable o característica de un elemento de una
población definida en un momento y en un lugar determinado. Constituye el elemento crítico
para realizar un proceso de análisis.
Los datos1 estadísticos constituyen una herramienta fundamental para medir, dar seguimiento,
controlar la ejecución de procesos y evaluar los resultados de actividades y proyectos. Estos
permiten determinar la incidencia, la evolución y la tendencia de los factores del entorno que
impactan los objetivos de una empresa o institución.
Los datos deben arrojar indicadores estadísticos que cuenten con las siguientes características:
a. Insesgado. Es una resultado muestral cuyo valor esperado es igual al parámetro por
estimar.
1 Un dato estadístico es el valor o la medida de una variable o característica de un elemento de una población definida en un momento y en
un lugar determinado. Constituye el elemento crítico para realizar un proceso de análisis. El Instituto de Estadística de Andalucía (IEA).
8
f. Consistente. Su resultado mantiene una diferencia no significativa estadísticamente
entre una muestra y otra.
La información es un conjunto organizado de datos procesados, que constituyen un
mensaje que puede cambiar el estado de conocimiento del sujeto que recibe dicho mensaje.
La información es el conocimiento explícito extraído como resultado de la interacción entre
factores del entorno. Puede agregar nuevos conocimientos, modificar o eliminar los ya
existentes, y sobre todo permite tomar decisiones ante la presencia de alternativas distintas.
Retroalimentación
Los valores No numéricos son aquellos que solamente permiten conteo. Representan el
estado de una variable cualitativa.
Razón. Es el cociente entre dos valores, dos cantidades o dos medidas de naturaleza
diferente. Ejemplo: Ingreso per cápita = Ingreso total entre la población, número de hijos
por mujeres, el índice de masculinidad, el resultado de cociente del ingreso sobre la
inversión.
9
Fracción. Es una parte de una unidad. Por Ejemplo: un tercio de una tiza. Su resultado
también oscila entre 0 y 1.
Porcentaje. La cantidad de elementos que cumplen con una condición por cada cien
elementos seleccionados.
Ejemplo: El 25% de las mujeres casas se divorcia, o lo mismo 25 de cada 100 mujeres
casas se divorcian.
El 4% de los niños nacidos vivos el año pasado murió antes de cumplir los doce meses
de edad, o sería lo mismo decir que de cada cien nacidos vivos el año pasado, cuatro
murieron de cumplir los doce meses de edad.
Tasa. Existen varios conceptos de tasas. Es una medida que sirve para relacionar la
proporción de elementos que salen o entran a un conjunto en comparación con el conjunto
completo.
Expresa en qué proporción debe variar o incrementarse un valor de una variable para
llegar a otro. Ejemplo: Tasa de variación o de crecimiento anual de la población, Tasa de
interés bancaria.
De Intervalo. Esta escala, además de todas las propiedades de la escala ordinal, hace que
tenga sentido calcular diferencias entre las mediciones. Temperatura de una persona, La
distancia, ubicación en una carretera respecto de un punto de referencia (Kilómetro 85
Ruta 5).
10
agua consumido por una persona en un día. Velocidad de un auto. Número de goles
marcados por un jugador en un partido. Edad, el ingreso.
Son los medios o los documentos de donde se extraen los datos para fines estadísticos. Estas
son. Registros periódicos y continuos, encuestas por muestreo, censos, Internet, libros y
documentos, dispositivos de almacenamiento de datos, películas, etc.
Registros. Son anotaciones de las características de los hechos que sistemáticamente
ocurren en una población.
Registros periódicos son las anotaciones de los hechos que ocurren de manera
esporádica y que se conoce la fecha de ocurrencia. Solo es posible registrar el hecho en
la fecha establecida previamente.
11
Fuentes no tradicionales. Internet, períodos, revistas, publicaciones, y otras fuentes no
formales.
La gestión educativa pública y privada, además de informarse sobre los distintos elementos
relacionados con los procesos y con las actividades que se realizan, a través de las fuentes
mencionadas, también deben utilizar otras fuentes de datos, como son: conversaciones y
reuniones con miembros de la comunidad, usuarios de los servicios, funcionarios públicos,
etc. También deben conocer las políticas y leyes, el desarrollo de nuevas tecnologías, nuevas
metodologías y estrategias de enseñanza y de los agentes de otros países que pueden impactar
en las estrategias y modelos educativos.
12
II. El Método Estadístico y sus etapas
2.1. Conceptualización
Términos de referencia
Identificación de las necesidades de información
Especificaciones y características de los requerimientos
Expectativas y las decisiones a tomar
Responsables del proceso y contraparte
Condiciones del trabajo
Disponibilidades
Tiempo máximo para completarlo
2.2. Planeación
2.3. Ejecución
Levantamiento de datos.
Revisión, corrección y ajuste de los datos
Organización y tabulación.
13
2.6. Presentación de resultados.
Exposición del procedimiento agotado
Tablas, gráficos, indicadores calculados
Comparación de los resultados con los objetivos
Explicación de los elementos relevantes
Otros aspectos considerados importantes
Esta es una actividad que forma parte de la responsabilidad de los usuarios y de los que
identificaron la necesidad de ejecutar el proceso estadístico.
14
III. Importancia la Estadística en los procesos empresariales
La estadística es una ciencia de vital importancia en el proceso de gestión. Entre los aportes
de mayor relevancia están:
Medir el impacto y las relaciones entre los factores que influyen en la ejecución y en los
resultados de procesos.
Determinar el nivel de calidad los productos y servicios, así como la efectividad de la
ejecución de los proyectos y procesos que se ejecutan.
Elaboración de pronósticos sobre el estado en el futuro de ciertos elementos que cambian
en función de factores internos o externos.
15
3.2. En Investigación Científica
Antes de explicar el aporte de la Estadística a la Investigación expresar que esta última tiene
como objetivo principal la generación de nuevos conocimientos. La investigación científica
en la que se diseña y se ejecuta basado en la estructura del método científico. el cual cuenta
con las etapas siguientes:
16
Las técnicas de recolección, organización y análisis de los datos.
Las herramientas para la presentación de los datos colectados. Cuadros y gráficos
estadísticos.
Facilita la comprobación de las hipótesis planteadas durante la etapa de planeación de la
investigación.
Elaboración de pronósticos sobre el estado de ciertos fenómenos sociales que cambian en
función de otros factores internos o externos.
Medir el impacto y las relaciones entre las variables que identifican los individuos que
componen los distintos estratos sociales.
Los métodos y las demás herramientas estadísticas son la clave para la planeación,
programación, ejecución de la investigación, el análisis de los resultados y la toma de
decisiones.
Todos los libros de textos y las guías sobre metodologías y técnicas de investigación tienen
como base las herramientas estadísticas para su aplicación.
Los expertos en investigación por lo general son personas que cuentan con altos niveles de
conocimiento en estadísticas.
Donde:
La “X” indica los sumandos
La “i” indica el orden de los sumandos
La “a” indica a partir de que elementos en el orden inicia la suma
La “b” indica a partir de que elementos en el orden termina la suma
17
La Ʃ es el mandato de que se realice la suma
La S es donde se almacena el resultado de la suma
Propiedades de la sumatoria
18
e) La sumatoria de dos ó más variables es igual a la suma de las sumatorias de las
variables por separado.
Si "X" es el ingreso por salario, "Y" el ingreso por negocios y "Z" el ingreso por remesas en
una familia que recibe fijo mensualmente "A"= RD$ 1,500.00.
A X Y Z
1 1,500 9,242 11,626 10,798
2 1,500 10,865 9,728 11,290
3 1,500 9,877 8,777 9,929
4 1,500 10,216 9,954 8,623
5 1,500 10,476 8,292 11,779
6 1,500 9,442 9,508 11,146
7 1,500 10,319 8,993 8,380
8 1,500 8,773 10,494 10,783
9 1,500 10,497 8,681 8,772
10 1,500 8,805 8,994 8,794
Si queremos sumar un conjunto de valores continuos de k=1 hasta n, por ejemplo sumar todos
los valores del 1 a 5, esto es igual a 5 (5+1) /2 =15.
Lo mismo si se requiere sumar todos los valores continuos desde 21 al 40, esto se realiza de
la siguiente manera: 40 (40+1) / 2 - 20 (20+1) / 2 = 210.
19
Ejemplo: Sea Xi una variable que toma los siguientes valores 10, 18, 22, 14, 8, 9, 12, 15, 20.
ƩXi2 =102+182+222+142+82+92+122+152+202=2,018 y
Ejemplo: Sea Xi una variable que toma los siguientes valores 10, 18, 22, 14, 8, 9, 12, 15, 20.
y Yi toma los valores 6, 3, 2, 5, 3, 4, 5, 3, 2
20
V. Organización datos y Presentación de resultados
Consiste en ubicar o contar cada valor de una variable en la categoría, grupo o clase a que
corresponda, de acuerdo al objetivo del análisis.
Es un esquema o un arreglo donde aparecen los grupos, categorías o clases asociados sus
distintos tipos de frecuencias.
Tipos de frecuencias
a) Frecuencia simple de clase. Se define frecuencia simple de clase al número de veces que
se repite cada clase. Se le identifica como fi, donde (f) se lee como frecuencia, y la (i)
define el orden de las clases. Al construir una distribución de frecuencias, se tienen
diferentes intervalos de valores que denominaremos clases.
Para elaborar una distribución de frecuencias es necesario dar los siguientes pasos:
21
Distribución de frecuencias para variables cualitativas
Para realizar este tipo de distribuciones de frecuencias basta con contar las veces que aparezca
cada categorías de la variable de análisis en el conjunto de datos, y registrar las categorías en
una columna y en otra la cantidad de apariciones de cada una.
Ejemplo:
Para realizar este tipo de distribuciones de frecuencias basta con identificar los distintos
valores de la variable de análisis, y luego contar las veces que aparezca cada uno en el conjunto
de datos, registrar los valores en una columna y en otra sus respectivas apariciones.
Ejemplo:
Cantidad
fi Hi
de hijos
0 62 16.76%
1 39 10.54%
2 44 11.89%
3 43 11.62%
4 57 15.41%
5 53 14.32%
6 36 9.73%
7 36 9.73%
Total 370 100.00%
Para construir una distribución de frecuencias para datos correspondientes a una variable
continua es necesario agotar un proceso lógico para establecer las clases o grupos de valores
22
de la variable de análisis, y luego contar las veces que aparezca cada valor dentro de cada
categoría que corresponda de acuerdo a su medida. Registrar las clases o grupos en una
columna y en otra sus respectivas apariciones. Finalmente se calculan los demás tipos de
frecuencias.
a) Clase o grupo
Una clase o grupo es cada categoría que se forme o se utilice para organizar y clasificar los
valores de una variable cuantitativa continua de acuerdo a su medida. En la mayoría de los
casos, aunque no necesariamente es así, todas las clases o grupos son del mismo ancho en
términos numéricos.
Rangos de edad
Li Ls
13.09 - 18.92
18.92 - 24.76
24.76 - 30.60
AC= Rango / NC
23
Donde
Ls= Li + Ac
e) Punto medio de clase o marca de clase. Para fines de análisis de datos, los valores de
las clases se representan a través del punto medio de clase o marca de clase. El punto
medio de clase se define como la semi-suma de los límites de clase. El punto medio de
clase se identifica como.
Clases Frecuencias
i Li Ls fi Fi hi Hi
1 1.41 - 7.25 8 8 16.00% 16.00%
2 7.25 - 13.09 6 14 12.00% 28.00%
3 13.09 - 18.92 8 22 16.00% 44.00%
4 18.92 - 24.76 5 27 10.00% 54.00%
5 24.76 - 30.60 10 37 20.00% 74.00%
6 30.60 - 36.44 6 43 12.00% 86.00%
7 36.44 - 42.28 7 50 14.00% 100.00%
Total 50 100.00%
24
hi= fi/n x 100= fi/Ʃfi x 100
f) Interpretación.
Este tipo de organización de datos tiene utilidad cuando la cantidad de datos es baja. Con el
uso de las tecnologías de la información (software) se usa pocas veces.
Ordenar los datos de menor a mayor facilita mucho hacer este diagrama.
Ejemplo: Los datos que aparecen a continuación se refieren al gasto diario de los hogares en
almuerzo. Y se requiere organizarlo en base a un diagrama de tallo y hoja.
25
Hogares según gasto diario en almuerzo
12
10 10 10
10
8
8
6
6
4
2
0
3 4 5 6 7
a) Ventajas
Facilidad de visualizarlos y de entenderlos
Se ve fácilmente su concentración y la forma de su distribución
Se observa si existe mucha dispersión entre ellos
Son fáciles de describir y analizar
Quedan segmentados según los rangos elaborados
Permite reducir o ampliar la cantidad de grupos
Conviene para presentarlos y compartirlos con los usuarios
Reduce la cantidad de materiales y de esfuerzos para el análisis y la presentación
b) Desventajas
26
5.2. Presentación de Resultados
Consiste en hacer una exposición de las informaciones y de resultados del proceso estadístico
a los usuarios, a los responsables de tomar las decisiones y a todo el público interesado.
Esta exposición debe ser explícita por sí misma, atractiva, impactante, clara, fácil de entender
y sobre todo precisa. Hoy día con el uso de la tecnología resulta muy fácil elaborar y hacer
buenas presentaciones de información
Existen tres formas diferentes` de presentar los datos estadísticos, que son.
`
5.3.1. Presentación tabular.
Cuando los datos estadísticos se presentan a través de un conjunto de filas y de columnas que
responden a un ordenamiento lógico; es de gran eso e importancia para el uso e importancia
para el usuario ya que constituye la forma más exacta de presentar las informaciones. Una
tabla consta de varias partes, las principales son las siguientes.
Titulo. Es la parte más importante del cuadro y sirve para indicar su contenido, la
clasificación de los datos, la fecha o el período a que estos se refieren y el lugar o área
geográfica a que pertenecen.
Encabezados. Son los diferentes subtítulos que se colocan en la parte superior del cuadro,
indica el contenido de cada columna.
Columna matriz. Es la columna principal del cuadro. Indica el contenido de las filas.
Cuerpo. El cuerpo contiene todas las informaciones numéricas que aparecen en el cuadro.
Fuente. Es necesario indicar de donde fueron extraídos los datos del cuadro. En la fuente
se debe indicar el documento o medio de donde se tomaron los datos, incluyendo la fecha
exacta cuando se tomaron.
Notas al pie. Son usadas para hacer algunas aclaraciones sobre aspectos que aparecen en
el cuadro y que no son visibles ni están explícitos en otra parte del mismo.
27
He aquí algunos ejemplos de presentación tabular:
Provincia Monte Cristi.
Población de cinco o más años edad por zona de residencia y sexo, según grupos de edades.
2016.
Total Zona de residencia y Sexo
Grupo de
Urbana Rural
edades
Total Varones Hembras Total Varones Hembras Total Varones Hembras
Total
5 a 10 1,780 871 909 973 398 575 807 473 334
10 a 15 1,448 710 738 552 249 303 896 461 435
15 a 20 1,838 950 888 986 523 463 852 427 425
20 a 25 1,721 881 840 779 427 352 942 454 488
25 a 30 1,937 1,030 907 813 375 438 1,124 655 469
30 o + 1,890 969 921 1,022 525 497 868 444 424
Total 10,614 5,411 5,203 5,125 2,497 2,628 5,489 2,914 2,575
Fuente. Encuesta provincial de asuntos sociales. 2016.
Notas. Excluye a los hijos de extranjeros con menos de dos años residiendo en el país.
* Datos ficticios.
28
Algunas interpretaciones de datos de una tabla estadística
Cálculo Interpretación
22 / 37 * 100 = 59.4% El 59.4% de la población residente en la zona urbana son mujeres
19 / 46 * 100 = 41.3% El 41.3% de la población residente en la zona rural son hombres
49 / 83 * 100 = 59.0% El 59.0% de la población total son mujeres
34 / 37 * 100 = 91.8% Por cada 100 personas residentes en la zona urbana hay 91.8
hombres residentes a nivel general.
22 / 83 * 100 = 26.5% El 26.5% de la población del país son mujeres residentes en la
zona urbana
49 / 15 * 100= 326.67% Por cada 100 hombres residentes en la zona urbana hay 326.67
mujeres residentes a nivel general
19 / 27 * 100=70.37% En la zona rural, por cada 100 mujeres hay 70.37 hombres.
Proporciona al lector o usuario mayor rapidez en la comprensión de los datos, una gráfica es
una expresión artística de representar un conjunto de datos de una variable.
Tipos de gráficos
De acuerdo al tipo de variable que vaya a representar y los objetivos de dicha presentación,
las principales gráficas son las siguientes.
Histograma. Es un conjunto de barras o rectángulos unidas una de otra, por tal razón se
utiliza para representar variables continuas. Se usa para mostrar la distribución relativa de
las frecuencias de los valores de una variable continua que esté agrupada en clases.
29
Distribución de los empleados de nuevo ingreso por edad. 2021
40.00% 37.90%
32.00%
24.00% 22.45%
18.48%
16.00% 13.78%
7.38%
8.00%
0.00%
< de 20 años 20 a 24 25 a 29 30 a 34 35 o + años
Polígono de frecuencias. Esta gráfica se usa para representar los puntos medios de clase en
una distribución de frecuencias. Se usa para mostrar la distribución relativa de las
frecuencias de los valores de una variable continua que este agrupada en clases.
32.00%
24.00%
22.45%
18.48%
16.00%
13.78%
8.00% 7.38%
0.00%
< de 20 años 20 a 24 25 a 29 30 a 34 35 o + años
30
horizontales se utiliza cuando son muchas barras o los nombres correspondientes a las barras
son muy largos.
Porcentajes de empresas registradas entre 2020-2021, por regiones.
25.00%
19.97%
20.00%
17.30%
14.45%
15.00% 13.51% 13.72%
12.99% 13.15% 12.65% 12.55%
12.12%
11.00%
10.00%
5.00%
0.00%
Sur Norte Noroeste Nordeste
Ozama ValdesiaEnriquilloEl Valle Cibao Higuamo Yuma Total
31
Porcentaje de empresas registradas entre 2020-2021, por provincias.
Total 12.55%
SANTO DOMINGO 13.11%
SAN JOSE DE OCOA 16.55%
HATO MAYOR 20.23%
MONTE PLATA 15.58%
MONSEÑOR NOUEL 9.95%
VALVERDE 8.76%
SANTIAGO RODRIGUEZ 15.33%
SANTIAGO 12.46%
SANCHEZ RAMIREZ 21.67%
SAN PEDRO DE MACORIS 16.91%
SAN JUAN 21.40%
SAN CRISTOBAL 10.60%
SAMANA 16.31%
SALCEDO 9.82%
PUERTO PLATA 13.28%
PERAVIA 15.47%
PEDERNALES 14.40%
MONTE CRISTI 14.52%
MARIA TRINIDAD SANCHEZ 21.92%
LA VEGA 12.27%
LA ROMANA 13.31%
LA ALTAGRACIA 13.34%
INDEPENDENCIA 13.33%
ESPAILLAT 16.88%
EL SEIBO 18.84%
ELIAS PIÑA 9.58%
DUARTE 10.89%
DAJABON 19.09%
BARAHONA 11.21%
BAHORUCO 13.37%
AZUA 20.70%
DISTRITO NACIONAL 9.69%
0.00% 5.00% 10.00% 15.00% 20.00% 25.00%
32
Gráfica lineal. Son usadas principalmente para representar datos clasificados por cantidad
o tiempo; o sea, se usan para representar series de tiempo o cronológicas. Se usa para ilustrar
la tendencia o la evolución de los valores, una medida o la magnitud de una variable en
tiempo.
5000
4000
3000
2000
Empresas Establecimientos
1000
0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
Gráfico de barra 100%. Se usa especialmente para representar las partes en que se divide
una cantidad total en varias situaciones. También permite la comparación de la distribución
de los elementos de varios conjuntos de datos.
Distribución de la empresas por tamaño, según regiones. 2020
100.00%
7.91% 10.13% 9.84% 9.28% 8.85%
60.00%
20.00%
1.65% 1.39% 1.51% 1.42%
1.08%
10.85% 10.34% 8.01% 10.06% 9.74%
0.00%
Metropolitana Sur Cibao Este Total
Grandes Medianas Micros Pequeñas No definidas
33
Gráfico circular o de pastel. Se usa para mostrar la distribución relativa de las frecuencias
de los valores de una variable cualitativa o discreta.
Distribución de las empresas por regiones. 2020.
Este
9.58%
Cibao
34.59%
Metropolitana
49.80%
Sur
6.03%
40.00% 33.58%
20.00% 13.15%
0.00%
5 a 10 10 a 15 15 a 20 20 a 25 25 a 30 30 o +
Rangos de edad
34
5.3.3. Presentación escrita
Esta forma de presentación de informaciones se usa cuando una serie de datos incluye pocos
valores, por lo cual resulta más apropiada la palabra escrita como forma de describir su
comportamiento en base a uno o varios párrafos explicativos. Con esta se resaltan todos
aquellos elementos de mayor relevancia en un conjunto de datos.
35
VI. Análisis Estadístico.
Es necesario explicar todos aquellos aspectos que expresan los datos y que no se visualizan a
simple vista o no son entendibles por personas con bajo nivel de conocimiento en el manejo
y análisis de datos. En el análisis estadístico es necesario conocer:
Los objetivos, la finalidad y las decisiones previstas a tomar con los resultados.
Las fuentes de los datos
Características de los datos a utilizar
La metodología de recolección y tratamiento de los datos
La cobertura, el período de referencias
Perfil y conocimientos de los participantes en el proceso de los datos
Otras características de los datos
Inversión
Producción
Cantidad de habitantes y densidad poblacional
Movilidad espacial
Mortalidad y fecundidad
Edificaciones, viviendas, hogares
Características y uso del territorio
Características, estructura, composición y distribución de la población
Ingresos
Gastos
Balanza de pagos: Importaciones y exportaciones
Impuestos pagados
Estado de salud, social y económico de la población
Riquezas
Calidad de los productos y servicios
Recursos Humanos y Trabajo o Empleo
Resultados de los proyectos y procesos
Otros
36
6.3. Medidas e indicadores estadísticos.
Se deben calcular todas las medidas e indicadores estadísticos que expresen el estado y las
relaciones de las variables contenidas en la investigación y otros datos externos, como son
porcentajes, promedios, medidas de variación, etc.
6.4. Medidas de tendencia Central
En esta sección se define una serie de medidas o valores que tratan de representar o resumir a
una distribución de frecuencias dada, sirven para comparar magnitud de los valores de
distintas variables. Estas medidas reciben el nombre de promedios o medidas de tendencia
central, porque sus resultados tienden a ubicarse próximo a los valores centrales de un
conjunto de datos de una variable.
Las medidas de tendencia central indican la magnitud o el volumen de los datos, indicando
si por su valor estos son grandes o son pequeños, altos o bajos.
Entre este tipo de medidas las más comunes son.
La media aritmética o el promedio
La mediana
La moda
Media armónica
La media geométrica
Tasa de variación promedio
Otras medidas de tendencia central
X Ingreso mensual
1 11,961
2 16,692 n= 10
3 13,424 ΣX= 131,603
4 13,347 _
5 13,465 X=ΣXi / n = 131,603 /10
6 13,126 _
7 10,055 X==ΣX i / n
13,160.30
8 16,556
9 11,408
10 11,569 Interpretación: El ingreso promedio de los
Total 131,603 maestro era de 13,160.30 pesos.
37
6.4.2. Si los datos están agrupados en clases y frecuencias
_ _
X=ΣXi*fi / n lo que sería lo mismo, X==ΣX
ΣPMi*f
i /i/Σf
ni
Se calcula como la suma de los productos de los valores de la variable de análisis por su valor
correspondiente en la variable externa o de ponderación, dividida por los suma de los valores
de la variable externa o de ponderación.
La media ponderada de un conjunto de números X1, X2, .., Xn, con las ponderaciones
correspondientes w1, w2, ... ,wn, se calcula con la fórmula.
_
w = Σxiwi /Σwi o
X
38
n
w x i i
xw i 1
n
w
i 1
i
Ejemplo:
w x i i
_ xw i 1
n
w = Σxiwi /Σwi
X w
i 1
i
1 10,103 34 343,502
2 14,460 22 318,120
3 17,701 23 407,123
4 14,200 44 624,800
5 14,095 31 436,945
6 11,363 27 306,801
7 10,122 39 394,758
8 12,171 25 304,275
9 11,829 33 390,357
10 10,323 35 361,305
11 13,505 15 202,575
Total 328 4,090,561
Σw
_ixi = 4,090,561 y Σwi = 328, resulta que la media aritmética ponderada
X
w = 4,090,561 / 328 = 12,471.22 pesos.
El cálculo de la media aritmética requiere que los datos sean tomados al mismo tiempo
durante un período muy corto.
Los datos deben corresponder a elementos distintos.
39
Es la medida de tendencia central de mayor uso en el análisis estadístico
Es una medida totalmente numérica o sea sólo puede calcularse en datos de características
cuantitativas.
Solamente se puede calcular para datos que se puedan sumar.
Aplica para datos correspondientes a varios elementos distintos, que fueron tomados con
diferencias mínimas de tiempo.
En su cálculo se toman en cuenta todos los valores de la variable.
Es lógica desde el punto de vista algebraico.
No puede ser calculada en distribuciones de frecuencia que tengan clases abiertas.
La media aritmética es única, o sea, un conjunto de datos numéricos tiene una y solo una
media aritmética.
Debe ser representativa de los datos
La
_ media aritmética de un constante es igual a la constante
K=K siendo K una contante.
Si le sumamos a todas las observaciones un mismo número, la media aumentará en dicha
cantidad. Lo que es lo mismo decir que: La media aritmética de la suma algebráica de una
variable
_____ y una__ constante es igual a la constante más la media aritmética de la variable.
K + X = K + X siendo K una contante y X una variable.
Si multiplicamos o dividimos todas las observaciones por un mismo número, la media
queda multiplicada o dividida por dicho número. Lo que indica que la media aritmética
del producto de una constante
____ _ y una variable es igual a la constante por la media aritmética
de la variable K*X = K*X siendo K una contante y X una variable.
La media Aritmética de suma de dos o más variables es igual a la suma de las medias
aritmética de esas variables.
Esta propiedad solamente se cumple cuando:
i. Las variables se pueden sumar, es decir están expresadas en la misma unidad, tienen
el mismo denominar, son independientes, y de la misma naturaleza o contexto.
ii. Cuando las variables tienen la misma cantidad de valores
________ __ __ __
X + Y +Z = X + Y +Z siendo X, Y y Z variables.
La suma de las diferencias entre cada uno de los valores _ de la variable_ que se esté
analizando y la media aritmética y, es igual a cero. Σ(Xi - X
) =0 ó Σ(Xi - X
)*f=0.
6.4.6. La Mediana.
40
La mediana se define como aquel valor de la variable que divide un conjunto de datos
ordenados en forma ascendente o descendente dos subconjuntos iguales, donde la primera
mitad son los menores y la otra mitad son los mayores.
Para calcular la mediana se requiere.
Contar los valores para obtener (n)
Ordenar los valores en forma ascendente o descendente
Determinar la posición de la mediana con la fórmula PMd=(n+1)/2
Y final calcular el valor que aparezca en esa posición.
X Ingreso X Ingreso
mensual mensual
ordenado
1 16,901 9,597 Calcule la posición de la mediana (PMd)
2 13,232 10,103
3 14,932 10,892 PMd = (n+1) / 2 = (10 +1) / 2 = 5.5
4 10,892 13,232 Implica que la mediana está entre el quinto y sexto valor.
5 14,815 13,963
Mediana
6 16,850 14,744
7 10,103 14,815 Md=(13,963+14,744) /2 = 14,353.50
8 13,963 14,932
9 9,597 16,850 En el 2021 la mitad de los trabajadores tenía un ingreso
10 14,744 16,901 mensual menor a los 14,353.50 pesos.
41
Li es el límite inferior de la clase donde se localiza la mediana
Ls es el límite superior de la clase donde se localiza la mediana
n es la cantidad de datos o lo mismo que Ʃfi
Fa es la frecuencia acumulada hasta la clase anterior a la que contiene la mediana
Ac es la amplitud de clase = Ls -Li, también Ac= Rango / Nc
f es la frecuencia absoluta de la clase que contiene la mediana
La mediana está localizada en la primera clase donde la frecuencia acumulada sea mayor o
igual que la PMd.
Clases
fi Fi
Li Ls Calcule la posición de la mediana (PMd)
15 - 20 16 16
20 - 25 9 25 PMd = n / 2 = 89 / 2 = 44.5
25 - 30 18 43 Implica que la mediana está en la primera clase donde la Fi ≥ PMd.
30 - 35 15 58
35 - 40 12 70 Ac = Ls – Li = 35 - 30 = 5
40 - 45 19 89 Md=Li + (PMd - Fa) / fi *AC
Total 89
Md=30 + (44.5 - 43) / 15 * 5= 30.50 años
Interpretación:
Propiedades de la mediana.
6.4.8. La Moda.
La moda se define como aquel valor de una variable que aparece mayor cantidad de veces en
un conjunto de datos. Es el que más se repite
Para calcular la moda se requiere:
Contar los valores para obtener la cantidad de veces que se repita cada uno.
El que se repita más veces, ese es la moda.
42
Ejemplo:
X Ingreso
mensual de
los
trabajadores
1 16,901
2 13,232 La Moda es 14,815, porque es valor que aparece con mayor cantidad de
3 16,850 veces.
4 14,932 La mayor cantidad de maestros con el mismo salario mensual ganan
5 10,892 14,815 pesos
6 14,815
7 16,850
8 14,815
9 10,103
10 13,963
11 14,815
Clases
fi
Li Ls
15 - 20 16 La Moda (Mo) está en la clase 25 - 30, porque es la tiene la mayor
20 - 25 9 frecuencia
25 - 30 19
30 - 35 15 Mo=Li + d1 / (d1+ d2) *Ac
35 - 40 12 d1= fi mayor - fi anterior = 19 - 9 =10 Ac=Ls-Li=30-25=5
40 - 45 18 d2= fi mayor - fi posterior =19-15 =4
Total 89 Mo=25+10 / (10 +4) * 5 = 28.57 años
43
Interpretación: En el 2021 la mayor de los trabajadores con una misma edad tenían 28.57
años.
32
24
16
0
1 2 3 4 5 6 7
44
Distibución Asimétrica Positiva
40
32
24
16
0
1 2 3 4 5 6 7
20
Distribución Simétrica o normal
16
12
8
4
0
1 2 3 4 5 6 7
Se entiende que la mayor utilidad de media armónica es cuando se tiene previsto medir el
rendimiento o logro de una variable con relación uso o consumo de otra.
La misma se expresa por la letra H, la cual solo puede calcularse para un conjunto finito de
valores donde no esté incluido el cero.
Ejemplo:
Trece personas trabajan en labores agrícolas, quienes tienen el mismo espacio, tiempo y
recursos para producir vegetales, los resultados fueron los siguientes:
45
Se requiere calcular la producción promedio con relación al gasto en que incurrió cada
persona, través de la media armónica.
Producción
Persona Gastos Y Y/X
X
1 28,663.72 13,516.84 0.47157
2 33,443.63 12,289.60 0.36747
3 27,204.28 17,031.43 0.62606
4 23,870.20 11,762.11 0.49275
5 34,612.21 12,714.97 0.36736
6 28,765.64 16,364.44 0.56889
7 30,703.12 14,526.42 0.47313
8 36,448.41 15,156.87 0.41584
9 21,664.18 12,573.45 0.58038
10 23,388.47 17,414.10 0.74456
11 32,311.71 12,517.19 0.38739
12 29,012.82 16,188.67 0.55798
13 27,457.05 14,041.58 0.51140
Total 186,097.65 6.56477
H= Ʃ Y / Ʃ( Y / X) =
186,097.65 / 6.56477 = 28,347.92
Ocho atletas estuvieron corriendo durante una hora, cada uno corrió la cantidad de kilómetros
X como aparece en la siguiente tabla:
X f f/X
12 1 0.08333
14 1 0.07143
10 1 0.10000
13 1 0.07692
14 1 0.07143
9 1 0.11111
15 1 0.06667
17 1 0.05882
Total 8 0.63971
46
H=Ʃ f / Ʃ(f /X) = n / Ʃ(1 /X) = 8 / 0.63971 = 12.51 Kilómetros
Clases fi X=PM fi / PM
Li Ls
8.00 - 11.10 6 9.55 0.63
11.10 - 14.20 8 12.65 0.63
14.20 - 17.30 3 15.75 0.19
17.30 - 20.40 2 18.85 0.11
20.40 - 23.51 1 21.95 0.05
23.51 - 26.61 8 25.06 0.32
Total 28 1.922
El cálculo de la media armónica requiere que los datos sean tomados al mismo tiempo
durante un período muy corto.
Los datos deben corresponder a elementos distintos.
Es la medida de tendencia central de menor uso en el análisis estadístico
Es una medida totalmente numérica, sólo puede calcularse para datos correspondientes a
una variable cuantitativa.
Aplica para datos correspondientes a varios elementos distintos, que fueron tomados con
diferencias mínimas de tiempo.
En su cálculo se toman en cuenta todos los valores de la variable.
Es lógica desde el punto de vista algebraico.
No puede ser calculada en distribuciones de frecuencia que tengan clases abiertas.
Solamente se puede calcular cuando todos los valores son distintos de cero.
La media armónica es única, o sea, un conjunto de datos numéricos tiene una y solo una
media armónica.
No necesariamente es representativa de los datos
La media armónica siempre es menor que la media aritmética
La media armónica de un constante es igual a la constante
H(k)=K siendo K una contante.
47
6.4.15. Media geométrica.
Es el promedio de los valores de una variable cuando estos corresponden a un mismo
individuo pero que han sido tomados en momentos distintos de un período de tiempo.
Una forma de entender con facilidad en significado de la media geométrica es la siguiente:
Una persona que se le toma el peso corporal siete veces durante un año, el peso promedio que
tuvo esa persona durante ese período se debe calcular utilizando la media geométrica.
Esta medida se calcula de la manera siguiente:
n_____________________
G = √ X1 * X2 * X3 * X4 *… Xn
G = antilog [ΣlogXi / n]
Ejemplo:
Distrito Escolar V. Cantidad de estudiantes por años. 2011-2021.
Estudiantes
Año Log(X)
(X)
2011 279,311 5.4461
2012 255,969 5.4082
2013 290,172 5.4627
G = antilog [ΣlogXi / n]
2014 311,253 5.4931
2015 267,897 5.4280
2016 322,440 5.5084
G = antilog [60.0105/11]=Antilog (5.4555)
2017 315,151 5.4985 G= 285,427.79 Pesos
2018 279,960 5.4471
2019 239,733 5.3797 Interpretación: En el Distrito Escolar V hubo un
2020 305,728 5.4853 promedio anual de 285,427.79 estudiantes, durante el
2021 284,001 5.4533 período 2011-2021.
Total 60.0105
n _________________________________________
G= √ X1f1* X2 f2 * X3 f3 * X4 f4 *… Xn fn
G = antilog [ΣlogXi*fi / n]
48
Por Ejemplo:
Frecuen- Punto
Clases
cias medio Log (Xi) Log (Xi) * fi
Li Ls fi Xi = PMi
20,046.00 - 24,650.81 5 22,348.41 4.349 21.746
24,650.81 - 29,255.62 5 26,953.22 4.431 22.153
29,255.62 - 33,860.43 3 31,558.03 4.499 13.497
33,860.43 - 38,465.24 11 36,162.84 4.558 50.141
38,465.24 - 43,070.05 6 40,767.65 4.610 27.662
43,070.05 - 47,674.86 7 45,372.46 4.657 32.598
47,674.86 - 52,279.68 5 49,977.27 4.699 23.494
Total 42 191.291
Xi = PMi = (Li+Ls) / n
G = antilog (ΣlogXi*fi / n)
G=35,854.44 pesos
49
Pronóstico Tiempo
de X t años
35,000.00 0
35,834.09 1
36,688.05 2
37,562.36 3
38,457.51 4
39,373.99 5
Si los datos están agrupados, el valor de la media geométrica puede ser afectado
grandemente por el método de designación de los intervalos de clases.
Las tasas de crecimiento se calculan y se usan dependiendo del tipo de evolución o tendencia
de los valores de la variable que se esté analizando.
Si los datos tienen un comportamiento lineal, indica que la variación absoluta de la variable
es la misma cada ano. En este caso la tasa de variación r se calcula de la siguiente manera:
Ejemplo:
Al 17 de noviembre del año 2014 la cantidad de estudiantes (N0) era 150,000 personas, y al
28 de abril del 2021 esta (Nt) era de 234,000 personas. Se requiere calcular la tasa de variación
lineal.
Calcule el tiempo
Lo que implica que entre el 17 de noviembre del año 2014 y el 28 de abril del 2021 la cantidad
50
de estudiantes tuvo un crecimiento de 8.67% en promedio anual.
Ejemplo:
Lo que implica que entre el 17 de noviembre del año 2014 y el 28 de abril del 2021 la cantidad
de estudiante tuvo un crecimiento de 6.89% en promedio anual.
Ejemplo:
Haciendo uso de los datos anteriores, la tasa de crecimiento o de variación geométrica es.
6.46 _______________
r=[ √ 234,000 / 150,000- 1] * 100= 7.13%
Lo que implica que en el 17 de noviembre del año 2014 y al 28 de abril del 2021 la población
desocupada tuvo un crecimiento de 7.13% en promedio anual.
a) Tiempo de duplicación
td = Ln 2 / Ln (1+ r / 100)
b) Tiempo de triplicación
51
tt = Ln 3 / Ln (1+ r / 100)
La r se debe dividir entre 100 si en su cálculo anterior la misma fue multiplicada por 100.
Nt = N0 * (1+r)t
Tiempo t
t= 5.5943 años.
Con los datos del Ejemplo: anterior a cuantos debió ser la población de estudiantes al
15/07/2018?
52
Tiempo t
N0 = 188,900 personas
Nomenclatura
Nt valor final o a una fecha futura
N0 valor inicial o a una fecha pasada
A valor fijo o constante por unidad de tiempo durante el período
53
6.6. Medidas de posición
Son indicadores estadísticos que presentan los valores hasta donde se acumula una proporción
específica de un conjunto de datos de una variable.
Para calcular cualquier medida de posición es necesario que los datos estén ordenados de
manera ascendente, y haber determinado la posición donde esté ubicada la medida de éstas
que se requiera calcular.
54
Ejemplo:
X Ingreso
mensual de X Ingreso
los mensual
trabajadores ordenado
1 16,901 9,597 Calcular el cuartil 3 o el Q3
2 13,232 10,103
3 14,932 10,892 Calcule la posición de Qk
4 10,892 13,232 PQk = K*(n+1) / 4
5 14,815 13,963 PQ3 = 3 * (12 +1) / 4 = 9.750
6 16,850 14,744
7 10,103 14,815 Implica que el Q3 está entre el noveno y el décimo valor.
8 13,963 14,932 Q3 = 15,378+(16850-15378)*0.750 =
9 9,597 15,378 El factor 0.750 es la parte decimal de valor de la posición del Qk
10 14,744 16,850 Q3= 16,482.00
11 15,378 16,901
12 17,344 17,344
El resultado indica que tres cuartas partes de los trabajadores tienen un ingreso mensual menor
de 16,482.00 pesos.
55
Ejemplo:
Los trabajadores por edad. 2021.
Grupos de
edades fi F i
Li Ls Calcular el cuartil 1 o el Q1
15 - 20 16 16 Calcule la posición del cuartil 1 (PQ1)
20 - 25 9 25 PQ1 = K* n / 4 = 1* 89 /4 = 22.25
25 - 30 18 43 El cuartil 1 está en la primera clase donde la Fi ≥ PQ1.
30 - 35 15 58 Implica que el cuartil 1 está en la clase 20 - 25.
35 - 40 12 70 Ac= Ls - Li= 25 - 20 = 5
40 - 45 19 89 Qk=Li + (PQk-Fa) / f *AC = Q1=20+ (22.25-16) / 9*5 = 23.47
Total 89
Interpretación: En el 2021, una cuarta parte de los trabajadores tenía menos de 23.47 años de
edad.
Los quintiles (Tk) son los valores que sirven de límite a cada una de las cinco partes de un
conjunto de datos. Hay cinco quintiles denotados usualmente T1, T2, T3, T4, T5. El primer
quintil, es el valor en el cual o por debajo del cual queda un quinto (20%) de todos los valores
de la sucesión (ordenada); el segundo quintil es el valor en el cual o por debajo del cual queda
el 40% de todos los valores; el tercer quintil, es el valor en el cual o por debajo del cual quedan
el 60%de los datos y el cuarto quintil, es el valor en el cual o por debajo del cual quedan el
80%, y el quinto quintil es igual al valor máximo de los datos.
PTk=k (n+1)/5, donde “n” es la cantidad de datos y “k” indica el orden quintil que se requiere
calcular.
K puede ser igual a 1, 2, 3, 4 o 5.
56
Ejemplo:
X Ingreso X
mensual de Ingreso
los mensual
trabajadores ordenado
1 16,901 9,597 Calcular el quintil 3 o el T3
2 13,232 10,103
3 14,932 10,892 Calcule la posición de Tk
4 10,892 13,232 PTk = K*(n+1) / 5
5 14,815 13,963 PT3 = 3 * (12 +1) / 5 =7.800
6 16,850 14,744
7 10,103 14,815 Implica que el T3 está entre el séptimo y el octavo valor.
8 13,963 14,932 T3 = 14,815 + (14,932 - 14,815) * 0.800 =
9 9,597 15,378
10 14,744 16,850 T3=14,908.60
11 15,378 16,901
12 17,344 17,344
El resultado indica que tres quintas partes de los trabajadores tenían un ingreso mensual menor
de 14,908.60 pesos.
El Tk está localizado en la primera clase donde le frecuencia acumulada sea mayor o igual
que la PTk.
57
Ejemplo:
Grupos de
edades fi Fi
Li Ls Calcular el quintil 2 o el T2
15 - 20 16 16 Calcule la posición del quintil 2 (PT2)
20 - 25 9 25 PT2 = K* n / 5 = 2* 89 /5 = 35.60
25 - 30 18 43 El quintil 2 está en la primera clase donde la Fi ≥ PT2
30 - 35 15 58 Implica que el quintil 2 está en la clase 25 - 30.
35 - 40 12 70 Ac= Ls - Li= 30 - 25 = 5
40 - 45 19 89 Tk=Li + (PTk - Fa) / fi *AC
Total 89
T2=25+ (35.60 - 25) / 18 * 5 =27.94
Interpretación: En el 2021, dos quintas partes de los trabajadores tenían menos de 27.94 años
de edad.
Los Deciles (Dk) son los valores que sirven de límite a cada una de las diez partes de un
conjunto de datos. Hay diez deciles denotados usualmente D1, D2, D3 ,.., D10. El primer decil
es el valor en el cual o por debajo del cual queda una décima parte (10%) de todos los valores
de la sucesión (ordenada); el segundo decil es el valor en el cual o por debajo del cual queda
dos décimas partes(20%) de todos los valores; el tercer quintil, es el valor en el cual o por
debajo de tres décimas pares (30%)de los datos, y así sucesivamente. El décimo decil es igual
al valor máximo de los datos.
PDk=k (n+1)/10, donde “n” es la cantidad de datos y “k” indica el orden del decil que se
requiere calcular.
58
Ejemplo:
X Ingreso X Ingreso
mensual de los mensual
trabajadores ordenado
1 16,901 9,597 Calcular el Decil 4 o el D4
2 13,232 10,103
3 14,932 10,892 Calcule la posición de Dk
4 10,892 13,232 PDk = K*(n+1) / 10
5 14,815 13,963 PD4 = 4 * (12 +1) / 10 = 5.20
6 16,850 14,744
7 10,103 14,815 Implica que el D4 está entre el quinto y el sexto valor.
8 13,963 14,932 D4 = 13,963 + (14,744 - 13,963) * 0.200 =
9 9,597 15,378
10 14,744 16,850 D4= 14,119.20
11 15,378 16,901
12 17,344 17,344
El resultado indica que cuatro décimas partes de los trabajadores tenían un ingreso mensual
menor de 14,119.20 pesos.
6.6.6. Los Deciles si los datos están agrupados en clases y frecuencias.
Grupos de
edades fi Fi
Li Ls Calcular el decil 6 o el D6
15 - 20 16 16 Calcule la posición del decil 6 (PD6)
20 - 25 9 25 PD6 = K* n / 10 = 6* 89 / 10 = 53.40
25 - 30 18 43 El decil 6 está en la primera clase donde la Fi ≥ PD6
30 - 35 15 58 Implica que el decil 6 está en la clase 30 - 35.
35 - 40 12 70 Ac= Ls - Li= 35 - 30 = 5
40 - 45 19 89 Dk=Li + (PDk-Fa) / f *AC
Total 89 D6=30+ (53.40 - 43) /15 * 5 =33.47
Interpretación: En el 2021, seis décimas partes de los trabajadores tenían menos de 33.47 años
de edad.
59
6.6.7. Los percentiles
Los percentiles (Ck) son los valores que sirven de límite a cada una de las cien partes de un
conjunto de datos. Hay cien percentiles denotados usualmente C1, C2, C3,.. C100. El primer
percentil es el valor en el cual o por debajo del cual queda una centésima parte (1%) de todos
los valores de la sucesión (ordenada); el segundo percentil es el valor en el cual o por debajo
del cual queda dos centésima partes (2%) de todos los valores; el tercer percentil es el valor
en el cual o por debajo de tres centésima partes (3%) de los datos, y así sucesivamente. El
percentil 100 es igual al valor máximo de los datos.
Un percentil se calcula de la siguiente manera:
60
Ac es la amplitud de clase = Ls -Li, también Ac = Rango /Nc
fi es la frecuencia absoluta de la clase que contiene el Ck
El Ck está localizado en la primera clase donde le frecuencia acumulada sea mayor o igual
que la PCk
Ejemplo:
Los trabajadores por edad
Grupos de
edades fi Fi
Li Ls Calcular el percentil 38 o el C38
15 - 20 16 16 Calcule la posición del percentil 38 (PC38)
20 - 25 9 25 PC43 = K* n / 100 = 38* 89 / 100 = 33.82
25 - 30 18 43 El percentil 38 está en la primera clase donde la Fi ≥ PC38
30 - 35 15 58 Implica que el percentil 38 está en la clase 25 - 30.
35 - 40 12 70 Ac= Ls - Li= 30 - 25 = 5
40 - 45 19 89 Ck=Li + (PCk - Fa) / f *AC
Total 89 C38=25 + (33.82 - 25) /18 * 5 = 27.45
Interpretación: En el 2021, el 38% de los trabajadores tenía menos de 27.45 años de edad.
Equivalencias
El Q1= C25
El Q2=D5=C50=Md
El Q3= C75
El D1= C10
El D2= T1= C20
El D3= C30
El D4= T2= C40
El D5= Q2= C50=Md
El D6= T3= C60
El D7= C70
El D8= T4= C80
El D9= C90
El D10= Q4= T5= C100=Valor máximo.
61
Las medidas de dispersión tienen como finalidad estudiar hasta qué punto, para una
determinada distribución de frecuencias, las medidas de tendencia central o de posición son
representativas de los valores que constituyen la información de la distribución.
Medir la representatividad de una medida de tendencia central o de posición, explica la
separación de los valores de la distribución respecto a dicha medida.
A medida que las medidas de variación son mayores indican que hay una mayor dispersión o
una mayor diferencia entre los datos; o lo que sería lo mismo, existe una menor concentración
entre ellos. En otros casos se dice que son muy heterogéneos.
Las medidas de dispersión más comunes son:
El rango, recorrido o amplitud total
La desviación media
La varianza
La desviación estándar o desviación típica
Coeficiente de variación
Este expresa la diferencia máxima posible entre dos valores cualesquiera correspondientes a
un conjunto de datos de una variable.
El rango se calcula como la diferencia en el valor mayor y el menor.
Interpretación: En el 2021, la diferencia entre el ingreso de los trabajadores que más gana y
el de la menos gana, es de 16,268 pesos.
Aunque los libros de estadística no explican esto ni la mayoría de las personas que enseña esta
ciencia, esta comparación expresa en que magnitud supera el valor máximo al mínimo. Lo
mismo podrían observarse dividiendo el valor máximo entre el mínimo.
62
Rango / Mínimo= 16,268/10,166=1.60
En algunos casos resulta necesario que el rango sea comparado con el mínimo o con el valor
medio para poder expresar de manera relativa en que porcentaje se diferencia el máximo del
mínimo o cuantas veces el máximo contiene el mínimo.
Siendo el valor medio la semisuma del mínimo y el máximo.
VM= (Mínimo + Máximo) / 2 = (26,434 -10,166) / 2 = 18,300
63
_
= ΣXi/n=168,751 / 12= 14,063
│Xi - X│ _
DM =Σ│Xi - X│/n=25,051.83 /12 = 2,087.65
Comparación de la DM con el promedio = 2,087.65 / 14,063 x 100=14.84%.
Interpretación: En el 2021, la diferencia promedio que hay entre el ingreso mensual de las
personas y su ingreso promedio, es de 2,087.65 pesos.
n= Σfi
Ejemplo:
64
También en algunos casos resulta necesario que la desviación media sea comparada con el
promedio o media aritmética para poder expresar de manera relativa en que porcentaje se
diferencian los valores de promedio o media aritmética. Aunque no es un concepto
generalizado, si este porcentaje excede en el 15%, se entiende que hay mucha diferencia entre
los distintos valores y el promedio, podría decirse que el promedio no es representativo de una
alta proporción de los datos.
6.7.2.3. La Varianza
x x fi
2
i
S2 i 1
n
_
X = ΣXi / n n es la cantidad de datos.
65
_
S2 = Σ(X- X)2 / n = 76,482,780.92 / 12
= 6,373,565.08
x x fi
2
i
S 2 i 1
Teorema. La varianza para un conjunto de datos agrupados es dada como la media aritmética
de los cuadrados menor el cuadrado de la media aritmética.
m
x 2
i fi
S i 1
x
2 2
Si se multiplican todos los valores de una variable por una constante k, la varianza queda
multiplicada por el cuadrado de la constante.
S2(k*X)=k2S2(X)
La varianza de la suma algebráica de dos o más variables es igual a la suma de las varianzas
de las variables. S2(X+Y+Z)= S2(X) + S2(Y) + S2(Z).
66
Ejemplo:
Los trabajadores por edad _ _ _
2
Li Ls fi X=PM X*fi (X- X) (X- X
S)2=Σ (X- X )2 *f / n
15 - 20 16 17.5 280.00 -13.09 171.35 2,741.57
20 - 25 9 22.5 202.50 -8.09 65.45 589.03
25 - 30 18 27.5 495.00 -3.09 9.55 171.87
30 - 35 15 32.5 487.50 1.91 3.65 54.72
35 - 40 12 37.5 450.00 6.91 47.75 572.98
40 - 45 19 42.5 807.50 11.91 141.85 2,695.11
Total 89 2,722.50 6,825.28
_
X= ΣXifi /n = ΣPMifi / Σfi =2,722.50/89=30.59 años
_
S =Σ (X- X)2 *f / n
2
S2 = 6,825.28/ 89 =76.69
67
__ ___________
_ __________________ ___________ _
2 2 2 2 2 2
S= √S =√Σ(Xi- X
) *fi/n = √[ΣXi *fi –(ΣXi*fi/n) ]=√[ΣXi *fi – X ]
__ ______________________
S=√S = √ΣXi2*fi /n - (ΣXi*fi /n)2
2
__ __________________________
S=√S = √ΣPMi2*fi /n - (ΣPMi*fi /n)2
2
___ _
___________________
S=√S = √ΣXi2fi /n - X 2= ΣXi / n
2
__ ___________
_ __________________ ___________ _
2 2 2 2 2 2
S= √S =√Σ(Xi- X √[ΣXi *fi –(ΣXi*fi/n) ]=√[ΣXi *fi – X
) *fi/n = √76.69=8.76 ]
Es una medida relativa que expresa la relación entre la desviación típica y la media aritmética,
indicando la proporción de la media aritmética que representa la desviación típica, por lo
general se expresa en porcentaje.
Se obtiene con la finalidad de comparar la variación relativa entre dos o más conjuntos de
datos independientemente
_ de su magnitud y de su naturaleza.
CV=S / X * 100
Al comparar la variabilidad relativa entre dos o más conjuntos de datos, siempre el que resulte
con menor coeficiente de variación es más homogéneo, indicando que hay mayor cercanía
entre los valores de ese conjunto que entre los de los otros.
Ejemplo:
_
CV=S / X * 100 = 8.76 / 30.59 * 100 = 28.63%
68
Nunca son negativas
A medida que una medida de variabilidad se aleja del cero indica que existe una mayor
dispersión entre los valores de la variable. Por lo tanto, los elementos presentan mayor
diferencia
El coeficiente de variación permite comparar la variabilidad relativa de dos o más conjuntos
de datos correspondientes a una variable numérica, sin importar su magnitud ni su
naturaleza.
Consiste en explicar todos los hallazgos relevantes y que responden o contradicen los
objetivos planteados en el sistema estadístico. El análisis requiere del uso de las técnicas y los
procedimientos estadísticos pertinentes para explicar la relación entre los indicadores y
medidas resultantes. Todo análisis estadístico debe ser claro, preciso, expresado en un
lenguaje sencillo y fácil de entender por los usuarios finales.
6.8.2. Resumen.
Expresar en pocas palabras los hallazgos relevantes y de impacto en los objetivos. El proceso
estadístico debe contener un resumen final de los resultados obtenidos, que incluya las
conclusiones y las recomendaciones que sirvan de base a los responsables de tomar las
decisiones con la mayor certeza posible.
69
VII. Teoría de Probabilidades
Es importante conocer las probabilidades de que ocurra cada hecho como forma de
contrarrestar su efecto. El conocimiento de las probabilidades no asegura la ocurrencia de un
hecho, sin embargo se puede deducir el que tenga mayor posibilidad de presentarse, y en base
a estos buscar alternativas inteligentes que eviten ser afectados significativamente.
Todo lo que ocurre en el mundo está contenido dentro de un esquema como este:
I) 0 ≤ P(X=a) ≤ 1
II) ΣP(X=a) = 1
Las probabilidades se expresan como fracciones o como decimales que están entre cero y uno.
Tener una probabilidad de cero significa que el evento nunca va a suceder, si una probabilidad
es igual a uno indica que el evento va a suceder siempre.
70
Experimento aleatorio. Es una actividad o un proceso que puede arrojar distintos resultados.
Prueba donde existen dos o más resultados posibles, y no se pude anticipar cuál de ellos va a
ocurrir.
Evento o suceso. Es cada uno de los resultados posibles de un experimento aleatorio. Los
eventos están constituidos por una cantidad específica de elementos.
Espacio muestral. Es la cantidad de elementos que constituyen los distintos eventos o sucesos
de un experimento aleatorio.
Existe distintos métodos para calcular probabilidades, es parte solamente se hará referencia a
los métodos generales y a la distribución normal. Los primeros para entender las
características básicas de estas medidas y el segundo porque su conocimiento es básico para
hacer uso de algunos elementos de los métodos muestreo.
Probabilidad clásica o de Laplace). Número de resultados favorables a la presentación de un
evento dividido entre el número total de resultados posibles.
P(X=a)=CF / CP
Ejemplo:
Asignaturas
Repetidas Estudiantes P(X)
X
0 15 0.1014
1 20 0.1351
2 13 0.0878
3 17 0.1149
4 16 0.1081
5 15 0.1014
6 19 0.1284
7 24 0.1622
8 9 0.0608
Total 148 1.0000
Ejemplo:
Si se toma una muestra de manera aleatoria de los estudiantes de un colegio para hacer una
evaluación del rendimiento docente, la cual se distribuye de acuerdo a la asignatura de mayor
calificación de los estudiantes:
71
A Matemática 26 0.0977
B Física 46 0.1729
C Historia 37 0.1391
D Gramática 38 0.1429
E Idiomas 40 0.1504
F Informática 49 0.1842
G Biología 30 0.1128
Total 266 1.0000
En este caso el valor de n y el de k aumentan paralelamente, por tanto el cociente (k/n) tiende
a hacerse una constante cuando n alcanza un valor grande.
72
Ejemplo: Sea X la cantidad de miembros de los hogares vulnerables y P(X) sus respectivas
probabilidades:
Xi P(Xi)
1 0.148
2 0.064 Si los Xi=2, Xi=3 o Xi=6 son independientes
3 0.161 P(Xi=2, Xi=3 o Xi=6) = P(Xi=2) + P(Xi=3) + P(Xi=6)
4 0.139 = 0.064 + 0.161 +0.034 = 0.259
5 0.202 Si los Xi=2, Xi=3 o Xi=6 no son independientes, entonces se requiere restar la
0.034 parte común en entre ellos.
6
P(Xi=2, Xi=3 o Xi=6) = P(Xi=2) + P(Xi=3) + P(Xi=6) – [P(Xi=2 y Xi=3) + P(Xi=2
7 0.202
y Xi=6) + P(Xi=3 y Xi=6) + P(Xi=2, Xi=3 y Xi=6)]
8 0.050
Total 1.000
Ʃ
ƩƩƩƩ
Ʃ P(X,Y,Z)=1
P(X,Y,Z)=1 0 ≤ P(X,Y,Z)≤ 1
1 1 1
1 1 1
73
Ejemplo: Para que una persona consiga un trabajo (Yi) debe tener los siguientes atributos:
Edad mayor de 18 años (x>18), Estudios universitarios (n=4), conocimientos de tecnología
(t=1) y hablar correctamente idioma inglés (h=1).
La probabilidad de seleccionar aleatoriamente una persona que tenga edad menor de 30 años,
un nivel educativo secundario o universitario y que no sea hembra.
74
7.3.4. Probabilidad condicional e independencia
La probabilidad de seleccionar aleatoriamente una persona que tenga edad entre 30 y 40 años,
dentro del grupo que tiene un nivel educativo secundario.
La probabilidad de seleccionar aleatoriamente una persona que tenga edad mayor de 30 años
y menor de 50, dentro del grupo que tiene un nivel educativo secundario o universitario.
Ejemplo: l
La empresa R&K está compuesta por el departamentos “A1” donde laboran 47 empleados, de
los cuales (B1=18) son personas con especialidad, y el resto (B2=29) no tiene especialidad; y
“A2” donde laboran 34 empleados de los cuales (B2=15) son personas con especialidad, y el
resto (B2=19) no tiene especialidad.
75
Composición de la empresa
Departamentos Tenencia de
A1 y A2 Conoc. B1 y B2
Dpto. A1 = Con Exp. "B1"=18
Total (47 + 34)= 47 Sin Exp. "B2"=29
81 Dpto. A2 = Con Exp. "B1"=15
34 Sin Exp. "B2"=19
Cálculo de probabilidades
P(A1, B1)=18/81
P(A1)=47/81 0.2222
0.5802 P(A1, B2)=29/81
P(A1 o A2)= 0.3580
1.0000 P(A2, B1)=15/81
P(A2)=34/81 0.1852
0.4198 P(A2, B2)=19/81
0.2346
Probabilidades Conjuntas
Probabilidades Condicionales
P(A1 | B1) = P(A1, B1) / P(B1) =0.2222 / 0.4074=0.5454
P(A1 | B2) = P(A1, B2) / P(B2) =0.3580 / 0.5926=0.6041
P(A2 | B1) = P(A2, B1) / P(B1) =0.1852 / 0.4074=0.4546
P(A2 | B2) = P(A2, B2) / P(B2)= 0.2346 / 0.5926=0.3959
P(B1 | A1) = P(B1, A1) / P(A1)= 0.2222 / 0.5802=c
P(B1 | A2) = P(B1, A2) / P(A2)= 0.1852 / 0.4198=0.4412
P(B2 | A1) = P(B2, A1) / P(A1)= 0.1852 / 0.5802=0.3192
P(B2 | A2) = P(B2, A2) / P(A2)= 0.2346 / 0.4198=0.5588
76
7.4. Teorema de Bayes y sus aplicaciones
En sentido general éste expresa la probabilidad condicional de que ocurra un evento aleatorio
“Bi” del experimento B, habiendo ocurrido el evento “Ai” dentro del experimento A, donde
la probabilidad de evento “Ai” es distinta de cero.
1≤i≤n y 1≤j≤k
77
Probabilidad total
Ejemplo 2: Un proveedor de productos agrícolas tiene tres naves (A1, A2 y A3) donde los
clientes pueden adquirir los productos, los cuales están ubicados en los depósitos (B1, B2 y
B3). Los productos están distribuidos como se indica en la siguiente tabla:
Naves Depósitos
P(A1, B1)=86/344
0.2500
P(A1)=344/1,200 P(A1, B2)=179/344
0.2867 0.5203
P(A1, B3)=79/344
0.2297
P(A2, B1)=154/465
0.3312
A1+A2+A3= P(A2)=465/1,200 P(A2, B2)=194/465
1,200 0.3875 0.4194
P(A2, B3)=116/465
0.2495
P(A3, B1)=80/391
0.2046
P(A3)=391/1,200 P(A3, B2)=179/391
0.3258 0.4578
P(A3, B3)=132/391
0.3376
78
a) Probabilidad total
Dos eventos A y B son independientes si y solo si la probabilidad del evento B no está influida
por el evento A. Lo mismo si y solo si la probabilidad del evento A no está influida por
el evento B
En tal caso se debe cumplir P(X∩Y)= P(X)P(Y). De igual manera la P(X|Y)= P(X)
Ejemplos:
El empleado “X” tiene una probabilidad de llegar tarde (p=0.3676) y de llegar temprano
(q=0.6324), y el empleado “Y” tiene una probabilidad de llegar tarde (l=0.4893) y de llegar
temprano (m=0.5107)
79
Distribución de probabilidades. Modelo teórico que describe la forma en que varían los
resultados de un experimento aleatorio. Lista de los resultados de un experimento con sus
respectivas probabilidades.
No. de actos
delictivos
P(X)
cometidos
X
0 0.2088
1 0.1508
2 0.1160
3 0.1021
4 0.0974
5 0.0951
6 0.0766
7 0.0742
8 0.0441
9 0.0348
Total 1.0000
Función de probabilidad. Es una expresión o fórmula matemática que asigna o genera las
probabilidades a cada uno de los valores de una variable aleatoria.
P(X=x) = (1-p)x p
Sea p= 0.35 que es la proporción de documentos con errores de ortografía, y “x” la cantidad
de documentos con este tipo de errores.
Errores
P(X=x)
x
0 0.3500
1 0.2275
2 0.1479 Dándole valores a X en la
3 0.0961 función:
4 0.0625 P(X=x) =(1-0.35)x 0.35,
5 0.0406 se obtienen los valores de
6 0.0264 probabilidad P(X=x)
7 0.0172
8 0.0112
9 0.0072
10 0.0047
80
7.6. Valor esperado o Esperanza Matemática.
Es el valor promedio de eventos de experimento que se estima deben cumplir con una
condición específica, de acuerdo a una distribución de probabilidades. Aplicando la definición
clásica de probabilidad.
E(x)=ΣX*P(X) = 3.987
Interpretación: El promedio de asignaturas repetidas 3.987.
Varianza esperada. Es la varianza del valor los eventos de un experimento que se estima
deben cumplir con una condición específica, de acuerdo a una distribución de probabilidades.
Aplicando la definición clásica de probabilidad.
V(x)=ΣX2*P(X) – (ΣX*P(X))2 =22.2464 - 3.9872=6.35023
Interpretación: Varianza de la cantidad de asignaturas repetidas 6.35023.
Asignaturas
Estudiantes P(X) X * P(X) X2* P(X)
Repetidas X
0 15 0.1014 0 0
1 20 0.1351 0.1351 0.1351
2 13 0.0878 0.1756 0.3512
3 17 0.1149 0.3447 1.0341
4 16 0.1081 0.4324 1.7296
5 15 0.1014 0.5070 2.5350
6 19 0.1284 0.7704 4.6224
7 24 0.1622 1.1354 7.9478
8 9 0.0608 0.4864 3.8912
Total 148 1 3.987 22.2464
Son aquellas que permite calcular las probabilidades o la posibilidad de ocurrencia de cada
uno de los eventos de un experimento o de una variable discreta.
Aplica cuando se requiere calcular la probabilidad de que se presenten hechos poco frecuentes,
donde la proporción de casos sea (p≤0.20) y la cantidad de casos posible (n˃30). Esta forma
parte de las distribuciones de probabilidad que aplican a los llamados casos raros. Esta
distribución de probabilidad se basa en el promedio de hechos que ocurran en una unidad de
tiempo o de espacio. Por Ejemplo: el que un artículo salga defectuoso de un proceso de
producción, tiempo que tardan las personas en espera, etc.
La misma tiene varias aplicaciones, por eso se presentan varios tipos de ejemplos.
Donde.
81
λ >0 y representa la media aritmética de la característica que se esté analizando. λ es el
promedio, el valor esperado o la esperanza matemática. λ =np=e(x)=μ.
Var(x) también es igual a λ =np=e(x)=μ. Esta es una propiedad exclusiva la distribución
de probabilidad de Poisson.
p es la proporción de eventos que cumplen con la condición que se tenga como objetivo. Por
lo general p<0.20.
n es la cantidad de eventos posibles, por lo general n>30.
“x” es la cantidad de elementos que se prefiere obtener con la característica o la condición
objetivo en una muestra de “n” elementos. Siempre 0 ≤ x ≤ n.
e=2.7183
Se aplica a hechos que se repiten pocos veces, por esta distribución de probabilidad pertenece
a lo se llaman casos raros.
Ejemplo 1: Se sabe por análisis anteriores que el 8% de los jóvenes que se inscriben en el
programa de emprendimiento tienen éxitos en los proyectos que emprenden. Si 40 jóvenes se
inscriben y reciben todas las orientaciones del lugar, cual es la probabilidad de que menos de
cinco de ellos tengan éxito en sus iniciativas productivas?
λ =np=e(x)=μ=40*0.08=3.20.
x=k=0, 1, 2, 3, 4 ó k<5
k=4
P(X<5)=Σ P(X=k) =P(X=0)+ P(X=1)+ P(X=2)+ P(X=3)+ P(X=4).
k=0
Ejemplo 2: Los empleados del Ministerio realizan distintos cursos de especialización para
fortalecer sus capacidades de responder a las necesidades de los usuarios. El Departamento de
Capacitación ha determinado que los empleados en promedio han realizado 8.37 de esos
cursos. Para enviar a un entrenamiento a nivel internacional se requiere saber la probabilidad
de seleccionar aleatoriamente un empleado que cumpla las siguientes especificaciones:
82
9.2.1. Que haya hecho menos de tres cursos de especialización
P(X=k)=e-λ*λk/k!
K=0,1,2 ó k≤2
λ =e(x)=μ=8.37
k=2
P(X<3)=Σ P(X=k) =P(X=0)+ P(X=1)+ P(X=2)
k=0
P(X=0)=2.7183-8.37 x 8.370 / 0!=0.0002
P(X=1)=2.7183-8.37 x 8.371 / 1!=0.0019
P(X=2)=2.7183-8.37 x 8.372 / 2!=0.0081
Total = P(X<3)= ..…………… 0.0103
P(X=k)=e-λ*λk/k!
K=3,4,5,6 ó 3≤k≤6
k=6
P(3≤X≤6)=Σ P(X=k) =P(X=3)+ P(X=4)+ P(X=5) + P(X=6)
k=3
P(=k)=e-λ*λk/k!
K >4
K=4
P(X >4) = 1- P(X≤4) = 1- ΣP(X=k)= 1- [P(X=0)+ P(X=1)+ P(X=2)+ P(X=3)+ P(X=4)]
K=0
83
P(X=0)=2.7183-8.37 x 8.370 / 0!=0.0002
P(X=1)=2.7183-8.37 x 8.371 / 1!=0.0019
P(X=2)=2.7183-8.37 x 8.372 / 2!=0.0081
P(X=3)=2.7183-8.37 x 8.373 / 3!=0.0226
P(X=4)=2.7183-8.37 x 8.374 / 4!=0.0474
Total = P(X≤4)= …..………….0.0803
P(X >4) = 1-0.0803= 0.9197
Ejemplo 3: Durante los días de consulta los pacientes hacen largas filas o colas en los
consultorios médicos para recibir atención. Los analistas de proceso han determinado que en
promedio los pacientes tardan (μ=17.45) minutos para ser atendidos. Y requieren saber la
probabilidad de que un paciente sea atendido por el médico en 12 minutos.
λ = e(x)=μ=17.45.
K=12
P(X=k)=e-λ*λk/k!
Dónde
=n!/(x!(n-x)!)
“n”en la cantidad de elementos que se esté analizando. Por lo general oscila entre “n≤30”.
“p” es la proporción de elementos que presentan la característica o la condición que se tiene
como objetivo. Por lo general el valor varía entre “0.30<p<0.70”.
“q=1-p” que es la proporción de elementos que no presentan la característica o la condición
objetivo.
En todo caso p+q=1.
“x” es la cantidad de elementos que se prefiere obtener con la característica o la condición
objetivo en una muestra de “n” elementos. Siempre 0 ≤ x ≤ n.
La varianza es S2=np(1-p)
84
El coeficiente de asimetría viene dado por la expresión
Ejemplo:
Se ha determinado que el 43.17% de las personas registradas en los programas nunca han
recibido orientación. Si se eligen aleatoriamente n=16 jóvenes, cual es la probabilidad de que
aparezcan entre 5 y 8 jóvenes que no hayan tomado ese tipo de servicio.
K=8
P(5 ≤ X ≤8) = Ʃ P(X=k) = P(X=5)+ P(X=6)+ P(X=7)+ P(X=8)
K=5
La probabilidad de que aparezcan cinco jóvenes que hayan trabajado antes es 0.1308.
P(X=k) = (1-p)K p
Donde.
85
La moda es igual a cero, Mo=0.
La varianza de las cantidades de elementos que cumplen la condición x viene dada por la
expresión S2= (1-P)/P2
Ejemplo: Los analistas financieros han determinado a lo largo de su tiempo de labores que
un 12.71% o (0.1271) de los contratos presentan algún tipo de errores que ellos han tenido
que corregir. En el último mes se elaboraron una gran cantidad de contratos a igual cantidad
de suplidores, se requiere saber la probabilidad de que aparezcan no más de tres contratos con
algún error.
x=3
P(X≤3) = Ʃ(1-p)x p
x=1
Una aplicación sería: Si en una institución hay (N=40) empleados entre los cuales hay (k=17)
que ingresaron en el último año. Se seleccionan aleatoriamente (n=12) de los “N” empleados
para participar en un curso, se requiere calcular la probabilidad de que en “n” a parezca una
cantidad aparezcan “x=4” empleados de los que ingresaron en el último año.
86
N=k+(N-k)
n=x + (n-x)
=N!/(n!(N-n)!)
Dónde:
N ≥ n
k ≥ x
El promedio o la media aritmética viene dada por µ=nK/N, el cual indica la cantidad de
esperada de elementos con la característica de interés en la muestra n.
Mo=
La moda viene dada por la expresión Mo= , que indica la cantidad de elementos
con mayor probabilidad de obtener la características de interés.
El coeficiente de asimetría que indica la forma en que se distribuye las cantidades de eventos
con la característica de interés, viene dada por la siguiente expresión:
As= ..
Curtosis de la función hipergeométrica, que indica el grado de concentración de las
cantidades de elementos que podrían tener la característica de interés:
87
(α4)=
Ejemplo: En un lote de (N=53) unidades de productos los supervisores han identificado (k=8)
unidades defectuosas, los analistas han seleccionado de manera aleatoria (n=12) unidades de
esos productos, se requiere saber la probabilidad de que aparezcan no más de dos (x ≤ 2)
unidades defectuosas.
Es útil para describir una variable aleatoria con probabilidad constante sobre los límites (a,b)
en el que está definida. También es conocida como distribución rectangular por su función
de densidad.
Función de distribución
Función de densidad
Varianza
Ejemplo: El ingreso los hogares oscila entre (A=20,154 y B=27,634) pesos. La probabilidad
de seleccionar un hogar tenga un ingreso entre (a=23,193 y b=24,365) sería:
A=20,154 B=27,634 siempre A<B
a= 23,193 b=24,365 siempre a<b
(b-a) Ɛ (B-A) → El intervalo (b-a) pertenece al intervalo (B-A)
A a b B
88
P(a< x < b)= (b-a) / (B-A)= (24,365 – 23,193) / (27,634 -20,154)=1,172/7,480=0.1567
Es una distribución continua que se utiliza para modelar tiempos de espera para la ocurrencia
de un cierto evento.
Su función de distribución es viene dada por la expresión f(x)=ꞵe-ꞵx, donde x>0 y ꞵ>0
La funcion de distribución acumulada o de densidad es F(x)=1-e-ꞵx.
Ejemplo: El tiempo promedio para que un empleado permanezca de la empresa es µ=6.45
años, calcular las probilidades:
ꞵ=1/µ=1/6.45
F(X<5)=1-e-ꞵx=1-e-1/6.45(5)=0.5394
ꞵ=1/µ=1/6.45
F(X>7)=1-e-ꞵx=1-(1-e-1/6.45(7))=1-0.6622 =0.3378
Donde
Por esa forma de campana recibe el nombre de Campana de Gaus, en honor a quién la
desarrolló.
La misma tiene gran utilidad en el diseño de muestras, en la prueba de hipótesis, en el control
de calidad, en análisis de regresión; procedimientos que se usan frecuentemente en la
industria, en la medicina, economía sociología, psicología, política, ingeniería, ciencias
naturales, entre otras áreas de aplicación.
Tipificación
Es el proceso a través del cual se transforma la variable de análisis (X) en la variable tipificada
(Z).
_
Z=(X- X)/S
La Z toma valores entre -5 y 5, con un promedio de “0” y su desviación estándar igual a “1”.
Esto se puede comprobar a través de la siguiente tabla.
I X Z
1 41 -0.0264
2 30 -1.4769
3 42 0.1055
4 44 0.3692
5 57 2.0834
6 40 -0.1582
7 49 1.0285
8 36 -0.6857
9 36 -0.6857
10 37 -0.5538
_
Promedio X 41.2 0.0000
Desviación Estandar S 7.5836 1.0000
_
Donde Xes la media aritmética y S es la desviación estándar.
90
Características de la distribución normal.
P(20,000 ≤ X ≤ 25,000)
_
Z1=(X1- X) / S=(20,000-23,548)/2,459=-1.44
_
Z2=(X2- X) / S=(25,000-23,548)/2,459=0.59
91
Tabla Normal (-Z)
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-4.00 0.00003 0.00003 0.00003 0.00003 0.00003 0.00003 0.00002 0.00002 0.00002 0.00002
-3.90 0.00005 0.00005 0.00004 0.00004 0.00004 0.00004 0.00004 0.00004 0.00003 0.00003
-3.80 0.00007 0.00007 0.00007 0.00006 0.00006 0.00006 0.00006 0.00005 0.00005 0.00005
-3.70 0.00011 0.00010 0.00010 0.00010 0.00009 0.00009 0.00008 0.00008 0.00008 0.00008
-3.60 0.00016 0.00015 0.00015 0.00014 0.00014 0.00013 0.00013 0.00012 0.00012 0.00011
-3.50 0.00023 0.00022 0.00022 0.00021 0.00020 0.00019 0.00019 0.00018 0.00017 0.00017
-3.40 0.00034 0.00032 0.00031 0.00030 0.00029 0.00028 0.00027 0.00026 0.00025 0.00024
-3.30 0.00048 0.00047 0.00045 0.00043 0.00042 0.00040 0.00039 0.00038 0.00036 0.00035
-3.20 0.00069 0.00066 0.00064 0.00062 0.00060 0.00058 0.00056 0.00054 0.00052 0.00050
-3.10 0.00097 0.00094 0.00090 0.00087 0.00084 0.00082 0.00079 0.00076 0.00074 0.00071
-3.00 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00104 0.00100
-2.90 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139
-2.80 0.00256 0.00248 0.00240 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193
-2.70 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.00280 0.00272 0.00264
-2.60 0.00466 0.00453 0.00440 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357
-2.50 0.00621 0.00604 0.00587 0.00570 0.00554 0.00539 0.00523 0.00508 0.00494 0.00480
-2.40 0.00820 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639
-2.30 0.01072 0.01044 0.01017 0.00990 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842
-2.20 0.01390 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.01160 0.01130 0.01101
-2.10 0.01786 0.01743 0.01700 0.01659 0.01618 0.01578 0.01539 0.01500 0.01463 0.01426
-2.00 0.02275 0.02222 0.02169 0.02118 0.02068 0.02018 0.01970 0.01923 0.01876 0.01831
-1.90 0.02872 0.02807 0.02743 0.02680 0.02619 0.02559 0.02500 0.02442 0.02385 0.02330
-1.80 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938
-1.70 0.04457 0.04363 0.04272 0.04182 0.04093 0.04006 0.03920 0.03836 0.03754 0.03673
-1.60 0.05480 0.05370 0.05262 0.05155 0.05050 0.04947 0.04846 0.04746 0.04648 0.04551
-1.50 0.06681 0.06552 0.06426 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592
-1.40 0.08076 0.07927 0.07780 0.07636 0.07493 0.07353 0.07215 0.07078 0.06944 0.06811
-1.30 0.09680 0.09510 0.09342 0.09176 0.09012 0.08851 0.08692 0.08534 0.08379 0.08226
-1.20 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09853
-1.10 0.13567 0.13350 0.13136 0.12924 0.12714 0.12507 0.12302 0.12100 0.11900 0.11702
-1.00 0.15866 0.15625 0.15386 0.15151 0.15 0.14686 0.14457 0.14231 0.14007 0.13786
-0.90 0.18406 0.18141 0.17879 0.17619 0.17361 0.17106 0.16853 0.16602 0.16354 0.16109
-0.80 0.21186 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673
-0.70 0.24196 0.23885 0.23576 0.23270 0.22965 0.22663 0.22363 0.22065 0.21770 0.21476
-0.60 0.27425 0.27093 0.26763 0.26435 0.26109 0.25785 0.25463 0.25143 0.24825 0.24510
-0.50 0.30854 0.30503 0.30153 0.29806 0.29460 0.29116 0.28774 0.28434 0.28096 0.27760
-0.40 0.34458 0.34090 0.33724 0.33360 0.32997 0.32636 0.32276 0.31918 0.31561 0.31207
-0.30 0.38209 0.37828 0.37448 0.37070 0.36693 0.36317 0.35942 0.35569 0.35197 0.34827
-0.20 0.42074 0.41683 0.41294 0.40905 0.40517 0.40129 0.39743 0.39358 0.38974 0.38591
-0.10 0.46017 0.45620 0.45224 0.44828 0.44433 0.44038 0.43644 0.43251 0.42858 0.42465
0.00 0.50000 0.49601 0.49202 0.48803 0.48405 0.48006 0.47608 0.47210 0.46812 0.46414
92
Tabla Normal (+Z)
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.00 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.10 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.20 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.30 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.40 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.50 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.60 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.70 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.80 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.90 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.00 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.10 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.20 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.30 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91308 0.91466 0.91621 0.91774
1.40 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189
1.50 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.60 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.70 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.80 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.90 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.00 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.10 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.20 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.30 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.40 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.50 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.60 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.70 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.80 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.90 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
3.00 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.99900
3.10 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929
3.20 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950
3.30 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965
3.40 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976
3.50 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.99983
3.60 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.99989
3.70 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99992 0.99992 0.99992 0.99992
3.80 0.99993 0.99993 0.99993 0.99994 0.99994 0.99994 0.99994 0.99995 0.99995 0.99995
3.90 0.99995 0.99995 0.99996 0.99996 0.99996 0.99996 0.99996 0.99996 0.99997 0.99997
4.00 0.99997 0.99997 0.99997 0.99997 0.99997 0.99997 0.99998 0.99998 0.99998 0.99998
93
VIII. Fundamentos de muestreo
El concepto de muestreo se basa en la probabilidad de que un conjunto de elementos escogidos
de forma aleatoria de una población sean distribuidos de forma que representen dicha
población en todas sus características.
El muestreo se utiliza como forma de reducir el consumo tiempo y de otros recursos, y obtener
información más precisa sobre las características de los elementos de una población que
constituyen la muestra.
Población objetivo. Es el conjunto de unidades del que se desea realizar un análisis y tomar
alguna decisión. Este conjunto debe ser definido de tal forma que manera segura, si una
unidad específica pertenece o no a dicha población.
Elemento muestral. Entendemos cada uno de los orígenes de la información o sucesos que
intentamos medir. Digamos que sería cada uno de los “elementos” de esa población.
Unidad muestral. Es cada uno de los individuos o fuentes de la información que se pretende
medir, es decir, cada uno de los posibles componentes de la muestra.
Alcance de una muestra. Viene determinado por las limitaciones que establezca el propio
investigador en la descripción del marco muestral. Es decir son los límites que pone el
investigador.
94
Cantidad de muestras posibles tamaño “n”. Al calcular el tamaño de la muestra podemos
determinar la cantidad de muestras de ese mismo tamaño que podrían extraerse de la
Población N. Esa cantidad se calcula a través de la siguiente expresión:
M= CNn= N! / ( n! x (N=n)!)
Por Ejemplo: de una población de tamaño (N=10 elementos) se pueden obtener 210
combinaciones o muestras tamaño (n=4).
Distribución de la muestra. hace referencia a las distintas muestras del mismo tamaño
extraídas de una misma población y la frecuencia con que los estimadores muestrales toman
el mismo valor.
Una vez seleccionado el método de muestreo a utilizar se procederá al cálculo del tamaño de
la muestra. Es la cantidad de elementos de la población necesarios para hacer un análisis
estadístico que explique la situación de los elementos de la población de acuerdo a las
características de interés.
95
El detalle de los resultados de la muestra
La disponibilidad de recursos (c).
En caso que la variable utilizada para calcular el tamaño de la muestra se mida a través de
una proporción, se usa las siguientes formulas.
Ejemplo:
2
2,05 x 0.76 x (1-0.76)
n = ---------------------------- = 187.
2
0.064
Si la población es finita, es decir conocemos el total de la población y deseásemos saber
cuántas del total tendremos que estudiar la respuesta seria.
Donde:
96
Ejemplo:
2
23,586*2,05 *0.76*(1-0.76)
n = ------------------------------------------------- = 185.68 = 186 personas
2 2
0.064 *(23,586-1)+2.05 *0.76*(1-0.76)
En caso que la variable utilizada para calcular el tamaño de la muestra se mida a través de
un promedio, se usa la siguiente formula.
Si la población es finita, es decir se conoce la cantidad de elementos de la población.
Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula.
Donde:
n = el tamaño de la muestra.
N = tamaño de la población.
σ2 = La varianza entre los elementos la población (σ2).
Z = depende del nivel de confianza establecido (ẞ)
e= d = es el error de muestreo establecido, la diferencia máxima aceptado entre una
medida de muestra y su valor correspondiente en la población.
Ejemplo: Usando como variable de muestreo el gasto diario de los hogares, que es una
variable continua, calcule el tamaño de la muestra requerido para un estudio de mercado.
97
Diferencia máxima permitida
entre el promedio resultante
Error =5% de µ→ e= de la muestra y el de la 184.66
población µ.
Tamaño de la muestra Cantidad mínima de hogares 256,000*2,400,473.19*2.052
a ser seleccionada para el
análisis n=――――――――――――――――=296
((256,000-1)*184.662 +2,400,473.19*2.052)
Tenemos dos tipos de muestreos, los probabilísticos y los no probabilísticos. Los muestreos
probabilísticos se basan en que cada elemento del universo o población tiene una probabilidad
conocida de formar parte de la muestra. Existen diversas modalidades.
Debemos conocer el tamaño de la muestra objeto de estudio y además disponer de una lista
completa de los individuos que forman parte de la población o universo. Se elegirá a los
individuos mediante un procedimiento estadístico.
Se necesita también una lista de la población (N) y el tamaño de la muestra (n) y se calcula el
coeficiente de elevación (k=N/n). Se selecciona aleatoriamente un miembro de la muestra y
98
se obtienen los demás seleccionando al individuo que se encuentra N/n posiciones después
del primero, repitiendo la operación hasta completar la muestra.
Elemento Posición
1 1≤i≤k
2 i+k
3 i+2k
… …
n i+(n-1)k
El criterio a seguir en la formación de los estratos será formarlos de tal manera que haya la
máxima homogeneidad en relación a la variable a estudio dentro de cada estrato y la máxima
heterogeneidad entre los estratos
Cuando de utiliza este tipo de muestreo, es necesario incluir el concepto de factor de expansión
(Wh). Este representa la cantidad de elementos del estrato “h” que representa cada elemento
de dicho estrato (nh).
Wh = N h / nh
Fracción de muestreo (fh) por estrato. Es la proporción de la cantidad de elementos del
estrato “h” que representa cada elemento de dicho estrato (nh).
f h = nh / N h
La cantidad de muestra posibles tamaño nh en cada estrado Nh sería.
Nh !
CnNh h
nh ! N h nh !
Distribución de la muestra general entre los distintos estratos
Una vez calculado el tamaño de la muestra, se procede a su distribución entre los diferentes
grupos o estratos identificados; el proceso se llama afijación. Veamos tres tipos de afijación.
Afijación simple. Reparto a partes iguales de la muestra entre el número de estratos
conocidos, donde nh= n /L, siendo el número de estratos.
/
Afijación proporcional. Reparto de la muestra entre los estratos de forma proporcional
al tamaño de los mismos. Donde nh=Nh / N x n
99
El número de elementos muestrales de cada estrato es directamente proporcional al tamaño
del estrato dentro de la población.
Afijación óptima.
En este caso se elige nh de forma que minimicen la varianza. El costo viene dado por ch,
el cual representa el costo promedio por unidad en cada estrato h.
100
El siguiente esquema muestra este proceso de manera gráfica. La población (N) está
dividida en 16 conglomerados identificados de la A a la P y cada uno subdividido en 4
segmentos (círculos), y los círculos están compuestos por los puntos que representan los
individuos que pueden ser hogares, personas u otros elementos simples de análisis.
Por Ejemplo:
Otro Ejemplo:
El país está dividido por regiones, las regiones en provincias y las provincias en municipios,
los municipios en urbano y rural, la zona urbana en barrios y la rural en secciones y parajes.
Tanto los barrios como los parajes se dividen en UPM’s.
101
En este cado la aplicación del muestro por conglomerados consiste en primero, seleccionar en
cada región las provincias que la representan para hacer el estudio. Luego dentro de las
provincias seleccionadas se escogen aleatoriamente o por un criterio de importancia, los
municipios a incluir en dicho estudio, en esos municipios escogidos se toman los barrios de
la zona urbana y en la rural las secciones y parajes, y por último de manera al azar se
seleccionan los UPM’s que en mayoría de los casos son los segmentos censales que ha
establecidos la Oficina Nacional de Estadística.
Tipo de
Características Ventajas Inconvenientes
muestreo
Aleatorio simple Se selecciona una muestra de Sencillo y de fácil Requiere de un listado de
tamaño n de una población de comprensión. todos los elementos de la
N unidades, cada elemento Es uno de los más población.
tiene una probabilidad de precisos, en términos de
inclusión n/N. los errores de muestreo
Sistemático Un listado de los N elementos Fácil de aplicar. Requiere de un listado de
de la población Asegura una cobertura de todos los elementos de la
Determinar la muestra n. los elementos de cada uno población.
Calcula k = N/n. de los “n” subgrupos. Los resultados pueden ser
Elegir un número aleatorio “i”, afectados por algún
entre 1 y k. ordenamiento de los
Seleccionar los elementos de elementos en el listado.
la lista usando la formula
i+(i-1)k.
Estratificado Dividir la población en Asegura que la muestra Se ha de conocer la
estratos represente a la población distribución en la
Se requiere conocer la en cada uno de los grupos. población por las variables
composición de la población. utilizadas para la
La muestra de distribuye entre estratificación.
los distintos estratos definidos.
Los estratos deben ser
internamente homogéneos, y
externamente heterogéneos.
Conglomerados Se realizan varias etapas de Es muy eficiente cuando la El error estándar es mayor
muestreo sucesivas población es muy grande y que en el muestreo
La necesidad de listados de las dispersa. aleatorio simple o
unidades de las etapas No es preciso tener un estratificado.
principales. listado de toda la El cálculo del error
Se requiere del auxilio de otros población, sólo para las estándar es complejo.
tipos de muestreo para principales etapas.
102
seleccionar los elementos El costo por unidad
requeridos en cada etapa. muestral es menor que en
otros tipos de muestreo.
Es un procedimiento que permite elegir arbitrariamente los elementos sin un juicio o criterio
preestablecido. Por Ejemplo: la gente que circula por determinada calle a una hora especifica
del día, los visitantes que acuden a un museo en un determinado lapso, etc.
En este caso los elementos son escogidos con base en criterios o juicios preestablecidos por
el investigador. Ejemplo: Para un estudio sobre calidad de la educación, previamente, se
establecen como criterios de selección de la muestra poseer mínimo de 20 años de experiencia
en el campo educativo los siguientes: Haber ocupado un cargo directivo
Se trata de fijar un conjunto de condiciones que deben cumplir los individuos para entrar a
formar parte de la muestra.
En este muestreo accedemos a expertos en la materia para que nos ayuden en la determinación
de una muestra representativa.
Muestreo no probabilísticos
Las unidades no tienen igual probabilidad de participar en la muestra.
104
No se puede calcular el error muestral
Alto riesgo de invalidar
105
IX. Métodos de Estimaciones
Insesgado es una estadística muestral cuyo valor esperado es igual al parámetro por
estimar.
Imparcial. un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar
valores con la misma frecuencia y la misma extensión por encima o por debajo del
parámetro de población que se está estiman.
Eficiencia. Se refiere al tamaño del error estándar de la estadística. El de menor error
estándar o la menor desviación estándar de la distribución de muestreo.
Coherencia. Se aproxima al valor del parámetro de la población a medida que aumenta
en tamaño de muestra.
Suficiencia. Si utiliza una cantidad de información que adicionalmente ningún otro
estimador muestral podría extraer sobre el parámetro de la población que se está
estimando.
Consistente. Su resultado mantiene una diferencia no significativa estadísticamente
entre una muestra y otra.
Podemos hacer dos tipos de estimaciones concernientes a una población: una estimación
puntual y una estimación de intervalo.
Ejemplo:
Es una expresión del rango en el cual se espera con cierto grado de probabilidad (ẞ) de
que este incluido el valor del parámetro que se pretende estimar. Se pueden obtener
estimaciones por intervalos para distintas medidas estadísticas, como la media aritmética,
una proporción, la varianza, o cualquier otra medida obtenido a través de una muestra,
para la cual se conozca su error estándar.
106
Esta se puede expresar de la forma (a < μ < b). Siendo a y b los límites inferior y superior
del intervalo, respectivamente.
Ejemplo:
El ingreso promedio de los hogares dominicanos oscila entre (23,698 ≤ µ ≤ 29,537) pesos.
Por lo general α varía entre (0.01< α < 0.10) y β varía entre (0.90< β < 0.99). Por lo tanto
β + α = 1.
También
_
-1.96 ≤ (X-X=ΣX
) / s ≤i 1.96
/n
El resultado es un intervalo de confianza que incluye alel 95% de las veces. Es decir, es
un intervalo de confianza al 95% para la media cuando la variable X es normal y es
conocido.
107
Despejando en la ecuación se tiene:
La cual es una buena aproximación para el intervalo de confianza de 95% para con
desconocido. Esta aproximación es mejor en la medida que el tamaño muestral sea grande.
Ejemplo: 1:
Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de
depresión (mayor puntaje significa mayor depresión).
108
2 5 6 8 8 9 9 10 11
11 11 13 13 14 14 14 14 14
14 15 15 16 16 16 16 16 16
16 16 17 17 17 18 18 18 19
19 19 19 19 19 19 19 20 20
,siendo el intervalo de
confianza para el promedio de la población igual a 13.24 ≤ µ ≤ 15.76
Ejemplo: 2.
= 2,930
s= 450
n= 30
109
Valores de Z para distintos niveles de confianza.
Este estadístico sigue una distribución t de Student con (n-1) grados de libertad.
El nivel de confianza 1- α, establecido a priori por el experimentador (los usuales son 0.95,
0.90 y 0.99).
110
La expresión anterior es equivalente a:
"Si consideramos todas las muestras distintas de tamaño n que puedan ser extraídas de la
población X, y con las observaciones de cada una construimos los correspondientes intervalos,
según la estructura anterior, el (1-α)% de estos intervalos contendrán el parámetro μ".
Por tanto, si extraemos una muestra de tamaño n y con los datos u observaciones, x1, x2… ,xn,
calculamos los extremos del intervalo, dispondremos del concreto intervalo de confianza
para el parámetro μ .
que, en función de la interpretación informal anterior, contendrá dicho parámetro con un nivel
de confianza de (1-α)%
Ejemplo:
111
α/2=0.07/2=0.035, gl=n-1=27-1=26 → t=2.056 la tabla de t de student
_ _
IC= X=ΣPM
- tα/2*Si*fi / n≤ µ ≤ X=ΣPM
/ √n i*f/i √n=
+ tα/2*S /n
1,767.63 – 2.056 x 246.35/√27 ≤ µ ≤ 1,767.63 +2.056 x 246.35/√27=
1,670.15 ≤ µ ≤ 1,865.10
En este caso, interesa construir un intervalo de confianza para una proporción o un porcentaje
poblacional (por Ejemplo:, el porcentaje de personas con hipertensión, fumadoras, etc.)
Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:
O bien:
El intervalo de confianza para estimar una proporción p, conocida una proporción muestral p
de una muestra de tamaño n, a un nivel de confianza del (1-α)100% es:
Ejemplo: 3:
112
La proporción de personas hipertensas en la población oscila entre 0.139 ≤ P≤ 0.212. Con una
confianza de 95%.
Basado en los resultados de una muestra de elementos tomados de manera aleatoria de una
población, es posible determinar el intervalo de confianza de la varianza de la población, para
ello es necesario apoyarse en la distribución de probabilidad Chi Cuadrado.
(15-1) x 21,675.83 / 26.1 ≤ σ2≤ (15-1) x 21,675.83 / 5.63 =11,626.88 ≤σ2≤ 53,900.82
La varianza de la población del precio de alquiler de vehículos por empresa varia oscila
entre 11,626.88 y 53,900.82 pesos
113
X. Prueba de Hipótesis y sus aplicaciones
Hipótesis: enunciado acerca de una población elaborado con el propósito de ponerse a prueba.
Error Tipo I o error alfa: rechazar la hipótesis nula cuando en realidad es verdadera.
Error Tipo II o error beta: aceptar la hipótesis nula cuando en realidad es falsa.
Valor crítico: el punto que divide la región de aceptación y la región de rechazo de la hipótesis
nula.
Una prueba es de una cola cuando la hipótesis alterna, H1, establece una dirección, como:
H0: el ingreso medio de las mujeres es menor o igual al ingreso medio de los hombres.
H1: el ingreso medio de las mujeres es mayor que el de los hombres.
Una prueba es de dos colas cuando no se establece una dirección específica de la hipótesis
alterna H1, como:
H0: el ingreso medio de las mujeres es igual al ingreso medio de los hombres.
H1: el ingreso medio de las mujeres no es igual al ingreso medio de los hombres.
114
Paso1.Formule la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0 es el valor
paramétrico hipotético que se compara con el resultado muestral. Se le rechaza sólo si es
poco probable que el resultado muestral haya ocurrido dado lo correcto de la hipótesis. La
hipótesis alternativa (H1) se acepta sólo si la hipótesis nula es rechazada. En muchos libros
de texto la hipótesis alternativa también se designa como H1.
Ejemplo: Un auditor desea probar el supuesto de que el valor medio de la totalidad de las
cuentas por cobrar de una empresa dada es de $260.00 tomando una muestra de n = 36 y
calculando la media muestral. El auditor desea rechazar el valor supuesto de $260.00 sólo
si es claramente contradicho por la media muestral, caso éste en el que el valor hipotético
recibiría el beneficio de la duda en el procedimiento de prueba. Las hipótesis nula y
alternativa de esta prueba son H0: µ = $260.00 y H1: µ ≠ $260.00.
Nótese que si se usa el nivel de significancia de 5%, hay una probabilidad de 0.05 de
rechazar la hipótesis nula aun siendo efectivamente cierta. Esto se llama error tipo I La
probabilidad del error tipo I siempre es igual al nivel de significancia empleado como
estándar para rechazar la hipótesis nula; se le designa con la letra griega minúscula a (alfa),
de modo que a designa también al nivel de significancia. Los niveles de significancia de
uso más frecuente en la prueba de hipótesis son los de 5% y 1%.
Ocurre un error tipo II si la hipótesis nula no se rechaza, y es por lo tanto aceptada, cuando
en realidad es falsa. La determinación de la probabilidad del error tipo II se explica. En la
tabla correspondiente se resumen los tipos de decisiones y las posibles consecuencias de
las decisiones tomadas en pruebas de hipótesis.
115
Paso 3. Seleccione la estadística de prueba. La estadística de prueba será ya sea la
estadística muestral (el estimador insesgado del parámetro a prueba) o una versión
estandarizada de la estadística muestral. Por ejemplo, para probar un valor hipotético de la
media Poblacional, la media de una muestra aleatoria tomada de esa población podría servir
como la estadística de prueba. Sin embargo, si la distribución de muestreo de la media es
normal, el valor de la media muestral se convierte usualmente en un valor z, el cual funge
entonces como la estadística de prueba.
H0: ≤
H1: >
116
10.3.2. Prueba de hipótesis bilateral o de dos Colas.
H0: =
H1: ≠
Cuando se hace una prueba para la media Poblacional de una muestra grande y se conoce la
desviación estándar, el estadístico de prueba está dado por:
ᾳ=0.05
ᾳ/2=0.05/2=0.025
ꞵ=1- ᾳ/2 = 1-0.05/2 = 0.97500. Zt=1.96 en la tabla normal
117
Paso 4: Establezca la regla de decisión:
Paso 5: Se acepta H0 porque, debido a que Zc=1.44 es menor que el valor crítico Zt=1.96
Ejemplo:
La cadena Roder’s Discount emite su propia tarjeta de crédito. Lisa, la gerente de crédito,
quiere encontrar si la media mensual de saldos no pagados es mayor que $400. El nivel de
significancia es de 0.05. Una revisión al azar de 172 saldos reveló que la media muestral es
$407 y la desviación estándar muestral es $38. ¿Debe Lisa concluir que la media de población
es mayor que $400, o es razonable suponer que la diferencia de $7 ($407-$400) se debe al
azar?
ᾳ=0.05
ꞵ=1- ᾳ = 1-0.05 = 0.95000. Zt=1.645 en la tabla normal
Paso 5: Se rechaza H0 porque, debido a que Zc=2.42 es mayor que el valor crítico Zt=1.645.
118
Se puede concluir que la media aritmética de saldos no pagados en la población es mayor de
$400.
Ejemplo:
Se realizó un estudio para comparar los años promedio de servicio de quienes se retiraron en
1979 con los que se retiraron el año anterior en Delong Manufacturing Co. Con un nivel
de significancia de 0.01 ¿podemos concluir que los trabajadores que se retiraron el año pasado
trabajaron más años según la siguiente muestra? Nota: sea población #1= año anterior.
ᾳ=0.01
ꞵ=1- ᾳ = 1-0.01 = 0.99000. Zt=2.33 en la tabla normal
119
Paso 4: Establezca la regla de decisión:
Paso 5: Como Zc = 6.80 > Zt=2.33, H0 se rechaza. Los empleados que se retiraron el año
anterior tenían más años de servicio que los que se retiraron el año 1979. La diferencia
observada entre el promedio de años de servicio de los empleados que se retiraron en el año
anterior a 1979 y los que se retiraron en ese año, es significativa estadísticamente.
Sean S12 y S22 las varianzas de la variable de análisis y las n 1 y n2 el tamaño de las muestras,
respectivamente.
Ejemplo:
120
Paso 2: En base al nivel de significación α establecido y los grados de libertad calculados
como n1 + n2 -2, se determina el valor de tt en la tabla t de Student.
gl = n1 + n2 - 2 = 12 + 15 – 2 =25.
ᾳ=0.05
35.7 – 33.7
tc = =1.64
√(9.918 * (1/12+1/25))
Paso 5: Como tc = 1.64 < tt=1.708, H0 no se rechaza. Los automóviles nacionales tienen un
menor consumo de combustible en carretera que los importados.
Las muestras independientes que no están relacionadas. Las muestras dependientes están
pareadas o relacionadas de alguna manera: Por ejemplo, si se desea comprar un auto se busca
el mismo modelo en dos (o más) distribuidores diferentes y se comparan los precios.
2
Sd = √Ʃ(di - ) / (n-1)
Ejemplo:
121
siguiente información. Para 0.05 de nivel de significancia, ¿puede la empresa de pruebas
concluir que existe una diferencia en los costos de renta?
Paso 2: Con el nivel de significación α=0.05 y n-1 gl =8-1=7, valor de tt =2.365 en la tabla t
de Student.
122
La relación proporcional muestral se representa por `R donde
Estadístico de prueba para ensayos con una sola relación proporcional de población
Ejemplo:
En el pasado, 15% de la propaganda por correo para donativos dio como resultado
contribuciones. Se mandó una nueva carta a una muestra de 200 personas y 45 enviaron un
donativo. Para 0.05 de significancia, ¿se puede concluir que la nueva carta fue más efectiva?
Paso 1: Establecer H0 y H1
Paso 4: La decisión.
Paso 5: Como zc = 2.97 >zt=1.645, H0 se rechaza. En envío de la nueva carta fue más efectivo
que el resultado obtenido en el pasado.
123
Ejemplo:
¿Es más probable que los trabajadores solteros falten más que los trabajadores casados?
Una muestra de 250 trabajadores casados indicó que 22 faltaron más de 5días el año pasado,
mientras que una muestra de 300 trabajadores solteros indicó que 35 faltaron más de 5 días.
Utilice 0.05 de nivel de significancia.
p2 = 22/250= 0.09
= p1 = 35/300= 0.12
0.12 - 0.09
zc = 0.10x(1-0.10) + 0.10x(1-0.10) = 1.10
300 250
Paso 4: H0 no se rechaza.
Paso 5: Como Zc=1.10< Zt=1.96, indica que no existe diferencia estadísticamente significativa
entre la proporción de trabajadores casados y solteros que faltan más de 5 días al trabajo al
año, a un nivel de significación de 0.05.
Distribución F de Snedecor
124
diferencia entre las dos varianzas es estadísticamente significativa a un nivel de
significación dado.
Si (X1, X2,..., Xm) y (Z1, Z2,..., Zn) son m+n variables aleatorias normales independientes de
media =0 y varianza , la variable
H1: las Poblaciones tienen diferentes varianzas: . Para ello se hará uso del
estadístico
Fc = S2(mayor) / S2(menor)con
Gl del numerador (n1-1)
Gl del denominador (n2-1)
α= que es el nivel de significación establecido,
125
Para resolver este ejercicio se utilizará un nivel de significación α=0.05.
Paso 1: Establecer H0 y H1
Paso 5: Como Fc=1.15 < Ft=1.65 indica que la diferencia observada entre la varianza del gasto
diario de los hogares de la región Santo Domingo y el Este, y la varianza del gasto diario de
los hogares de la región Cibao y Sur, no es estadísticamente significativa, a un nivel de
significación α=0.05.
Ejemplo 2:
S22= 51,194,411.41
n2= 32
2
S 1= 52,412,352.97
n1= 36
126
10.3.6. Distribución Chi Cuadrado
Decimos que una variable aleatoria se distribuye ji-cuadrado con n grados de libertad
cuando sigue la misma distribución que la suma de n variables aleatorias normales (0,1)
elevadas al cuadrado, independientes
n
2 zi2
i 1
Grados de libertad: Los grados de libertad pueden ser interpretados como el número de
valores de la muestra que pueden ser fijados arbitrariamente y su cuantificación depende
del número de variables o del tamaño de la muestra .Una muestra de tamaño n tienen-1
grados de libertad.
2 2 2n 1 N (0,1)
gl = n-1 = 26 -1=25
χ2(c) = (n-1) S2 / σ2 =(26-1) x 74.97 / 59.72=31.38
Como χ2 (26-1, α=0.05) > χ2(c), se acepta la hipótesis H0, indicando que la varianza del tiempo de
servicio de todos los trabajadores de la empresa es no diferente a la varianza del tiempo de
servicio de los empleados seleccionados en la muestra, a un nivel de significación de 0.05.
Cuadrado
Comparando el valor de nuestra estadística de prueba (χ2c=5.0159) con el valor de χ2t de gl=5
y α =0.025 que es igual a 12.83.
128
Como ꭓ2c=5.0159 < ꭓ2t 12.83, se acepta la hipótesis nula, diciendo que no hubo cambio en la
distribución de los pacientes de acuerdo a su peso corporal antes y después del tratamiento
establecido por el psicólogo.
Permite ver si la frecuencia de los casos que representan una característica varían entre
niveles de un factor dado o entre combinaciones de niveles de dos o más factores. En tales
situaciones, la prueba apropiada es la prueba chi-cuadrada de bondad de ajuste o la prueba
chi-cuadrada de independencia de los k grupos.
La chi-cuadrada para la bondad de ajuste se usa para probar la hipótesis de que la muestra
total n se distribuye de manera uniforme entre todos los niveles del factor relevante.
Si hay un sólo factor opera la misma fórmula, con un sólo i ó j. Arreglos de más dimensiones
son posibles; se basan en el mismo principio y en la misma fórmula, aunque implican
muchas sumas internas.
129
Ejemplo: Se requiere determinar si existe una relación estadísticamente significativa entre
la asignatura de mayor destreza del padre y la de mayor destreza del hijo-estudiante. Usando
un nivel de significación α=0.05.
130
El valor de la chi-cuadrado χ2c=ƩƩ(Oij-Eij)2 / Eij =43.69
Como el valor de χc2 =43.69 > χt2 = 34.4 significa que existe relación entre la asignatura
donde el padre tiene mayor destreza y la del hijo. O sea, la asignatura donde el padre tiene
mayor destreza no es independiente de la del hijo.
131
XI. Análisis de regresión y correlación
La idea es expresar esta relación mediante una expresión matemática, hallando una ecuación
que explique dicha relación entre las variables independientes y la dependiente.
El elemento crítico consiste en encontrar un modelo que represente esa relación de mejor
manera posible.
Por ejemplo en qué manera incide el ingreso familiar sobre el gasto del hogar. Se sabe que el
gasto depende del ingreso, sin embargo el análisis de regresión sirve para medir
matemáticamente esa dependencia.
Diagrama de dispersión
Talla Peso
4.47 163.00
5.86 178.00
4.97 170.00
6.80 201.00
4.24 140.00
5.80 183.31
6.30 189.00
4.34 155.33
4.83 158.00
5.06 193.00
Diagrama de dispensión
200.00
Peso en libras
180.00
160.00
140.00
120.00
4.00 4.50 5.00 5.50 6.00 6.50 7.00
Talla (pies)
132
Existen distintos tipos de regresión:
Si resulta ꞵk=0 indica que la variable independiente o predictora no tiene influencia sobre
la dependiente.
Si resulta ꞵk<0 indica que la variable independiente o predictora tiene una influencia
negativa sobre la dependiente.
Si resulta ꞵk>0 indica que la variable independiente o predictora tiene una influencia
positiva sobre la dependiente.
Si resulta ꞵ0=0 o a=0 indica que el modelo o ecuación de regresión atraviesa por el punto
(x=0,y=0) o por el origen de un plano o sistema cartesiano
Y = a + b*X
Diagrama de dispersión
133
Coeficientes del modelo de regresión lineal simple
Un modelo de regresión lineal simple, como este Y = a + b*X = ꞵ0+ꞵ1X, tiene dos parámetros
(a y b o ꞵ0 y ꞵ1).
Para determinar los valores (a y b), se procede de la siguiente manera:
Se formula el sistema de ecuaciones
a
y x x xy
2
b
n * xy x y
n * x ( x )
2 2
n * x 2 ( x) 2
b=516.83
134
La ecuación resultante es Ŷ = a + b*X = 16,984.20 + 516.83X, lo que indica que cada vez
que se incremente una hora extra de trabajo el ingreso marginal de la empresa se incrementará
en 516.83 pesos.
El coeficiente de determinación, mide la bondad del ajuste relativo del modelo o ecuación de
regresión. Indica la cantidad de variación de Y que se explica en la ecuación de regresión.
Desviación total de Y
Desviación Total = y - ӯ
Desviación no explicada
Corresponde al Error o Residual y se define como la diferencia entre los valores observados
y los valores calculados a través de la ecuación de regresión:
Desviación no explicada = y - ŷ
Desviación Explicada
Corresponde ala diferencia entre los valores calculados a través de la ecuación de regresión y
el valor promedio de los valores observados.
Desviación explicada = ŷ - ӯ
( y y ) ( y yˆ ) ( yˆ y )
Dentro de la teoría de los mínimos cuadrados, elevando al cuadrado cada una de las
desviaciones y sumando las correspondientes a los “n valores, se obtienen los siguientes
estadísticos:
a) SCT o suma de cuadrados total
( y y) 2
b) SCE o suma del cuadrado del error
( y yˆ ) 2
135
c) SCR o suma del cuadrado de la regresión
( yˆ y ) 2
De lo cual, se cumple la relación:
SCT=SCE+SCR
El coeficiente de determinación R2 se calcula:
SCR SCE
R2 R2 1
SCT SCT
Cantidad de Ingreso
I horas extra Marginal
Ŷ=a+bX (Y-Ŷ)2 (Y - ӯ)2 (x - )2
X Y
1 4 22,915.00 19,052 14,926,473.05 5,152,521.67 9.51
2 8 17,890.00 21,119 10,425,441.49 7,590,484.17 0.84
3 5 20,113.00 19,568 296,641.71 283,112.67 4.34
4 4 19,481.00 19,052 184,452.55 1,355,090.01 9.51
5 8 26,351.00 21,119 27,375,443.58 32,557,485.01 0.84
6 7 18,462.00 20,602 4,579,660.22 4,765,852.84 0.01
7 11 23,622.00 22,669 907,563.56 8,862,032.84 15.34
8 8 20,553.00 21,119 320,180.82 8,479.34 0.84
9 4 16,139.00 19,052 8,482,776.26 20,304,787.01 9.51
10 5 18,440.00 19,568 1,273,177.69 4,862,392.51 4.34
11 12 23,126.00 23,186 3,620.41 `6,154,947.51 24.17
12 9 20,649.00 21,636 973,530.28 15.34 3.67
Total 85 247,741.00 247,741 69,748,961.64 91,897,200.92 82.92
Ӯ = Ʃy / n
( y y ) - ( y yˆ )
2 2
R2= =
( y y) 2
136
11.3. Análisis de correlación
El coeficiente de correlación establece una medida del grado de asociación lineal entre dos
variables. En este caso una variable no depende de la otra, sino que comparten un relación
presencia conjunta.
-
Por ejemplo la demanda de arroz y la demanda de habichuelas, son dos variables
independientes pero que mantienen una conjunción en lo que respecta al consumo de ambas.
Esta asociación se mide y se analiza a través del Coeficiente de correlación, el cual se expresa
en dos modalidades de acuerdo a los autores.
Este indicador puede tomar valores dentro del rango [-1,1], donde el valor de r=0 indica que
no hay asociación entre las dos variables, si es r>0 indica una asociación positiva, en este caso
las variables crecen o decrecen en un mismo sentido. Un valor de r<0 indica una asociación
negativa o que significa que a medida que aumenta una variable, la otra disminuye.
Es una prueba que mide la relación estadística entre dos variables continuas que tienen una
asociación lineal. Mide la covarianza estandarizada, y su ecuación difiere dependiendo de si
se aplica a una muestra, Coeficiente de Pearson muestral (r),
Ʃ
Ʃ XY –
XY – ƩX *ƩY /// n
ƩX *ƩY n
Ʃ
Ʃ XYXY –
– ƩX
ƩX *ƩY
─────────────────
= ─────────────────
rr = *ƩY / n n
rr = ─────────────────
= ─────────────────
___________ ___________
___________
___________ ___________
___________
√ƩX
√ƩX 2 - (ƩX)22/n √ƩY
___________
2 ___________
√ƩY
22
(ƩY)222/n
- (ƩY)2
√ƩX 2 - (ƩX)2/n √ƩY22-
2 - (ƩX) 2/n /n
√ƩX - (ƩX) /n √ƩY -- (ƩY)(ƩY) /n/n
Ʃ
Ʃ XY ––– ƩX
XY *ƩY /// n
ƩX *ƩY n
Ʃ
Ʃ XYXY – ƩXƩX *ƩY
───────────────── *ƩY / n n
= ─────────────────
rrr = ─────────────────
= ─────────────────
r= ___________ ___________
___________ ___________
___________
√ƩX ___________
___________ /n √ƩY
___________
22
√ƩX - (ƩX)222/n √ƩY
22 2
(ƩY)222/n
2-- (ƩY)
√ƩX22 --- (ƩX)
√ƩX (ƩX) /n √ƩY
(ƩX)2/n √ƩY2-- (ƩY)
(ƩY) /n
/n
/n
Es una medida del grado de asociación lineal entre las variables X e Y. Se representa por r.
donde sx, sy son las desviaciones típicas de las variables X e Y respectivamente, y Sxy es la
covarianza muestral de X e Y.
137
Ejemplo:
horas Ingreso
extra Marginal
Emple-
ados X Y X*Y X2 Y2
1 4 22,915.00 91,660 16 525,097,225
2 8 17,890.00 143,120 64 320,052,100
3 5 20,113.00 100,565 25 404,532,769
4 4 19,481.00 77,924 16 379,509,361
5 8 26,351.00 210,808 64 694,375,201
6 7 18,462.00 129,234 49 340,845,444
7 11 23,622.00 259,842 121 557,998,884
8 8 20,553.00 164,424 64 422,425,809
9 4 16,139.00 64,556 16 260,467,321
10 5 18,440.00 92,200 25 340,033,600
11 12 23,126.00 277,512 144 534,811,876
12 9 20,649.00 185,841 81 426,381,201
Total 85 247,741 1,797,686 685 5,206,530,791
Media 7.08 20,645.08
12 x 1,797,686 - 85x247,741
r= = 0.491
2 2
12 x 685 - 85 x 12x5,206,530,791 - 247,741
Este coeficiente de correlación de r=0.491 indica que existe una baja o pobre relación entre
horas extra pagadas y el ingreso marginal. Por lo general se espera que r ≥ 0.80.
ρ=2
( y y ) ( y yˆ )
2 2
-
R= =
( y y) 2
138
Las pruebas no paramétricas son aquellas que se encargan de analizar datos que no tienen
una distribución particular y se basan una hipótesis, pero los datos no están organizados de
forma normal. Aunque tienen algunas limitaciones, cuentan con resultados estadísticos
ordenados que facilita su comprensión.
Las pruebas paramétricas, en cambio, se basan en las leyes de distribución normal para
analizar los elementos de una muestra. Generalmente, solo se aplican a variables numéricas y
para su análisis debe mantener una población grande, ya que permite que el cálculo sea más
exacto.
Los mismos contribuyen en gran medida en la identificación los requisitos de los datos que
requiere cada tipo de prueba, que el tamaño de la muestra y la que distribución de los
estimadores sea normal o no.
139
n= número de puntos de datos de las dos variables
di= diferencia de rango del elemento “n”
Nueve personas asistieron al médico para tratarse las patologías de infección pulmonar y de
alergia, a cada una se le preguntó la cantidad de horas que se sentían con los síntomas, los
resultados se presentan en la siguiente tabla.
A los datos se les asigna un código o rango iniciando por el de mayor medida
Infección
Rango Alergia Rango d=
Persona pulmonar d2
R1 (horas) R2 R1-R2
(horas)
1 35 3 30 5 2 4
2 23 5 33 3 2 4
3 47 1 45 2 1 1
4 17 6 23 6 0 0
5 10 7 8 8 1 1
6 43 2 49 1 1 1
7 9 8 12 7 1 1
8 6 9 4 9 0 0
9 28 4 31 4 0 0
Total 12
Como valor de ⍴ se acerca a 1 indica que hay una alta asociación entre los rangos de la cantidad
de horas con los síntomas de Infección pulmonar y de Alergia.
Regresión
140
Correlación
Esto indica que siempre que haya regresión entre dos variables
habrá correlación entre ellas. Pero, no siempre que haya
correlación hay regresión. Porque el análisis de correlación es más
amplio que el de regresión.
El análisis de la varianza (ANOVA por sus siglas en inglés, ANalysis Of VAriance) se basa
en procedimientos estadísticos, a través de los cuales se identifican los factores que componen
la varianza total resultante de diferentes variables explicativas. Es gran utilidad en el diseño
de experimentos para medir el efecto de tratamientos en la variabilidad de la variable
dependiente.
Esta técnica de análisis fue desarrollada por el genetista R. A. Fisher en los años 1920 y 1930,
se conoce también como "Anova de Fisher" o "análisis de varianza de Fisher" debido al uso
de la distribución F de Fisher como parte del contraste de hipótesis. Por su naturaleza
multifactorial, esta forma parte del análisis multivariado.
141
Este tipo de análisis se aplica en diversas áreas del conocimiento y de la investigación, como
es el caso de la Ciencias Sociales, la Economía, Negocios, Psicología, Ciencias Naturales,
Agronomía, Veterinaria, etc.
Procedimiento:
Región de Procedencia
Rama y cantidad de trimestres Total
Capital Sur Este Cibao
Ciencias exactas Hasta 3 semestres 80.17 76.82 89.21 89.51 335.70
Ciencias exactas 4 a 6 semestres 79.12 76.96 91.62 82.83 330.53
Ciencias exactas7 o más semestres 87.77 82.97 89.98 84.57 345.30
Ciencias naturales Hasta 3 semestres 83.04 81.09 90.87 90.57 345.56
Ciencias naturales 4 a 6 semestres 77.71 94.03 90.00 76.39 338.13
Ciencias naturales 7 o más semestres 91.39 83.62 79.90 86.63 341.54
Ciencias Sociales Hasta 3 semestres 83.80 86.82 91.28 91.36 353.26
Ciencias Sociales 4 a 6 semestres 87.10 78.51 81.37 75.43 322.41
Ciencias Sociales 7 o más semestres 86.30 88.11 87.15 92.85 354.41
Ciencias de la salud Hasta 3 semestres 83.78 80.00 94.46 95.68 353.92
Ciencias de la salud 4 a 6 semestres 78.80 93.86 74.42 77.69 324.77
Ciencias de la salud 7 o más semestres 73.09 85.66 75.47 74.67 308.89
Total 992.08 1,008.45 1,035.72 1,018.17 4,054.42
Promedio 82.67 84.04 86.31 84.85 84.47
142
Suma de cuadrado
Región de Procedencia Total
Rama y cantidad de trimestres Total
Capital Sur Este Cibao columnas
Ciencias exactas Hasta 3 semestres 6,427.83 5,900.83 7,957.88 8,011.59 28,298.12 112,697.85
Ciencias exactas 4 a 6 semestres 6,259.22 5,923.17 8,394.91 6,860.01 27,437.31 109,247.63
Ciencias exactas7 o más semestres 7,703.51 6,884.63 8,097.00 7,152.75 29,837.89 119,232.48
Ciencias naturales Hasta 3 semestres 6,895.05 6,575.60 8,257.52 8,202.16 29,930.33 119,413.92
Ciencias naturales 4 a 6 semestres 6,039.20 8,841.85 8,099.71 5,835.62 28,816.39 114,333.98
Ciencias naturales 7 o más semestres 8,352.24 6,992.33 6,383.44 7,504.44 29,232.45 116,646.41
Ciencias Sociales Hasta 3 semestres 7,022.58 7,537.89 8,331.28 8,346.68 31,238.44 124,791.16
Ciencias Sociales 4 a 6 semestres 7,586.79 6,163.26 6,620.92 5,689.93 26,060.91 103,947.77
Ciencias Sociales 7 o más semestres 7,448.45 7,763.86 7,595.22 8,620.56 31,428.08 125,609.73
Ciencias de la salud Hasta 3 semestres 7,019.73 6,399.52 8,921.97 9,154.38 31,495.61 125,256.23
Ciencias de la salud 4 a 6 semestres 6,208.97 8,810.04 5,538.71 6,035.67 26,593.40 105,476.17
Ciencias de la salud 7 o más semestres 5,342.18 7,337.62 5,695.34 5,575.24 23,950.38 95,410.01
Total 82,305.73 85,130.61 89,893.91 86,989.04 344,319.30 1,372,063.33
Cuadrados total filas 984,215.44 1,016,977.47 1,072,718.84 1,036,662.51 4,110,574.26
Suma de cuadrados
Factor de corrección = (ƩƩXij)2 /n 4,054.422 / 48= 342,464.52
TOTAL SCT=ƩƩXij2 - (ƩƩXij)2 /n 344,319.30 - 342,464.52= 1,854.77
Columna SCC=ƩƩX.j - (ƩƩXij) /n 4,110,574.26 / 12- 342,464.52=
2 2
83.33
Filas SCF=ƩƩXi. - (ƩƩXij)2 /n
2
1,372,063.33 /4 - 342,464.52= 551.31
Del Error= SCT - SCC – SCF 1,854.77 - 83.33 - 551.31= 1,220.14
Grados de libertad Gl
Gl TOTAL = n-1 48-1= 47
Gl de Columna = c-1 4-1= 3
Gl de Filas = f-1 12-1= 11
Gl del Error o de los residuos 47-3-11= 33
Cuadrado medio
TOTAL= SCT /n-1 1,854.77 / 47= 39.46
Columnas= SCC / c-1 83.33 / 3= 27.78
Filas= SCF / f-1 551.31 / 11= 50.12
Error = Del Error /Gl del Error 1,220.14 / 33= 36.97
F calculada y F tabulada Fc Ft
Cuadrado medio de columnas / Cuadrado medio del error 27.78 / 36.97= 0.75 2.89
Cuadrado medio de Filas / Cuadrado medio del error 50.12 / 36.97= 1.36 2.09
La Ft de las Filas de obtiene de la tabla F de Fisher con α=0.05 y los Gl de filas y los Gl
del Error.
143
Conclusión.
Como Fc calculada de las columnas es menor que la Ft de las columnas, se dice que la
variable Región de Procedencia no tiene un efecto significativo en la variabilidad del
Gasto diario de los estudiantes en materiales.
Como Fc calculada de las filas es menor que la Ft de las filas, se dice que la variable “Rama
y cantidad de trimestres” no tiene un efecto significativo en la variabilidad del Gasto
diario de los estudiantes en materiales.
144
SCT = ƩƩxij2- (ƩƩxij)2 /n
SCfila = Ʃxi.2- (ƩƩxij)2 /n
SCCol = Ʃx.j2- (ƩƩxij)2 /n
145