Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Asignatura
Estadística Descriptiva
Profesor Autor
Lelly María Useche Castro. PhD.
Tabla de contenidos
Resultado de aprendizaje de la asignatura…………………………………………………………… 3
Resultado de aprendizaje de la unidad………………………………………………………………... 3
Tema 1. Conceptos fundamentales. ……………………………………………………..……………… 3
Estadística …………………………………………………………………………………………………………..… 3
Importancia de la estadística…………………………………………………………………………………. 4
Universo …………………………………………………………………………………………………..…………… 5
Población estadística ………………………………………………………………………..…………………… 5
Muestra……………………………………………………………………………………………….………………. 6
Parámetro …………………………………………………………………………………….………….…………… 6
Estimador ………………………………………………………………………………………..……………………. 6
Estadístico ……………………………………………………………………………………………..……………… 6
Estimación…………………………………………………………………………………………………..…………. 7
Tipos de variable……………………………………………………………………………………………………. 7
Escala de medida……………………………………………………………………………………………………. 8
TEMA 2. Organización de los datos……………………………………………………………………….. 9
Escrita o verbal……………………………………………………………………………………..……………….. 9
Tabular…………………………………………………………………………………………………..………………. 9
Gráfica……………………………………………………………………………………………………..…………….. 10
Tablas para datos no agrupados…………………………………………………………………………….. 13
Gráfico para datos no agrupados …………………………………………………………………………… 19
Tablas de frecuencias para datos agrupados…………………………………………………………… 23
Gráficos para datos agrupados. ……………………………………………………………………………… 33
Bibliografía……………………………………………………………………………………………………………… 35
2
Resultado de aprendizaje de la asignatura
Conocer las distintas técnicas de resumen y presentación de datos, mediante el uso de medidas
descriptivas y tablas de frecuencias, con la finalidad de tener herramientas para la óptima toma de
decisiones. Explicar las definiciones y propiedades de las probabilidades, con la finalidad de calcular
o cuantificar el grado de incertidumbre de un fenómeno o evento de Interés. Aplicar los distintos
modelos probabilísticos en distintas situaciones afines a la profesión, con el fin de garantizar un
adecuado uso de las probabilidades en la toma de decisiones. Distinguir los conceptos fundamentales
de la inferencia estadística para la estimación de parámetros y su relación en la profesión de estudio.
3
Estadística
Descriptiva
Inferencial
IMPORTANCIA DE LA ESTADÍSTICA
La estadística es de vital importancia para los procesos de toma de decisiones en todos los ámbitos
de las ciencias y profesiones. Los procesos de toma de decisiones deben estar basados en evidencias
objetivas que las ofrecen los métodos y herramientas científicas, entre ellas las metodologías y
técnicas estadísticas.
Es de vital importancia que todos los países cuentan con institutos de nacionales de estadística que
realizan desde la planificación, la recolección de información mediante censos como el censo de
población y vivienda, hasta la divulgación de la información, así como el análisis y asesoría a los
diferentes entes gubernamentales que lo necesiten como información parroquial, municipal, entre
otros.
Cabe destacar que la estadística juega un papel vital para el desarrollo de todas las ciencias, algunos
ejemplos de ello tenemos;
En las áreas de las ciencias administrativas, contables, económicas y de mercado: tiene
varios usos como servir de evidencia para sustentar una toma de decisiones, como pronóstico de
ventas, como procesos de auditorías, como medir la probabilidad de quiebre de negocio, comparar
el negocio con respecto al mercado o a la competencia, conocer las características del cliente, de los
países, entre otros ejemplos.
En las áreas humanísticas: para conocer las características de las personas en una localidad
para la creación de políticas de mejora, para pronosticar situaciones de riesgo o vulnerabilidad, para
determinar la probabilidad de ocurrencia de una situación particular son alguno de las situaciones en
que la estadística ofrece herramientas para describir y predecir diferentes escenarios. La demografía
es una rama humanística que estudia las poblaciones humanas bajo el uso de la estadística.
En el sector de educación: en la educación tiene gran utilidad como en estudios de influencias
de métodos de enseñanza y se necesita hacer comparaciones de grupos antes y después, o
comparaciones de grupos o paralelos entre sí, construir un modelo que mida el comportamiento
estudiantil basado en diversos factores, establecer relaciones entre factores o características, entre
otros.
4
En el sector agrícola: para el sector agrícola ha sido de gran ayuda entre todas las
herramientas de estadística, el diseño de experimentos principalmente para comprobar la diferencia
que existe entre tratamientos aplicados o de control como plaguicidas, alimentos veterinarios,
sistemas de cultivos, entre otros. Así como establecer relaciones existentes o influencias de
características en una determinada especie animal o vegetal.
En las áreas de la ingeniería: la disciplina de la ingeniería es múltiple, así como la utilización
de las técnicas estadísticas, a tenido grandes aportes como en el control estadístico de la calidad,
para el muestreo de materia prima para su aceptación o rechazo, para medir la probabilidad de
ocurrencia de una falla mecánica, la estimación de obtener productos defectuosos, entre otros.
En el sector salud: en este sector la estadística se maneja bajo el nombre de bioestadística,
ha sido de gran ayuda para el seguimiento de los pacientes a lo largo del tiempo y ver las
probabilidades de sobrevivencia ante un tratamiento para una enfermedad determinada, la
probabilidad de éxito de una nueva vacuna
UNIVERSO Es el conjunto de sujetos con al menos una característica de interés común,
delimitado en tiempo o espacio. Puede ser, por ejemplo: personas nacidas en 1995, artículos
fabricados, documentos contables no aprobados en auditoría, hogares en el que la madre es el jefe
de hogar, países latinoamericanos, estudiantes que han repetido al menos una asignatura, entre
otros. El universo a su vez puede estar conformado por un conjunto finito o infinito de elementos.
Ejemplo de un universo finito: estudiantes matriculados en un colegio en el periodo actual, personas
nacidas en 1995 que viven en una ciudad, artículos fabricados la primera semana del mes,
documentos contables no aprobados en la más reciente auditoría. Ejemplo de universo infinito;
bacterias en un río, turistas que pernoctan en una playa, número de árboles de una ciudad,
contagiados por un virus epidémico, etc.
POBLACIÓN ESTADÍSTICA: es el conjunto de todas las medidas de la característica de interés
de los sujetos del universo. Varias poblaciones pueden pertenecer a un mismo universo. Supongamos
que tenemos el universo de las personas nacidas en 1995 de una ciudad, ejemplo de población sería
sus características sociodemográficas, es decir, el género, la edad, el estado civil, el nivel educativo,
el ingreso salarial, los gastos mensuales, el peso en libras, la actividad que realiza en sus ratos de ocio.
También puede ser la opinión con respecto al aborto, matrimonio igualitario, entre otras
características de interés para el investigador.
Población finita es cuando las mediciones o características que representa pertenece a un
universo finito, es decir, cuando tiene un número determinado y generalmente conocido de
elemente. Se conoce como N que puede decirse que es el tamaño de la población o universo, pues
coincide en el sentido de que, cada elemento se le asocia un valor numérico o no de la característica
o población de estudio. Ejemplo de población finita: calificaciones de los estudiantes matriculado en
el colegio en el periodo actual, defectos en los productos fabricados en la primera semana del mes,
personal que elaboró el documento no aprobado en la última auditoria.
Población infinita es cuando las mediciones o características pertenecen a un universo
infinito o no conocido de elementos que podrían conformar el universo. Tipo de bacterias presentes
5
en el río, tipo de turista que pernocta en una playa, presencia de riesgo grave en los contagiados por
un virus epidémico.
Es muy importante conocer el tipo de población de estudio, si es finita o infinita, pues de este
concepto depende la selección de algunas herramientas para el análisis estadístico, como por
ejemplo el del cálculo del tamaño de una muestra. Algunas veces la solución de analizar este tipo de
población infinita el limitando el universo en tiempo o espacio o redefinir el elemento del universo,
por ejemplo, si los turistas en una playa es un universo infinito, se puede restructurar por turistas
que visitan un sitio histórico de la playa o pernoctan en algunos hoteles o consumen en algún
restaurante.
En algunas situaciones tenemos la fortuna de poder llevar a cabo el análisis exhaustivo de toda la
población de estudio, porque se cuenta con los recursos, el tiempo, la logística, el acceso a los
elementos o porque el estudio así lo requiere, este procedimiento descrito se denomina Censo.
Ejemplo de ello, el censo de población y vivienda y el censo comercial. Sin embargo, no todo el tiempo
se cuenta con los recursos necesarios para llevar a cabo un censo o el tiempo, por ejemplo, si se hace
un estudio para determinar en tiempo real los contagiados de un virus epidémico, resulta imposible
medir en un momento dado todas las personas de la ciudad sin que en ese mismo momento ya haya
cambiado la cifra de contagiados y en ocasiones los resultados se vuelven obsoletos muy
rápidamente. Es por ello que se recurre a tomar una parte de la población que denominaremos
muestra.
MUESTRA: es un subconjunto de la población, será muestra estadística si cada elemento de
la población tiene una probabilidad conocida (generalmente igual) de ser seleccionada para la
muestra. Ejemplo;
Para una investigación se desea conocer la opinión de los docentes de educación universitaria de la
asignatura de estadística tiene con respecto a la modalidad en línea en una ciudad determinada. Lo
ideal sería entrevistar de manera exhaustiva a cada docente (Censo), sin embargo, los costos y el
tiempo serían muy elevados. Para ello se debe tomar una muestra, se conoce en el ministerio de
educación o por medio de la zona educativa el listado de los docentes (elementos de universo) por
tanto todos ellos tendrían una misma probabilidad de ser seleccionados si se escogiese por ejemplo
de manera aleatoria. De esta manera tendríamos un grupo de docentes mucho más pequeño que el
total de la ciudad pero que representara a las instituciones públicas o privadas, los diferentes grados,
de diferentes sectores, entre otros puntos que considere el investigador.
PARÁMETRO es el valor calculado de una población. Sólo hay uno y es el valor verdadero que
representa a una población. Se identifican con letras griegas. Ejemplo de parámetros poblacionales
la media de la población µ
ESTIMADOR es un estadístico de la muestra, es decir, una función matemática para estimar
un parámetro desconocido de la población. En el caso de la media, sería el promedio obtenido con
̅
los datos de la muestra, se simboliza con 𝒙
ESTADÍSTICO es una función matemática de los miembros de una muestra, que permita
predecir la información contenida en la población. Por ejemplo, el estadístico de prueba de la media
muestral es;
6
∑𝑛𝑖=1 𝑥𝑖
𝑋̅ =
𝑛
ESTIMACIÓN: es el valor obtenido por el estadístico de prueba, por ejemplo; supongamos que
̅ = 𝟓, entonces 5 sería la estimación de la media poblacional.
se obtuvo de una muestra; 𝒙
Los conceptos de Universo, población, muestra, parámetro, estadístico, estimador y estimación se
desarrollarán y se aplican en la segunda rama de la estadística, es decir, la estadística inferencial.
TIPOS DE VARIABLES
7
ESCALA DE MEDIDAS
Intevalo
Cuantitativas
Razón
Escala de
Medidas
Nominal
Cualitativas
Ordinal
Según Carballo Barcos, Miriam, & Guelmes Valdés, Esperanza Lucía. (2016) , Coronado (2007),
conceptualizan las escalas de medida de la siguiente manera:
Nominales: valores que se agrupan en categorías disjuntas y exhaustivas. Pueden ser: a) Dicotómicas
(se presentan en solo 2 categorías. Ej. Sexo: masculino o femenino) b) Politómicas (se manifiestan en
más de dos categorías. Ejemplos: marcas de computadoras, clases sociales, orientación sexual).
Admite sólo operaciones de igualdad y su representación numérica no tiene sentido de magnitud.
Ordinales: aquellas en las que hay un orden entre las categorías. Admite operaciones de igualdad,
menor que, mayor que y su representación numérica no tiene sentido de magnitud. Ejemplos: estado
de salud, calificaciones, preferencias, nivel de educación.
De intervalo: los elementos son clasificados en categorías que tienen un orden o jerarquía, como son
numéricas se pueden realizar operaciones aritméticas. La diferencia entre dos valores consecutivos
es de tamaño constante y no existe el 0 absoluto natural sino convencional, es decir, el cero no implica
ausencia de la característica. Ejemplos: coeficiente intelectual
De razón: Admite todas las operaciones aritméticas y lógicas, tienen representación numérica con
sentido de magnitud y además el cero indica ausencia de la característica de interés. Ejemplos: edad,
producción, ingresos.
8
TEMA 2. ORGANIZACIÓN DE LOS DATOS
Existen diferentes maneras de presentar la información estadística, ellas son:
Tabular
Escrita o
Gráfica
Verbal
Edad Frecuencia
Adolescente 13
Jóven 14
Adulto 23
Total 50
Sexo
Mujer Hombre Total
Adolescente 10 20 30
Jóven 20 20 40
Edad
Adulto 10 20 30
Total 40 60 100
9
Tabla multivariada: cuando se expresa la información de tres o más variables. El
número de variables máximo conveniente para mostrar la información en las tablas,
dependerá de la decisión de quién la elabora, pero no debe perder el sentido de resumen de
la información, es decir, no debe convertirse en una tabla complicada y difícil de comprender,
que no pierda el sentido de simplicidad para lo cual fue elaborada, dependerá en gran medida
del número de categorías que tenga ambas variables.
Sujetos según edad, sexo y condición de estudios.
Sexo
Estudio Mujer Hombre Total
Adolescente 10 12 22
No Edad Jóven 5 13 18
Adulto 7 15 22
Adolescente 22 24 46
Si Edad Jóven 25 31 56
Adulto 15 25 40
Total 84 120 204
10
Para el ejemplo se la figura, se puede decir que en líneas generales hay más jóvenes en el grupo e
igual cantidad de adolescentes que de adultos.
11
Gráfico para variables Cuantitativas.
Histograma de Frecuencias es un gráfico de la distribución de frecuencia de las variables
cuantitativas donde cada barra representa un rango o una clase y se eleva hasta la frecuencia de los
datos que se encuentran en dicho rango o clase. Permite tener una visión general de la distribución
de los datos, además de describir la variable, puede ser de gran ayuda para hacer inferencia
estadística (la segunda rama de la estadística)
Gráfico Histograma y Polígono de Frecuencias.
25
20
15
10
0
5-9 10-14 15-19 20-24 25-29 30-34
frecuencia Absoluta 20 27 9 2 1 1
Polígono de Frecuencias 20 27 9 2 1 1
Por ejemplo, supongamos que el siguiente histograma es con respecto a las edades de cierto grupo
de sujetos, se observa que las edades más frecuentes están entre los 10 a 14 años. En líneas
generales, se puede apreciar que prevalece en ese conjunto de sujetos personas jóvenes ya que las
barras más altas son los menores a 14 años de edad.
Polígono de Frecuencias: consiste en graficar como un valor medio de cada rango y se une mediate
una curva que generalmente se suaviza para conocer como es la distribución de los datos. Para el
12
caso anterior, visto desde un polígono de frecuencias, puede decirse que, la edad más frecuente se
encuentra en promedio a los 12 años de edad aproximadamente.
Mediante el polígono de frecuencias se puede observar fácilmente la asimetría y curtosis de la
distribución de los datos.
A simple vista, resulta difícil analizar de los resultados, es necesario, para ello, una organización y
tabulación de la información mediante una tabla de frecuencias, para ello se diseña la siguiente:
13
Frecuencia Frecuencia Frecuencia Relativa
Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)
Agua
Internet
Electricidad
Aseo urbano
Total
Frecuencia simple fi: se refiere al número de veces que se repite la categoría de la variable.
Para el ejemplo, se tiene la categoría correspondiente al servicio de agua se tiene que hay una
frecuencia de siete, es decir, siete personas manifiestan que el servicio de agua lo consideran como
el de mayor problema en el hogar.
Por tanto, colocamos en la columna de frecuencia simple el número de veces que se repite la
categoría de agua.
Agua 7
14
Luego continuamos con otra categoría de la variable, por ejemplo, el servicio de internet lo cual tiene
una frecuencia de siete, es decir, otras siete personas manifestaron que el servicio de internet es el
mayor problema en sus hogares.
Agua 7
Internet 7
15
Frecuencia Frecuencia Frecuencia Relativa
Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)
Agua 7
Internet 7
Electricidad 9
Aseo urbano 7
30
Frecuencia acumulada (Fa): indica la suma de las frecuencias desde la categoría inicial hasta la
categoría en cuestión. La suma de todas las frecuencias acumuladas debe ser igual al número total
de datos.
Agua 7 7
Internet 7
Electricidad 9
Aseo urbano 7
Total 30
Para calcular la frecuencia acumulada, se empieza para la primera categoría con el primer valor de la
frecuencia simple, luego para la segunda celda de la columna de la frecuencia acumulada, se suma el
valor anterior acumulado más la frecuencia simple de esa categoría, y así sucesivamente.
La frecuencia acumulada de la última categoría coincide con el número total de datos.
16
Frecuencia relativa (fr): es la frecuencia simple expresada en porcentajes, para ello se divide la
frecuencia simple entre el número total de datos.
Para la categoría Agua se tiene 7/30=0,233
Agua 7 7 0,233
Internet 7 14
Electricidad 9 23
Aseo urbano 7 30
Total 30
Agua 7 7 0,233
Internet 7 14 0,233
Electricidad 9 23
Aseo urbano 7 30
17
Total 30
Agua 7 7 0,233
Internet 7 14 0,233
Electricidad 9 23 0,30
Aseo urbano 7 30
Total 30
Agua 7 7 0,233
Internet 7 14 0,233
Electricidad 9 23 0,30
Total 30
Frecuencia relativa acumulada (Fra): indica la suma de las frecuencias relativas desde la categoría
inicial hasta la categoría en cuestión. La suma total de todas las frecuencias relativas de ser igual a la
unidad.
18
Al igual que en la frecuencia acumulada absoluta, el primer valor corresponde a la frecuencia relativa
de la primera categoría.
Internet 7 14 0,233
Electricidad 9 23 0,30
Total 30
Total 30
Para su construcción, cada barra representa una categoría de la variable y se eleva hasta la frecuencia
correspondiente a la categoría. La barra más alta corresponde a la moda del conjunto de datos.
19
Internet 7 14 0,23 0,467
Total 30
Para el ejemplo se puede resaltar la barra a la que se quiere resaltar por una razón cualquiera y se
interpreta comparándose con las demás, o simplemente se hace una descripción de las barras en
general.
20
Gráfico de Barras. Principal problema de servicio en la
vivienda.
10
9
9
8
7 7 7
7
6
5
4
3
2
1
0
Agua Internet Electricidad Aseo urbano
Agua 7
Internet 7
Electricidad 9
Aseo urbano 7
Total 30
Total 30
21
Gráfico de Barras. Principal problema de
servicio de vivienda
La construcción manual de un gráfico circular consiste en tomar como el número total de datos
representa los 360 grados de un círculo y dependiendo de cuanta frecuencia o porcentaje relativo
tiene cada categoría, corresponderá unos grados de giro de la totalidad. Por ejemplo; para nuestro
caso de estudio, la categoría “Agua” que corresponde a una frecuencia relativa de 0.233 o 23.3%
corresponde, por simple regla de tres a un área que se conforma al girar dentro del círculo 84 grados.
Gráfico Circular
Frecuencia
Categoría Relativa (fr)
Electricidad 0,30
x 23,3%
360 x 0,233= 84 grados
La suma de todos los grados que corresponden a cada categoría de la variable debe ser igual a los
360 grados.
22
TABLAS DE FRECUENCIAS PARA DATOS AGRUPADOS:
Se aplica cuando las variables son cuantitativas y es necesario agrupar los datos en rangos
denominados clases.
7 16 18 10 7 30
8 12 11 9 7 13
15 12 10 6 20 6
16 10 10 23 11 14
11 19 14 13 15 9
14 7 10 15 8 5
6 14 9 18 12 6
15 10 9 9 26 10
9 14 11 8 13 10
5 10 12 9 14 11
23
Como se aprecia, es difícil describir el número de fallecidos por mes en accidentes de tránsito a lo
largo del periodo de estudio, es por ello, se hace necesario organizar los datos mediante una tabla
de frecuencias como la que se ofrece a continuación;
Frecuencia
Intervalos Marca de Frecuencia Frecuencia Frecuencia Relativa
de Clases Clase Absoluta Acumulada Relativa Acumulada
Total
Para comenzar a construirla se inicia definiendo los intervalos de clases, es decir, como estará
segmentado el conjunto de datos, tratando que los intervalos tengan una misma amplitud y un
número adecuado de clases, de manera tal, de obtener una tabla lo más resumida posible pero no al
punto de perder el detalle de la información a describir.
Para construir el intervalo de clases se inicia con el cálculo del rango del conjunto de datos;
𝑅𝑎𝑛𝑔𝑜 = 𝑉𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜
7 16 18 10 7 30
8 12 11 9 7 13
15 12 10 6 20 6
16 10 10 23 11 14
11 19 14 13 15 9
14 7 10 15 8 5
6 14 9 18 12 6
15 10 9 9 26 10
9 14 11 8 13 10
5 10 12 9 14 11
𝑅𝑎𝑛𝑔𝑜 = 30 − 5 = 25
Una vez obtenido el rango se calcula el número de clases que mejor se ajusta a este rango, para ello
hay diversas maneras, una de ellas y es la más comúnmente utilizada es la fórmula de Sturges, siendo
N el número total de datos, que para nuestro ejemplo es igual a 60 datos:
Fórmula de Sturges:
Número de clases=1+3,322*Log(N)
Número de clases=1+3,322*Log(60) 24
Número de clases=6,907018454
Luego, se puede redondear a 3 decimales o trabajar con todos ellos, en nuestro caso se trabajó con
todos los decimales. Finalmente se calcula la amplitud de clase la cual es la diferencia entre el límite
inferior y superior de cada clase.
La amplitud se calcula de la siguiente manera:
Amplitud=Rango/Número de clases
Amplitud=25/6,907018454
Amplitud=3,619506762 ≈ 4
Con la amplitud de 4 se comienza a crear los intervalos de clase;
• Se inicia con el valor mínimo del conjunto de datos o un valor menor a él, lo cual será el límite
inferior de la primera clase.
Frecuencia
Intervalos Marca de Frecuencia Frecuencia Frecuencia Relativa
de Clases Clase Absoluta Acumulada Relativa Acumulada
5-
Total
N 60
máximo 30
mínimo 5
rango 25
Número de
intervalos 6,907018454
amplitud 3,619506762 4
• Se suma al límite inferior el valor de la amplitud y ese es el Límite superior de la primera clase;
25
Frecuencia
Intervalos Marca de Frecuencia Frecuencia Frecuencia Relativa
de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9
Total
N 60
máximo 30 Construyendo el intervalo:
mínimo 5
rango 25 5+4=9
Número de
intervalos 6,907018454
amplitud 3,619506762 4
• Para el siguiente intervalo de clase se parte del siguiente valor del límite superior de la clase
anterior a este, este es uno de los criterios, ya que se trata de valores discretos.
Frecuencia
Intervalos Marca de Frecuencia Frecuencia Frecuencia Relativa
de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9
10-
Total
Y así sucesivamente se hacen las sumas de la amplitud en cada límite inferior que se va creando…
10+4=14
15+4=19
20+4=24
25+4=29
30+4=34 26
Frecuencia
Intervalos Marca de Frecuencia Frecuencia Frecuencia Relativa
de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9
10-14
15-19
20-24
25-29
30-34
Total
Marca de Clase: se define como el valor medio de cada clase, se obtiene sumando los límites inferior
y superior dividido entre 2;
𝑙𝑖 + 𝑙𝑠
𝑚𝑖 = ( )
2
5+9
𝑚1 = ( = 7)
2
La marca de clase es una medida fundamental para el cálculo de otras medidas de resumen como la
media, mediana, cuartiles, deciles, percentiles, y de gráficos como el polígono de frecuencias. De
cierta manera, es el valor que representa los datos que se encuentran en una clase. Calculando todas
las marcas de clase construimos toda la columna correspondiente.
10 + 14 15 + 19
𝑚2 = ( = 12) 𝑚3 = ( = 17)
2 2
20 + 24 25 + 29
𝑚4 = ( = 22) 𝑚5 = ( = 27)
2 2
27
30 + 34
𝑚6 = ( = 32)
2
Frecuencia absoluta (fi): indica el número de datos que se encuentran dentro del rango de el
intervalo de clases, para este ejemplo, si contamos el número de meses (datos) que presentaron
entre 5 y 9 fallecidos en accidentes de tránsito, se cuentan 20, éste será el valor de la frecuencia
absoluta de la primera clase.
28
Frecuencias acumuladas (Fa): es la suma de las frecuencias absolutas hasta un determinado valor de
la variable o hasta un intervalo de clase de la variable.
Para el ejemplo, la primera frecuencia acumulada corresponde a la primera frecuencia absoluta, es
decir, la correspondiente de la primera clase.
Para obtener la frecuencia acumulada de la segunda clase se suma la frecuencia acumulada anterior,
es decir, en este caso, la primera (20) más la frecuencia absoluta de la clase actual (27).
Y así sucesivamente …
29
El valor de la última frecuencia acumulada
30
Frecuencia relativa (fr): representa la cantidad de datos presentes en un intervalo de clases en
relación a la cantidad total. Se obtiene, dividiendo la frecuencia absoluta de cada clase entre el
número total de datos.
Por lo general se puede usar entre dos o tres decimales. Para la interpretación se multiplica por cien
para expresarse en términos de porcentaje.
31
La sumatoria de toda la columna de la frecuencia relativa debe ser aproximadamente igual a 1
Frecuencia relativa acumulada (Fra): representa la cantidad de datos presentes en varios intervalos
de clase consecutivos en relación a la cantidad total. Se obtiene, dividiendo la frecuencia acumulada
entre el número total de datos o ir sumando la frecuencia relativa absoluta. Su interpretación
también se expresa en términos de porcentaje.
La frecuencia acumulada relativa de la última clase debe ser igual a uno o aproximada debido al
redondeo de los decimales.
32
Frecuencia absoluta 9: en 9 meses del periodo de estudio se presentaron entre 15 y 19 fallecidos en
sitio por accidente de tránsito.
Frecuencia acumulada 56: en 56 meses se registró entre 5 y 19 fallecidos en sitio por accidente de
tránsito por mes.
Frecuencia relativa 0,15: se multiplica por cien para expresarse en porcentaje. Es decir, 0,15 x
100=15% lo que se puede interpretar como, el 15% de los meses del periodo de estudio, presentaron
entre 15 y 19 fallecidos en sitio por mes en accidentes de tránsito.
Frecuencia relativa acumulada 0,93: se multiplica por cien para expresarse en porcentaje. Es decir,
0,93 x 100=93% lo que se puede interpretar como, el 93% de los meses del periodo de estudio,
presentaron entre 5 y 19 fallecidos en sitio por mes en accidentes de tránsito.
Y de esta manera puede interpretarse sólo la categoría que desea resaltar el analista o se puede hacer
una interpretación general de la tabla como de la siguiente manera;
“En lo que respecta a los fallecidos en sitio en accidentes de tránsito en los meses comprendidos entre
enero 2014 y diciembre 2018, se aprecia de que al menos se presenta más de 5 pero menos de 34
fallecidos por mes, siendo la frecuencia más alta entre 10 y 14 fallecidos presentándose en el 45% de
los meses del periodo de estudio”.
33
30
25
20
15
10
0
1 2 3 4 5 6
En el cual. el eje de las X se proyecta los intervalos de clases y luego se eleva cada columna hasta la
frecuencia correspondiente.
30
25
20
15
10
0
5-9 10-14 15-19 20-24 25-29 30-34
Para el polígono de frecuencias (línea de color naranja en el gráfico) se grafica las marcas de clases
con las respectivas frecuencias y se unes todos los puntos por medio de una línea.
34
ESTADÍGRADOS O MEDIDAS RESUMEN
Es un valor que resumen en un solo número información de un conjunto de datos. Ellas son;
Estadígrafos o
Medidas
Resumen.
Medidas de Medidas de
Medidas de Medidas de
Tendencia tendencia NO
Dispersión Forma
Central central
Desviación
Mediana Deciles Curtosis
Estándar
Coeficiente de
Moda Percentiles
Variación
TEMA 3. MEDIDAS DE TENDENCIA CENTRAL: indica la tendencia de los datos hacia un valor
central. Pueden ser:
Media aritmética: es el promedio de las mediciones, es la suma de cada valor del conjunto de datos
dividido entre el número total de datos. Se aplica sólo a datos cuantitativos, puede tomar valores
positivos o negativos, dependiendo del conjunto de datos. Se deja influenciar por los valores extremo
(siendo esta una desventaja) y no se puede aproximar, se interpreta con al menos dos decimales
preferiblemente.
∑𝑛𝑖=1 𝑥𝑖
𝑋̅ =
𝑛
Si los datos son No agrupados pero tabulados, recurrimos a la frecuencia de las categorías;
∑𝑛𝑖=1 𝑥𝑖 . 𝑓𝑖
𝑋̅ =
𝑛
Si los datos son agrupados en clases, se calcula por medio del intervalo de clases.
∑𝑛𝑖=1(𝑚𝑖 𝑥 𝑓𝑖 )
𝑋̅ =
𝑛
Existe otros tipos de media como la media armónica, geométrica, las cuales son más específicas como
en el área de economía, etc.
35
Por ejemplo, si tenemos las edades de 7 niños: 3, 5, 6, 8, 9 ,9,9 la media de las edades de los niños
es:
∑𝑛𝑖=1 𝑥𝑖 3 + 5 + 6 + 8 + 9 + 9 + 9
𝑋̅ = = =7
𝑛 7
Mediana se define como el valor que ocupa la posición central. Para su cálculo se procede de la
siguiente manera:
Se ordenan los datos de mayor o menor o visceversa
Si los datos son No agrupados y si el número total de datos n es par, la mediana es el promedio entre
los valores centrales.
Ejemplo; supongamos que hay otro niño más, la mediana de las edades de los 8 niños: 3, 5, 6, 8, 8, 9
,9,9 es
3+5+6+8+9+9+9
𝑀𝑒 = =7
7
Si los datos son No agrupados y si el número total de datos n es impar, la mediana es el valor que
ocupa la posición central.
Ejemplo; Nuevamente para el conjunto inicial de los 7 niños, la mediana de las edades: 3, 5, 6, 8, 9
,9,9 es 8
(Se describe con mayor detalle en el ejemplo que se detalla más adelante)
Moda: es el valor que ocurre con mayor frecuencia. La moda puede no existir, en caso de que exista
y sea única se considera unimodal, si hay dos, bimodal, se calcula mediante las frecuencias de las
clases o categorías.
Moda: Por ser una variable cualitativa solo se puede calcular la moda. Se lee en la columna de
frecuencia simple fi el valor que más se repite. Para este caso la frecuencia que más se repite es 9
correspondiente a los problemas relacionados con el servicio de electricidad. Puede interpretarse
como que el problema que más predomina en la comunidad es el de electricidad.
36
Frecuencia Frecuencia Frecuencia Relativa
Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)
Total 30
∑𝑛𝑖=1 𝑥𝑖
𝑋̅ =
𝑛
Para datos agrupados se calcula mediante la marca de clase:
∑𝑛𝑖=1(𝑚𝑖 𝑥 𝑓𝑖 )
𝑋̅ =
𝑛
Por tanto, 12 fallecidos en accidentes de tránsito es el promedio por mes en la provincia de Manabí
en el periodo 2014-2018.
Mediana
Para el cálculo de la mediana en un conjunto de datos agrupados se tiene:
𝑛
(2 − 𝐹𝑎 )
𝑀𝑒 = 𝐿𝑖 + [ ]x A
𝑓𝑚𝑒
60
( 2 − 𝐹𝑎 ) (30 − 𝐹𝑎 )
𝑀𝑒 = 𝐿𝑖 + [ ]x A = 𝑀𝑒 = 𝐿𝑖 + [ ]xA
𝑓𝑚𝑒 𝑓𝑚𝑒
Buscando en la frecuencia acumulada se aprecia que no está exactamente el valor de 30, pero si el
primero que lo supera que es 47, por tanto, la clase en la que pertenece la mediana es la que tiene
el rango entre 10-24;
(10)
= 𝑀𝑒 = 10 + [ ]x 4 = 𝑀𝑒 = 10 + 1,482 = 11,482 𝑓𝑎𝑙𝑙𝑒𝑐𝑖𝑑𝑜𝑠
27
Por tanto, aproximadamente el 50% de los meses de estudio presentan a lo más 12 fallecidos por
mes.
Moda
Para el cálculo de la moda en datos agrupados se tiene la siguiente fórmula:
𝑑1
𝑀𝑜 = 𝐿𝑖 + [ ]x A
𝑑1 + 𝑑2
38
En el que;
𝐿𝑖 es el límite inferior de la clase en la que pertenece la moda.
A es la amplitud de la clase
𝑑1 es la diferencia en valor absoluto de la frecuencia absoluta donde está la moda y la anterior a ella.
𝑑2 es la diferencia en valor absoluto de la frecuencia absoluta donde está la moda y la siguiente a
ella.
Frecuencia
Intervalos de Marca de Frecuencia Frecuencia Frecuencia Relativa
Clases Clase Absoluta Acumulada Relativa Acumulada
5-9 7 20 20 0,33 0,33
10-14 12 27 47 0,45 0,78
15-19 17 9 56 0,15 0,93
20-24 22 2 58 0,03 0,97
25-29 27 1 59 0,02 0,98
30-34 32 1 60 0,02 1,00
Total 60 1,00
7 7
𝑀𝑜 = 10 + [ ]x 4 𝑀𝑜 = 10 + [ ]x4
7 + 18 25
Por tanto, la cantidad de fallecidos por mes que más predomina en los meses de estudio es
aproximadamente de 11
39
Cálculo de las medidas de tendencia no central para datos agrupados
Cuartiles: Para datos agrupados se identifica inicialmente la clase en la que se encuentra el cuartil.
Los cálculos y la ecuación se muestran a continuación:
Si se desea calcular el primer cuartil el cual corresponde al 25% de los datos;
𝑥𝑛 𝑛
( 4 − 𝐹𝑎 ) (4 − 𝐹𝑎 )
𝑄𝑥 = 𝐿𝑖 + [ ]x A 𝑄1 = 𝐿𝑖 + [ ]x A
𝑓𝑄𝑥 𝑓𝑄1
60
( 4 − 𝐹𝑎 ) (15 − 𝐹𝑎 )
= 𝑄1 = 𝐿𝑖 + [ ] x A = 𝑄1 = 𝐿𝑖 + [ ]x A
𝑓𝑄1 𝑓𝑄1
(15 − 0)
= 𝑄1 = 5 + [ ]x 4 = 𝑄1 = 5 + [0,75]x 4 = 𝑄1 = 5 + 3 = 8
20
Deciles
El procedimiento es muy similar, para identificar la clase a la que pertenece el decil que se requiere,
a el número total de datos se le multiplica el decil y se divide entre diez.
𝑥𝑛
(10 − 𝐹𝑎 )
𝐷𝑥 = 𝐿𝑖 + [ ]x A
𝑓𝐷𝑥
Por ejemplo, si se desea calcular el decil ocho, es decir, en el que se encuentra el 80% de los datos,
se procede de la siguiente manera;
40
8𝑥60
( − 𝐹𝑎 ) (48 − 𝐹𝑎 )
𝐷8 = 𝐿𝑖 + [ 10 ]x A 𝐷8 = 𝐿𝑖 + [ ]x A
𝑓𝐷8 𝑓𝐷8
(48 − 47) 1
𝐷8 = 15 + [ ]x 4 𝐷8 = 15 + [ ] x 4
9 9
𝐷8 = 15 + 0,44 = 15,44
Percentiles:
Nuevamente se procede de manera similar, se calcula, por ejemplo, el percentil 85
𝑥𝑛 85𝑥60
(100 − 𝐹𝑎 ) ( 100 − 𝐹𝑎 )
𝑃𝑥 = 𝐿𝑖 + [ ]x A 𝑃85 = 𝐿𝑖 + [ ]xA
𝑓𝑃𝑥 𝑓𝑃85
(51 − 𝐹𝑎 ) (51 − 𝐹𝑎 )
𝑃85 = 𝐿𝑖 + [ ]x A 𝑃85 = 𝐿𝑖 + [ ]x A
𝑓𝑃85 𝑓𝑃85
(51 − 47)
𝑃85 = 15 + [ ]x 4
9
41
4
𝑃85 = 15 + [ ] x 4
9
2
∑(𝑋 − 𝜇 )2
𝜎 =
𝑁
Desviación Típica o estándar es calculada por la raíz cuadrada de la varianza, tiene las mismas
unidades de medida que los datos, es por ello que si se puede interpretar. Una desviación muy lejos
(entiéndase por “lejos” a criterio del investigador) hace que la media o promedio sea poco confiable,
mientras que desviaciones estándar pequeñas, indican que los datos están bien concentrados
alrededor de la media y por tanto ésta es una buena representación del conjunto de datos.
∑(𝑋 − 𝜇 )2
𝜎=√
𝑁
42
Coeficiente de Variación: es la relación porcentual que existe entre la desviación y la media, ella
según el siguiente baremo podría indicar si el conjunto de datos es muy o poco variable.
𝑆
𝐶𝑉 = (𝑋̅) . 100%
✓ Si el coeficiente de variación es menor al 10% existe poca variabilidad, es decir, el conjunto
de datos es muy similar con respecto a la variable o característica de estudio.
✓ Si el coeficiente de variación se encuentra entre 10% y 33% la variabilidad es aceptable para
el uso de ciertas técnicas estadísticas.
✓ Si el coeficiente de variación está entre 33% y 50% existe una variabilidad excesiva pero
tolerable.
✓ Si es mayor al 50%, la variabilidad es muy excesiva y en esos casos es conveniente segmentar
o clasificar los datos y analizarlos de manera diferente.
(∑ 𝑓𝑖 𝑚𝑖 )2
∑(𝑓𝑖 𝑚𝑖 2 ) −
𝑆2 = 𝑛
𝑛−1
Para el cálculo necesitamos crear dos columnas adicionales en las que necesitamos la sumatoria de
las misma;
Los 𝑓𝑖 𝑚𝑖 en el que para cada clase se multiplica la frecuencia absoluta por su respectiva marca de
clase;
43
Y luego una columna de 𝑓𝑖 𝑚𝑖 2 que sería la columna recién calculada multiplicada nuevamente por la
marca de clases.
Luego se calculan las sumatorias de cada columna creada, por tanto
∑ 𝑓𝑖 𝑚𝑖 = 720
∑ 𝑓𝑖 𝑚𝑖 2 = 10190
Sustituyendo;
(∑ 𝑓𝑖 𝑚𝑖 )2 7202
∑(𝑓𝑖 𝑚𝑖 2 ) − 10190 − ( 60 ) 10190 − 8640 2 1550
𝑆2 = 𝑛 𝑆2 = 𝑆 = = 26,27
𝑆2 = 59
𝑛−1 60 − 1 59
2 (∑ 𝑓𝑖 𝑚𝑖 )2
∑(𝑓𝑖 𝑚𝑖 )−
𝑆=√ 𝑛−1
𝑛
= 𝑆 = √𝑆 2
𝑆 = √26,27=5,13 fallecidos
Coeficiente de variación
Se calcula y luego se compara según el baremo
𝑆
𝐶𝑉 = ( ̅ ) . 100%
𝑋
5,13
𝐶𝑉 = ( 12 ) . 100%
𝐶𝑉 = 0,428. 100%=42,8% 44
Existe una variabilidad excesiva pero tolerable.
𝑚𝑒𝑑𝑖𝑎 − 𝑚𝑜𝑑𝑎
𝑆𝑒𝑠𝑔𝑜 =
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎
Si el valor es cercano a cero, se dice que es simétrica, en este caso la media, mediana y moda
coinciden.
30
20
10
0
10-14 15-19 20-24 25-29 30-34
Si el valor es positivo, se dice que tiene asimetría positiva, en este caso, a media es mayor a la
mediana y ésta a su vez es mayor a la moda.
30
25
20
15
10
5
0
5-9 10-14 15-19 20-24 25-29 30-34
Si el valor es negativo, se dice que tiene asimetría negativa, la media es menor a la mediana y esta a
su vez menor a la moda.
45
30
25
20
15
10
0
5-9 10-14 15-19 20-24 25-29 30-34
Curtosis mide que tan puntiaguda o achatada es la distribución de frecuencia de los datos, el grado
de agrupación de los datos en la región central, puede ser leptocúrticas, platicúrtica y mesocúrtica.
1
(𝑄3 − 𝑄1 )
𝐶𝑐 = 2 − 0.263
𝑃90 − 𝑃10
Si el valor es mayor a 0 se dice que es leptocúrtica
Si el valor es cercano a 0 se dice que es mesocúrtica
Si el valor es menor a 0 se dice que es platicúrtica.
Leptocúrtica: es cuando la distribución es más puntiaguda y presenta menos variabilidad los datos,
es decir, la mayoría de ellos están cercanos a sus valores centrales.
Mesocúrtica: es cuando la distribución es similar a la distribución normal.
Platicúrtica: es una distribución más achatada, es decir, presenta mayor dispersión los datos.
46
Asimetría.
𝑚𝑒𝑑𝑖𝑎 − 𝑚𝑜𝑑𝑎
𝑆𝑒𝑠𝑔𝑜 =
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎
12−11,12
𝑆𝑒𝑠𝑔𝑜 = =
5,13
0,88
𝑆𝑒𝑠𝑔𝑜 = 5,13=0,172
Como es mayor a cero tiene una asimetría positiva (ver histograma de frecuencias) en el cual la Media
es mayor a la Media y Mayor a la Moda.
Curtosis
1 𝑛
∑𝑖=1(𝑥𝑖 − 𝑥̅ )4 . 𝑓𝑖
𝐶𝑐 = 𝑛
𝑆𝑥4
Otra manera es mediante percentiles
1
(𝑄3 − 𝑄1 )
𝐶𝑐 = 2 − 0,263
𝑃90 − 𝑃10
3𝑥60
( 4 − 𝐹𝑎 )
𝑄3 = 𝐿𝑖 + [ ]x A
𝑓𝑃𝑥 𝑄3 = 13,704
𝑛
(4 − 𝐹𝑎 )
𝑄1 = 𝐿𝑖 + [ ]x A 𝑄1 = 8
𝑓𝑄1
90𝑥60
( 100 − 𝐹𝑎 )
𝑃90 = 𝐿𝑖 + [ ]x A 𝑃90 = 15 + 3,111 = 18,111
𝑓𝑃85
10𝑥60
( 100 − 𝐹𝑎 )
𝑃10 = 𝐿𝑖 + [ ]x A 𝑃10 = 5 + 1,2 = 6,2
𝑓𝑃85
47
Bibliografía
Carballo, M. & Guelmes, E. (2016). Algunas consideraciones acerca de las variables en las
investigaciones que se desarrollan en educación. Revista Universidad y Sociedad, 8(1), 140-150.
Recuperado en 07 de mayo de 2021, de http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S2218-
36202016000100021&lng=es&tlng=es.
48