Está en la página 1de 48

UNIDAD 1

Asignatura
Estadística Descriptiva

Profesor Autor
Lelly María Useche Castro. PhD.

Este compendio recoge textualmente documentos e información de varias


fuentes debidamente citadas.
Se lo utiliza únicamente con fines educativos.
1
Índice

Tabla de contenidos
Resultado de aprendizaje de la asignatura…………………………………………………………… 3
Resultado de aprendizaje de la unidad………………………………………………………………... 3
Tema 1. Conceptos fundamentales. ……………………………………………………..……………… 3
Estadística …………………………………………………………………………………………………………..… 3
Importancia de la estadística…………………………………………………………………………………. 4
Universo …………………………………………………………………………………………………..…………… 5
Población estadística ………………………………………………………………………..…………………… 5
Muestra……………………………………………………………………………………………….………………. 6
Parámetro …………………………………………………………………………………….………….…………… 6
Estimador ………………………………………………………………………………………..……………………. 6
Estadístico ……………………………………………………………………………………………..……………… 6

Estimación…………………………………………………………………………………………………..…………. 7
Tipos de variable……………………………………………………………………………………………………. 7
Escala de medida……………………………………………………………………………………………………. 8
TEMA 2. Organización de los datos……………………………………………………………………….. 9
Escrita o verbal……………………………………………………………………………………..……………….. 9
Tabular…………………………………………………………………………………………………..………………. 9
Gráfica……………………………………………………………………………………………………..…………….. 10
Tablas para datos no agrupados…………………………………………………………………………….. 13
Gráfico para datos no agrupados …………………………………………………………………………… 19
Tablas de frecuencias para datos agrupados…………………………………………………………… 23
Gráficos para datos agrupados. ……………………………………………………………………………… 33
Bibliografía……………………………………………………………………………………………………………… 35

2
Resultado de aprendizaje de la asignatura

Conocer las distintas técnicas de resumen y presentación de datos, mediante el uso de medidas
descriptivas y tablas de frecuencias, con la finalidad de tener herramientas para la óptima toma de
decisiones. Explicar las definiciones y propiedades de las probabilidades, con la finalidad de calcular
o cuantificar el grado de incertidumbre de un fenómeno o evento de Interés. Aplicar los distintos
modelos probabilísticos en distintas situaciones afines a la profesión, con el fin de garantizar un
adecuado uso de las probabilidades en la toma de decisiones. Distinguir los conceptos fundamentales
de la inferencia estadística para la estimación de parámetros y su relación en la profesión de estudio.

Unidad 1: ESTADISTICA DESCRIPTIVA

Resultado de aprendizaje de la unidad: Aplicar las distintas técnicas de resumen y presentación de


datos, mediante el uso de medidas descriptivas y tablas de frecuencias, con la finalidad de tener
herramientas para la óptima toma de decisiones.

TEMA 1. CONCEPTOS FUNDAMENTALES


ESTADÍSTICA la estadística se puede definir como la ciencia que estudia los datos, desde el
cómo recolectarlos desde los fenómenos o hechos hasta la interpretación y análisis de los mismo, es
decir, desde el diseño de recolección de los datos, la recolección como tal, organización, resumen,
síntesis, análisis, interpretación y divulgación de los resultados. La estadística ayuda a los procesos
de toma de decisiones.
La estadística se divide en dos grandes ramas; la estadística descriptiva y la estadística inferencial.
Ambas tienen igual de importancia y depende del cual es el objetivo del análisis de los datos que
requerimos cumplir.
La Estadística descriptiva es la rama que se encarga de la recolección, organización, resumen
y síntesis, de un conjunto de datos.
La Estadística inferencial es la rama de la estadística que se encarga de analizar un conjunto
de datos obtenidos mediante un proceso de muestreo, en el cual, los resultados obtenidos de la
muestra se asumen con un error conocido que así se comporta la población completa de estudio.
Para comprender la rama de la estadística inferencial se basa en la teoría de las probabilidades.

3
Estadística

Descriptiva

Inferencial

IMPORTANCIA DE LA ESTADÍSTICA
La estadística es de vital importancia para los procesos de toma de decisiones en todos los ámbitos
de las ciencias y profesiones. Los procesos de toma de decisiones deben estar basados en evidencias
objetivas que las ofrecen los métodos y herramientas científicas, entre ellas las metodologías y
técnicas estadísticas.
Es de vital importancia que todos los países cuentan con institutos de nacionales de estadística que
realizan desde la planificación, la recolección de información mediante censos como el censo de
población y vivienda, hasta la divulgación de la información, así como el análisis y asesoría a los
diferentes entes gubernamentales que lo necesiten como información parroquial, municipal, entre
otros.
Cabe destacar que la estadística juega un papel vital para el desarrollo de todas las ciencias, algunos
ejemplos de ello tenemos;
En las áreas de las ciencias administrativas, contables, económicas y de mercado: tiene
varios usos como servir de evidencia para sustentar una toma de decisiones, como pronóstico de
ventas, como procesos de auditorías, como medir la probabilidad de quiebre de negocio, comparar
el negocio con respecto al mercado o a la competencia, conocer las características del cliente, de los
países, entre otros ejemplos.
En las áreas humanísticas: para conocer las características de las personas en una localidad
para la creación de políticas de mejora, para pronosticar situaciones de riesgo o vulnerabilidad, para
determinar la probabilidad de ocurrencia de una situación particular son alguno de las situaciones en
que la estadística ofrece herramientas para describir y predecir diferentes escenarios. La demografía
es una rama humanística que estudia las poblaciones humanas bajo el uso de la estadística.
En el sector de educación: en la educación tiene gran utilidad como en estudios de influencias
de métodos de enseñanza y se necesita hacer comparaciones de grupos antes y después, o
comparaciones de grupos o paralelos entre sí, construir un modelo que mida el comportamiento
estudiantil basado en diversos factores, establecer relaciones entre factores o características, entre
otros.

4
En el sector agrícola: para el sector agrícola ha sido de gran ayuda entre todas las
herramientas de estadística, el diseño de experimentos principalmente para comprobar la diferencia
que existe entre tratamientos aplicados o de control como plaguicidas, alimentos veterinarios,
sistemas de cultivos, entre otros. Así como establecer relaciones existentes o influencias de
características en una determinada especie animal o vegetal.
En las áreas de la ingeniería: la disciplina de la ingeniería es múltiple, así como la utilización
de las técnicas estadísticas, a tenido grandes aportes como en el control estadístico de la calidad,
para el muestreo de materia prima para su aceptación o rechazo, para medir la probabilidad de
ocurrencia de una falla mecánica, la estimación de obtener productos defectuosos, entre otros.
En el sector salud: en este sector la estadística se maneja bajo el nombre de bioestadística,
ha sido de gran ayuda para el seguimiento de los pacientes a lo largo del tiempo y ver las
probabilidades de sobrevivencia ante un tratamiento para una enfermedad determinada, la
probabilidad de éxito de una nueva vacuna
UNIVERSO Es el conjunto de sujetos con al menos una característica de interés común,
delimitado en tiempo o espacio. Puede ser, por ejemplo: personas nacidas en 1995, artículos
fabricados, documentos contables no aprobados en auditoría, hogares en el que la madre es el jefe
de hogar, países latinoamericanos, estudiantes que han repetido al menos una asignatura, entre
otros. El universo a su vez puede estar conformado por un conjunto finito o infinito de elementos.
Ejemplo de un universo finito: estudiantes matriculados en un colegio en el periodo actual, personas
nacidas en 1995 que viven en una ciudad, artículos fabricados la primera semana del mes,
documentos contables no aprobados en la más reciente auditoría. Ejemplo de universo infinito;
bacterias en un río, turistas que pernoctan en una playa, número de árboles de una ciudad,
contagiados por un virus epidémico, etc.
POBLACIÓN ESTADÍSTICA: es el conjunto de todas las medidas de la característica de interés
de los sujetos del universo. Varias poblaciones pueden pertenecer a un mismo universo. Supongamos
que tenemos el universo de las personas nacidas en 1995 de una ciudad, ejemplo de población sería
sus características sociodemográficas, es decir, el género, la edad, el estado civil, el nivel educativo,
el ingreso salarial, los gastos mensuales, el peso en libras, la actividad que realiza en sus ratos de ocio.
También puede ser la opinión con respecto al aborto, matrimonio igualitario, entre otras
características de interés para el investigador.
Población finita es cuando las mediciones o características que representa pertenece a un
universo finito, es decir, cuando tiene un número determinado y generalmente conocido de
elemente. Se conoce como N que puede decirse que es el tamaño de la población o universo, pues
coincide en el sentido de que, cada elemento se le asocia un valor numérico o no de la característica
o población de estudio. Ejemplo de población finita: calificaciones de los estudiantes matriculado en
el colegio en el periodo actual, defectos en los productos fabricados en la primera semana del mes,
personal que elaboró el documento no aprobado en la última auditoria.
Población infinita es cuando las mediciones o características pertenecen a un universo
infinito o no conocido de elementos que podrían conformar el universo. Tipo de bacterias presentes

5
en el río, tipo de turista que pernocta en una playa, presencia de riesgo grave en los contagiados por
un virus epidémico.
Es muy importante conocer el tipo de población de estudio, si es finita o infinita, pues de este
concepto depende la selección de algunas herramientas para el análisis estadístico, como por
ejemplo el del cálculo del tamaño de una muestra. Algunas veces la solución de analizar este tipo de
población infinita el limitando el universo en tiempo o espacio o redefinir el elemento del universo,
por ejemplo, si los turistas en una playa es un universo infinito, se puede restructurar por turistas
que visitan un sitio histórico de la playa o pernoctan en algunos hoteles o consumen en algún
restaurante.
En algunas situaciones tenemos la fortuna de poder llevar a cabo el análisis exhaustivo de toda la
población de estudio, porque se cuenta con los recursos, el tiempo, la logística, el acceso a los
elementos o porque el estudio así lo requiere, este procedimiento descrito se denomina Censo.
Ejemplo de ello, el censo de población y vivienda y el censo comercial. Sin embargo, no todo el tiempo
se cuenta con los recursos necesarios para llevar a cabo un censo o el tiempo, por ejemplo, si se hace
un estudio para determinar en tiempo real los contagiados de un virus epidémico, resulta imposible
medir en un momento dado todas las personas de la ciudad sin que en ese mismo momento ya haya
cambiado la cifra de contagiados y en ocasiones los resultados se vuelven obsoletos muy
rápidamente. Es por ello que se recurre a tomar una parte de la población que denominaremos
muestra.
MUESTRA: es un subconjunto de la población, será muestra estadística si cada elemento de
la población tiene una probabilidad conocida (generalmente igual) de ser seleccionada para la
muestra. Ejemplo;
Para una investigación se desea conocer la opinión de los docentes de educación universitaria de la
asignatura de estadística tiene con respecto a la modalidad en línea en una ciudad determinada. Lo
ideal sería entrevistar de manera exhaustiva a cada docente (Censo), sin embargo, los costos y el
tiempo serían muy elevados. Para ello se debe tomar una muestra, se conoce en el ministerio de
educación o por medio de la zona educativa el listado de los docentes (elementos de universo) por
tanto todos ellos tendrían una misma probabilidad de ser seleccionados si se escogiese por ejemplo
de manera aleatoria. De esta manera tendríamos un grupo de docentes mucho más pequeño que el
total de la ciudad pero que representara a las instituciones públicas o privadas, los diferentes grados,
de diferentes sectores, entre otros puntos que considere el investigador.
PARÁMETRO es el valor calculado de una población. Sólo hay uno y es el valor verdadero que
representa a una población. Se identifican con letras griegas. Ejemplo de parámetros poblacionales
la media de la población µ
ESTIMADOR es un estadístico de la muestra, es decir, una función matemática para estimar
un parámetro desconocido de la población. En el caso de la media, sería el promedio obtenido con
̅
los datos de la muestra, se simboliza con 𝒙
ESTADÍSTICO es una función matemática de los miembros de una muestra, que permita
predecir la información contenida en la población. Por ejemplo, el estadístico de prueba de la media
muestral es;

6
∑𝑛𝑖=1 𝑥𝑖
𝑋̅ =
𝑛
ESTIMACIÓN: es el valor obtenido por el estadístico de prueba, por ejemplo; supongamos que
̅ = 𝟓, entonces 5 sería la estimación de la media poblacional.
se obtuvo de una muestra; 𝒙
Los conceptos de Universo, población, muestra, parámetro, estadístico, estimador y estimación se
desarrollarán y se aplican en la segunda rama de la estadística, es decir, la estadística inferencial.

TIPOS DE VARIABLES

Discretas (se cuentan,


valores enteros)
Cuantitativas
(medidas o conteos)
Tipos de variables
Continuas (se miden)
según su naturaleza
Cualitativas o
categóricas (atributos
o cualidades)

Las variables según su naturaleza se pueden clasificar en dos tipos;


Variables cuantitativas: cuando son de naturaleza numérica, si se originan mediante proceso de
conteo de denomina Discretas, las cuales son valores enteros, tal como, número de artículos
defectuosos, número de mujeres embarazadas, número de lesiones por accidentes de tránsito, o
Continuas las cuales son las originadas por procesos de medición, por lo general pueden ser valores
con decimales, ya que entre un entero u otro hay infinitos valores como el ingreso en dólares,
estatura, peso.
Variables cualitativas: también llamadas categóricas, son atributos o cualidades, como, por ejemplo,
color de piel, actividad deportiva que practica, sexo.
Nota: es importante identificar en cualquier investigación, proyecto, o información en general, el
tipo de variable, pues en base a ello dependerá la técnica, herramienta o metodología estadística a
utilizar.

7
ESCALA DE MEDIDAS

Intevalo
Cuantitativas
Razón
Escala de
Medidas
Nominal
Cualitativas
Ordinal

Según Carballo Barcos, Miriam, & Guelmes Valdés, Esperanza Lucía. (2016) , Coronado (2007),
conceptualizan las escalas de medida de la siguiente manera:

Nominales: valores que se agrupan en categorías disjuntas y exhaustivas. Pueden ser: a) Dicotómicas
(se presentan en solo 2 categorías. Ej. Sexo: masculino o femenino) b) Politómicas (se manifiestan en
más de dos categorías. Ejemplos: marcas de computadoras, clases sociales, orientación sexual).
Admite sólo operaciones de igualdad y su representación numérica no tiene sentido de magnitud.

Ordinales: aquellas en las que hay un orden entre las categorías. Admite operaciones de igualdad,
menor que, mayor que y su representación numérica no tiene sentido de magnitud. Ejemplos: estado
de salud, calificaciones, preferencias, nivel de educación.

De intervalo: los elementos son clasificados en categorías que tienen un orden o jerarquía, como son
numéricas se pueden realizar operaciones aritméticas. La diferencia entre dos valores consecutivos
es de tamaño constante y no existe el 0 absoluto natural sino convencional, es decir, el cero no implica
ausencia de la característica. Ejemplos: coeficiente intelectual

De razón: Admite todas las operaciones aritméticas y lógicas, tienen representación numérica con
sentido de magnitud y además el cero indica ausencia de la característica de interés. Ejemplos: edad,
producción, ingresos.

8
TEMA 2. ORGANIZACIÓN DE LOS DATOS
Existen diferentes maneras de presentar la información estadística, ellas son:

Tabular

Escrita o
Gráfica
Verbal

ESCRITA O VERBAL: cuando se expresa el dato estadístico de manera escrita, generalmente


pocos datos, no es muy recomendada, sólo cuando no pueda presentarse la información de otra
manera como, por ejemplo, en entrevistas de radio.
TABULAR: se expresa la información estadística mediante filas y columnas, principalmente
cuando se desea detallar el dato estadístico. Existe diferentes tipos de tablas, la selección adecuada
dependerá de cual es la finalidad del estudio de la información, puede ser;
Tabla univariada: cuando se presenta la información de una característica o variable
de manera individual.
Cantidad de sujetos según la edad.

Edad Frecuencia
Adolescente 13
Jóven 14
Adulto 23
Total 50

Tabla bivariada: cuando se presenta la información de dos variables. A este tipo de


arreglo de datos se le llama tabla cruzada.
Sujetos según sexo y edad

Sexo
Mujer Hombre Total
Adolescente 10 20 30
Jóven 20 20 40
Edad
Adulto 10 20 30
Total 40 60 100

9
Tabla multivariada: cuando se expresa la información de tres o más variables. El
número de variables máximo conveniente para mostrar la información en las tablas,
dependerá de la decisión de quién la elabora, pero no debe perder el sentido de resumen de
la información, es decir, no debe convertirse en una tabla complicada y difícil de comprender,
que no pierda el sentido de simplicidad para lo cual fue elaborada, dependerá en gran medida
del número de categorías que tenga ambas variables.
Sujetos según edad, sexo y condición de estudios.

Sexo
Estudio Mujer Hombre Total
Adolescente 10 12 22
No Edad Jóven 5 13 18
Adulto 7 15 22
Adolescente 22 24 46
Si Edad Jóven 25 31 56
Adulto 15 25 40
Total 84 120 204

GRÁFICA: Es aquella que se expresa mediate diagramas, figuras, planos o en el espacio el


comportamiento de los datos, es adecuada para obtener una visión general de la información, es
conveniente cuando se divulga información para el público en general ya que tiende a ser más
atractiva y se auto explican los resultados.
La utilización de las herramientas gráficas, depende del tipo de variable de estudio.
Gráficos para variables Cualitativas.
Gráfico de barras es un gráfico altamente utilizado, es adecuado principalmente cuando:

• Cuando las variables son cualitativas.


• Los datos son en valores absolutos (frecuencias).
• Cuando la variable tiene muchas categorías.
• Cuando se quiere observar cierto ordenamiento de las frecuencias en las categorías.
El gráfico de barras puede ser de barras verticales o de barras horizontales. Para el caso de barras
verticales, en el eje de las x se expresa las categorías de las variables y se eleva hasta la altura de la
frecuencia, es decir, la barra más alta corresponde a la categoría de mayor frecuencia. La barras
deben estar separadas a una misma distancia una de otra, al igual que el ancho de cada barra debe
ser igual.
Para la interpretación puede expresarse de una categoría en especial que desea destacar el
investigador o describir una visión general de todas las categorías según la frecuencia observada.
En algunos gráficos si el investigador lo considera se pueden ordenar las categorías, es decir las barras
según las frecuencias, para explicar algún orden que sea necesario, por ejemplo, casos de unidades
defectuosas en cada maquinaria, o número de estudiantes reprobados según curso, entre otros.

10
Para el ejemplo se la figura, se puede decir que en líneas generales hay más jóvenes en el grupo e
igual cantidad de adolescentes que de adultos.

Gráfico de barras para la variable Edad

Gráfico de Tortas, de pastel o circular:


Es un gráfico en el que consiste en representar como un trozo de un pastel o una torta cada categoría
de una variable cualitativa. Se utiliza principalmente para expresar porcentajes, es decir representar
las frecuencias relativas de las categorías. Se recomienda cuando hay más de cinco categorías no
utilizarlo, preferir otro tipo de gráfico como, por ejemplo, el gráfico de barras.
Al igual que el gráfico de barras, se interpreta resaltándose una categoría específica o se hace un
análisis general de las proporciones de cada sector del pastel, dependerá de lo que desea destacar el
analista de la información, algunas veces se desea resaltar sólo una categoría de la variable, pero en
otras, una interpretación completa de la variable en conjunto de todas sus categorías.
Para la figura expresada a continuación se puede indicar que según la edad, los jóvenes representan
un 40% del total de personas del estudio.

Gráfico de Tortas para la variable Edad

11
Gráfico para variables Cuantitativas.
Histograma de Frecuencias es un gráfico de la distribución de frecuencia de las variables
cuantitativas donde cada barra representa un rango o una clase y se eleva hasta la frecuencia de los
datos que se encuentran en dicho rango o clase. Permite tener una visión general de la distribución
de los datos, además de describir la variable, puede ser de gran ayuda para hacer inferencia
estadística (la segunda rama de la estadística)
Gráfico Histograma y Polígono de Frecuencias.

Histograma y Polígono de Frecuencias


30

25

20

15

10

0
5-9 10-14 15-19 20-24 25-29 30-34
frecuencia Absoluta 20 27 9 2 1 1
Polígono de Frecuencias 20 27 9 2 1 1

Por ejemplo, supongamos que el siguiente histograma es con respecto a las edades de cierto grupo
de sujetos, se observa que las edades más frecuentes están entre los 10 a 14 años. En líneas
generales, se puede apreciar que prevalece en ese conjunto de sujetos personas jóvenes ya que las
barras más altas son los menores a 14 años de edad.
Polígono de Frecuencias: consiste en graficar como un valor medio de cada rango y se une mediate
una curva que generalmente se suaviza para conocer como es la distribución de los datos. Para el

12
caso anterior, visto desde un polígono de frecuencias, puede decirse que, la edad más frecuente se
encuentra en promedio a los 12 años de edad aproximadamente.
Mediante el polígono de frecuencias se puede observar fácilmente la asimetría y curtosis de la
distribución de los datos.

TABLAS PARA DATOS NO AGRUPADOS


La tabla de frecuencia para datos agrupados, permite el ordenamiento de la información cuando:
1. Es una variable cualitativa.
2. Es una variable cuantitativa, pero son poco datos.
3. Es una variable cuantitativa, son muchos datos, pero poco tipo de datos.
Se le preguntó a un grupo de personas de una localidad, el servicio que consideraba que tenía mayor
problema en su hogar, las respuestas se muestran a continuación:

Agua Internet Aseo urbano Electricidad Internet

Internet Electricidad Agua Aseo urbano Electricidad

Electricidad Aseo urbano Aseo urbano Internet Electricidad

Agua Internet Electricidad Agua Aseo urbano

Electricidad Internet Internet Agua Agua

Agua Aseo urbano Electricidad Aseo urbano Electricidad

A simple vista, resulta difícil analizar de los resultados, es necesario, para ello, una organización y
tabulación de la información mediante una tabla de frecuencias, para ello se diseña la siguiente:

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Siendo cada columna:


Categoría: indica los diferentes posibles resultados que puede tener la variable o característica de
estudio (para el ejemplo corresponde al servicio con mayor problema en el hogar), bien sea las
categorías de la variable cualitativa o los números exactos que puede tomar la variable cuantitativa.

13
Frecuencia Frecuencia Frecuencia Relativa
Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua

Internet

Electricidad

Aseo urbano

Total

Frecuencia simple fi: se refiere al número de veces que se repite la categoría de la variable.
Para el ejemplo, se tiene la categoría correspondiente al servicio de agua se tiene que hay una
frecuencia de siete, es decir, siete personas manifiestan que el servicio de agua lo consideran como
el de mayor problema en el hogar.

Por tanto, colocamos en la columna de frecuencia simple el número de veces que se repite la
categoría de agua.

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7

14
Luego continuamos con otra categoría de la variable, por ejemplo, el servicio de internet lo cual tiene
una frecuencia de siete, es decir, otras siete personas manifestaron que el servicio de internet es el
mayor problema en sus hogares.

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7

Internet 7

Luego se cuenta las veces que ocurre el resto de las categorías.

Y así se obtiene la columna de las frecuencias simples.

15
Frecuencia Frecuencia Frecuencia Relativa
Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7

Internet 7

Electricidad 9

Aseo urbano 7

30

Frecuencia acumulada (Fa): indica la suma de las frecuencias desde la categoría inicial hasta la
categoría en cuestión. La suma de todas las frecuencias acumuladas debe ser igual al número total
de datos.

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7 7

Internet 7

Electricidad 9

Aseo urbano 7

Total 30

Para calcular la frecuencia acumulada, se empieza para la primera categoría con el primer valor de la
frecuencia simple, luego para la segunda celda de la columna de la frecuencia acumulada, se suma el
valor anterior acumulado más la frecuencia simple de esa categoría, y así sucesivamente.
La frecuencia acumulada de la última categoría coincide con el número total de datos.

16
Frecuencia relativa (fr): es la frecuencia simple expresada en porcentajes, para ello se divide la
frecuencia simple entre el número total de datos.
Para la categoría Agua se tiene 7/30=0,233

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7 7 0,233

Internet 7 14

Electricidad 9 23

Aseo urbano 7 30

Total 30

De igual manera, para la categoría internet se tiene 7/30=0,233

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7 7 0,233

Internet 7 14 0,233

Electricidad 9 23

Aseo urbano 7 30

17
Total 30

Para la categoría Electricidad se tiene 9/30= 0.30

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7 7 0,233

Internet 7 14 0,233

Electricidad 9 23 0,30

Aseo urbano 7 30

Total 30

Y así sucesivamente hasta completar la columna de las frecuencias relativas.


Para la interpretación de una frecuencia relativa, por lo general se multiplica por cien y se expresa en
términos de porcentaje.
En el ejemplo:
Para la categoría de Aseo urbano cuya frecuencia relativa es de 0,233 x 100= 23,3% lo cual se puede
interpretar como, del total de personas encuestadas, el 23,3% manifiestan que el servicio que
consideran que presenta mayor problema es el del aseo urbano.

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7 7 0,233

Internet 7 14 0,233

Electricidad 9 23 0,30

Aseo urbano 7 30 0,233

Total 30

Frecuencia relativa acumulada (Fra): indica la suma de las frecuencias relativas desde la categoría
inicial hasta la categoría en cuestión. La suma total de todas las frecuencias relativas de ser igual a la
unidad.

18
Al igual que en la frecuencia acumulada absoluta, el primer valor corresponde a la frecuencia relativa
de la primera categoría.

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7 7 0,233 0,233

Internet 7 14 0,233

Electricidad 9 23 0,30

Aseo urbano 7 30 0,233

Total 30

Y así sucesivamente, hasta completar la columna.

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7 7 0,233 0,233

Internet 7 14 0,233 0,467

Electricidad 9 23 0,30 0,767

Aseo urbano 7 30 0,233 1*

Total 30

*aproximadamente se acerca a 1 por la pérdida de decimales en cada cálculo de la frecuencia relativa.

GRÁFICO PARA DATOS NO AGRUPADOS:


Para representar de manera gráfica datos no agrupados, existen varias maneras, las más comunes
son;
Gráfico de barras

Para su construcción, cada barra representa una categoría de la variable y se eleva hasta la frecuencia
correspondiente a la categoría. La barra más alta corresponde a la moda del conjunto de datos.

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7 7 0,23 0,233

19
Internet 7 14 0,23 0,467

Electricidad 9 23 0,30 0,767

Aseo urbano 7 30 0,23 1,00

Total 30

Gráfico de Barras. Principal problema de servicio en


la vivienda.
10
9
9
8
7 7 7
7
6
5
4
3
2
1
0
Agua Internet Electricidad Aseo urbano

Para el ejemplo se puede resaltar la barra a la que se quiere resaltar por una razón cualquiera y se
interpreta comparándose con las demás, o simplemente se hace una descripción de las barras en
general.

20
Gráfico de Barras. Principal problema de servicio en la
vivienda.
10
9
9
8
7 7 7
7
6
5
4
3
2
1
0
Agua Internet Electricidad Aseo urbano

Categoría Frecuencia (fi)

Agua 7

Internet 7

Electricidad 9

Aseo urbano 7

Total 30

Gráfico de pastel o torta:

Categoría Frecuencia Frecuencia Frecuencia Frecuencia Relativa


(fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7 7 0,23 0,23

Internet 7 14 0,23 0,47

Electricidad 9 23 0,30 0,77

Aseo urbano 7 30 0,23 1,00

Total 30

21
Gráfico de Barras. Principal problema de
servicio de vivienda

23% 23% Categoría


Agua
Internet
Electricidad
23%
30% Aseo urbano

La construcción manual de un gráfico circular consiste en tomar como el número total de datos
representa los 360 grados de un círculo y dependiendo de cuanta frecuencia o porcentaje relativo
tiene cada categoría, corresponderá unos grados de giro de la totalidad. Por ejemplo; para nuestro
caso de estudio, la categoría “Agua” que corresponde a una frecuencia relativa de 0.233 o 23.3%
corresponde, por simple regla de tres a un área que se conforma al girar dentro del círculo 84 grados.

Gráfico Circular
Frecuencia
Categoría Relativa (fr)

Agua 0,233 0,23

Internet 0,233 84 grados

Electricidad 0,30

Aseo urbano 0,233


0,77
Agua

360 grados 100%

x 23,3%
360 x 0,233= 84 grados

La suma de todos los grados que corresponden a cada categoría de la variable debe ser igual a los
360 grados.

22
TABLAS DE FRECUENCIAS PARA DATOS AGRUPADOS:
Se aplica cuando las variables son cuantitativas y es necesario agrupar los datos en rangos
denominados clases.

Los siguientes datos corresponden a el número de fallecidos en el sitio por accidente de


tránsito (2014-2018) en la provincia de Manabí al mes.

7 16 18 10 7 30
8 12 11 9 7 13
15 12 10 6 20 6
16 10 10 23 11 14
11 19 14 13 15 9
14 7 10 15 8 5
6 14 9 18 12 6
15 10 9 9 26 10
9 14 11 8 13 10
5 10 12 9 14 11

23
Como se aprecia, es difícil describir el número de fallecidos por mes en accidentes de tránsito a lo
largo del periodo de estudio, es por ello, se hace necesario organizar los datos mediante una tabla
de frecuencias como la que se ofrece a continuación;

Frecuencia
Intervalos Marca de Frecuencia Frecuencia Frecuencia Relativa
de Clases Clase Absoluta Acumulada Relativa Acumulada

Total

Para comenzar a construirla se inicia definiendo los intervalos de clases, es decir, como estará
segmentado el conjunto de datos, tratando que los intervalos tengan una misma amplitud y un
número adecuado de clases, de manera tal, de obtener una tabla lo más resumida posible pero no al
punto de perder el detalle de la información a describir.
Para construir el intervalo de clases se inicia con el cálculo del rango del conjunto de datos;
𝑅𝑎𝑛𝑔𝑜 = 𝑉𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜

7 16 18 10 7 30
8 12 11 9 7 13
15 12 10 6 20 6
16 10 10 23 11 14
11 19 14 13 15 9
14 7 10 15 8 5
6 14 9 18 12 6
15 10 9 9 26 10
9 14 11 8 13 10
5 10 12 9 14 11
𝑅𝑎𝑛𝑔𝑜 = 30 − 5 = 25
Una vez obtenido el rango se calcula el número de clases que mejor se ajusta a este rango, para ello
hay diversas maneras, una de ellas y es la más comúnmente utilizada es la fórmula de Sturges, siendo
N el número total de datos, que para nuestro ejemplo es igual a 60 datos:

Fórmula de Sturges:
Número de clases=1+3,322*Log(N)
Número de clases=1+3,322*Log(60) 24
Número de clases=6,907018454
Luego, se puede redondear a 3 decimales o trabajar con todos ellos, en nuestro caso se trabajó con
todos los decimales. Finalmente se calcula la amplitud de clase la cual es la diferencia entre el límite
inferior y superior de cada clase.
La amplitud se calcula de la siguiente manera:

Amplitud=Rango/Número de clases
Amplitud=25/6,907018454
Amplitud=3,619506762 ≈ 4
Con la amplitud de 4 se comienza a crear los intervalos de clase;

• Se inicia con el valor mínimo del conjunto de datos o un valor menor a él, lo cual será el límite
inferior de la primera clase.

Frecuencia
Intervalos Marca de Frecuencia Frecuencia Frecuencia Relativa
de Clases Clase Absoluta Acumulada Relativa Acumulada
5-

Total

N 60
máximo 30
mínimo 5
rango 25
Número de
intervalos 6,907018454
amplitud 3,619506762 4

• Se suma al límite inferior el valor de la amplitud y ese es el Límite superior de la primera clase;

Ls =valor mínimo + amplitud = 5+4 = 9

25
Frecuencia
Intervalos Marca de Frecuencia Frecuencia Frecuencia Relativa
de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9

Total

N 60
máximo 30 Construyendo el intervalo:
mínimo 5
rango 25 5+4=9
Número de
intervalos 6,907018454
amplitud 3,619506762 4

• Para el siguiente intervalo de clase se parte del siguiente valor del límite superior de la clase
anterior a este, este es uno de los criterios, ya que se trata de valores discretos.
Frecuencia
Intervalos Marca de Frecuencia Frecuencia Frecuencia Relativa
de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9
10-

Total

Y así sucesivamente se hacen las sumas de la amplitud en cada límite inferior que se va creando…

10+4=14
15+4=19
20+4=24
25+4=29
30+4=34 26
Frecuencia
Intervalos Marca de Frecuencia Frecuencia Frecuencia Relativa
de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9
10-14
15-19
20-24
25-29
30-34
Total

Marca de Clase: se define como el valor medio de cada clase, se obtiene sumando los límites inferior
y superior dividido entre 2;
𝑙𝑖 + 𝑙𝑠
𝑚𝑖 = ( )
2

Intervalos Marca de Frecuencia Frecuencia Frecuencia Frecuencia Relativa


de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9 7
10-14
15-19
20-24
25-29
30-34
Total

5+9
𝑚1 = ( = 7)
2
La marca de clase es una medida fundamental para el cálculo de otras medidas de resumen como la
media, mediana, cuartiles, deciles, percentiles, y de gráficos como el polígono de frecuencias. De
cierta manera, es el valor que representa los datos que se encuentran en una clase. Calculando todas
las marcas de clase construimos toda la columna correspondiente.
10 + 14 15 + 19
𝑚2 = ( = 12) 𝑚3 = ( = 17)
2 2
20 + 24 25 + 29
𝑚4 = ( = 22) 𝑚5 = ( = 27)
2 2

27
30 + 34
𝑚6 = ( = 32)
2

Intervalos Marca de Frecuencia Frecuencia Frecuencia Frecuencia Relativa


de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9 7
10-14 12
15-19 17
20-24 22
25-29 27
30-34 32
Total

Frecuencia absoluta (fi): indica el número de datos que se encuentran dentro del rango de el
intervalo de clases, para este ejemplo, si contamos el número de meses (datos) que presentaron
entre 5 y 9 fallecidos en accidentes de tránsito, se cuentan 20, éste será el valor de la frecuencia
absoluta de la primera clase.

28
Frecuencias acumuladas (Fa): es la suma de las frecuencias absolutas hasta un determinado valor de
la variable o hasta un intervalo de clase de la variable.
Para el ejemplo, la primera frecuencia acumulada corresponde a la primera frecuencia absoluta, es
decir, la correspondiente de la primera clase.

Para obtener la frecuencia acumulada de la segunda clase se suma la frecuencia acumulada anterior,
es decir, en este caso, la primera (20) más la frecuencia absoluta de la clase actual (27).

Y así sucesivamente …

29
El valor de la última frecuencia acumulada

30
Frecuencia relativa (fr): representa la cantidad de datos presentes en un intervalo de clases en
relación a la cantidad total. Se obtiene, dividiendo la frecuencia absoluta de cada clase entre el
número total de datos.
Por lo general se puede usar entre dos o tres decimales. Para la interpretación se multiplica por cien
para expresarse en términos de porcentaje.

Intervalos Marca de Frecuencia Frecuencia Frecuencia Frecuencia Relativa


de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9 7 20 20 20/60=0,33
10-14 12 27 47 27/60=0,45
15-19 17 9 56 9/60=0,15
20-24 22 2 58 2/60=0,03
25-29 27 1 59 1/60=0,02
30-34 32 1 60 1/60=0,02
Total 60

31
La sumatoria de toda la columna de la frecuencia relativa debe ser aproximadamente igual a 1

Intervalos Marca de Frecuencia Frecuencia Frecuencia Frecuencia Relativa


de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9 7 20 20 0,33
10-14 12 27 47 0,45
15-19 17 9 56 0,15
20-24 22 2 58 0,03
25-29 27 1 59 0,02
30-34 32 1 60 0,02
Total 60 1,00

Frecuencia relativa acumulada (Fra): representa la cantidad de datos presentes en varios intervalos
de clase consecutivos en relación a la cantidad total. Se obtiene, dividiendo la frecuencia acumulada
entre el número total de datos o ir sumando la frecuencia relativa absoluta. Su interpretación
también se expresa en términos de porcentaje.
La frecuencia acumulada relativa de la última clase debe ser igual a uno o aproximada debido al
redondeo de los decimales.

Intervalos Marca de Frecuencia Frecuencia Frecuencia Frecuencia Relativa


de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9 7 20 20 0,33 20/60=0,33
10-14 12 27 47 0,45 47/60=0,78
15-19 17 9 56 0,15 56/60=0,93
20-24 22 2 58 0,03 58/60=0,97
25-29 27 1 59 0,02 59/60=0,98
30-34 32 1 60 0,02 60/60=1
Total 60 1,00

Y finalmente se presenta la tabla de frecuencias para datos agrupados.


Si tomamos una clase cualquiera la interpretación correspondiente sería:
Intervalo (15-19) corresponde a la categoría de fallecidos en el sitio por accidente de tránsito (2014-
2018) que poseen una frecuencia entre 15 y 19 fallecidos al mes en la provincia de Manabí.
Marca de clase 17: se utiliza cuando no se desea expresar en categoría sino en promedio por clase,
por ejemplo, 9 meses presentaron en promedio 17 fallecidos en sitio.

32
Frecuencia absoluta 9: en 9 meses del periodo de estudio se presentaron entre 15 y 19 fallecidos en
sitio por accidente de tránsito.
Frecuencia acumulada 56: en 56 meses se registró entre 5 y 19 fallecidos en sitio por accidente de
tránsito por mes.
Frecuencia relativa 0,15: se multiplica por cien para expresarse en porcentaje. Es decir, 0,15 x
100=15% lo que se puede interpretar como, el 15% de los meses del periodo de estudio, presentaron
entre 15 y 19 fallecidos en sitio por mes en accidentes de tránsito.
Frecuencia relativa acumulada 0,93: se multiplica por cien para expresarse en porcentaje. Es decir,
0,93 x 100=93% lo que se puede interpretar como, el 93% de los meses del periodo de estudio,
presentaron entre 5 y 19 fallecidos en sitio por mes en accidentes de tránsito.

Intervalos Marca de Frecuencia Frecuencia Frecuencia Frecuencia Relativa


de Clases Clase Absoluta Acumulada Relativa Acumulada
5-9 7 20 20 0,33 0,33
10-14 12 27 47 0,45 0,78
15-19 17 9 56 0,15 0,93
20-24 22 2 58 0,03 0,97
25-29 27 1 59 0,02 0,98
30-34 32 1 60 0,02 1,00
Total 60 1,00

Y de esta manera puede interpretarse sólo la categoría que desea resaltar el analista o se puede hacer
una interpretación general de la tabla como de la siguiente manera;
“En lo que respecta a los fallecidos en sitio en accidentes de tránsito en los meses comprendidos entre
enero 2014 y diciembre 2018, se aprecia de que al menos se presenta más de 5 pero menos de 34
fallecidos por mes, siendo la frecuencia más alta entre 10 y 14 fallecidos presentándose en el 45% de
los meses del periodo de estudio”.

GRÁFICOS PARA DATOS AGRUPADOS. HISTOGRAMA Y POLÍGONO DE FRECUENCIA:

Para el histograma de frecuencias se construye un plano cartesiano.

33
30

25

20

15

10

0
1 2 3 4 5 6

En el cual. el eje de las X se proyecta los intervalos de clases y luego se eleva cada columna hasta la
frecuencia correspondiente.

30

25

20

15

10

0
5-9 10-14 15-19 20-24 25-29 30-34

Para el polígono de frecuencias (línea de color naranja en el gráfico) se grafica las marcas de clases
con las respectivas frecuencias y se unes todos los puntos por medio de una línea.

Histograma y Polígono de Frecuencias


30
25
20
15
10
5
0
5-9 10-14 15-19 20-24 25-29 30-34
frecuencia Absoluta 20 27 9 2 1 1
Polígono de
20 27 9 2 1 1
Frecuencias

34
ESTADÍGRADOS O MEDIDAS RESUMEN
Es un valor que resumen en un solo número información de un conjunto de datos. Ellas son;
Estadígrafos o
Medidas
Resumen.

Medidas de Medidas de
Medidas de Medidas de
Tendencia tendencia NO
Dispersión Forma
Central central

Media Varianza Cuartiles Asimetría

Desviación
Mediana Deciles Curtosis
Estándar

Coeficiente de
Moda Percentiles
Variación

TEMA 3. MEDIDAS DE TENDENCIA CENTRAL: indica la tendencia de los datos hacia un valor
central. Pueden ser:
Media aritmética: es el promedio de las mediciones, es la suma de cada valor del conjunto de datos
dividido entre el número total de datos. Se aplica sólo a datos cuantitativos, puede tomar valores
positivos o negativos, dependiendo del conjunto de datos. Se deja influenciar por los valores extremo
(siendo esta una desventaja) y no se puede aproximar, se interpreta con al menos dos decimales
preferiblemente.
∑𝑛𝑖=1 𝑥𝑖
𝑋̅ =
𝑛
Si los datos son No agrupados pero tabulados, recurrimos a la frecuencia de las categorías;
∑𝑛𝑖=1 𝑥𝑖 . 𝑓𝑖
𝑋̅ =
𝑛
Si los datos son agrupados en clases, se calcula por medio del intervalo de clases.
∑𝑛𝑖=1(𝑚𝑖 𝑥 𝑓𝑖 )
𝑋̅ =
𝑛

Existe otros tipos de media como la media armónica, geométrica, las cuales son más específicas como
en el área de economía, etc.

35
Por ejemplo, si tenemos las edades de 7 niños: 3, 5, 6, 8, 9 ,9,9 la media de las edades de los niños
es:
∑𝑛𝑖=1 𝑥𝑖 3 + 5 + 6 + 8 + 9 + 9 + 9
𝑋̅ = = =7
𝑛 7
Mediana se define como el valor que ocupa la posición central. Para su cálculo se procede de la
siguiente manera:
Se ordenan los datos de mayor o menor o visceversa
Si los datos son No agrupados y si el número total de datos n es par, la mediana es el promedio entre
los valores centrales.
Ejemplo; supongamos que hay otro niño más, la mediana de las edades de los 8 niños: 3, 5, 6, 8, 8, 9
,9,9 es
3+5+6+8+9+9+9
𝑀𝑒 = =7
7

Si los datos son No agrupados y si el número total de datos n es impar, la mediana es el valor que
ocupa la posición central.
Ejemplo; Nuevamente para el conjunto inicial de los 7 niños, la mediana de las edades: 3, 5, 6, 8, 9
,9,9 es 8

Para datos agrupado:


𝑛
( − 𝐹𝑎 )
𝑀𝑒 = 𝐿𝑖 + [ 2 ]x A
𝑓𝑚𝑒

(Se describe con mayor detalle en el ejemplo que se detalla más adelante)
Moda: es el valor que ocurre con mayor frecuencia. La moda puede no existir, en caso de que exista
y sea única se considera unimodal, si hay dos, bimodal, se calcula mediante las frecuencias de las
clases o categorías.

Cálculo de las medidas de tendencia central para datos no agrupados cualitativos.

Moda: Por ser una variable cualitativa solo se puede calcular la moda. Se lee en la columna de
frecuencia simple fi el valor que más se repite. Para este caso la frecuencia que más se repite es 9
correspondiente a los problemas relacionados con el servicio de electricidad. Puede interpretarse
como que el problema que más predomina en la comunidad es el de electricidad.

36
Frecuencia Frecuencia Frecuencia Relativa
Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7 7 0,23 0,233

Internet 7 14 0,23 0,467

Electricidad 9 23 0,30 0,767

Aseo urbano 7 30 0,23 1,00

Total 30

Cálculo de las medidas de tendencia central para datos agrupados.


Media
Recordando que la medida de tendencia central se calcula mediante la fórmula general;

∑𝑛𝑖=1 𝑥𝑖
𝑋̅ =
𝑛
Para datos agrupados se calcula mediante la marca de clase:
∑𝑛𝑖=1(𝑚𝑖 𝑥 𝑓𝑖 )
𝑋̅ =
𝑛

Para el ejemplo sustituimos la fórmula anterior:


(7𝑥20+12𝑥27+17𝑥9+⋯+32𝑥1) 720
𝑋̅ = = = 12
60 60

Por tanto, 12 fallecidos en accidentes de tránsito es el promedio por mes en la provincia de Manabí
en el periodo 2014-2018.

Mediana
Para el cálculo de la mediana en un conjunto de datos agrupados se tiene:
𝑛
(2 − 𝐹𝑎 )
𝑀𝑒 = 𝐿𝑖 + [ ]x A
𝑓𝑚𝑒

Donde 𝑓𝑚𝑒 es la frecuencia absoluta de la clase donde se encuentra la mediana, A es la amplitud de


la clase y 𝐹𝑎 es la frecuencia acumulada anterior a la clase de la mediana. La clase de la mediana se
37
obtiene dividiendo el número total de datos entre 2 y ese resultado se busca en la frecuencia
acumulada donde esté el valor o lo supere. Para el ejemplo sería 60/2=30

60
( 2 − 𝐹𝑎 ) (30 − 𝐹𝑎 )
𝑀𝑒 = 𝐿𝑖 + [ ]x A = 𝑀𝑒 = 𝐿𝑖 + [ ]xA
𝑓𝑚𝑒 𝑓𝑚𝑒

Buscando en la frecuencia acumulada se aprecia que no está exactamente el valor de 30, pero si el
primero que lo supera que es 47, por tanto, la clase en la que pertenece la mediana es la que tiene
el rango entre 10-24;

Continuando con el cálculo;

(30 − 20) (10)


= 𝑀𝑒 = 10 + [ ]x 4 = 𝑀𝑒 = 10 + [ ]x 4
27 27

(10)
= 𝑀𝑒 = 10 + [ ]x 4 = 𝑀𝑒 = 10 + 1,482 = 11,482 𝑓𝑎𝑙𝑙𝑒𝑐𝑖𝑑𝑜𝑠
27

Por tanto, aproximadamente el 50% de los meses de estudio presentan a lo más 12 fallecidos por
mes.
Moda
Para el cálculo de la moda en datos agrupados se tiene la siguiente fórmula:
𝑑1
𝑀𝑜 = 𝐿𝑖 + [ ]x A
𝑑1 + 𝑑2

38
En el que;
𝐿𝑖 es el límite inferior de la clase en la que pertenece la moda.
A es la amplitud de la clase
𝑑1 es la diferencia en valor absoluto de la frecuencia absoluta donde está la moda y la anterior a ella.
𝑑2 es la diferencia en valor absoluto de la frecuencia absoluta donde está la moda y la siguiente a
ella.

Frecuencia
Intervalos de Marca de Frecuencia Frecuencia Frecuencia Relativa
Clases Clase Absoluta Acumulada Relativa Acumulada
5-9 7 20 20 0,33 0,33
10-14 12 27 47 0,45 0,78
15-19 17 9 56 0,15 0,93
20-24 22 2 58 0,03 0,97
25-29 27 1 59 0,02 0,98
30-34 32 1 60 0,02 1,00
Total 60 1,00

7 7
𝑀𝑜 = 10 + [ ]x 4 𝑀𝑜 = 10 + [ ]x4
7 + 18 25

= 𝑀𝑜 = 10 + [0,28]x 4 = 𝑀𝑜 = 10 + 1,12 = 11,12

Por tanto, la cantidad de fallecidos por mes que más predomina en los meses de estudio es
aproximadamente de 11

TEMA 4. MEDIDAS DE TENDENCIA NO CENTRAL


Muchas veces no es de interés el conocer un promedio o el 50% de los datos en que valor se
encuentra sino, por ejemplo, que ingreso tienen las tres cuartas partes de la población, o el peso del
30% de la población entre otros intereses, esto se logra con este tipo de medidas.
Cuartiles: divide la distribución en cuatro partes iguales. Para ello se cuenta con 3 cuartiles el cual:
Q1 indica el valor que ocupa el 25% de los datos, Q 2 indica el valor que ocupa el 50% de los datos, Q3
indica el valor que ocupa el 75% de los datos.
Deciles: divide la distribución en diez partes iguales. Se tiene 9 deciles, en el que, por ejemplo, D 8
representa el 80% de los datos.
Percentiles: divide la distribución en cien partes iguales. Para ello se cuenta con 99 percentiles, el
cual, por ejemplo el P33 indica el valor que ocupa el 33% de los datos.

39
Cálculo de las medidas de tendencia no central para datos agrupados
Cuartiles: Para datos agrupados se identifica inicialmente la clase en la que se encuentra el cuartil.
Los cálculos y la ecuación se muestran a continuación:
Si se desea calcular el primer cuartil el cual corresponde al 25% de los datos;
𝑥𝑛 𝑛
( 4 − 𝐹𝑎 ) (4 − 𝐹𝑎 )
𝑄𝑥 = 𝐿𝑖 + [ ]x A 𝑄1 = 𝐿𝑖 + [ ]x A
𝑓𝑄𝑥 𝑓𝑄1

60
( 4 − 𝐹𝑎 ) (15 − 𝐹𝑎 )
= 𝑄1 = 𝐿𝑖 + [ ] x A = 𝑄1 = 𝐿𝑖 + [ ]x A
𝑓𝑄1 𝑓𝑄1

(15 − 0)
= 𝑄1 = 5 + [ ]x 4 = 𝑄1 = 5 + [0,75]x 4 = 𝑄1 = 5 + 3 = 8
20

En el 25% de los meses de estudio se observó 8 fallecidos al mes o menos

Deciles
El procedimiento es muy similar, para identificar la clase a la que pertenece el decil que se requiere,
a el número total de datos se le multiplica el decil y se divide entre diez.

𝑥𝑛
(10 − 𝐹𝑎 )
𝐷𝑥 = 𝐿𝑖 + [ ]x A
𝑓𝐷𝑥

Por ejemplo, si se desea calcular el decil ocho, es decir, en el que se encuentra el 80% de los datos,
se procede de la siguiente manera;

40
8𝑥60
( − 𝐹𝑎 ) (48 − 𝐹𝑎 )
𝐷8 = 𝐿𝑖 + [ 10 ]x A 𝐷8 = 𝐿𝑖 + [ ]x A
𝑓𝐷8 𝑓𝐷8

(48 − 47) 1
𝐷8 = 15 + [ ]x 4 𝐷8 = 15 + [ ] x 4
9 9

𝐷8 = 15 + 0,44 = 15,44

El 80% de los meses en estudio se observan a lo más 15,44 fallecidos

Percentiles:
Nuevamente se procede de manera similar, se calcula, por ejemplo, el percentil 85

𝑥𝑛 85𝑥60
(100 − 𝐹𝑎 ) ( 100 − 𝐹𝑎 )
𝑃𝑥 = 𝐿𝑖 + [ ]x A 𝑃85 = 𝐿𝑖 + [ ]xA
𝑓𝑃𝑥 𝑓𝑃85

(51 − 𝐹𝑎 ) (51 − 𝐹𝑎 )
𝑃85 = 𝐿𝑖 + [ ]x A 𝑃85 = 𝐿𝑖 + [ ]x A
𝑓𝑃85 𝑓𝑃85

(51 − 47)
𝑃85 = 15 + [ ]x 4
9

41
4
𝑃85 = 15 + [ ] x 4
9

𝑃85 = 15 + 1,78 𝑃85 = 16,78

El 85% de los meses de estudio se registraron a lo más 16,78 fallecidos.


TEMA 5. MEDIDAS DE DISPERSIÓN
Indican que tan concentrados o dispersos están los datos. Para la estadística en general, alta
dispersión en los datos trae como consecuencia dificultad en la toma de muestras, en la
interpretación de promedios, y en e uso de algunas técnicas estadísticas.
Rango se define como la diferencia entre el valor mayor y el valor menor, tiene la desventaja que es
afectado por valores extremos (muy bajo o muy altos del resto de los valores). Si el rango es pequeño,
indica que los valores son poco dispersos, muy similares entre sí.
Rango intercuartílico es la diferencia entre el cuartil 3 y el cuartil 1, por tanto, indica dentro de que
rango se encuentra el 50% de los datos centrales, no es afectado por los valores entremos, se usa
para el cálculo de la asimetría.
Varianza es una medida de dispersión relativa, es la suma de las diferencias al cuadrado de cada valor
con respecto a su media dividido entre el número total de datos, no posee unidades de medida, por
tanto, por si sola no se puede interpretar, se usa para comparar variabilidad de datos en dos grupos
o más o en dos periodos o más de estudio etc.

2
∑(𝑋 − 𝜇 )2
𝜎 =
𝑁

Desviación Típica o estándar es calculada por la raíz cuadrada de la varianza, tiene las mismas
unidades de medida que los datos, es por ello que si se puede interpretar. Una desviación muy lejos
(entiéndase por “lejos” a criterio del investigador) hace que la media o promedio sea poco confiable,
mientras que desviaciones estándar pequeñas, indican que los datos están bien concentrados
alrededor de la media y por tanto ésta es una buena representación del conjunto de datos.

∑(𝑋 − 𝜇 )2
𝜎=√
𝑁
42
Coeficiente de Variación: es la relación porcentual que existe entre la desviación y la media, ella
según el siguiente baremo podría indicar si el conjunto de datos es muy o poco variable.
𝑆
𝐶𝑉 = (𝑋̅) . 100%
✓ Si el coeficiente de variación es menor al 10% existe poca variabilidad, es decir, el conjunto
de datos es muy similar con respecto a la variable o característica de estudio.
✓ Si el coeficiente de variación se encuentra entre 10% y 33% la variabilidad es aceptable para
el uso de ciertas técnicas estadísticas.
✓ Si el coeficiente de variación está entre 33% y 50% existe una variabilidad excesiva pero
tolerable.
✓ Si es mayor al 50%, la variabilidad es muy excesiva y en esos casos es conveniente segmentar
o clasificar los datos y analizarlos de manera diferente.

Cálculo de las medidas de dispersión para datos agrupados.


Varianza
La varianza para datos agrupados se calcula mediante la fórmula:

(∑ 𝑓𝑖 𝑚𝑖 )2
∑(𝑓𝑖 𝑚𝑖 2 ) −
𝑆2 = 𝑛
𝑛−1

Para el cálculo necesitamos crear dos columnas adicionales en las que necesitamos la sumatoria de
las misma;
Los 𝑓𝑖 𝑚𝑖 en el que para cada clase se multiplica la frecuencia absoluta por su respectiva marca de
clase;

43
Y luego una columna de 𝑓𝑖 𝑚𝑖 2 que sería la columna recién calculada multiplicada nuevamente por la
marca de clases.
Luego se calculan las sumatorias de cada columna creada, por tanto

∑ 𝑓𝑖 𝑚𝑖 = 720

∑ 𝑓𝑖 𝑚𝑖 2 = 10190

Sustituyendo;
(∑ 𝑓𝑖 𝑚𝑖 )2 7202
∑(𝑓𝑖 𝑚𝑖 2 ) − 10190 − ( 60 ) 10190 − 8640 2 1550
𝑆2 = 𝑛 𝑆2 = 𝑆 = = 26,27
𝑆2 = 59
𝑛−1 60 − 1 59

La variabilidad no se interpreta, con ella calculamos la siguiente medida.


Desviación estándar
Es la raíz cuadrada de la varianza, sustituyendo tenemos:

2 (∑ 𝑓𝑖 𝑚𝑖 )2
∑(𝑓𝑖 𝑚𝑖 )−
𝑆=√ 𝑛−1
𝑛
= 𝑆 = √𝑆 2

𝑆 = √26,27=5,13 fallecidos
Coeficiente de variación
Se calcula y luego se compara según el baremo
𝑆
𝐶𝑉 = ( ̅ ) . 100%
𝑋
5,13
𝐶𝑉 = ( 12 ) . 100%
𝐶𝑉 = 0,428. 100%=42,8% 44
Existe una variabilidad excesiva pero tolerable.

TEMA 6. MEDIDAS DE FORMA


Asimetría (de Pearson) se conoce como sesgo y mide el grado de asimetría de una distribución,
puede ser sesgada a la derecha o sesgo positivo si tiene a la derecha una cola más larga, si ocurre a
la izquierda, se conoce como sesgo a la izquierda o sesgo negativo.

𝑚𝑒𝑑𝑖𝑎 − 𝑚𝑜𝑑𝑎
𝑆𝑒𝑠𝑔𝑜 =
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎

Si el valor es cercano a cero, se dice que es simétrica, en este caso la media, mediana y moda
coinciden.

30

20

10

0
10-14 15-19 20-24 25-29 30-34

Si el valor es positivo, se dice que tiene asimetría positiva, en este caso, a media es mayor a la
mediana y ésta a su vez es mayor a la moda.

30
25
20
15
10
5
0
5-9 10-14 15-19 20-24 25-29 30-34

Si el valor es negativo, se dice que tiene asimetría negativa, la media es menor a la mediana y esta a
su vez menor a la moda.

45
30

25

20

15

10

0
5-9 10-14 15-19 20-24 25-29 30-34

Curtosis mide que tan puntiaguda o achatada es la distribución de frecuencia de los datos, el grado
de agrupación de los datos en la región central, puede ser leptocúrticas, platicúrtica y mesocúrtica.

1
(𝑄3 − 𝑄1 )
𝐶𝑐 = 2 − 0.263
𝑃90 − 𝑃10
Si el valor es mayor a 0 se dice que es leptocúrtica
Si el valor es cercano a 0 se dice que es mesocúrtica
Si el valor es menor a 0 se dice que es platicúrtica.
Leptocúrtica: es cuando la distribución es más puntiaguda y presenta menos variabilidad los datos,
es decir, la mayoría de ellos están cercanos a sus valores centrales.
Mesocúrtica: es cuando la distribución es similar a la distribución normal.
Platicúrtica: es una distribución más achatada, es decir, presenta mayor dispersión los datos.

Cálculo de las medidas de forma para datos agrupados

46
Asimetría.
𝑚𝑒𝑑𝑖𝑎 − 𝑚𝑜𝑑𝑎
𝑆𝑒𝑠𝑔𝑜 =
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎

12−11,12
𝑆𝑒𝑠𝑔𝑜 = =
5,13

0,88
𝑆𝑒𝑠𝑔𝑜 = 5,13=0,172

Como es mayor a cero tiene una asimetría positiva (ver histograma de frecuencias) en el cual la Media
es mayor a la Media y Mayor a la Moda.
Curtosis
1 𝑛
∑𝑖=1(𝑥𝑖 − 𝑥̅ )4 . 𝑓𝑖
𝐶𝑐 = 𝑛
𝑆𝑥4
Otra manera es mediante percentiles
1
(𝑄3 − 𝑄1 )
𝐶𝑐 = 2 − 0,263
𝑃90 − 𝑃10
3𝑥60
( 4 − 𝐹𝑎 )
𝑄3 = 𝐿𝑖 + [ ]x A
𝑓𝑃𝑥 𝑄3 = 13,704

𝑛
(4 − 𝐹𝑎 )
𝑄1 = 𝐿𝑖 + [ ]x A 𝑄1 = 8
𝑓𝑄1

90𝑥60
( 100 − 𝐹𝑎 )
𝑃90 = 𝐿𝑖 + [ ]x A 𝑃90 = 15 + 3,111 = 18,111
𝑓𝑃85

10𝑥60
( 100 − 𝐹𝑎 )
𝑃10 = 𝐿𝑖 + [ ]x A 𝑃10 = 5 + 1,2 = 6,2
𝑓𝑃85

(13,704 − 8)/2 5,704/2


𝐶𝑐 = − 0,263 𝐶𝑐 = − 0,263 𝐶𝑐 = −0,0236
18,111 − 6,2 11,911

Platicúrtica por ser menor a cero

47
Bibliografía

Carballo, M. & Guelmes, E. (2016). Algunas consideraciones acerca de las variables en las
investigaciones que se desarrollan en educación. Revista Universidad y Sociedad, 8(1), 140-150.
Recuperado en 07 de mayo de 2021, de http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S2218-
36202016000100021&lng=es&tlng=es.

Murray R. S. PROBABILIDAD Y ESTADÍSTICA (2009). Serie Schaum Editorial: McGraw-Hill. Edición: 4.


Coronado, J. (2007). Escalas de medición. Paradigmas, 2(2), 104-125.

48

También podría gustarte