Está en la página 1de 61

ESTADÍSTICA APLICADA A LA CIENCIA

POLÍTICA

ESTADÍSTICA DESCRIPTIVA

1. ESTADÍSTICA

Definición tradicional:
Colección, organización, resumen y presentación de datos numéricos.
Definición actual:
Rama de la matemática aplicada que colecciona, clasifica y evalúa o analiza datos,
como base para inferir consecuencias o conclusiones válidas, así como para tomar
decisiones en base a dicho análisis.

2. USO DE LA ESTADÍSTICA

El método científico está constituido por las observaciones experimentales y los


conocimientos que conducen al empleo de las técnicas estadísticas. El uso de la
estadística, como herramienta de la investigación, no puede separarse de la
planeación general del proyecto de investigación. Aunque, por lo general, la
estadística se asocia a estudios demográficos, económicos y sociológicos, cada vez
son más los profesionales de distintas disciplinas que recurren a métodos
estadísticos como muestreo, simulación, diseño de experimentos, control de
calidad, modelación estadística e inferencial, etc., con la finalidad de realizar
análisis e interpretación de datos, convirtiéndose en una herramienta
imprescindible de todas las ciencias. Usualmente, un profesional que domine
diferentes técnicas estadísticas puede llegar a ser mucho más eficaz en todas las
fases de su trabajo que tengan que ver con la investigación, el desarrollo o la
producción.

3. ETAPAS DE UNA INVESTIGACIÓN ESTADÍSTICA

a. Formulación del problema:

La investigación exitosa de un problema implica crear conceptos precisos,


formular preguntas claras e imponer limitaciones adecuadas al problema,
según el tiempo y dinero disponibles y la habilidad de los investigadores. Una
mala formulación del problema puede conducir a que los datos recolectados
sean inservibles.
b. Diseño experimental o diseño de muestras:

Implica, entre otras cosas, determinar el tamaño de la muestra, el tipo de


datos a recolectar y la forma de recolectarlos. Si no tenemos cuidado al
planificar y diseñar un experimento pueda que no se logre ninguna conclusión
válida.

c. Recolección de datos y experimentación:

Se refiere a los métodos usados para obtener la información necesaria de las


unidades elementales que conforman la muestra.

d. Tabulación y descripción de los resultados:

Los datos deben ordenarse, tabularse e ilustrarse gráficamente, calculando las


medidas estadísticas fundamentales, como el promedio y la varianza.

e. Inferencia estadística y formulación de la respuesta :

Utilizando la muestra se obtiene conclusiones acerca de la población, para


luego tomar una decisión y formular la respuesta al problema planteado.

4. DIVISIÓN DE LA ESTADÍSTICA:

ESTADÍSTICA DESCRIPTIVA:
Los métodos descriptivos (que pueden usarse tanto para muestras como para
poblaciones) se utilizan para mostrar los datos en forma ordenada y gráfica, sin
obtener conclusiones de ellos.

ESTADÍSTICA INFERENCIAL:
Los métodos inferenciales, como la estimación de parámetros y la prueba de
hipótesis acerca de tales parámetros, usan sólo las características de las muestras
para inferir o generalizar las características de la población.
5. UNIDADES ELEMENTALES:

Las unidades elementales son los individuos u objetos de una colección que tienen
una característica medible cualitativa o cuantitativa en común. Cuando los datos de
dicha característica permanecen inalterables, tal y como se los recolecta, se dice
que son datos originales.

6. UNIVERSO, POBLACIÓN Y MUESTRA:

UNIVERSO: Conjunto de individuos u objetos que tienen alguna característica en


común.
Ejemplos:

 Conjunto de ciudadanos extranjeros presos en el penal de El Milagro de


Trujillo, para estudiar su país de procedencia.
 Conjunto de docentes de la Facultad de Derecho de la UNT para estudiar su
tiempo de servicio (en años).
 Conjunto de celulares robados en julio de 2023 en el Perú, para conocer su
marca.

POBLACIÓN: Totalidad de observaciones (datos) obtenidas al medir alguna


característica de los elementos de un universo.
Ejemplos:

 Conjunto de países de procedencia de los ciudadanos extranjeros presos en el


penal de El Milagro (País A, País B, País C, País B,…).
 Conjunto de edades de los docentes (35, 40, 28, 25, …).
 Conjunto de marcas de los celulares robados en julio de 2023 en el Perú
(Motorola, Motorola, LG, Samsung, LG, ….).

MUESTRA: Subconjunto de una población o de un universo.


Si la muestra se selecciona utilizando algún mecanismo de azar (por ejemplo, por
sorteo, mediante la tabla de dígitos aleatorios o mediante el uso de un programa
estadístico), ella se denomina muestra aleatoria o muestra al azar.
Ejemplos:

 Subconjunto de países (muestra del universo).


 Subconjunto de edades de los docentes (muestra de la población)
 Subconjunto de marcas de celulares (muestra de la población).

7. DATO:
VARIABLE Y OBSERVACIÓN
Una variable es una cantidad o característica que manifiesta diferencias o cambios,
en magnitud o en valor; se la denota generalmente por la letra mayúscula “X”
(puede ser otra letra mayúscula también).
Ejemplos:

 Idioma de los países


 Plato típico de las ciudades
 Edad de los docentes
 Número de hermanos por alumno
 Índice de contagio de Covid-19 de cada país en un momento determinado
 Tasa de mortalidad por Covid-19 de las regiones del Perú por cada 10,000
habitantes.
 Número diario de recuperados de Covid-19 en el Perú, desde el 15 de marzo al
19 de noviembre de 2020.

Una observación, llamada también dato, es el resultado de hacer una medición de


una variable sobre la unidad elemental. El lugar de donde se obtienen los datos se
denomina fuente (algunos ejemplos de fuente son: Registro Técnico de la UNT,
Escuela Académico Profesional de Turismo, http://www.bn.com.pe, MINSA-Perú,
etc.).

CLASES DE VARIABLE:

a. VARIABLE CUANTITATIVA:
Es la variable que toma valores numéricos.
Ejemplos:

 Número de litigantes por ciudad.


 Ingreso mensual de los jueces (en nuevos soles).
 Peso de los estudiantes de nuestra clase.
 Número de inasistencias por alumno en algún semestre académico.
 Porcentaje diario de casos confirmados por Covid-19.

Una variable cuantitativa puede ser:


a.1. CONTINUA: Si puede tomar valores que se ubican en cualquier parte de la
recta numérica.
Ejemplos:

 Ingreso mensual de los jueces (Nuevos soles: 5010.8, 4357, 4911.4, …)


 Peso de los estudiantes de nuestra clase. (Kg.: 61.72, 58.31, 60.29, 75.11,
…)
 Promedio ponderado de los estudiantes. (14.65, 16.48, 18, 17.5, …)
 Ganancia diaria de un restaurante. (Nuevos Soles: 200, 351.59, 200, …)

a.2. DISCRETA: Cuando sólo toma valores que corresponden a puntos aislados
de la recta numérica. En general, sus valores son números enteros.
Ejemplos:

 Número de litigantes por ciudad (158, 300, 25, 300, …)


 Número de inasistencias por alumno en algún semestre académico de 30
actividades lectivas (0, 14, 5, 9, 9, 1, …)
 Número de habitaciones por dolencias por persona adulta. (3, 1, 2, 2, …)

b. VARIABLE CUALITATIVA:

Aquélla cuyos valores son atributos o cualidades. En ella, a su vez, se definen


categorías. Ejemplos:

 Lugar de procedencia de estudiantes (Categorías: Trujillo, Cajamarca, Lima,


etc.),
 Sexo de personas (Categorías: Hombre, mujer),
 Deporte de aventura practicado (Categorías: motocross, espinamiento, etc.).
 Marca de celulares robados en julio de 2023 en la ciudad de Trujillo (Categorías:
Motorola, Samsung, …).
 Tipo de transporte. (Categorías: taxi, bus, avión, barco, …)

Ejemplos adicionales:

 Variable (X): Porcentaje diario de resultados positivos por Covid-19 en las


pruebas moleculares y rápidas, con respecto al número total de muestras
procesadas, entre el 21 y el 29 de junio de 2020.

Datos de X: 16.6, 18.3, 15.4, 17.7, 17.8, 18.0, 17.6, 17.2, 18.2 (16.6% el 21 de
junio, 18.3% el 22 de junio,…, 18.2% el 29 de junio)

Fuente: Elaboración propia, a partir de los comunicados del MINSA-Perú N°s


139, 140, 142, 143, 144, 146, 147, 149, 151 y 152 (para obtener el primer dato
se utilizaron los comunicados números 139 y 140; para el segundo, los
comunicados 140 y 142, etc.).

Unidad elemental: El día (del cual se obtiene el porcentaje de resultados


positivos por Coronavirus-Covid 19).

 Variable (Y): Número diario de personas hospitalizadas por Covid-19, entre


el 21 y el 29 de junio de 2020.

Datos de Y: 3204, 3353, 3117, 3152, 4485, 3732, 4218, 3974, 3161
Fuente: Elaboración propia, a partir de los comunicados del MINSA-Perú N°s
139, 140, 142, 143, 144, 146, 147, 149, 151 y 152
Unidad elemental: El día.

 Variable (Z): Número de casos confirmados, obtenidos por Coronavirus


Covid-19 en las pruebas moleculares y rápidas, en 8 regiones del Perú, el día 29
de junio de 2020.

Datos de Z: Lima (157050), Callao (17944), Lambayeque (13572), Piura


(16746), Loreto (8955), La Libertad (9856), Cajamarca (2091), Tacna (888).

Fuente: Comunicado N°152 del MINSA-Perú.

Unidad elemental: La región.

8. BASE DE DATOS:

Es la organización de la información (conjunto de datos), de manera ordenada y


resumida, mediante la creación de una tabla, llamada Base de Datos o Matriz de
Datos, cuya primera columna incluye al individuo del cual se obtiene el dato y
las demás están conformadas por las variables que se miden, donde los datos de
cada fila son los resultados obtenidos de cada individuo.

Ejemplo: La siguiente Base de Datos corresponde a información de datos de los


docentes de una universidad:

Docent Número de hijos Tiempo de servicio (en años) Profesión


e
1 4 38.1 Contador
2 2 15.6 Estadístico
3 2 22.1 Abogado
4 0 2.8 Estadístico
5 2 5.3 Médico
. . . .
. . . .
. . . .

EJERCICIOS

a) Proponga dos ejemplos de: universo, población y muestra, aplicado a su


especialidad.

b) Clasifique cada una de las siguientes variables, como discreta, continua o


cualitativa: Deporte practicado por los alumnos de nuestra clase, número de
profesores por centro educativo, gasto por persona en un proceso judicial (Trujillo:
mayo de 2023), número de hermanos por alumno de nuestra clase, tipo de proceso
judicial de los litigantes. Para cada variable considerada, indique cuál es la unidad
elemental.

c) Proponga dos ejemplos de cada una de las clases de variable en el campo de su


especialidad.
Solución:
a) Ejemplos de universo, población y muestra:

 Universo 1: Conjunto de taxis de Trujillo que circularon el día 9 de julio de 2020


(N=5000 taxis).
Población 1: Consumo de combustible (en litros) de cada taxi (N=5000
consumos)
Población 2: Marca de cada taxi (algunas categorías: Chevrolet, Datsun,
Hyunday, …). (N=5000 marcas de taxi; algunas de ellas pueden repetirse).
Muestra del Universo 1: Subconjunto de 24 taxis de Trujillo que circularon el 9
de julio de 2020. (n=24)
Muestra de la Población 1: Subconjunto de 24 consumos de combustible de los
taxis (n=24)
Muestra de la Población 2: Subconjunto de marcas de taxis (n=24)

 Universo 2: Conjunto de expedientes judiciales de la Ciudad de Trujillo, en el


año 2022.
Población 1: Número de páginas de los expedientes judiciales.
Población 2: Tipo de proceso judicial (algunas categorías: civil, laboral, penal).
Muestra del Universo 2: Subconjunto de 25 expedientes judiciales.
Muestra de la Población 1: Subconjunto de páginas de los expedientes
judiciales.
Muestra de la Población 2: Subconjunto de tipos de procesos judiciales.

b) Clasificación de variables:
Deporte practicado por los alumnos de nuestra clase (CUALITATIVA)
Unidad elemental: EL ALUMNO
Número de profesores por centro educativo (DISCRETA)
Unidad elemental: EL CENTRO EDUCATIVO
Gasto por persona en un proceso judicial (Trujillo: mayo de 2023)
(CONTINUA)
Unidad elemental: LA PERSONA
Número de hermanos por alumno de nuestra clase (DISCRETA).
Unidad elemental: EL ALUMNO.
Tipo de proceso judicial de los litigantes (CUALITATIVA).
Unidad elemental: EL LITIGANTE.

SUMATORIAS
La sumatoria simple de n observaciones (datos) de una variable X, se define del
siguiente modo:
n
∑ x i =x 1 + x 2 +. ..+ x n
i=1

Ejemplo:
En cierto día, el gasto (en nuevos soles) de una muestra de 5 litigantes en la ciudad de
Trujillo, es el mostrado en el cuadro siguiente. El gasto total de los litigantes se puede
obtener haciendo uso de la sumatoria.

N° de litigante 1 2 3 4 5=n n

(i) ∑ xi
i=1

Gasto (xi) 60 40 45 55 90 290

También es usual colocar la información anterior en dos columnas, así:

i xi x 2i
1 60 3600
2 40 1600
3 45 2025
4 55 3025
5=n 90 8100

Tota 290 18350


l

EJERCICIOS RESUELTOS
Utilice la información anterior, acerca del gasto de 5 litigantes, y encuentre el valor
numérico de las siguientes expresiones:
n
SC=∑ x 2i
a) i=1 (Rpta.: 18350)
n
∑ xi
M = i =1
b) n (Rpta.: 58)
n
A=∑ ( x i−M )
c) i=1
n
∑ ( xi −M )2
V = i =1
d) n

[ ]
n
( ∑ xi )
2
n
1
T=
n
∑ x2i − i=1
n
i=1
e)

Solución:

i xi x 2i x i−M =xi −58 ( x i−M )2


1 60 3600 60-58=2 4
2 40 1600 40-58=-18 324
3 45 2025 45-58=-13 169
4 55 3025 55-58=-3 9
5=n 90 8100 90-58=32 1024

Total 290 1835 0 1530


0

n
SC=∑ x 2i
a) i=1 = 3600 + 1600 + 2025 + 3025 + 8100 = 18350
n 5
∑ xi ∑ xi 290
i =1 i=1
M=
b) n 5 = 5 = 58
n
A=∑ ( x i−M )
c) i=1 = (60-58)+(40-58)+(45-58)+ (55-58)+ (90-58)
= (2)+(-18)+(-13)+(-3)+(32) = 0
n
∑ ( xi −M )2 1530
V = i =1
d) n = 5 = 306

[ ]
n
( ∑ xi )
2
n

[ ]
1
T=
n
∑ x2i − i=1
n
1
18350−
(290)2
=306
e) i=1
= 5 5

USO DE LA TABLA DE NÚMEROS ALEATORIOS


La Tabla de Números Aleatorios, llamada también Tabla de Dígitos Aleatorios, se usa
para seleccionar, de un universo o población de tamaño N, una muestra aleatoria de
tamaño n.

PASOS:

1º. Con la punta del lápiz se marca cualquier dígito (de preferencia, en la parte superior
izquierda de la tabla) y, a la derecha e incluyendo el dígito donde cayó el lápiz, se
selecciona tantos dígitos como cifras tenga N; ése será el primer “número” de la
muestra, al que se le denomina Arranque Aleatorio (AA). Si el arranque aleatorio
es menor o igual que N, ése será nuestro primer elemento de la muestra.

2º. Luego se selecciona el siguiente número hacia la derecha de forma horizontal


(pero también es válido seleccionarlo hacia abajo, verticalmente), del mismo
número de cifras que el anterior; ése será el “número” del segundo elemento de la
muestra, siempre y cuando sea menor o igual que N.

3º. Si el número seleccionado en el paso 2° es mayor de N, tenemos cualquiera de las


siguientes alternativas:

* se pasa al siguiente número hacia la derecha, o

* se divide entre N y se elige como elemento de la muestra el “residuo” de dicha


división.

4º. El proceso se repite hasta que se completen los n elementos de la muestra. Si al


avanzar hacia la derecha (o hacia abajo), aún no se completaran todos los elementos
de la muestra, se continúa desde el inicio de la(s) siguiente(s) fila(s) o columna(s)
inmediata(s) de la tabla, hasta completar los elementos de la muestra.

5º. Luego, de la lista de elementos poblacionales (los cuales deben estar enumerados),
se toman los elementos seleccionados para realizar la medida respectiva, según la
característica de interés.

Nota:

 Si aparece el número aleatorio cero, debe considerarse el número N. (0 equivale a


N).
 Si algún número aleatorio vuelve a aparecer durante la selección, se lo debe descartar
y pasar al siguiente número aleatorio.
 La selección de los números aleatorios también puede realizarse hacia abajo,
verticalmente.
 Si, al seleccionar los números aleatorios, aún no se completara el tamaño de la
muestra hasta llegar a la parte final de la fila por donde estamos avanzando, se debe
continuar con la siguiente fila (desde el extremo izquierdo).
Una parte de la tabla de dígitos aleatorios (las 15 primeras filas y las 40 primeras
columnas columnas) se muestra a continuación, con la finalidad de describir su uso.

TABLA DE DÍGITOS ALEATORIOS (600 dígitos aleatorios)

1-4 5-8 9-12 13-16 17-20 21-24 25-28 29-32 33-36 37-40
1 2315 7548 5901 8372 5993 7624 9708 8695 2303 6744
2 0554 5550 4310 5374 3508 9061 1837 4410 9622 1343
3 1487 1603 5032 4043 6223 5005 1003 2211 5438 0834
4 3897 6749 5194 0517 5853 7880 5901 9432 4287 1695
5 9731 2617 1899 7553 0870 9425 1258 4154 8821 0513

6 1174 2693 8144 3393 0872 3279 7331 1822 6470 6850
7 4336 1288 5911 0164 5623 9300 9004 9943 6407 4039
8 9380 6204 7838 2680 4491 5575 1189 3258 4755 2571
9 4954 0131 8108 4298 4187 6953 8296 6177 7380 9527
10 3676 8726 3337 9482 1569 4195 9686 7045 2748 3880
11 0709 2523 9224 6271 2607 0655 8453 4467 3384 5320
12 4331 0010 8144 8638 0307 5255 5161 4889 7429 4647
13 6157 0063 6006 1736 3775 6314 8951 2335 0174 6993
14 3155 2837 9910 7791 8941 3157 9764 4862 5848 6919
15 5704 8865 2627 7959 3682 9052 9565 4635 0653 2254

EJEMPLO: Para ilustrar el uso de la tabla de números aleatorios,


supongamos que se tiene N=60 cárceles del Perú, y que deseamos
tomar una muestra aleatoria de tamaño n = 4 para estudiar el
número de reclusos. En primer lugar, enumeramos las cárceles, de
1 á 60, o las agrupamos en algún orden de tal forma que puedan ser
identificadas. En la tabla de números aleatorios anterior, los dígitos
deben escogerse de a dos a la vez porque el universo de tamaño N
=60 es un número de dos dígitos.
PASOS:

1º. Con la punta del lápiz se marca cualquier dígito (de preferencia, en la parte superior
izquierda de la tabla) y, a la derecha e incluyendo el dígito donde cayó el lápiz, se
selecciona tantos dígitos como cifras tenga N; ése será el primer “número” de la
muestra. Supongamos que el lápiz cayó en el dígito 1, correspondiente a la fila 10 y
columna 17 de la tabla. Por lo tanto, el Arranque Aleatorio será igual a 15
(AA=15). Como A=15 es menor o igual que N=60, el primer elemento seleccionado
será el número 15.

2º. Luego se selecciona el siguiente número hacia la derecha del arranque aleatorio,
del mismo número de cifras que el anterior; ése será el “número” del segundo
elemento de la muestra, siempre que sea menor o igual que 60. En nuestro caso,
corresponde al número 69, que es mayor que N=60.

3º. Como el número 69 es mayor que N=60, tenemos cualquiera de las siguientes
alternativas:

1ª Se pasa al siguiente número hacia la derecha, o

2ª Se divide 69 entre N=60 y se elige como elemento de la muestra el “residuo”


de dicha división.
Supongamos que tomamos la segunda alternativa. Al dividir 69 entre 60, se
obtiene un residuo igual a 9. Por lo tanto, el siguiente número de la muestra será
9.

4º. El proceso se repite (considerando la segunda alternativa del paso 3°), hasta que se
completen los n=6 elementos de la muestra. Los números aleatorios que utilizaremos
para seleccionar la muestra son los siguientes:

1er número aleatorio: 15 (se selecciona la cárcel Nº 15)

2do número aleatorio: 69 (se selecciona la cárcel Nº 9: cociente de 69/60)

3er número aleatorio: 41 (se selecciona la cárcel Nº 41)

4to número aleatorio: 95 (se selecciona la cárcel Nº 35: cociente de 95/60)

Según esto (teniendo en cuenta la segunda alternativa del paso 3°), las cárceles a
seleccionarse para la muestra son las identificadas con los números: 15, 9, 41 y 35.

5º. Luego, de la lista de elementos poblacionales (los cuales deben estar enumerados),
se toman los elementos seleccionados de la muestra para realizar la medición respectiva
(en este caso, el número de reclusos, X, de las cárceles seleccionadas. Supongamos
que los valores (datos) de X, son:
i 1 2 3 4
xi 148 500 154 19

En este cuadro, por ejemplo, se puede afirmar que la segunda cárcel tiene 500
reclusos.

EJERCICIO
Utilice la tabla de dígitos aleatorios anterior, para seleccionar una muestra aleatoria de
tamaño n, de un universo (población) de tamaño N, según como se indica en cada uno
de los siguientes incisos:

a) N=15 juzgados de paz letrado del Perú; n=4; AA: fila 3, columna 7, utilizando la
primera alternativa del paso 3°. Seleccione los números aleatorios, avanzando de
manera horizontal y hacia la derecha.
b) N=47 docentes de la Facultad de Derecho; n=14; AA: fila 9, columna 25, utilizando
la segunda alternativa del paso 3°. Seleccione los números aleatorios, avanzando de
manera horizontal y hacia la derecha.
c) N=250 estudiantes de la Escuela Académico Profesional de Ciencia Política y
Gobernabilidad; n=28¸ AA: fila 13, columna 32, utilizando la segunda alternativa
del paso 3°. Seleccione los números aleatorios, avanzando de manera horizontal y
hacia la derecha.
d) Resolver los incisos a), b) y c), seleccionando los números aleatorios de manera
vertical y hacia abajo.

ORGANIZACIÓN DE LOS DATOS EN TABLAS

Cuando en una investigación se obtienen datos, ellos se encuentran en forma


desordenada, dificultando su interpretación y análisis. Con la finalidad de tener una
visualización comprensible y significativa del conjunto de datos, éstos deben
organizarse y resumirse en forma de tablas.

Antes de indicar los pasos para construir una tabla, será necesario dar las siguientes
definiciones:

1. CLASE
Está dada por un intervalo (si la variable es cuantitativa) o por una categoría (si
la variable es cualitativa).

2. INTERVALO DE CLASE
Es aquél que contiene cierta cantidad de datos numéricos. Posee dos límites: El
límite inferior que se denota por “LI” y el límite superior por “LS”. Al número
de intervalos de clase lo representamos por “m”. Mientras no se mencione otra
cosa, se trabajará con intervalos regulares semiabiertos por la derecha.

Notación de intervalos:
El i-ésimo intervalo de clase se denota por [X´i-1, X´i), o también [LIi , LSi).

Amplitud interválica:
Diferencia entre el límite superior y el límite inferior de cada intervalo de clase. Se
la denota por la letra “c”. Es decir, para el i-ésimo intervalo de clase, se tiene:

ci = LSi – LIi.

Clases de intervalos:

Regulares:
Dos o más intervalos son regulares si su amplitud interválica es la misma en
todos ellos.
Irregulares:
Cuando la amplitud interválica no es la misma en todos los intervalos.

Ejemplo:
Si la variable X es el gasto diario de litigantes (en nuevos soles) y existen los
siguientes intervalos de clase regulares semiabiertos por la derecha:

Intervalo 1: [X´0, X´1) = [LI1 , LS1) = [40, 60),


Intervalo 2: [X´1, X´2 ) = [LI2, LS2 ) = [60, 80) e
Intervalo 3: [X´2, X´3 ) = [LI3, LS3 ) = [80, 100);

En este caso, m = 3, los 3 intervalos de clase son regulares porque tienen la


misma amplitud:
c1 = LS1 - LI1 = 60 – 40 = 20;
c2 = LS2 - LI2 = 80 – 60 = 20;
c3 = LS3 - LI3 = 100 – 80 = 20.

3. LIMITES REALES
Se deben a Yule y Kendall. Con la finalidad de prevenir ambigüedades en
cuanto a la clase a la que pertenece cierto dato numérico, se utilizan los límites
reales. Para el intervalo de clase i-ésimo, sus límites reales (LR), se obtienen
del siguiente modo:

Límite real inferior (LRIi):

LRIi = LIi - 5x10-(k+1)

Límite real superior (LRSi):

LRSi = LSi - 5x10-(k+1) ,


donde “k” representa el número máximo de cifras decimales de los datos
recolectados.

Ejemplo:
En el ejemplo anterior, si asumimos que todos los datos son enteros, entonces
k=0 (número máximo de cifras decimales) y por lo tanto, k+1 = 1.
Los límites reales para tales intervalos, son:

LRI1 = LI1 – 5x10-1 = 40 – 0.5 = 39.5; LRS1 = LS1 - 5x10-1 = 60 - 0.5 = 59.5
LRI2 = LI2 – 5x10-1 = 60 – 0.5 = 59.5; LRS2 = LS2 - 5x10-1 = 80 - 0.5 = 79.5
LRI3 = LI3 – 5x10-1 = 80 – 0.5 = 79.5; LRS3 = LS3 - 5x10-1 = 100 - 0.5 = 99.5

Los intervalos de clase, así como los límites reales y los intervalos cerrados
de este ejemplo, los podemos resumir en la siguiente tabla:

N° de Intervalos de clase Límites reales Intervalos


intervalo [LIi , LSi) LRIi , LRSi Cerrados: [ , ]
(i)
1 40 – 60 39.5 – 59.5 40 – 59
2 60 – 80 59.5 – 79.5 60 – 79
3 80 – 100 79.5 – 99.5 80 – 99

EJERCICIOS

Obtener los límites reales de los siguientes conjuntos de intervalos y además,


expresarlos como intervalos cerrados:

a) [3.80, 4.60), [4.60, 5.40), [5.40, 6.20)


b) [15.85, 18.85), [18.85, 21.85), [21.85, 24.85), [24.85, 27.85)
c) [13.83, 15.73), [15.73, 17.63), [17.63, 19.53)

Solución (inciso a):


a) k = 1 (el número máximo de cifras decimales de los datos es igual a 1)
k+1 = 2
1 1
2
10 -(k+1)
= 10 = 10 = 100 = 0.01
-2
-(k+1)
5x10 = 5x0.01 = 0.05

N° de Intervalos de clase Límites reales Intervalos


intervalo [LIi , LSi) LRIi , LRSi Cerrados: [ , ]
(i)
1 3.80 – 4.60 3.75 – 4.55 3.80 – 4.50
2 4.60 – 5.40 4.55 – 5.35 4.60 – 5.30
3 5.40 – 6.20 5.35 – 6.15 5.40 – 6.10

Por ejemplo, los límites reales del segundo intervalo son:

LRI2 = LI2 - 5x10-(k+1) = 4.60 – 0.05 = 4.55


LRS2 = LS2 - 5x10-(k+1) = 5.40 – 0.05 = 5.35
b) k = 2 (el número máximo de cifras decimales de los datos es igual a 2)

N° de Intervalos de clase Límites reales Intervalos


intervalo [LIi , LSi) LRIi , LRSi Cerrados: [ , ]
(i)
1 15.85 – 18.85
2 18.85 – 21.85
3 21.85 – 24.85
4 24.85 – 27.85

4. MARCA DE CLASE
También llamada punto medio, es igual a la semisuma de los límites del respectivo
intervalo de clase. La marca de clase del i-ésimo intervalo de clase se denota por X i .
Es decir,

LI i + LS i
Xi=
2

Ejemplo:
Para los intervalos de clase irregulares [2, 4), [4, 12) y [12, 30), las marcas de clase
son X1 = (2 + 4)/2 = 3, X2 = 8 y X3 = 21, respectivamente.

5. FRECUENCIA
Número, proporción o porcentaje de veces que se repite un dato (si los datos no
están agrupados o los datos son originales) o conjunto de datos (si los datos están
agrupados en intervalos).

CLASES DE FRECUENCIA:

FRECUENCIA ABSOLUTA:
Es el número de veces que se repite un dato. Su valor es un número entero
mayor o igual que cero. Una frecuencia absoluta puede ser:

Simple:
Cuando se refiere a un solo intervalo o a una sola categoría; la i-ésima
frecuencia absoluta simple se denota por fi .
Propiedad:

 fi = n, con i = 1,2,...,m.,
siendo n el número total de datos y m el número de intervalos o de categorías.

Acumulada:
Es el número de datos cuantitativos que son menores o iguales que cierto valor
de X; se denota por Fi y representa la frecuencia absoluta acumulada de la i-
ésima clase. En particular, para la r-ésima clase, tenemos:

Fr =  fi , i = 1, 2, ..., r

FRECUENCIA RELATIVA:
Es la proporción de veces que se repite un dato o un conjunto de datos.
Igualmente, puede ser:
Simple:
Denotada por hi y obtenida como
hi = fi /n.

Propiedades:

- 0  hi  1, i = 1,2,...,m.

-  hi = 1, con i = 1,2,...,m.
Acumulada:
Se denota por Hi y se calcula por
Hi = Fi /n.
Propiedad:
Hm = 1.

FRECUENCIA PORCENTUAL:
Es el porcentaje de veces en que se repite un dato o un conjunto de datos. Las
propiedades de las frecuencias porcentuales son similares a las frecuencias
relativas. Una frecuencia porcentual puede ser:
Simple:
Denotada por hi% y obtenida como
hi% = hi(100%).
Acumulada:
Se denota por Hi% y se obtiene como
Hi% = Hi (100%).
PASOS PARA CONSTRUIR UNA TABLA DE
FRECUENCIAS EN INTERVALOS DE CLASE
Antes de dar los pasos para construir una tabla de distribución de frecuencias, es
conveniente indicar que toda tabla tiene las siguientes partes:
 Título: debe contener individuos, variable, lugar y tiempo. Si en un informe
estadístico se van a presentar varias tablas, éstas deben ser enumeradas
(Tabla 1, Tabla 2, …).
 Cuerpo: Es la tabla propiamente dicha.
 Fuente: Es el lugar de donde se ha obtenido la información. Ejemplos
(datos que proporcionan los abogados, Escuela Académico Profesional de
Ciencia Política y Gobernabilidad, Ministerio de Justicia, OMS).

Supuestos:
X: variable cuantitativa (numérica).
k: número máximo de cifras decimales de los datos.
Intervalos: regulares, semiabiertos por la derecha.
n: número de datos.

Los PASOS serán aplicados al siguiente

EJEMPLO:
Dadas las siguientes estaturas (en centímetros) de un grupo de 50 alumnos de la
Escuela Académico Profesional de Ciencia Política y Gobernabilidad de la UNT, en el
año 2022 (datos originales e hipotéticos):

181 178 189 166 161 177 171 169 175 154 174 185 178 152 162 158
178 159 172 179 186 164 192 173 143 164 184 153 172 142 184 163
183 165 172 174 163 173 159 187 177 172 174 173 167 163 178 179
175 165

Construir una tabla de frecuencias en intervalos regulares semiabiertos por la


derecha:

Se tiene la siguiente información:


X: Estatura (en centímetros)
Unidades de observación: alumnos
k=0 (como todos los datos son números enteros, el número máximo de cifras decimales
de los datos es igual a 0).
n=50

a. Cálculo del rango ( R ):

R = Xmáx - Xmín,

siendo Xmáx el dato máximo y Xmín el dato mínimo de los datos.

R = Xmáx - Xmín = 192 – 142 = 50


R = 50

b. Determinación del número de intervalos (m):

Uno de los criterios más utilizados para hallar el valor de m es aplicar la fórmula
de Sturges siguiente:

m = 1 + 3.32 log(n),

donde “log” significa logaritmo decimal y n representa el número de datos.

m = 1 + 3.32 log(n) = 1 + 3.32 log(50) = 6.64 ¿ 7

m=7

c. Cálculo de la amplitud interválica ( c ):

R
c=
m

Si el valor de c tiene más cifras decimales que k, debe tenerse en cuenta las
siguientes recomendaciones:

c.1. El valor de c debe redondearse por exceso, a un número con k cifras


decimales.

R 50
c= = =7 .14≈8
m 7 (como k=0, el valor de c debe tener 0 cifras decimales
y, por lo tanto, c=7.14 se ha redondeado por exceso a c = 8).

c=8
Nota:
Para cualquier intervalo, el límite superior (LS) se puede obtener así:

LS = LI + c

c.2. Calcular el Nuevo Rango, RN,:

RN = cm

RN = cm = 8(7) = 56

RN = 56

c.3. Calcular la diferencia, D:

D = RN – R
D = RN – R = 56 - 50 = 6

D=6
c.4. Calcular la cantidad, D*:

D
D∗¿ ,
 2 si D termina en dígito par, o
−k
D−10
D∗¿
 2 , si D termina en dígito impar

D 6
D∗¿ = =3
2 2

D* = 3
Nota.- Si el valor de c es exacto con k cifras decimales, ir al siguiente paso (paso
d).

d. Determinación de los intervalos de clase:


Se obtienen como se muestra en la siguiente tabla:

No. de
Interval Intervalos de clase
o(i) [LIi = x´i-1, LSi = x´i)

1 [LI1 , LS1 = LI1+ c)


2 [LI2 = LS1 , LS2 = LI2 + c
. .
. .
. .
m [LIm , LSm = LIm + mc)

Puesto que los intervalos son regulares, bastará con calcular LI1, ya que el LI
de cualquier intervalo es igual al LS del intervalo anterior. El valor de LI 1 es:

 LI1 = Xmín, si c no se redondea por exceso (es número exacto, con k cifras
decimales).
 LI1 = Xmín – D*, si c se ha redondeado por exceso.

Si el valor de c es exacto, el último intervalo debe considerarse cerrado.

En nuestro ejemplo, el valor de c ha sido redondeado por exceso, por tanto, con

Xmín = 142, D* = 3, c = 8,

LI1 = Xmín – D* = 142 – 3 = 139,

LI1 = 139,
los intervalos de clase son los siguientes:

No. de
Interval Intervalos de clase
o(i) [LIi = x´i-1, LSi = x´i)

1 [139,139+8) = [139,147)
2 [147,147+8) = [147,155)
3 [155,155+8) = [155,163)
4 [163,163+8) = [163,171)
5 [171,171+8) = [171,179)
6 [179,179+8) = [179,187)
m=7 [187,187+8) = [187,195)

e. Determinación de las frecuencias:


Con la técnica de las “tarjas”, se obtienen las frecuencias absolutas simples,
correspondientes a cada intervalo y, a partir de éstas, pueden obtenerse las demás.
Cuando la variable cuantitativa toma los valores: x 1 , x2 , ..., xm, con x1  x2  ...
 xm (no en forma de intervalos), también es posible determinar las frecuencias
consideradas anteriormente, simples y/o acumuladas.
La tabla completa queda construida como se muestra a continuación:

Tabla 1. Distribución de estudiantes de Ciencia Política y Gobernabilidad,


según su estatura (UNT-2022)

No. de Intervalo
Intervalo de clase Tarja fi Fi hi=fi/n Hi hi % Hi %
(i) [x´i-1, x´i) s
1 139 - 147 // 2 0.04 0.04 4 4
2 147 - 155 /// 3 2 0.06 0.10 6 10
3 155 - 163 .…… 5 0.10 0.20 10 20
4 163 - 171 ……. 10 5 0.20 0.40 20 40
5 171 – 179 ……. 19 1 0.38 0.78 38 78
6 179 – 187 ……. 8 0 0.16 0.94 16 94
7 187 - 195 ……. 3 2 0.06 1.00 6 100
0
3
9
4
7
5
0
TOTAL n= 50 1.00 100
Datos proporcionados por los alumnos

Ejemplos del cálculo de algunas frecuencias:

F3 = f1 + f2 + f3 = 2 + 3 + 5 = 10
o
F3 = f3 + F2 = 5 + 5 = 10
f 4 10
h4 = n = 50 = 0.20
H6 = h6 + H5 = 0.16 + 0.78 = 0.94
o
H6 = h1 + h2 + h3 + h4 + h5 + h6 = 0.04 + 0.06 + 0.10 + 0.20 +0.38 + 0.16 = 0.94
h2% = h2(100) = 0.06(100) = 6
H5% = H5(100) = 0.78(100) = 78

INTERPRETACION:

 La mayoría de alumnos mide entre 171 y menos de 179 cms. (f 5 = 19 > las
demás frecuencias absolutas simples).
 20 alumnos miden menos de 171 cms. (F4 = 20).
 Una proporción de estudiantes igual a 0.10 mide entre 155 y menos de 163
cms. (h3 = 0.10).
 Una proporción de alumnos igual a 0.40 mide menos de 171 cms. (H 4=
0.40).
 Sólo el 4% de los alumnos mide por debajo de 147 cms. (h1 % = 4%).
 El 94% de los alumnos mide menos de 187 cms. (H6 % = 94%).

Determinación de frecuencias absolutas simples con EXCEL:

1° Digitar los n datos en cualquier columna . Encabezar a esta columna con “Datos”.
2° En otra columna digitar los límites superiores de los intervalos cerrados de la
tabla. Encabezar a esta columna con “Grupos”.
3° Seleccionar otra columna, del mismo tamaño que la del paso 2°, y escribir en la
primera celda de dicha columna la siguiente expresión:

=Frecuencia(Datos; Grupos)

y, a continuación, presionar las teclas Ctrl Shift Enter, simultáneamente.


Aparecerán en la columna seleccionada las frecuencias absolutas simples (f i).

CUADROS DE DISTRIBUCIÓN DE FRECUENCIAS


PARA VARIABLES CUALITATIVAS
Cuando la variable es de tipo cualitativo, solamente podemos calcular frecuencias
simples (absolutas, relativas o porcentuales).

Ejemplo:

Marca de 11 vehículos recuperados por la policía en la ciudad de Trujillo, en agosto de


2022:

Datsun, Datsun, Chevrolet, Chevrolet, Datsun, Datsun, Volkswagen, Datsun, Chevrolet,


Volkswagen, Lamborgini

Al construir un cuadro de distribución de frecuencias absolutas simples, tenemos:

Tabla 2. Distribución de vehículos recuperados


por marca (Trujillo-agosto 2022)

Marca Número de computadoras


Dtsun 5
Chevrolet 3
Volkswage 2
n 1
Lamborgini

TOTAL 11
Datos hipotéticos

INTERPRETACIÓN:
La policía recuperó 3 vehículos Chevrolet en agosto de 2022, en la ciudad de
Trujillo.

Cálculo del Límite Superior de un Intervalo Cerrado:

LS[ ] = LS[ ) – 10-k,

siendo k el número máximo de cifras decimales de los datos originales.

EJERCICIOS

1. Los siguientes cuadros están incompletos. Complételos, proponiendo otros


ejemplos en el campo de la Ciencia Política.

a. Ejemplos de variable continua:

Variable continua Unidad de Unidades Campo de Algunas


medida elementales aplicación observaciones

1. Gasto diario Soles Litigantes Derecho 74, 37, 80, 50, 60


2.
3.
4.
5.

b. Ejemplos de variable discreta:

Variable discreta Unidades Campo de Algunas


elementales aplicación observaciones
1. No. de Juzgados Derecho 216, 148, 205, 130
expedientes
2.
3.
4.
5.

c. Ejemplos de variable cualitativa:

Variable cualitativa Categorías Unidades Campo de Algunas


elementales aplicación observaciones
1. Sexo Hombre (H), Estudiantes General M, M, H, M,
Mujer (M) H, M, M, H
2.
3.
4.

2. Recolectar conjuntos de datos de su especialidad, indicando: Nombre de


variable, unidad de medida de la variable, unidades elementales, observación
máxima posible (para variables cuantitativas), observación mínima posible (para
variables cuantitativas), categorías (para variables cualitativas).

3. Recolecte un conjunto de datos cuantitativos en el campo de la ciencia política y


construya un cuadro de distribución de frecuencias, realizando la respectiva
interpretación.

4. Proporcione 2 ejemplos de universo en su especialidad.

5. Proporcionar 2 ejemplos de población en su especialidad, para cada universo


propuesto en la pregunta 4.

6. Proporcionar 2 ejemplos de muestra de población en su especialidad.

7. La siguiente información corresponde a los postulantes del Área C de la


Universidad Nacional de Trujillo, que rindieron su Examen de Admisión el
día sábado 15 de marzo de 2008, obtenida de sus documentos de identificación
de postulante y registrada durante el proceso de inscripción.

A. ESTATURA Y PESO, SEGÚN SEXO:

MUJERES

Postulante 1 2 3 4 5 6 7 8 9 10 11 12
13
Peso (Kg.) 52.6 52.4 50.4 69.7 45.0 57.6 46.7 51.8 72.1 57.4 45.1 50.9
56.5
Estatura 1.55 1.47 1.48 1.52 1.50 1.65 1.52 1.51 1.55 1.54 1.52 1.52
(m.) 1.52

Postulante 14 15 16 17 18 19 20 21 22 23 24 25
26
Peso (Kg.) 49.8 52.4 48.7 53.3 58.2 53.2 52.6 65.3 49.5 51.3 62.3 64.5
63.0
Estatura 1.60 1.53 1.59 1.64 1.54 1.56 1.61 1.57 1.54 1.45 1.56 1.55
(m.) 1.44

Postulante 27 28 29 30 31 32 33 34 35 36 37 38
39
Peso (Kg.) 61.2 55.2 60.8 55.4 56.4 51.8 53.2 54.7 61.5 66.4 55.0 43.3
57.8
Estatura 1.52 1.57 1.54 1.56 1.54 1.59 1.63 1.56 1.66 1.58 1.60 1.49
(m.) 1.52

Postulante 40 41
Peso (Kg.) 55.5 69.9
Estatura (m.) 1.46 1.67

HOMBRES

Postulante 1 2 3 4 5 6 7 8 9 10 11 12
13
Peso (Kg.) 58.6 65.3 59.9 55.9 57.5 56.9 58.5 81.7 66.2 55.1 47.1 59.9
73.1
Estatura 1.63 1.67 1.66 1.67 1.54 1.64 1.68 1.79 1.72 1.61 1.53 1.65
(m.) 1.60

Postulante 14 15 16 17 18 19
Peso (Kg.) 99.1 63.9 65.1 57.1 60.1 70.2
Estatura 1.78 1.53 1.67 1.62 1.67 1.64
(m.)
B. NÚMERO DE POSTULANTES SEGÚN DOCUMENTO DE IDENTIDAD
DURANTE EL EXAMEN DE ADMISIÓN:

LM (18), DNI (25), BOLETA (13), PARTIDA DE NACIMIENTO (4)

C. NÚMERO DE POSTULANTES, POR ESPECIALIDAD Y SEXO:

ANTROPOLOGÍA (2 postulantes: 1 MUJER, 1 HOMBRE)


DERECHO (32 postulantes: 20 MUJERES, 12 HOMBRES)
EDUCACIÓN SECUNDARIA (8 postulantes: 6 MUJERES, 2 HOMBRES)
TRABAJO SOCIAL (5 postulantes: 5 MUJERES, 0 HOMBRES)
TURISMO (5 postulantes: 4 MUJERES, 1 HOMBRE)
EDUCACIÓN INICIAL (1 postulante: 1 MUJER, 0 HOMBRES)
EDUCACIÓN PRIMARIA (2 postulantes: 1 MUJER, 1 HOMBRE)
CIENCIAS DE LA COMUNICACIÓN (5 postulantes: 3 MUJERES, 2 HOMBRES)

Construya un cuadro unidimensional de frecuencias en intervalos semiabiertos por


la derecha para:
a) el peso de los hombres.
b) la estatura de las mujeres.
c) Construya los gráficos más adecuados para representar la información resumida
en los cuadros anteriores, de los ítems a), b).

REPRESENTACIONES GRÁFICAS
Además de presentar la información a través de tablas o cuadros, también se la puede
representar mediante gráficos, los cuales sirven para visualizarla de un modo más claro.
Todo gráfico tiene las mismas partes que una tabla: título, cuerpo (el gráfico
propiamente dicho) y fuente.
Existen muchos gráficos estadísticos para este propósito. A continuación se presenta
aquéllos que se utilizan con mucha frecuencia en la investigación, como son: el
histograma de frecuencias, el gráfico circular, el gráfico de barras y el gráfico de series
de tiempo.

A. HISTOGRAMA DE FRECUENCIAS:

Un histograma de frecuencias tiene las siguientes características:

 Se utiliza para representar, gráficamente, la información de una variable


cuantitativa.
 Para construirlo, en el eje de las abscisas se colocan los límites de los
intervalos de clase (la variable) y en el eje de las ordenadas van las
frecuencias simples (absolutas, relativas o porcentuales).
 El histograma de frecuencias está conformado por un conjunto de rectángulos
perpendiculares al eje de las abscisas, con un ancho igual a la amplitud
interválica y su longitud es proporcional a la respectiva frecuencia simple.
Los rectángulos deben ir uno a continuación del otro (no deben haber
espacios entre ellos).
CONSTRUCCIÓN DE UN HISTOGRAMA CON EXCEL
1) Ingreso de datos en dos columnas cualesquiera, como se muestra en el
siguiente ejemplo, donde la variable es la “tasa de letalidad (%)” debido a
Coronavirus y las frecuencias corresponden al “Número de departamentos del
Perú” (Datos hipotéticos):

Tabla 1. Distribución de departamentos del Perú,


según tasa de letalidad por coronavirus

Letalidad (%) N° de departamentos


4á6 2
6á8 1
8 á 10 5
10 á 12 2

Datos hipotéticos

2) Seleccionar los contenidos de ambas columnas (sin los encabezados).


3) Insertar/Gráficos recomendados/Aceptar. (Aparece el gráfico por defecto,
con rectángulos separados).
4) Clic fuera del gráfico.
5) Doble clic en cualquier barra. (Se marcan las esquinas de los rectángulos con
círculos pequeños).
6) En OPCIONES DE SERIE colocar, manualmente, 0% en Ancho del
Intervalo.
7) Clic fuera del gráfico (se exhibe el histograma).
8) Clic dentro del histograma.
9) Clic en signo +.
10) Activar con aspa “Ejes”, “Títulos de ejes”, “Título del gráfico” y “Etiquetas
de datos”.
11) Editar lo que está en 10), dando nombre a ejes y título al gráfico.
Ejecutando estos pasos se obtiene el gráfico que sigue a continuación:
Distribución de departamentos según tasa de le-
talidad por coronavirus-Perú 2020
6
5
Número de departamentos 5

3
2 2
2
1
1

0
[4 , 6) [6 , 8) [8 , 10) [10 , 12)
Tasa de letalidad (%)

Datos hipotéticos

B. GRÁFICO DE BARRAS

El gráfico de barras se utiliza para representar la información referente a una


variable cualitativa.
Para construirlo, se utiliza el plano cartesiano. En el eje de las abscisas se coloca
las categorías de la variable cualitativa y en el eje de las ordenadas van las
frecuencias simples (absolutas, relativas o porcentuales). A partir de cada
categoría se levanta un rectángulo (o barra), cuya altura es proporcional a la
frecuencia simple de la categoría y el ancho es homogéneo para todos ellos.
Todos los rectángulos van separados por una distancia de la misma longitud. Por
lo general, los rectángulos deben diferenciarse de algún modo, por ejemplo,
según tipo de sombreado o, simplemente, por color.

CONSTRUCCIÓN DE UN GRÁFICO DE BARRAS SIMPLES CON


EXCEL

1) Ingreso de datos en dos columnas cualesquiera, como por ejemplo:

Categorías Frecuencias
A 8
B 3
… …
2) Seleccionar los contenidos de ambas columnas, incluyendo los encabezados.
3) Insertar/Gráficos recomendados.
4) Seleccionar el gráfico de barras/Aceptar.
5) Clic en + (ubicado en parte superior, a la derecha del gráfico)
6) Marcar Título, ejes, etiquetas de datos.
7) Colocar título a gráfica y nombrar ejes.
8) Clic en cualquier rectángulo (se marcan todos los rectángulos, con círculo
pequeños).
9) Clic sobre el rectángulo que se desea cambiar de color (se marca sólo el
rectángulo que se desea cambiar de color).
10) Clic derecho/Relleno/Dar el color deseado y repetir los pasos 6), 7) y 8) para los
demás rectángulos.

Ejemplo:
La siguiente información corresponde al número de personas fallecidas por
Coronavirus en el Perú, durante los 5 últimos días del mes de junio de 2020.
(Fuente: elaboración propia, utilizando los comunicados del MINSA N°s: 146, 147,
149, 151, 152 y 153):
Tabla 2. Número de personas fallecidas por Coronavirus en el Perú, durante los 5
últimos días del mes de junio de 2020

Fecha N° de fallecidos
26/06/2020 178
27/06/2020 196
28/06/2020 182
29/06/2020 187
30/06/2020 173
Elaboración propia, utilizando comunicados del
MINSA N°s: 146, 147, 149, 151, 152 y 153

Utilizando Excel y los pasos anteriores, se obtiene el siguiente gráfico de barras


simples:

Figura 2.

N° de fallecidos por coronavirus-Perú 2020


200
196
195
190
Número de fallecidos

187
185 182
180 178
175 173
170
165
160
6/26/2020 6/27/2020 6/28/2020 6/29/2020 6/30/2020
Fecha

Elaboración propia.Comunicados MINSA N°s: 146, 147, 149, 151, 152 y 153

Interpretación: El día donde se produjo más fallecidos fue el 27/06/2020; en


tanto que el 30/06/2020 falleció el menor número de personas. (Cabe resaltar
que el gráfico de barras, también se lo puede construir, manualmente. En esta
ocasión, el gráfico anterior se lo ha construido utilizando el programa EXCEL).
C. GRÁFICO CIRCULAR

Además del gráfico de barras, el gráfico circular (llamado también: gráfico de


sectores circulares o gráfico de pastel) constituye también, una alternativa para
representar la información de una variable cualitativa.

Su construcción se realiza sobre una circunferencia, con tantos sectores


circulares como categorías tenga la variable cualitativa. Los grados
sexagesimales de cada sector circular se obtienen mediante una regla de tres
simple, tomando como base que la totalidad de la circunferencia tiene 360
grados. El área de cada sector circular es proporcional a la frecuencia de la
categoría correspondiente.

CONSTRUCCIÓN DE UN GRÁFICO CIRCULAR CON EXCEL

1) Ingreso de datos en dos columnas cualesquiera, como por ejemplo:

Categorías Frecuencias
A 8
B 3
… …

2) Seleccionar los contenidos de ambas columnas, incluyendo los encabezados.


3) Insertar/Gráficos recomendados/Seleccionar el gráfico circular/Aceptar. (Se
exhibe el gráfico circular, con las categorías diferenciadas por color).
4) Clic en + (ubicado en parte superior, a la derecha del gráfico)
5) Marcar Título del gráfico, ejes, Etiquetas de datos, Leyenda.
6) Clic fuera del gráfico.
7) Colocar título a gráfica.

Ejemplo:

Utilizando EXCEL, se puede construir un gráfico circular, mediante la información


contenida en el Ejemplo utilizado en el Gráfico de Barras, acerca del Número de
fallecidos durante los últimos 5 días del mes de Junio de 2020.
Figura 3. N° diario de fallecidos por Coro-
navirus, del 26 al 30 de junio de 2020-
Perú

173 178

187 196

182

06/26/2020 06/27/2020 06/28/2020 06/29/2020 06/30/2020


Comunicados del MINSA N°s: 146, 147, 149, 151, 152 y 153

Interpretación: Le corresponde la misma interpretación que la del gráfico de barras.

Los grados sexagesimales de cada sector circular se obtienen utilizando una regla de
tres simple. Por ejemplo, a la categoría “29/06/2020” (187 fallecidos) le corresponde
73.5°. De igual modo, se puede calcular los grados sexagesimales para las demás
categorías.

Ejercicio:

Comprobar los 73.5° del ejemplo anterior y obtener los demás grados sexagesimales
para las otras categorías. Luego, construya un gráfico circular, utilizando el porcentaje
de fallecidos en cada día, considerando como 100% a la totalidad de ellos (916).

D. GRÁFICO DE SERIES DE TIEMPO

El gráfico de series de tiempo, conocido también con los nombres de gráfico lineal,
gráfico de líneas, gráfico de series cronológicas o gráfico de series temporales,
se utiliza cuando la variable es cuantitativa y sus n valores (xi) suceden a través
de n períodos de tiempo (ti) (por ejemplo, de modo diario, semanal, mensual,
anual, etc.).

El gráfico de series de tiempo se construye sobre el eje cartesiano, colocando en el


eje de las abscisas los períodos de tiempo y en el eje de las ordenadas los valores
de la variable cuantitativa. Finalmente, los n puntos bidimensionales (ti, xi), i =
1, 2, …, n se unen mediante una línea poligonal. Al igual que los demás gráficos,
el gráfico de series de tiempo se lo puede construir, manualmente.

Ejemplo:
El siguiente gráfico corresponde a uno de series de tiempo (construido con el
programa estadístico MINITAB), donde la información tabular toma la forma
siguiente, en que se ha considerado como variable el porcentaje diario de casos
confirmados por coronavirus (datos del Perú, durante la aparición del Coronavirus-
Covid 19. La información de las líneas punteadas se encuentran en el gráfico
mismo ):

Porcentaje diario de casos de coronavirus


en el Perú, entre el 16 de marzo y el 01 de abril de 2020

Porcentaje de casos Día


3 16/03/2020
6 17/03/2020
10 18/03/2020
12 19/03/2020
6 20/03/2020
. .
. .
. .
13 30/03/2020
11 31/03/2020
23 01/04/2020
Elaboración propia con comunicados
del MINSA

Figura 4.
Interpretación:
El 01 de Abril de 2020 se produjo el mayor porcentaje de casos de Coronavirus,
mientras que el día 16 de Marzo de 2020 se presentó el menor porcentaje de
casos confirmados. A partir del día 28 de Marzo se aprecia una tendencia
ascendente del porcentaje de casos positivos, aunque el día 31 de Marzo se
produjo una ligera disminución de este porcentaje.

GENERACIÓN DE NÚMEROS ALEATORIOS SIN


REPOSICIÓN CON EXCEL
Ejemplo:
Seleccionar, de un universo constituido por los N=29 estudiantes de la Escuela
Académico Profesional de Ciencia Política y Gobernabilidad de la UNT, matriculados en
el curso de Estadística Aplicada, sección A, en el semestre 2023-II, una muestra
aleatoria de tamaño n=5 estudiantes para preguntarles por su lugar de procedencia.

Solución:
1° En una celda cualquiera, por ejemplo en la celda A2, escribir:

=ALEATORIO()Enter

Se genera el primer número aleatorio (el cual es un número decimal comprendido


entre 0 y 1). Para generar el resto de números aleatorios, se arrastra el cursor,
verticalmente hacia abajo (iniciando en el primer número aleatorio generado),
hasta completar los N=29 números aleatorios.
Otra forma: Seleccionar las N=29 celdas consecutivas de la columna A (o de otra
columna) y escribir:

=ALEATORIO()Ctrl/Shift/Enter

Como resultado, se generan los N=29 números aleatorios.


2° A la derecha y a continuación de la celda A2, es decir en celda B2 (u otra, distinta
de A2; por ejemplo, en C2, D2, …), escribir:

=JERARQUIA(A2,$A$2:$A$30)Enter
Con esto, en la celda B2 se genera el primer número aleatorio. (La expresión entre
paréntesis se obtiene con el cursor y equivale a seleccionar las N=29 celdas
comprendidas entre A2 y A30). En el caso de A2:A30, se coloca manualmente el
signo $, antes y después de la letra A. Por otro lado, los números jerarquizados
obtenidos corresponden al orden en que aparecen los números decimales del paso
1°, de mayor a menor. Por ejemplo, si los números decimales obtenidos en el paso
1° fueran: 0.58554214, 0.06523465, 0.91265998, 0.14447025, 0.36592409, los
números jerarquizados obtenidos serán: 2, 5, 1, 4, 3.

3° Arrastrar el cursor hacia abajo, desde B2 hasta B6 (porque entre B2 y B6 existen 5


celdas, lo cual origina los n=5 alumnos seleccionados para la muestra).

DETERMINACIÓN DE FRECUENCIAS ABSOLUTAS SIMPLES


CON EXCEL

1) Ingresar los n datos en cualquier columna, con encabezado “Datos”.


2) En otra columna digitar los límites superiores de los intervalos cerrados de
la tabla, encabezándola con “Grupos”.
3) Seleccionar otra columna, del mismo tamaño que la del paso 2) y escribir en
la primera celda de dicha columna la siguiente expresión:

=Frecuencia(Datos; Grupos)

y, a continuación, presionar las teclas Ctrl Shift Enter, simultáneamente.


Aparecerán en la columna seleccionada las frecuencias absolutas (fi).

EJERCICIOS

1. Utilizando los cuadros construidos en los incisos a) y b) del ejercicio 7 (página


24), construya un histograma de frecuencias para cada caso. Interprete.

2. Se asignaron al azar 4 conferencias sobre Derecho Civil a cada uno de cuatro


métodos de publicidad y se midió el número de estudiantes asistentes,
obteniéndose los siguientes datos:

Volantes Televisión Afiches Aulas


99 115 91 108
104 118 96 111
108 120 99 115
112 126 102 119
Construya un gráfico de barras y un gráfico circular, utilizando el número total
de personas asistentes en cada método.

3. La evolución histórica del número diario de casos confirmados por Coronavirus


Covid-19 en el Departamento de La Libertad, entre el 21 y el 29 de junio de
2020, es la siguiente: 196, 144, 133, 191, 241, 217, 183, 202, 164, en los días:
21, 22, 23, 24, 25, 26, 27, 28 y 29 de junio de 2020, respectivamente. (Fuente:
Elaboración propia, utilizando la información contenida en los comunicados del
MINSA-Perú N°s: 139, 140, 142, 143, 144, 146, 147, 149, 151, 152). Construya
e interprete un gráfico de series de tiempo.

MEDIDAS ESTADÍSTICAS
Una tercera forma de presentar la información (recordemos que, hasta este momento,
hemos visto que ésta se puede presentar en forma de tablas o cuadros y,
gráficamente) es a través de medidas estadísticas.

Una medida estadística es un valor que representa a la totalidad de los datos. Existen
muchas medidas estadísticas. A continuación describimos las siguientes, por tener
mucha aplicación: medidas de posición (llamadas también medidas de tendencia
central, porque se posicionan en la parte central de los datos: media, mediana, moda)
y las medidas de dispersión (o medidas de variabilidad, indican el grado de variabilidad
o dispersión de los datos con respecto a una medida de posición: varianza, desviación
estándar y coeficiente de variación).

MEDIDAS DE TENDENCIA CENTRAL

MEDIA

Los periódicos, las revistas y la conversación de cada día, a menudo mencionan el


“promedio” o la “media”. Por ejemplo, el número “promedio” de niños por familia es
1.9; la edad “promedio” de los estudiantes de nuestra clase es de 19.3 años; el precio
“medio” de mascarillas “3M 1860” vendidas en un día particular por las farmacias de
Trujillo es de 11.8 soles; el número medio de trabajadores por oficina en una
dependencia judicial es igual a 3.5; etc.

Cuando la variable cuantitativa de interés se representa por X, su media en una


muestra de n individuos se denota usualmente por x̄ , aunque también puede
utilizarse las siguientes notaciones: E(X) ó M(X).
CÁLCULO DE LA MEDIA PARA DATOS ORIGINALES:
Si los datos están sin agrupar en intervalos (en cuyo caso, diremos que los datos son
originales), la media de los n datos se obtiene a través de la siguiente fórmula:

n
∑ xi
x̄= i=1
n

Observación:
En general,
2 2
E( X )≠[ E( X ) ] .

En el Ejemplo 3 que se proporciona más adelante, se comprueba que, efectivamente,


la desigualdad anterior se cumple. Es decir, no siempre la media del cuadrado de una
variable X es igual al cuadrado de su media.

Ejemplo 1:

Calcular e interpretar la media del número diario de personas infectadas con el


coronavirus y recuperadas, entre el 30 de junio y el 4 de julio de 2020 (n= 5 días):
3376, 3710, 3852, 3755, 3769 (datos originales).

Solución:

n
∑ xi
3376+3710+3852+3755+ 3769 18462
x̄= i=1 = = =3692. 4
n 5 5

“El número medio de personas recuperadas por día es igual a 3692.4, en el período 30
de junio-4 de julio de 2020”.

CÁLCULO DE LA MEDIA PARA DATOS AGRUPADOS EN INTERVALOS:


Si los n datos de una muestra están agrupados en intervalos semiabiertos por la
derecha, la media se obtiene así:
m
∑ xi f i
x̄= i=1
n
donde m x i es la marca de clase del i−ésimo
representa el número de intervalos,
f
intervalo y la i−ésima frecuencia absoluta simple está representada por i .

Ejemplo 2:

Calcular e interpretar la media del salario (en miles de dólares), X, por trabajador del
Ministerio de Justicia, cuya información, para una muestra de 20 trabajadores, se
resume en la siguiente tabla:

[Salario) Número de trabajadores (fi)


1.0 - 1.50 4
1.50 - 2.00 7
2.00 - 2.50 3
2.50 - 3.00 4
3.00 - 3.50 2
TOTAL 20

Solución:

xi f i xi f i
1.25 4 5.00
1.75 7 12.25
2.25 3 6.75
2.75 4 11.00
3.25 2 6.50
TOTAL 20 41.50

m
∑ xi f i
41. 50
x̄= i=1 = =2. 075
n 20 .
“El salario promedio, por trabajador, es de 2.075 dólares (dos mil setenticinco
dólares)”.
Ejemplo 3:
Un grupo de 5 terrenos invadidos (de forma cuadrada cada uno), tiene las siguientes
dimensiones (en metros) de uno de sus lados: 15, 10, 8, 8, 11. Calcular e interpretar el
área media de los terrenos.
Solución:
Denotemos por X a la longitud de cada lado de los terrenos. Por lo tanto, el área de
cada uno de ellos será igual a X 2. Se pide calcular la longitud media por lado, E(X), y la
media del área de los terrenos; es decir, la media de X2, E(X2).
Media por lado de los terrenos:
n 5
∑ xi ∑ xi
i=1 15+ 10+8+8+11 52
= i=1 = = =10 . 4 m
x = E( X )= n 5 5 5

“la longitud media por lado de los terrenos es igual a 10.4 metros”.

Media por área de los terrenos:


La media de X2, E(X2), será:
n
∑ x 2i
i=1
2
E( X )= n
Reemplazando los datos, se tiene:
n 5
∑ x 2i ∑ x2i x21 + x 22 + x 23 + x 24 + x 25 15 2 +102 + 82 +8 2 +112
i=1
= i=1 =
E( X 2 )= n 5 5 5
225+ 100+64+ 64+121 574
= = =114. 8 m2
5 5
“el área media por terreno es de 114.8 metros cuadrados”.
Notemos que, en este ejemplo, se cumple la relación:
2 2
E( X )≠[ E( X ) ] . En efecto,
2
E( X )=10 . 4 ⇒ [ E( X )] =(10 . 4 )2 =108. 16 ;
E( X 2 )=114. 8 .

Con lo cual, vemos que 114 .8≠108 .16

EJERCICIOS

1. El gasto (en nuevos soles) en tasas judiciales de 10 personas, X, es: 5, 8, 8, 10, 4, 6,


6, 7, 15, 10. Hallar e interpretar el gasto promedio. (Rpta.: 7.9)
2. Si el número de personas en el ejercicio 1 es igual a 200 y la información pertinente
es la del cuadro siguiente:

[Gasto) Número de personas (fi)


5- 10 20
10 - 15 40
15 - 20 80
20 - 25 50
25 - 30 10
TOTAL 200

Calcular e interpretar la media. (Rpta.: 17.25).

MEDIANA

La mediana de n datos de una variable cuantitativa X, que la denotamos por Md, es


aquel valor, por debajo del cual está, a lo más, el 50% de los datos y por encima, al
menos, dicho porcentaje.

CÁLCULO DE LA MEDIANA PARA DATOS ORIGINALES:


Una vez que los datos se han ordenado ascendentemente, la mediana (cuando los
datos están sin agrupar en intervalos; o lo que es lo mismo, cuando los datos son
originales) se obtiene, según que el número de datos, n, sea par o impar:

a) n impar:

Md=x
[ ]
n+1
2

b) n par:

x +x
Md=
[] [ ]
n
2
n+2
2
2

donde las cantidades dentro de los corchetes indican el orden que ocupa el valor de
la variable X en la serie ordenada, ascendentemente, de los datos.
Ejemplo 1:
Calcular e interpretar la mediana del siguiente número de hijos de 7 profesores de la
Facultad de Derecho de la UNT: 3, 3, 1, 4, 2 ,2, 3.
Solución:
n = 7 (caso a, n impar).

Ordenando los datos, de menor a mayor:


x [i] : 1, 2, 2, 3, 3, 3, 4.

[i ] [1] [2 [3] [4 [5] [6 [7]


] ] ]
x [i] 1 2 2 3 3 3 4

La mediana se ubica en la parte central de los datos, de manera exacta:


Md=x =x [ 4] =3
[ ] n+1
2
.

Interpretación:
“El número máximo de hijos en la mitad de los profesores es de 3”.

Ejemplo 2:
Calcular e interpretar la mediana del número diario de pacientes recuperados por
coronavirus: 3161, 3376, 3710, 3852, 3755, 3769, entre el 29 de junio y el 4 de julio de
2020 (Perú-2020).

Solución:
n = 6 (caso b, n par).
Ordenando los datos, de menor a mayor: 3161, 3376, 3710, 3755, 3769, 3852.

[i ] [1] [2] [3] [4] [5] [6]


x [i] 3161 3376 3710 3755 3769 3852

La mediana se encuentra entre los valores de la variable resaltados y su valor será igual
al promedio de éstos:
x +x x +x
Md=
[ ] [ ] = [ ] [ ] = x [ ] + x [ ] =3710+3755 =7465 =3732 . 5
n
2
n+2
2
6
2
6+2
2 3 4
2 2 2 2 2
Interpretación:
“El número máximo de pacientes recuperados en la mitad de los días de la muestra fue
de, aproximadamente, 3732 pacientes”.
Nota:
En este ejemplo, hemos aplicado la siguiente regla de redondeo: “cuando, en el
proceso de redondeo, se va a eliminar, exactamente, el 5, y la cifra que le antecede
es par, dicha cifra debe permanecer en el redondeo; si fuera impar, debe agregarse
una unidad.

CÁLCULO DE LA MEDIANA PARA DATOS AGRUPADOS EN INTERVALOS:


Para datos agrupados en intervalos semiabiertos por la derecha, se obtiene la
mediana del siguiente modo:
n
c ( −Fi−1 )
2
Md=LI i +
fi

donde:
i : orden del intervalo que contiene a la mediana.

El valor de i se obtiene utilizando la relación siguiente:


n
< Fi
2
n
F
( i es la frecuencia absoluta acumulada que supera inmediatamente a 2 )
LI i : límite inferior del i−ésimo intervalo que contiene a la mediana.

F i−1 : frecuencia absoluta acumulada del intervalo “i−1 ” ésimo.

c : amplitud del intervalo que contiene a la mediana.

f i : frecuencia absoluta simple del i−ésimo intervalo que contiene a la mediana.

Ejemplo 3:
Utilicemos la tabla del salario (en miles de dólares), X, por trabajador del Ministerio de
Justicia (en la que hemos agregado una columna, correspondiente a las frecuencias
absolutas acumuladas) y calculemos la mediana.
i [ x ´ i−1 , x´ i ) fi Fi
1 1.00 - 4 4
2 1.50 7 11
3 1.50 - 3 14
4 2.00 4 18
5 2.00 - 2 20
2.50
2.50 -
3.00
3.00 -
3.50
TOTAL n=20
Solución:

(1) Cálculo de “i ”:

n
< Fi
El valor de i lo obtenemos utilizando la relación: 2

n 20
2 = 2 = 10

n 20
< Fi =10<11=F2
2 ⇒ 2 ⇒ i=2

(2) Cálculo de la mediana:

n
c ( −Fi−1 )
2
Md=LI i + =
fi

(0 .5 )(10−F 1 ) (0 . 5 )(10−4 ) (0 . 5 )(6 )


LI 2 + 1 .50+ 1 .50+
= f2 = 7 = 7 =1.93
(3) Interpretación:

“El salario máximo en la mitad de los trabajadores fue igual a 1.93 miles de dólares
(mil novecientos treinta dólares)”.

MODA

Cuando un conjunto de datos está en forma original (sin agrupar en intervalos), la


moda, que la denotamos como
M o , es el valor de la variable que ocurre con más
frecuencia.

CÁLCULO DE LA MODA PARA DATOS ORIGINALES:


Cuando los datos están en forma original, la moda se calcula, simplemente, aplicando
la definición.
Ejemplo 1:
La moda de la edad (en años cumplidos) de 5 estudiantes de nuestra clase: 18, 19, 18,
20, 18, es igual a 18 años, puesto que 18 se repite con mayor frecuencia.
Interpretación:
“la edad modal es igual a 18 años” o “la edad más frecuente es igual a 18 años”.

A menudo, no tiene sentido calcular la moda cuando se tiene pocos valores o cuando
ningún valor puede repetirse.
Ejemplo 2:

El precio (en miles de dólares) de 10 terrenos invadidos y recuperdos por la justicia es:
85, 70, 85, 91, 22, 35, 70, 91, 22, 41. Cada uno de los cuatro precios: 85, 70, 91 y 22, se
repite dos veces y se dice que existen 4 modas, pero ninguna de ellas es útil como una
medida central de los pesos.

Ejemplo 3:

El número de hijos de 5 trabajadores de un estudio jurídico es: 2, 1, 4, 3, 0. Se observa


que el número de hijos no tiene valores repetidos; por lo tanto, decimos que no existe
moda.

CÁLCULO DE LA MODA PARA DATOS AGRUPADOS EN INTERVALOS:


Cuando los datos están agrupados en intervalos semiabiertos por la derecha, la moda
se obtiene de la siguiente manera:
c ( d1 )
Mo=LI i +
d 1 +d 2 ,
donde:

 “i ” (orden del intervalo que contiene a la moda) se obtiene utilizando la


relación siguiente:

f i−1 < f i > f i+1 ;


d 1 =f i−f i−1 ;

d 2 =f i−f i+1 .
Ejemplo 4:
Calcular la moda de la siguiente información, correspondiente a X: “número diario de
protectores faciales” vendidos en una farmacia, que utilizarán los trabajadores de una
dependencia judicial, durante un período de 34 días consecutivos (datos hipotéticos):

i [ x ´ i−1 , x´ i ) fi
1 0- 5 4
2 5 - 10 15
3 10 - 15 8
4 15 - 20 4
5 20 - 25 3
TOTAL n=34

Solución:

(1) Cálculo de “i ”:

f i−1 < f i > f i+1

Para utilizar esta relación, observamos la columna correspondiente a las frecuencias


absolutas simples, donde se aprecia que

4 < 15 > 8

Dichas cantidades, en notación, corresponden a:

f 1=4 , f 2=15 y f 3 =8

⇒ f 2−1 =f 1 =4< f 2 =15> f 2+1 =f 3 =8 ⇒ i=2

Por lo tanto, la clase modal (la que contiene a la moda) es la segunda (i=2 ):
[5 – 10). Esto quiere decir que la moda se encontrará en el segundo intervalo.

(2) Cálculo de d rSub { size 8{1} } y de d rSub { size 8{2} } :

d 1 =f i−f i−1 = f 2−f 2−1 =f 2 −f 1 =15−4=11

d 2 =f i−f i+1 = f 2−f 2+1 =f 2 −f 3 =15−8=7

(3) Cálculo de la moda:


c ( d1 ) c ( d1 ) 5(11 )
Mo=LI i + LI 2 +
d 1 +d 2 = d 1 +d 2 =5+11+7 = 8.06
Como podemos notar, 8.06 pertenece al intervalo [5 – 10).

(4) Interpretación:

“El número de protectores faciales que se ha vendido con más frecuencia en la


farmacia, durante los 34 días consecutivos, está alrededor de 8”.

MEDIA, MEDIANA, MODA E HISTOGRAMAS


El histograma de una distribución que presenta un pico (parte elevada) podría
parecerse a las Figuras 1, 2 y 3 siguientes:

Mediana y media
Frecuencia
0.15 relativa

0.10

0.05

Figura 1. Distribución aproximadamente simétrica

La Figura 1 muestra una distribución que es aproximadamente simétrica o insesgada


(es decir, que el lado a la izquierda del pico del histograma es casi un fiel reflejo del
lado derecho). Cuando la distribución es exactamente simétrica, cada valor a la
izquierda del pico del histograma está balanceado por uno a la derecha, de modo que
la media y la mediana coincidirán.
Mediana
Media
Frecuencia relativa
0.15

0.10

0.05

Figura 2. Distribución sesgada a la derecha

La distribución en la Figura 2 se dice que es sesgada a la derecha o positivamente


asimétrica, porque existen unos pocos valores extremos altos a la derecha del pico del
histograma. Estos valores extremos aumentan la media de los datos pero no afectan a
la mediana; por lo tanto, la media será mayor que la mediana.

Mediana

Frecuencia relativa Media


0.15

0.10

0.05

Figura 3. Distribución sesgada a la izquierda

La Figura 3 muestra la situación contraria a la de la Figura 2 y la distribución es


sesgada a la izquierda o de asimetría negativa pues, unos pocos valores extremos
bajos estiran la media hacia abajo, de modo que la media es menor que la mediana.
Tanto en la Figura 2 como en la Figura 3, la mediana cae entre la media y la moda. La
moda corresponde al valor de la variable donde se observa el pico del histograma.
En consecuencia, LOS VALORES RELATIVOS DE LA MODA, LA MEDIANA Y LA MEDIA
INDICAN SI LA DISTRIBUCIÓN ES SESGADA A LA IZQUIERDA O A LA DERECHA.

Ejemplo:
El costo medio de las tasas judiciales que se venden en el Banco de la Nación de Trujillo
es de 25.50 nuevos soles y la mediana es 17.71 nuevos soles. Sin mirar a una exhibición
gráfica, ¿qué se puede deducir acerca de la simetría o sesgo de la distribución de los
costos?.
Solución:
Como la media es mayor que la mediana, unos cuantos valores altos del costo de las
tasas judiciales están agrandando a la media, pero no afectan a la mediana. Por lo
tanto, la distribución de costos de las tasas judiciales es sesgada a la derecha (esto se
puede confirmar, observando nuevamente a la Figura 2).

Ejercicios resueltos o con guía de solución:


1. Los tiempos de espera (en minutos) de 20 trabajadores del Ministerio Público para
abordar el bus son: 12, 15, 20, 22, 14, 14, 15, 27, 21, 18, 19, 18, 22, 31, 16, 18, 17,
23, 28, 13. ¿Es la mediana del tiempo de espera de los pasajeros mayor o menor que
el tiempo medio de espera por trabajador?. ¿Es posible calcular la moda de los
tiempos de espera y, de ser así, cuánto vale ella?.

Solución:
m
∑ xi f i
383
x̄= i=1 = =19 .15
n 20 minutos

x +x
Md=
[ ] [ ] = x[
n
2
n+2
2 10 ] + x [ 11 ]
=
18+ 18
=18
2 2 2 minutos

Mo =18 minutos

La mediana es menor que la media, por lo tanto, la distribución de los tiempos de


espera es sesgada a la derecha. La moda es igual a 18, porque 18 minutos se repite
3 veces (mayor número de repeticiones que los demás tiempos de espera).

2. Calcular e interpretar la media y la mediana de los siguientes datos originales,


correspondientes al salario mensual ($) de un grupo de trabajadores de una de una
Notaría:
846, 1200, 824, 1367, 2479, 925, 457, 2164, 824, 575, 1238, 1284, 563, 746, 1310,
1252, 927, 1279, 1466, 1611, 1007, 1354, 1253, 1660, 860.

Guía de Solución:

x̄= $ 1178.84; Md= 1238. (Verificar estas cantidades e interpretarlas).


3. Los siguientes datos corresponden al producto bruto interno (PBI, en %) de un país,
durante 30 años consecutivos: 6.0, 6.6, 7.9, 13.5, 8.0, 8.2, 10.4, 6.9, 6.8, 9.9, 7.7, 6.9,
10.5, 8.2, 7.4, 6.9, 7.4, 7.2, 9.0, 7.1, 6.7, 9.5, 9.5, 11.1, 8.1, 8.2, 8.2, 6.5, 8.1, 7.3.
Construya una tabla de distribución de frecuencias en intervalos regulares
semiabiertos por la derecha de amplitud igual a 1%, cuya primera clase va desde 6%
hasta menos de 7%. Luego, utilizando esta tabla, calcule e interprete la media y la
mediana. Determine la clase modal y la moda del histograma de frecuencias.

Guía de Solución:

La tabla contiene 6 intervalos regulares semiabiertos por la derecha. x̄= 8.27%;


Md= 8%. Como la media es mayor que la mediana, existen unos cuantos valores
extremadamente grandes del PBI y, por lo tanto, la distribución es sesgada a la
derecha. La clase modal de un histograma con amplitud interválica de 1%, comienza
en 6% y corresponde a la clase “6% hasta menos de 7%”. La moda es igual a 6.89%.

Ejercicios:
1. Calcular e interpretar la media, la mediana y la moda (si existe) de los siguientes
datos originales, acerca del número diario de personas recuperadas por coronavirus
en el Perú, desde, consecutivamente, el 29 de junio hasta el 10 de julio de 2020:
3161, 3376, 3710, 3852, 3755, 3769, 4336, 3662, 3319, 3810, 3054, 2836. (Datos
obtenidos, a partir de los comunicados del MINSA).

2. Calcular la media y la mediana de las edades de 50 jueceslas: 42, 50, 40, 25, 58, 61,
43, 26, 30, 32, 30, 64, 31, 54, 32, 53, 31, 36, 52, 30, 34, 40, 40, 32, 49, 40, 57, 30, 52,
26, 33, 60, 30, 47, 28, 50, 43, 74, 58, 49, 23, 55, 46, 37, 37, 50, 35, 30, 32, 29. ¿Se
podría esperar que la distribución de las edades sea sesgada a la izquierda o a la
derecha o simétrica?.

3. En una encuesta de familias conducida por el Departamento de Tráfico de una


ciudad, se recolectó la siguiente información acerca de la posesión de vehículos:

Número de vehículos por Número de familias


familia
0 300
1 420
2 180
3 60
4 40

Calcular la media y la mediana del número de vehículos que tienen estas familias. Se
puede calcular la moda? y si es así, cuál es ella?. Determine la media del cuadrado
del número de vehículos por familia y compruebe que este resultado difiere del
cuadrado de la media (sugerencia: utilizar la observación, considerada
anteriormente en el estudio de la media).
4. Construya una tabla de distribución de frecuencias en 5 intervalos regulares
semiabiertos por la derecha, utilizando la siguiente información acerca del número
diario de resultados positivos en las pruebas moleculares y/o serológicas, realizadas
a personas muestreadas de la Región La Libertad, entre el 13 de junio y el 10 de
julio de 2020 (el primer dato corresponde al 13 de junio, el segundo al 14 de
junio, etc.) : 196, 213, 152, 188, 135, 125, 221, 125, 196, 144, 133, 191, 241, 217,
183, 202, 164, 106, 186, 185, 176, 218, 229, 94, 121, 165, 158, 135. Luego,
utilizando la tabla construida, calcule la mediana, la mediana y la moda. ¿Es la
distribución de los datos sesgada?. Si fuera así, a la izquierda o a la derecha?. Ubique
en un gráfico las medidas calculadas. Comente.

MEDIDAS DE DISPERSIÓN

Cada una de las medidas estudiadas anteriormente (media, mediana y moda) nos
indica alrededor de qué valores están distribuidos los datos, pero no nos expresa si los
datos están concentrados alrededor de esos valores (si son cercanos a ellos) o
dispersos (si están alejados).
Ejemplo 1:
Consideremos las edades de:
Grupo A:
5 estudiantes de nuestra clase (edades: 17, 18, 19, 20 y 21). La edad promedio es igual
a 19 años
Grupo B:
Otras 5 personas diferentes que acuden al cine (edades: 4, 9, 19, 29 y 34). De igual
modo, la edad promedio es igual a 19.
En el Grupo A, las 5 edades están cerca de la media (concentradas a su alrededor: la
distribución es homogénea o presenta poca dispersión), en tanto que en el Grupo B
las edades están lejos de la media (dispersas: la distribución es heterogénea o
presenta mucha dispersión).
Para poder evaluar la calidad de las medidas de tendencia central y, en particular, de la
media, es importante conocer la dispersión de los datos, debido a que en una
distribución muy dispersa, la media será un “promedio de valores muy diferentes
entre sí” y no será tan fiel a los datos como si estos fueran similares. Por ejemplo, la
edad promedio de 19 años del Grupo A es una mejor medida resumen que la misma
media de 19 años del Grupo B, ya que la primera representa mejor a los datos
originales. Es por ello que afirmamos que en el Grupo A, “la media es más
representativa de las edades de las que proviene”, por tener éstas poca dispersión.
Ejemplo 2:
Utilizando los siguientes conjuntos sencillos de datos, acerca del puntaje que
obtuvieron un grupo de 12 abogados en una prueba de selección de personal en las
notarías A y B:
A: 0 48 49 51 52 100
B: 47 48 49 51 52 53
Tanto la media como la mediana de ambos conjuntos de datos son iguales a 50; es
decir, ambas distribuciones son simétricas. No obstante, ellas son muy diferentes. No
es suficiente describir los datos, midiendo dónde cae el centro: debemos también
considerar cómo están dispersos.
La forma más sencilla de medir la dispersión de un conjunto de datos, consiste en
calcular el rango, pero veremos que esto no es la forma más confiable, pues existen
mejores medidas de dispersión, como la varianza y el coeficiente de variación, que las
estudiaremos posteriormente.

RANGO
Como vimos anteriormente, al considerar la construcción de una tabla de distribución
de frecuencias, el rango es simplemente la diferencia entre el valor mayor y el menor
de los datos.
Si tenemos en cuenta los datos del Ejemplo 2 anterior, el rango de ambos grupos, es:
Rango (A ) = 100 – 0 = 100
Rango (B) = 53 – 47 = 6 (mucho menor que 100).
Ahora comparemos los datos del grupo A con un nuevo conjunto de datos, C, dado a
continuación:

A: 0 48 49 51 52 100
C: 0 1 1 99 99 100

Ambos conjuntos de datos tienen el mismo rango de 100 y todavía los valores en A son
mucho más centrales que los de C. Por tanto, el rango de un conjunto de datos no es
una buena medida de dispersión, porque sólo usa los valores mínimo y máximo de los
datos. Se necesita una medida de dispersión que se calcule usando todos los datos,
como la varianza.

VARIANZA
La varianza es la medida de dispersión más versátil de un conjunto de datos,
convirtiéndose en una medida muy valiosa de la dispersión: “los datos son más
heterogéneos o están más dispersos a medida que aumente el valor de la varianza ”.
La varianza es una de las ideas cruciales de la Estadística.
La varianza de los n datos de una variable X, se determina utilizando la siguiente
fórmula:
n
∑ ( x i −x )2
V ( X )= i=1
n
Otra forma de obtener la varianza es:
2 2
V ( X )=E ( X )−[ E( X ) ]
El valor de la varianza no puede ser negativo y será igual a 0 si todos los datos
coinciden con la media.
Aunque probablemente se use una computadora para determinar la varianza de un
conjunto de datos, el cálculo manual sirve para comprender lo que es la varianza.
Si tenemos en cuenta la primera fórmula para calcular la varianza, se observa que ella
se basa en la suma de los cuadrados de las diferencias entre cada valor y la media y, a
medida que los valores se alejen de la media, ella será más grande.
La varianza es una buena medida de dispersión porque puede discernir entre
muestras como los conjuntos de datos A y C, los cuales tienen la misma media (50) y el
mismo rango (100), pero el conjunto C es más disperso que el A.
Cuando se pretende interpretar la varianza, se presenta dos inconvenientes. Primero,
sus unidades están elevadas al cuadrado; por lo que, por ejemplo, si medimos número
de hijos, la varianza se expresa en número de hijos al cuadrado, lo cual no tiene
significado. Segundo, no tiene límite superior y su valor puede ser muy grande y no
tenemos con qué compararlo para saber si indica una gran variabilidad o si los valores
de la variable lo son.

Reconocimiento de la varianza:
La Figura 4 que sigue, muestra los histogramas de tres conjuntos de datos. Cada
conjunto tiene 400 valores, es aproximadamente simétrico y tiene una media de 30.
Pero la varianza del primer conjunto de datos es 16, la del segundo es 36 y la del
tercero es 121 (las desviaciones estándar, que veremos luego, son iguales a 4, 6 y 11,
respectivamente). Todos los valores del primer histograma están muy concentrados
alrededor de 30; los del segundo son ligeramente más variados y los del tercero son
aún mucho más dispersos.
160

140 V (×)=¿
120
Frecuencia
100

80

60

40

20

0
0 10 20 30 40 50 60

100
90
V (×)=¿ 36
80
Frecuencia
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60

60

50 V (×)=¿ 121
Frecuencia
40

30

20

10

0
0 10 20 30 40 50 60

Figura 4. Histogramas de datos con la misma


media pero diferentes varianzas
Ejemplo 1:
Calcular, manualmente, la varianza del conjunto anterior de datos A, donde su media
es igual a 50 ( x = 50 puntos).
Solución:
A: 0 48 49 51 52 100
Utilizaremos la primera de las dos fórmulas anteriores. Para ello, se construye una
tabla, como la que se muestra a continuación:
Datos Datos - x (Datos - x )2
(xi)
(xi- x ) (xi- x )2
0 -0-50=-50 2500
48 48-50=-2 4
49 49-50=-1 1
51 51-50=1 1
52 52-50=2 4
100 100- 2500
50=50
Total 5010
La varianza de dichos datos es:
n
∑ ( x i −x )2 5010
V ( X )= i=1
n = 6 = 835 (puntos)2.
Nota:
Por ahora utilizaremos esta fórmula de la varianza, que corresponde a la varianza
poblacional, pero más adelante, cuando abordemos la Inferencia Estadística, se
distinguirá entre la varianza poblacional y la varianza muestral. En la fórmula anterior
se está colocando “n” en el denominador, pero lo más adecuado es colocar el tamaño
poblacional, “N”, tal como se verá más adelante.
Si utilizamos la segunda fórmula debemos obtener el mismo resultado. Para utilizarla,
es necesario construir la siguiente tabla (siempre utilizando el conjunto de datos A):

Datos Datos2
(xi) (xi2)
0 0
48 2304
49 2401
51 2601
52 2704
100 10000
6 6
∑ xi ∑ x 2i =
i=1 = i=1 20010
300

20010 300 2
2 2 = −( ) =3335−(50 )2=3335−2500=835
V ( X )=E ( X )−[ E( X ) ] 6 6
Ejemplo 2:
Ahora, hallemos la varianza del conjunto de datos C (utilizando la primera fórmula):
C: 0 1 1 99 99 100
Datos Datos2
(xi) (xi2)
0 0
1 1
1 1
99 9801
99 9801
100 10000
6 6
∑ xi ∑ x 2i =
i=1 = i=1 29604
300
2 2
V ( X )=E ( X )−[ E( X ) ]

29604 300 2
= −( ) =4934−(50 )2=4934−2500=2434
6 6 .

Ejercicio resuelto:
Hallar la varianza del conjunto anterior de datos B.
Solución:
Procedamos como en el caso del conjunto de datos C, pero ahora utilizando los datos:
B: 47 48 49 51 52 53
Datos Datos2
(xi) (xi2)
47 2209
48 2304
49 2401
51 2601
52 2704
53 2809
6 6
∑ xi ∑ x 2i =
i=1 = i=1 15028
300

2 2
V ( X )=E ( X )−[ E( X ) ]

15028 300 2
= −( ) =2504 . 67−(50 )2=2504 .67−2500=4 . 67
6 6 (puntos)2.
Como se podría esperar, la varianza en el grupo B (4.67) es mucho más pequeña que
en los grupos A (835) y C (2434), a pesar de que los tres grupos tienen la misma media
y el mismo rango.

DESVIACIÓN ESTÁNDAR
La desviación estándar de un conjunto de datos, que la denotaremos por DE(X), es
igual a la raíz cuadrada de su varianza. Es decir:

DE(X) = √V ( X )
Recordemos que el primer inconveniente para interpretar la varianza es que su valor
se expresa en unidades de medida de la variable, elevado al cuadrado, lo cual casi no
tiene sentido al momento de interpretarla. Esto se resuelve utilizando la desviación
estándar, que se expresa en las mismas unidades de medida de la variable de interés y
no hay problemas con su interpretación.
Ejemplo1:
Hallemos la desviación estándar de nuestro conjunto de datos A:
Solución:

DE(X) = √ V ( X ) = √ 835 = 28.90 puntos.

Ejemplo 2:
Ahora, encontremos la desviación estándar para el conjunto de datos C:

DE(X) = √ V ( X ) = √ 2434 = 49.34 puntos.

COEFICIENTE DE VARIACIÓN
El coeficiente de variación de una variable cuantitativa X, denotado por CV(X), es otra
medida de dispersión de los datos. Para solucionar el segundo inconveniente de la
interpretación de la varianza, relacionado con su magnitud, y que sigue siendo el
mismo problema para la desviación estándar, se define el coeficiente de variación
como una medida relativa de la dispersión, al carecer de unidades. Su utilidad radica
en que con él se puede comparar la dispersión de dos o más conjuntos de datos que se
pueden expresar, incluso, en unidades de medida diferentes, puesto que su valor se
expresa en términos porcentuales (por comodidad para la interpretación),
independiente de la unidad de medida de la variable. Por ejemplo, se puede
comparar, mediante este coeficiente, la variación del peso (en kilogramos) y la de la
estatura (en metros) de un conjunto de personas.
Cuando hay mucha dispersión en los datos, la media no es una medida adecuada para
resumir la información.
El coeficiente de variación lo podemos calcular a través de la fórmula siguiente:

DE( X )
CV ( X )= (100 %)
x
En la práctica, se considera que si el coeficiente de variación es menor al 10%, la
distribución tiene poca dispersión (o que los datos son homogéneos) y se puede
confiar en la media como medida de centralidad y considerarla como representativa
de los datos que resume.
Ejemplo 1:
El ingreso mensual (en miles de dólares) de los jueces de 6 Juzgados de Paz Letrado,
es: 2, 2, 2, 2, 10, 10. El ingreso medio mensual por juez es de 28/6=4.66667
($4,666.67), el cual no es representativo del ingreso de los 6 jueces, porque tuvieron
ingresos muy diferentes: el ingreso mensual de cada uno de 4 jueces es de $2,000.00 y
el de cada uno de 2 jueces es de $10,000.00. El coeficiente de variación es igual a
304.76%, un valor muy grande, indicativo de que la media no es una medida adecuada
para resumir los 6 ingresos mensuales. (Como el coeficiente de variación es muy
grande-mucho mayor que 10%-, se dice que la media no es una buena medida
representativa).

Ejercicios:
1) Verificar que el coeficiente de variación de los datos: 2, 2, 2, 2, 10, 10, es igual a
304.76%.

Guía de solución:
Datos Datos2
(xi) (xi2)
2
2
2
2
10
10
6 6
∑ xi ∑ x 2i =
i=1 = i=1

2 2
V ( X )=E ( X )−[ E( X ) ]
2) El número de síntomas (X) de 6 pacientes diagnosticados de Covid-19 es: 5, 6, 6, 8,
8, 9. Calcular e interpretar las medidas estadística de centralidad y de dispersión
estudiadas. Comente con respecto a la moda.
[Rpsta.: x =7; Md=7; Mo(1) = 6; Mo(2) = 8: hay dos modas; V(X) = 2; DE(X) =
1.41; CV(X) = 20.14%].

3) Calcular la varianza de la siguiente muestra de datos, correspondientes a la


producción de caña de azúcar (en toneladas) de 5 empresas azucareras en cierto
período de tiempo: 45, 42, 38, 45, 50. Disponer los datos en columnas para realizar
los cálculos. [Rpsta.: V(X) = 15.6 T.M.2].

4) Considere la información siguiente:

PORCENTAJE DE RESULTADOS CONFIRMADOS DE


CORONAVIRUS
SEGÚN TIPO DE PRUEBA (PERÚ, JULIO 2020)

PORCENTAJE DIARIO DE
COMU- RESULTADOS
NICADO CONFIRMADOS EN LAS PRUEBAS

FECHA DEL MOLE- SERO- TO-


MINSA CULARES LÓGICAS TAL

30/06/2020 153

01/07/2020 154 33.44 13.93 16.33

02/07/2020 155 34.62 13.60 16.88

03/07/2020 156 31.64 14.91 17.36

04/07/2020 157 32.18 14.45 16.62


05/07/2020 158 30.68 14.99 17.38

06/07/2020 159 32.78 13.03 16.73

07/07/2020 160 32.28 13.93 17.32

08/07/2020 162 34.54 12.38 17.31

09/07/2020 164 30.86 14.40 16.87

10/07/2020 166 26.11 13.33 15.95

11/07/2020 167 27.88 12.37 14.65

Elaboración propia

Calcule e interprete las medidas estadísticas estudiadas, incluyendo un


comentario acerca de la asimetría de la distribución, para el porcentaje diario de
resultados confirmados de coronavirus en:
a) Las pruebas moleculares.
b) Las pruebas serológicas.
c) Las pruebas moleculares y serológicas.

(Sugerencia: compruebe que sus valores son los que se muestran en la siguiente
tabla, donde la segunda columna corresponde a las pruebas moleculares, la
tercera a las pruebas serológicas y la cuarta a ambas pruebas).
Medidas estadísticas

Media 31.55 13.75 16.67

Varianza 6.25 0.76 0.6

Desv. Est. 2.5 0.87 0.78

Coef. Var. 7.92 6.34 4.65

Mediana 32.18 13.93 16.87

Asimetría Negativa Negativa Negativa

5) Sin hacer cálculos, ¿cuál de estas dos muestras de datos, correspondientes al número
de expedientes judiciales de 5 Juzgados de Familia de las ciudades A y B, tiene la
mayor varianza? Justificar la respuesta.:

A 3 5 7 9 11
B 3 7 7 7 11
Confirmar o contradecir la respuesta, calculando la varianza de cada muestra.

6) Un abogado desea invertir algún capital en una de tres empresas que operan en bolsa.
Para cada empresa, la media y la desviación estándar de los retornos porcentuales
anuales en los últimos diez años se dan en la siguiente tabla:

Empresa Media Desviación estándar (%)


(%)
A 8 5
B 5 2
C 5 1

En base de esta información:


a) ¿Qué empresa asesoraría, desfavorablemente?
b) Si el abogado es una persona acomodada y realmente está invirtiendo por
diversión, ¿a qué empresa se le podría recomendar?
c) Si el abogado requiere hacer una inversión relativamente segura, ¿a qué empresa
se le podría recomendar?.

MEDIDAS DE ASOCIACIÓN
Las medidas estadísticas estudiadas anteriormente, corresponden a una variable
cuantitativa unidimensional. Cuando de un conjunto de n individuos se toman, al
mismo tiempo, dos variables cuantitativas (denotadas usualmente por X e Y), es de
interés determinar el grado de asociación que existe entre ellas. Una de las medidas
estadísticas que expresan la asociación entre dos variables cuantitativas es el
coeficiente de correlación producto-momento de Pearson o, simplemente,
coeficiente de correlación.

Ejemplo 1:
Se puede cuantificar la asociación que existe entre:
a) Peso y Estatura de las estudiantes.
b) Velocidad y Consumo de combustible de los automóviles.
c) Desgaste y Tiempo de uso de rodamientos.

COEFICIENTE DE CORRELACIÓN
El nombre ampliado del coeficiente de correlación es “COEFICIENTE DE CORRELACIÓN
PRODUCTO-MOMENTO DE PEARSON”. Por simplicidad, se utiliza a menudo el término
COEFICIENTE DE CORRELACIÓN.
Cálculo del coeficiente de correlación:
Por lo regular, facilita el cálculo manual del coeficiente de correlación, utilizando n
datos muestrales de una variable cuantitativa bidimensional (X, Y), denotado por “r”,
construir una tabla como la siguiente (la información inicial sólo está conformada por
las tres primeras columnas; las demás han sido incluidas para ilustrar el cálculo de este
coeficiente):
i xi xi yi xi2 yi2
yi
1 x1 y1 x1 y1 x12 y12
2 x2 y2 x2 y2 x22 y22
. . . . . .
. . . . . .
. . . . . .
n xn yn xn yn xn2 yn2
Tota n n n n

l ∑ xi ∑ yi ∑ xi yi ∑ yi2
i=1 i=1 i=1 i=1

Con los datos así dispuestos, el coeficiente de correlación se calcula utilizando la


siguiente fórmula:
n n n
n ∑ x i y i−[( ∑ x i )( ∑ y i ) ]
i =1 i=1 i =1
r=


n n n n
[n ∑ x 2i −( ∑ x i )2 ][ n ∑ y 2i −( ∑ y i )2 ]
i =1 i =1 i=1 i=1

Según el valor de r , se presentan los siguientes tipos de relación entre X e Y:


a) Si r > 0 (+), la relación es directa entre X e Y: “a medida que aumentan
(disminuyen) los valores de X, los de Y también aumentan (disminuyen).
b) Si r < 0 (-), la relación es inversa entre X e Y: “a medida que aumentan
(disminuyen) los valores de X, los de Y disminuyen (aumentan).
c) Si r = 0, no existe relación entre X e Y.

Ejemplo 2:

Completando la siguiente tabla, calcular e interpretar el coeficiente de correlación de los


datos correspondientes al peso (X, en cientos de libras) y el rendimiento del
combustible en autopista (Y, en millas/galón), de una muestra de 10 automóviles,
detenidos por la policía en cierto operativo:

i xi yi xi yi x 2i y 2i
1 29 31 899 841 961
2 35 27 945 1225 729
3 28 29
4 44 25
5 25 31
6 34 29
7 30 28
8 33 28
9 28 28
10 24 33

Tota
l

Ejercicios
Calcule e interprete el coeficiente de correlación de los siguientes conjuntos de datos:

a) Puntuaciones en un test de habilidades comunicativas (X) y un criterio de


capacidad de relación interpersonal (Y), en una muestra de 5 estudiantes:

Estudiante X Y
1 7 6
2 13 10
3 10 9
4 9 8
5 11 12

También podría gustarte