Documentos de Académico
Documentos de Profesional
Documentos de Cultura
POLÍTICA
ESTADÍSTICA DESCRIPTIVA
1. ESTADÍSTICA
Definición tradicional:
Colección, organización, resumen y presentación de datos numéricos.
Definición actual:
Rama de la matemática aplicada que colecciona, clasifica y evalúa o analiza datos,
como base para inferir consecuencias o conclusiones válidas, así como para tomar
decisiones en base a dicho análisis.
2. USO DE LA ESTADÍSTICA
4. DIVISIÓN DE LA ESTADÍSTICA:
ESTADÍSTICA DESCRIPTIVA:
Los métodos descriptivos (que pueden usarse tanto para muestras como para
poblaciones) se utilizan para mostrar los datos en forma ordenada y gráfica, sin
obtener conclusiones de ellos.
ESTADÍSTICA INFERENCIAL:
Los métodos inferenciales, como la estimación de parámetros y la prueba de
hipótesis acerca de tales parámetros, usan sólo las características de las muestras
para inferir o generalizar las características de la población.
5. UNIDADES ELEMENTALES:
Las unidades elementales son los individuos u objetos de una colección que tienen
una característica medible cualitativa o cuantitativa en común. Cuando los datos de
dicha característica permanecen inalterables, tal y como se los recolecta, se dice
que son datos originales.
7. DATO:
VARIABLE Y OBSERVACIÓN
Una variable es una cantidad o característica que manifiesta diferencias o cambios,
en magnitud o en valor; se la denota generalmente por la letra mayúscula “X”
(puede ser otra letra mayúscula también).
Ejemplos:
CLASES DE VARIABLE:
a. VARIABLE CUANTITATIVA:
Es la variable que toma valores numéricos.
Ejemplos:
a.2. DISCRETA: Cuando sólo toma valores que corresponden a puntos aislados
de la recta numérica. En general, sus valores son números enteros.
Ejemplos:
b. VARIABLE CUALITATIVA:
Ejemplos adicionales:
Datos de X: 16.6, 18.3, 15.4, 17.7, 17.8, 18.0, 17.6, 17.2, 18.2 (16.6% el 21 de
junio, 18.3% el 22 de junio,…, 18.2% el 29 de junio)
Datos de Y: 3204, 3353, 3117, 3152, 4485, 3732, 4218, 3974, 3161
Fuente: Elaboración propia, a partir de los comunicados del MINSA-Perú N°s
139, 140, 142, 143, 144, 146, 147, 149, 151 y 152
Unidad elemental: El día.
8. BASE DE DATOS:
EJERCICIOS
b) Clasificación de variables:
Deporte practicado por los alumnos de nuestra clase (CUALITATIVA)
Unidad elemental: EL ALUMNO
Número de profesores por centro educativo (DISCRETA)
Unidad elemental: EL CENTRO EDUCATIVO
Gasto por persona en un proceso judicial (Trujillo: mayo de 2023)
(CONTINUA)
Unidad elemental: LA PERSONA
Número de hermanos por alumno de nuestra clase (DISCRETA).
Unidad elemental: EL ALUMNO.
Tipo de proceso judicial de los litigantes (CUALITATIVA).
Unidad elemental: EL LITIGANTE.
SUMATORIAS
La sumatoria simple de n observaciones (datos) de una variable X, se define del
siguiente modo:
n
∑ x i =x 1 + x 2 +. ..+ x n
i=1
Ejemplo:
En cierto día, el gasto (en nuevos soles) de una muestra de 5 litigantes en la ciudad de
Trujillo, es el mostrado en el cuadro siguiente. El gasto total de los litigantes se puede
obtener haciendo uso de la sumatoria.
N° de litigante 1 2 3 4 5=n n
(i) ∑ xi
i=1
i xi x 2i
1 60 3600
2 40 1600
3 45 2025
4 55 3025
5=n 90 8100
EJERCICIOS RESUELTOS
Utilice la información anterior, acerca del gasto de 5 litigantes, y encuentre el valor
numérico de las siguientes expresiones:
n
SC=∑ x 2i
a) i=1 (Rpta.: 18350)
n
∑ xi
M = i =1
b) n (Rpta.: 58)
n
A=∑ ( x i−M )
c) i=1
n
∑ ( xi −M )2
V = i =1
d) n
[ ]
n
( ∑ xi )
2
n
1
T=
n
∑ x2i − i=1
n
i=1
e)
Solución:
n
SC=∑ x 2i
a) i=1 = 3600 + 1600 + 2025 + 3025 + 8100 = 18350
n 5
∑ xi ∑ xi 290
i =1 i=1
M=
b) n 5 = 5 = 58
n
A=∑ ( x i−M )
c) i=1 = (60-58)+(40-58)+(45-58)+ (55-58)+ (90-58)
= (2)+(-18)+(-13)+(-3)+(32) = 0
n
∑ ( xi −M )2 1530
V = i =1
d) n = 5 = 306
[ ]
n
( ∑ xi )
2
n
[ ]
1
T=
n
∑ x2i − i=1
n
1
18350−
(290)2
=306
e) i=1
= 5 5
PASOS:
1º. Con la punta del lápiz se marca cualquier dígito (de preferencia, en la parte superior
izquierda de la tabla) y, a la derecha e incluyendo el dígito donde cayó el lápiz, se
selecciona tantos dígitos como cifras tenga N; ése será el primer “número” de la
muestra, al que se le denomina Arranque Aleatorio (AA). Si el arranque aleatorio
es menor o igual que N, ése será nuestro primer elemento de la muestra.
5º. Luego, de la lista de elementos poblacionales (los cuales deben estar enumerados),
se toman los elementos seleccionados para realizar la medida respectiva, según la
característica de interés.
Nota:
1-4 5-8 9-12 13-16 17-20 21-24 25-28 29-32 33-36 37-40
1 2315 7548 5901 8372 5993 7624 9708 8695 2303 6744
2 0554 5550 4310 5374 3508 9061 1837 4410 9622 1343
3 1487 1603 5032 4043 6223 5005 1003 2211 5438 0834
4 3897 6749 5194 0517 5853 7880 5901 9432 4287 1695
5 9731 2617 1899 7553 0870 9425 1258 4154 8821 0513
6 1174 2693 8144 3393 0872 3279 7331 1822 6470 6850
7 4336 1288 5911 0164 5623 9300 9004 9943 6407 4039
8 9380 6204 7838 2680 4491 5575 1189 3258 4755 2571
9 4954 0131 8108 4298 4187 6953 8296 6177 7380 9527
10 3676 8726 3337 9482 1569 4195 9686 7045 2748 3880
11 0709 2523 9224 6271 2607 0655 8453 4467 3384 5320
12 4331 0010 8144 8638 0307 5255 5161 4889 7429 4647
13 6157 0063 6006 1736 3775 6314 8951 2335 0174 6993
14 3155 2837 9910 7791 8941 3157 9764 4862 5848 6919
15 5704 8865 2627 7959 3682 9052 9565 4635 0653 2254
1º. Con la punta del lápiz se marca cualquier dígito (de preferencia, en la parte superior
izquierda de la tabla) y, a la derecha e incluyendo el dígito donde cayó el lápiz, se
selecciona tantos dígitos como cifras tenga N; ése será el primer “número” de la
muestra. Supongamos que el lápiz cayó en el dígito 1, correspondiente a la fila 10 y
columna 17 de la tabla. Por lo tanto, el Arranque Aleatorio será igual a 15
(AA=15). Como A=15 es menor o igual que N=60, el primer elemento seleccionado
será el número 15.
2º. Luego se selecciona el siguiente número hacia la derecha del arranque aleatorio,
del mismo número de cifras que el anterior; ése será el “número” del segundo
elemento de la muestra, siempre que sea menor o igual que 60. En nuestro caso,
corresponde al número 69, que es mayor que N=60.
3º. Como el número 69 es mayor que N=60, tenemos cualquiera de las siguientes
alternativas:
4º. El proceso se repite (considerando la segunda alternativa del paso 3°), hasta que se
completen los n=6 elementos de la muestra. Los números aleatorios que utilizaremos
para seleccionar la muestra son los siguientes:
Según esto (teniendo en cuenta la segunda alternativa del paso 3°), las cárceles a
seleccionarse para la muestra son las identificadas con los números: 15, 9, 41 y 35.
5º. Luego, de la lista de elementos poblacionales (los cuales deben estar enumerados),
se toman los elementos seleccionados de la muestra para realizar la medición respectiva
(en este caso, el número de reclusos, X, de las cárceles seleccionadas. Supongamos
que los valores (datos) de X, son:
i 1 2 3 4
xi 148 500 154 19
En este cuadro, por ejemplo, se puede afirmar que la segunda cárcel tiene 500
reclusos.
EJERCICIO
Utilice la tabla de dígitos aleatorios anterior, para seleccionar una muestra aleatoria de
tamaño n, de un universo (población) de tamaño N, según como se indica en cada uno
de los siguientes incisos:
a) N=15 juzgados de paz letrado del Perú; n=4; AA: fila 3, columna 7, utilizando la
primera alternativa del paso 3°. Seleccione los números aleatorios, avanzando de
manera horizontal y hacia la derecha.
b) N=47 docentes de la Facultad de Derecho; n=14; AA: fila 9, columna 25, utilizando
la segunda alternativa del paso 3°. Seleccione los números aleatorios, avanzando de
manera horizontal y hacia la derecha.
c) N=250 estudiantes de la Escuela Académico Profesional de Ciencia Política y
Gobernabilidad; n=28¸ AA: fila 13, columna 32, utilizando la segunda alternativa
del paso 3°. Seleccione los números aleatorios, avanzando de manera horizontal y
hacia la derecha.
d) Resolver los incisos a), b) y c), seleccionando los números aleatorios de manera
vertical y hacia abajo.
Antes de indicar los pasos para construir una tabla, será necesario dar las siguientes
definiciones:
1. CLASE
Está dada por un intervalo (si la variable es cuantitativa) o por una categoría (si
la variable es cualitativa).
2. INTERVALO DE CLASE
Es aquél que contiene cierta cantidad de datos numéricos. Posee dos límites: El
límite inferior que se denota por “LI” y el límite superior por “LS”. Al número
de intervalos de clase lo representamos por “m”. Mientras no se mencione otra
cosa, se trabajará con intervalos regulares semiabiertos por la derecha.
Notación de intervalos:
El i-ésimo intervalo de clase se denota por [X´i-1, X´i), o también [LIi , LSi).
Amplitud interválica:
Diferencia entre el límite superior y el límite inferior de cada intervalo de clase. Se
la denota por la letra “c”. Es decir, para el i-ésimo intervalo de clase, se tiene:
ci = LSi – LIi.
Clases de intervalos:
Regulares:
Dos o más intervalos son regulares si su amplitud interválica es la misma en
todos ellos.
Irregulares:
Cuando la amplitud interválica no es la misma en todos los intervalos.
Ejemplo:
Si la variable X es el gasto diario de litigantes (en nuevos soles) y existen los
siguientes intervalos de clase regulares semiabiertos por la derecha:
3. LIMITES REALES
Se deben a Yule y Kendall. Con la finalidad de prevenir ambigüedades en
cuanto a la clase a la que pertenece cierto dato numérico, se utilizan los límites
reales. Para el intervalo de clase i-ésimo, sus límites reales (LR), se obtienen
del siguiente modo:
Ejemplo:
En el ejemplo anterior, si asumimos que todos los datos son enteros, entonces
k=0 (número máximo de cifras decimales) y por lo tanto, k+1 = 1.
Los límites reales para tales intervalos, son:
LRI1 = LI1 – 5x10-1 = 40 – 0.5 = 39.5; LRS1 = LS1 - 5x10-1 = 60 - 0.5 = 59.5
LRI2 = LI2 – 5x10-1 = 60 – 0.5 = 59.5; LRS2 = LS2 - 5x10-1 = 80 - 0.5 = 79.5
LRI3 = LI3 – 5x10-1 = 80 – 0.5 = 79.5; LRS3 = LS3 - 5x10-1 = 100 - 0.5 = 99.5
Los intervalos de clase, así como los límites reales y los intervalos cerrados
de este ejemplo, los podemos resumir en la siguiente tabla:
EJERCICIOS
4. MARCA DE CLASE
También llamada punto medio, es igual a la semisuma de los límites del respectivo
intervalo de clase. La marca de clase del i-ésimo intervalo de clase se denota por X i .
Es decir,
LI i + LS i
Xi=
2
Ejemplo:
Para los intervalos de clase irregulares [2, 4), [4, 12) y [12, 30), las marcas de clase
son X1 = (2 + 4)/2 = 3, X2 = 8 y X3 = 21, respectivamente.
5. FRECUENCIA
Número, proporción o porcentaje de veces que se repite un dato (si los datos no
están agrupados o los datos son originales) o conjunto de datos (si los datos están
agrupados en intervalos).
CLASES DE FRECUENCIA:
FRECUENCIA ABSOLUTA:
Es el número de veces que se repite un dato. Su valor es un número entero
mayor o igual que cero. Una frecuencia absoluta puede ser:
Simple:
Cuando se refiere a un solo intervalo o a una sola categoría; la i-ésima
frecuencia absoluta simple se denota por fi .
Propiedad:
fi = n, con i = 1,2,...,m.,
siendo n el número total de datos y m el número de intervalos o de categorías.
Acumulada:
Es el número de datos cuantitativos que son menores o iguales que cierto valor
de X; se denota por Fi y representa la frecuencia absoluta acumulada de la i-
ésima clase. En particular, para la r-ésima clase, tenemos:
Fr = fi , i = 1, 2, ..., r
FRECUENCIA RELATIVA:
Es la proporción de veces que se repite un dato o un conjunto de datos.
Igualmente, puede ser:
Simple:
Denotada por hi y obtenida como
hi = fi /n.
Propiedades:
- 0 hi 1, i = 1,2,...,m.
- hi = 1, con i = 1,2,...,m.
Acumulada:
Se denota por Hi y se calcula por
Hi = Fi /n.
Propiedad:
Hm = 1.
FRECUENCIA PORCENTUAL:
Es el porcentaje de veces en que se repite un dato o un conjunto de datos. Las
propiedades de las frecuencias porcentuales son similares a las frecuencias
relativas. Una frecuencia porcentual puede ser:
Simple:
Denotada por hi% y obtenida como
hi% = hi(100%).
Acumulada:
Se denota por Hi% y se obtiene como
Hi% = Hi (100%).
PASOS PARA CONSTRUIR UNA TABLA DE
FRECUENCIAS EN INTERVALOS DE CLASE
Antes de dar los pasos para construir una tabla de distribución de frecuencias, es
conveniente indicar que toda tabla tiene las siguientes partes:
Título: debe contener individuos, variable, lugar y tiempo. Si en un informe
estadístico se van a presentar varias tablas, éstas deben ser enumeradas
(Tabla 1, Tabla 2, …).
Cuerpo: Es la tabla propiamente dicha.
Fuente: Es el lugar de donde se ha obtenido la información. Ejemplos
(datos que proporcionan los abogados, Escuela Académico Profesional de
Ciencia Política y Gobernabilidad, Ministerio de Justicia, OMS).
Supuestos:
X: variable cuantitativa (numérica).
k: número máximo de cifras decimales de los datos.
Intervalos: regulares, semiabiertos por la derecha.
n: número de datos.
EJEMPLO:
Dadas las siguientes estaturas (en centímetros) de un grupo de 50 alumnos de la
Escuela Académico Profesional de Ciencia Política y Gobernabilidad de la UNT, en el
año 2022 (datos originales e hipotéticos):
181 178 189 166 161 177 171 169 175 154 174 185 178 152 162 158
178 159 172 179 186 164 192 173 143 164 184 153 172 142 184 163
183 165 172 174 163 173 159 187 177 172 174 173 167 163 178 179
175 165
R = Xmáx - Xmín,
Uno de los criterios más utilizados para hallar el valor de m es aplicar la fórmula
de Sturges siguiente:
m = 1 + 3.32 log(n),
m=7
R
c=
m
Si el valor de c tiene más cifras decimales que k, debe tenerse en cuenta las
siguientes recomendaciones:
R 50
c= = =7 .14≈8
m 7 (como k=0, el valor de c debe tener 0 cifras decimales
y, por lo tanto, c=7.14 se ha redondeado por exceso a c = 8).
c=8
Nota:
Para cualquier intervalo, el límite superior (LS) se puede obtener así:
LS = LI + c
RN = cm
RN = cm = 8(7) = 56
RN = 56
D = RN – R
D = RN – R = 56 - 50 = 6
D=6
c.4. Calcular la cantidad, D*:
D
D∗¿ ,
2 si D termina en dígito par, o
−k
D−10
D∗¿
2 , si D termina en dígito impar
D 6
D∗¿ = =3
2 2
D* = 3
Nota.- Si el valor de c es exacto con k cifras decimales, ir al siguiente paso (paso
d).
No. de
Interval Intervalos de clase
o(i) [LIi = x´i-1, LSi = x´i)
Puesto que los intervalos son regulares, bastará con calcular LI1, ya que el LI
de cualquier intervalo es igual al LS del intervalo anterior. El valor de LI 1 es:
LI1 = Xmín, si c no se redondea por exceso (es número exacto, con k cifras
decimales).
LI1 = Xmín – D*, si c se ha redondeado por exceso.
En nuestro ejemplo, el valor de c ha sido redondeado por exceso, por tanto, con
Xmín = 142, D* = 3, c = 8,
LI1 = 139,
los intervalos de clase son los siguientes:
No. de
Interval Intervalos de clase
o(i) [LIi = x´i-1, LSi = x´i)
1 [139,139+8) = [139,147)
2 [147,147+8) = [147,155)
3 [155,155+8) = [155,163)
4 [163,163+8) = [163,171)
5 [171,171+8) = [171,179)
6 [179,179+8) = [179,187)
m=7 [187,187+8) = [187,195)
No. de Intervalo
Intervalo de clase Tarja fi Fi hi=fi/n Hi hi % Hi %
(i) [x´i-1, x´i) s
1 139 - 147 // 2 0.04 0.04 4 4
2 147 - 155 /// 3 2 0.06 0.10 6 10
3 155 - 163 .…… 5 0.10 0.20 10 20
4 163 - 171 ……. 10 5 0.20 0.40 20 40
5 171 – 179 ……. 19 1 0.38 0.78 38 78
6 179 – 187 ……. 8 0 0.16 0.94 16 94
7 187 - 195 ……. 3 2 0.06 1.00 6 100
0
3
9
4
7
5
0
TOTAL n= 50 1.00 100
Datos proporcionados por los alumnos
F3 = f1 + f2 + f3 = 2 + 3 + 5 = 10
o
F3 = f3 + F2 = 5 + 5 = 10
f 4 10
h4 = n = 50 = 0.20
H6 = h6 + H5 = 0.16 + 0.78 = 0.94
o
H6 = h1 + h2 + h3 + h4 + h5 + h6 = 0.04 + 0.06 + 0.10 + 0.20 +0.38 + 0.16 = 0.94
h2% = h2(100) = 0.06(100) = 6
H5% = H5(100) = 0.78(100) = 78
INTERPRETACION:
La mayoría de alumnos mide entre 171 y menos de 179 cms. (f 5 = 19 > las
demás frecuencias absolutas simples).
20 alumnos miden menos de 171 cms. (F4 = 20).
Una proporción de estudiantes igual a 0.10 mide entre 155 y menos de 163
cms. (h3 = 0.10).
Una proporción de alumnos igual a 0.40 mide menos de 171 cms. (H 4=
0.40).
Sólo el 4% de los alumnos mide por debajo de 147 cms. (h1 % = 4%).
El 94% de los alumnos mide menos de 187 cms. (H6 % = 94%).
1° Digitar los n datos en cualquier columna . Encabezar a esta columna con “Datos”.
2° En otra columna digitar los límites superiores de los intervalos cerrados de la
tabla. Encabezar a esta columna con “Grupos”.
3° Seleccionar otra columna, del mismo tamaño que la del paso 2°, y escribir en la
primera celda de dicha columna la siguiente expresión:
=Frecuencia(Datos; Grupos)
Ejemplo:
TOTAL 11
Datos hipotéticos
INTERPRETACIÓN:
La policía recuperó 3 vehículos Chevrolet en agosto de 2022, en la ciudad de
Trujillo.
EJERCICIOS
MUJERES
Postulante 1 2 3 4 5 6 7 8 9 10 11 12
13
Peso (Kg.) 52.6 52.4 50.4 69.7 45.0 57.6 46.7 51.8 72.1 57.4 45.1 50.9
56.5
Estatura 1.55 1.47 1.48 1.52 1.50 1.65 1.52 1.51 1.55 1.54 1.52 1.52
(m.) 1.52
Postulante 14 15 16 17 18 19 20 21 22 23 24 25
26
Peso (Kg.) 49.8 52.4 48.7 53.3 58.2 53.2 52.6 65.3 49.5 51.3 62.3 64.5
63.0
Estatura 1.60 1.53 1.59 1.64 1.54 1.56 1.61 1.57 1.54 1.45 1.56 1.55
(m.) 1.44
Postulante 27 28 29 30 31 32 33 34 35 36 37 38
39
Peso (Kg.) 61.2 55.2 60.8 55.4 56.4 51.8 53.2 54.7 61.5 66.4 55.0 43.3
57.8
Estatura 1.52 1.57 1.54 1.56 1.54 1.59 1.63 1.56 1.66 1.58 1.60 1.49
(m.) 1.52
Postulante 40 41
Peso (Kg.) 55.5 69.9
Estatura (m.) 1.46 1.67
HOMBRES
Postulante 1 2 3 4 5 6 7 8 9 10 11 12
13
Peso (Kg.) 58.6 65.3 59.9 55.9 57.5 56.9 58.5 81.7 66.2 55.1 47.1 59.9
73.1
Estatura 1.63 1.67 1.66 1.67 1.54 1.64 1.68 1.79 1.72 1.61 1.53 1.65
(m.) 1.60
Postulante 14 15 16 17 18 19
Peso (Kg.) 99.1 63.9 65.1 57.1 60.1 70.2
Estatura 1.78 1.53 1.67 1.62 1.67 1.64
(m.)
B. NÚMERO DE POSTULANTES SEGÚN DOCUMENTO DE IDENTIDAD
DURANTE EL EXAMEN DE ADMISIÓN:
REPRESENTACIONES GRÁFICAS
Además de presentar la información a través de tablas o cuadros, también se la puede
representar mediante gráficos, los cuales sirven para visualizarla de un modo más claro.
Todo gráfico tiene las mismas partes que una tabla: título, cuerpo (el gráfico
propiamente dicho) y fuente.
Existen muchos gráficos estadísticos para este propósito. A continuación se presenta
aquéllos que se utilizan con mucha frecuencia en la investigación, como son: el
histograma de frecuencias, el gráfico circular, el gráfico de barras y el gráfico de series
de tiempo.
A. HISTOGRAMA DE FRECUENCIAS:
Datos hipotéticos
3
2 2
2
1
1
0
[4 , 6) [6 , 8) [8 , 10) [10 , 12)
Tasa de letalidad (%)
Datos hipotéticos
B. GRÁFICO DE BARRAS
Categorías Frecuencias
A 8
B 3
… …
2) Seleccionar los contenidos de ambas columnas, incluyendo los encabezados.
3) Insertar/Gráficos recomendados.
4) Seleccionar el gráfico de barras/Aceptar.
5) Clic en + (ubicado en parte superior, a la derecha del gráfico)
6) Marcar Título, ejes, etiquetas de datos.
7) Colocar título a gráfica y nombrar ejes.
8) Clic en cualquier rectángulo (se marcan todos los rectángulos, con círculo
pequeños).
9) Clic sobre el rectángulo que se desea cambiar de color (se marca sólo el
rectángulo que se desea cambiar de color).
10) Clic derecho/Relleno/Dar el color deseado y repetir los pasos 6), 7) y 8) para los
demás rectángulos.
Ejemplo:
La siguiente información corresponde al número de personas fallecidas por
Coronavirus en el Perú, durante los 5 últimos días del mes de junio de 2020.
(Fuente: elaboración propia, utilizando los comunicados del MINSA N°s: 146, 147,
149, 151, 152 y 153):
Tabla 2. Número de personas fallecidas por Coronavirus en el Perú, durante los 5
últimos días del mes de junio de 2020
Fecha N° de fallecidos
26/06/2020 178
27/06/2020 196
28/06/2020 182
29/06/2020 187
30/06/2020 173
Elaboración propia, utilizando comunicados del
MINSA N°s: 146, 147, 149, 151, 152 y 153
Figura 2.
187
185 182
180 178
175 173
170
165
160
6/26/2020 6/27/2020 6/28/2020 6/29/2020 6/30/2020
Fecha
Elaboración propia.Comunicados MINSA N°s: 146, 147, 149, 151, 152 y 153
Categorías Frecuencias
A 8
B 3
… …
Ejemplo:
173 178
187 196
182
Los grados sexagesimales de cada sector circular se obtienen utilizando una regla de
tres simple. Por ejemplo, a la categoría “29/06/2020” (187 fallecidos) le corresponde
73.5°. De igual modo, se puede calcular los grados sexagesimales para las demás
categorías.
Ejercicio:
Comprobar los 73.5° del ejemplo anterior y obtener los demás grados sexagesimales
para las otras categorías. Luego, construya un gráfico circular, utilizando el porcentaje
de fallecidos en cada día, considerando como 100% a la totalidad de ellos (916).
El gráfico de series de tiempo, conocido también con los nombres de gráfico lineal,
gráfico de líneas, gráfico de series cronológicas o gráfico de series temporales,
se utiliza cuando la variable es cuantitativa y sus n valores (xi) suceden a través
de n períodos de tiempo (ti) (por ejemplo, de modo diario, semanal, mensual,
anual, etc.).
Ejemplo:
El siguiente gráfico corresponde a uno de series de tiempo (construido con el
programa estadístico MINITAB), donde la información tabular toma la forma
siguiente, en que se ha considerado como variable el porcentaje diario de casos
confirmados por coronavirus (datos del Perú, durante la aparición del Coronavirus-
Covid 19. La información de las líneas punteadas se encuentran en el gráfico
mismo ):
Figura 4.
Interpretación:
El 01 de Abril de 2020 se produjo el mayor porcentaje de casos de Coronavirus,
mientras que el día 16 de Marzo de 2020 se presentó el menor porcentaje de
casos confirmados. A partir del día 28 de Marzo se aprecia una tendencia
ascendente del porcentaje de casos positivos, aunque el día 31 de Marzo se
produjo una ligera disminución de este porcentaje.
Solución:
1° En una celda cualquiera, por ejemplo en la celda A2, escribir:
=ALEATORIO()Enter
=ALEATORIO()Ctrl/Shift/Enter
=JERARQUIA(A2,$A$2:$A$30)Enter
Con esto, en la celda B2 se genera el primer número aleatorio. (La expresión entre
paréntesis se obtiene con el cursor y equivale a seleccionar las N=29 celdas
comprendidas entre A2 y A30). En el caso de A2:A30, se coloca manualmente el
signo $, antes y después de la letra A. Por otro lado, los números jerarquizados
obtenidos corresponden al orden en que aparecen los números decimales del paso
1°, de mayor a menor. Por ejemplo, si los números decimales obtenidos en el paso
1° fueran: 0.58554214, 0.06523465, 0.91265998, 0.14447025, 0.36592409, los
números jerarquizados obtenidos serán: 2, 5, 1, 4, 3.
=Frecuencia(Datos; Grupos)
EJERCICIOS
MEDIDAS ESTADÍSTICAS
Una tercera forma de presentar la información (recordemos que, hasta este momento,
hemos visto que ésta se puede presentar en forma de tablas o cuadros y,
gráficamente) es a través de medidas estadísticas.
Una medida estadística es un valor que representa a la totalidad de los datos. Existen
muchas medidas estadísticas. A continuación describimos las siguientes, por tener
mucha aplicación: medidas de posición (llamadas también medidas de tendencia
central, porque se posicionan en la parte central de los datos: media, mediana, moda)
y las medidas de dispersión (o medidas de variabilidad, indican el grado de variabilidad
o dispersión de los datos con respecto a una medida de posición: varianza, desviación
estándar y coeficiente de variación).
MEDIA
n
∑ xi
x̄= i=1
n
Observación:
En general,
2 2
E( X )≠[ E( X ) ] .
Ejemplo 1:
Solución:
n
∑ xi
3376+3710+3852+3755+ 3769 18462
x̄= i=1 = = =3692. 4
n 5 5
“El número medio de personas recuperadas por día es igual a 3692.4, en el período 30
de junio-4 de julio de 2020”.
Ejemplo 2:
Calcular e interpretar la media del salario (en miles de dólares), X, por trabajador del
Ministerio de Justicia, cuya información, para una muestra de 20 trabajadores, se
resume en la siguiente tabla:
Solución:
xi f i xi f i
1.25 4 5.00
1.75 7 12.25
2.25 3 6.75
2.75 4 11.00
3.25 2 6.50
TOTAL 20 41.50
m
∑ xi f i
41. 50
x̄= i=1 = =2. 075
n 20 .
“El salario promedio, por trabajador, es de 2.075 dólares (dos mil setenticinco
dólares)”.
Ejemplo 3:
Un grupo de 5 terrenos invadidos (de forma cuadrada cada uno), tiene las siguientes
dimensiones (en metros) de uno de sus lados: 15, 10, 8, 8, 11. Calcular e interpretar el
área media de los terrenos.
Solución:
Denotemos por X a la longitud de cada lado de los terrenos. Por lo tanto, el área de
cada uno de ellos será igual a X 2. Se pide calcular la longitud media por lado, E(X), y la
media del área de los terrenos; es decir, la media de X2, E(X2).
Media por lado de los terrenos:
n 5
∑ xi ∑ xi
i=1 15+ 10+8+8+11 52
= i=1 = = =10 . 4 m
x = E( X )= n 5 5 5
“la longitud media por lado de los terrenos es igual a 10.4 metros”.
EJERCICIOS
MEDIANA
a) n impar:
Md=x
[ ]
n+1
2
b) n par:
x +x
Md=
[] [ ]
n
2
n+2
2
2
donde las cantidades dentro de los corchetes indican el orden que ocupa el valor de
la variable X en la serie ordenada, ascendentemente, de los datos.
Ejemplo 1:
Calcular e interpretar la mediana del siguiente número de hijos de 7 profesores de la
Facultad de Derecho de la UNT: 3, 3, 1, 4, 2 ,2, 3.
Solución:
n = 7 (caso a, n impar).
Interpretación:
“El número máximo de hijos en la mitad de los profesores es de 3”.
Ejemplo 2:
Calcular e interpretar la mediana del número diario de pacientes recuperados por
coronavirus: 3161, 3376, 3710, 3852, 3755, 3769, entre el 29 de junio y el 4 de julio de
2020 (Perú-2020).
Solución:
n = 6 (caso b, n par).
Ordenando los datos, de menor a mayor: 3161, 3376, 3710, 3755, 3769, 3852.
La mediana se encuentra entre los valores de la variable resaltados y su valor será igual
al promedio de éstos:
x +x x +x
Md=
[ ] [ ] = [ ] [ ] = x [ ] + x [ ] =3710+3755 =7465 =3732 . 5
n
2
n+2
2
6
2
6+2
2 3 4
2 2 2 2 2
Interpretación:
“El número máximo de pacientes recuperados en la mitad de los días de la muestra fue
de, aproximadamente, 3732 pacientes”.
Nota:
En este ejemplo, hemos aplicado la siguiente regla de redondeo: “cuando, en el
proceso de redondeo, se va a eliminar, exactamente, el 5, y la cifra que le antecede
es par, dicha cifra debe permanecer en el redondeo; si fuera impar, debe agregarse
una unidad.
donde:
i : orden del intervalo que contiene a la mediana.
Ejemplo 3:
Utilicemos la tabla del salario (en miles de dólares), X, por trabajador del Ministerio de
Justicia (en la que hemos agregado una columna, correspondiente a las frecuencias
absolutas acumuladas) y calculemos la mediana.
i [ x ´ i−1 , x´ i ) fi Fi
1 1.00 - 4 4
2 1.50 7 11
3 1.50 - 3 14
4 2.00 4 18
5 2.00 - 2 20
2.50
2.50 -
3.00
3.00 -
3.50
TOTAL n=20
Solución:
(1) Cálculo de “i ”:
n
< Fi
El valor de i lo obtenemos utilizando la relación: 2
n 20
2 = 2 = 10
n 20
< Fi =10<11=F2
2 ⇒ 2 ⇒ i=2
n
c ( −Fi−1 )
2
Md=LI i + =
fi
“El salario máximo en la mitad de los trabajadores fue igual a 1.93 miles de dólares
(mil novecientos treinta dólares)”.
MODA
A menudo, no tiene sentido calcular la moda cuando se tiene pocos valores o cuando
ningún valor puede repetirse.
Ejemplo 2:
El precio (en miles de dólares) de 10 terrenos invadidos y recuperdos por la justicia es:
85, 70, 85, 91, 22, 35, 70, 91, 22, 41. Cada uno de los cuatro precios: 85, 70, 91 y 22, se
repite dos veces y se dice que existen 4 modas, pero ninguna de ellas es útil como una
medida central de los pesos.
Ejemplo 3:
d 1 =f i−f i−1 ;
d 2 =f i−f i+1 .
Ejemplo 4:
Calcular la moda de la siguiente información, correspondiente a X: “número diario de
protectores faciales” vendidos en una farmacia, que utilizarán los trabajadores de una
dependencia judicial, durante un período de 34 días consecutivos (datos hipotéticos):
i [ x ´ i−1 , x´ i ) fi
1 0- 5 4
2 5 - 10 15
3 10 - 15 8
4 15 - 20 4
5 20 - 25 3
TOTAL n=34
Solución:
(1) Cálculo de “i ”:
4 < 15 > 8
f 1=4 , f 2=15 y f 3 =8
Por lo tanto, la clase modal (la que contiene a la moda) es la segunda (i=2 ):
[5 – 10). Esto quiere decir que la moda se encontrará en el segundo intervalo.
(4) Interpretación:
Mediana y media
Frecuencia
0.15 relativa
0.10
0.05
0.10
0.05
Mediana
0.10
0.05
Ejemplo:
El costo medio de las tasas judiciales que se venden en el Banco de la Nación de Trujillo
es de 25.50 nuevos soles y la mediana es 17.71 nuevos soles. Sin mirar a una exhibición
gráfica, ¿qué se puede deducir acerca de la simetría o sesgo de la distribución de los
costos?.
Solución:
Como la media es mayor que la mediana, unos cuantos valores altos del costo de las
tasas judiciales están agrandando a la media, pero no afectan a la mediana. Por lo
tanto, la distribución de costos de las tasas judiciales es sesgada a la derecha (esto se
puede confirmar, observando nuevamente a la Figura 2).
Solución:
m
∑ xi f i
383
x̄= i=1 = =19 .15
n 20 minutos
x +x
Md=
[ ] [ ] = x[
n
2
n+2
2 10 ] + x [ 11 ]
=
18+ 18
=18
2 2 2 minutos
Mo =18 minutos
Guía de Solución:
Guía de Solución:
Ejercicios:
1. Calcular e interpretar la media, la mediana y la moda (si existe) de los siguientes
datos originales, acerca del número diario de personas recuperadas por coronavirus
en el Perú, desde, consecutivamente, el 29 de junio hasta el 10 de julio de 2020:
3161, 3376, 3710, 3852, 3755, 3769, 4336, 3662, 3319, 3810, 3054, 2836. (Datos
obtenidos, a partir de los comunicados del MINSA).
2. Calcular la media y la mediana de las edades de 50 jueceslas: 42, 50, 40, 25, 58, 61,
43, 26, 30, 32, 30, 64, 31, 54, 32, 53, 31, 36, 52, 30, 34, 40, 40, 32, 49, 40, 57, 30, 52,
26, 33, 60, 30, 47, 28, 50, 43, 74, 58, 49, 23, 55, 46, 37, 37, 50, 35, 30, 32, 29. ¿Se
podría esperar que la distribución de las edades sea sesgada a la izquierda o a la
derecha o simétrica?.
Calcular la media y la mediana del número de vehículos que tienen estas familias. Se
puede calcular la moda? y si es así, cuál es ella?. Determine la media del cuadrado
del número de vehículos por familia y compruebe que este resultado difiere del
cuadrado de la media (sugerencia: utilizar la observación, considerada
anteriormente en el estudio de la media).
4. Construya una tabla de distribución de frecuencias en 5 intervalos regulares
semiabiertos por la derecha, utilizando la siguiente información acerca del número
diario de resultados positivos en las pruebas moleculares y/o serológicas, realizadas
a personas muestreadas de la Región La Libertad, entre el 13 de junio y el 10 de
julio de 2020 (el primer dato corresponde al 13 de junio, el segundo al 14 de
junio, etc.) : 196, 213, 152, 188, 135, 125, 221, 125, 196, 144, 133, 191, 241, 217,
183, 202, 164, 106, 186, 185, 176, 218, 229, 94, 121, 165, 158, 135. Luego,
utilizando la tabla construida, calcule la mediana, la mediana y la moda. ¿Es la
distribución de los datos sesgada?. Si fuera así, a la izquierda o a la derecha?. Ubique
en un gráfico las medidas calculadas. Comente.
MEDIDAS DE DISPERSIÓN
Cada una de las medidas estudiadas anteriormente (media, mediana y moda) nos
indica alrededor de qué valores están distribuidos los datos, pero no nos expresa si los
datos están concentrados alrededor de esos valores (si son cercanos a ellos) o
dispersos (si están alejados).
Ejemplo 1:
Consideremos las edades de:
Grupo A:
5 estudiantes de nuestra clase (edades: 17, 18, 19, 20 y 21). La edad promedio es igual
a 19 años
Grupo B:
Otras 5 personas diferentes que acuden al cine (edades: 4, 9, 19, 29 y 34). De igual
modo, la edad promedio es igual a 19.
En el Grupo A, las 5 edades están cerca de la media (concentradas a su alrededor: la
distribución es homogénea o presenta poca dispersión), en tanto que en el Grupo B
las edades están lejos de la media (dispersas: la distribución es heterogénea o
presenta mucha dispersión).
Para poder evaluar la calidad de las medidas de tendencia central y, en particular, de la
media, es importante conocer la dispersión de los datos, debido a que en una
distribución muy dispersa, la media será un “promedio de valores muy diferentes
entre sí” y no será tan fiel a los datos como si estos fueran similares. Por ejemplo, la
edad promedio de 19 años del Grupo A es una mejor medida resumen que la misma
media de 19 años del Grupo B, ya que la primera representa mejor a los datos
originales. Es por ello que afirmamos que en el Grupo A, “la media es más
representativa de las edades de las que proviene”, por tener éstas poca dispersión.
Ejemplo 2:
Utilizando los siguientes conjuntos sencillos de datos, acerca del puntaje que
obtuvieron un grupo de 12 abogados en una prueba de selección de personal en las
notarías A y B:
A: 0 48 49 51 52 100
B: 47 48 49 51 52 53
Tanto la media como la mediana de ambos conjuntos de datos son iguales a 50; es
decir, ambas distribuciones son simétricas. No obstante, ellas son muy diferentes. No
es suficiente describir los datos, midiendo dónde cae el centro: debemos también
considerar cómo están dispersos.
La forma más sencilla de medir la dispersión de un conjunto de datos, consiste en
calcular el rango, pero veremos que esto no es la forma más confiable, pues existen
mejores medidas de dispersión, como la varianza y el coeficiente de variación, que las
estudiaremos posteriormente.
RANGO
Como vimos anteriormente, al considerar la construcción de una tabla de distribución
de frecuencias, el rango es simplemente la diferencia entre el valor mayor y el menor
de los datos.
Si tenemos en cuenta los datos del Ejemplo 2 anterior, el rango de ambos grupos, es:
Rango (A ) = 100 – 0 = 100
Rango (B) = 53 – 47 = 6 (mucho menor que 100).
Ahora comparemos los datos del grupo A con un nuevo conjunto de datos, C, dado a
continuación:
A: 0 48 49 51 52 100
C: 0 1 1 99 99 100
Ambos conjuntos de datos tienen el mismo rango de 100 y todavía los valores en A son
mucho más centrales que los de C. Por tanto, el rango de un conjunto de datos no es
una buena medida de dispersión, porque sólo usa los valores mínimo y máximo de los
datos. Se necesita una medida de dispersión que se calcule usando todos los datos,
como la varianza.
VARIANZA
La varianza es la medida de dispersión más versátil de un conjunto de datos,
convirtiéndose en una medida muy valiosa de la dispersión: “los datos son más
heterogéneos o están más dispersos a medida que aumente el valor de la varianza ”.
La varianza es una de las ideas cruciales de la Estadística.
La varianza de los n datos de una variable X, se determina utilizando la siguiente
fórmula:
n
∑ ( x i −x )2
V ( X )= i=1
n
Otra forma de obtener la varianza es:
2 2
V ( X )=E ( X )−[ E( X ) ]
El valor de la varianza no puede ser negativo y será igual a 0 si todos los datos
coinciden con la media.
Aunque probablemente se use una computadora para determinar la varianza de un
conjunto de datos, el cálculo manual sirve para comprender lo que es la varianza.
Si tenemos en cuenta la primera fórmula para calcular la varianza, se observa que ella
se basa en la suma de los cuadrados de las diferencias entre cada valor y la media y, a
medida que los valores se alejen de la media, ella será más grande.
La varianza es una buena medida de dispersión porque puede discernir entre
muestras como los conjuntos de datos A y C, los cuales tienen la misma media (50) y el
mismo rango (100), pero el conjunto C es más disperso que el A.
Cuando se pretende interpretar la varianza, se presenta dos inconvenientes. Primero,
sus unidades están elevadas al cuadrado; por lo que, por ejemplo, si medimos número
de hijos, la varianza se expresa en número de hijos al cuadrado, lo cual no tiene
significado. Segundo, no tiene límite superior y su valor puede ser muy grande y no
tenemos con qué compararlo para saber si indica una gran variabilidad o si los valores
de la variable lo son.
Reconocimiento de la varianza:
La Figura 4 que sigue, muestra los histogramas de tres conjuntos de datos. Cada
conjunto tiene 400 valores, es aproximadamente simétrico y tiene una media de 30.
Pero la varianza del primer conjunto de datos es 16, la del segundo es 36 y la del
tercero es 121 (las desviaciones estándar, que veremos luego, son iguales a 4, 6 y 11,
respectivamente). Todos los valores del primer histograma están muy concentrados
alrededor de 30; los del segundo son ligeramente más variados y los del tercero son
aún mucho más dispersos.
160
140 V (×)=¿
120
Frecuencia
100
80
60
40
20
0
0 10 20 30 40 50 60
100
90
V (×)=¿ 36
80
Frecuencia
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60
60
50 V (×)=¿ 121
Frecuencia
40
30
20
10
0
0 10 20 30 40 50 60
Datos Datos2
(xi) (xi2)
0 0
48 2304
49 2401
51 2601
52 2704
100 10000
6 6
∑ xi ∑ x 2i =
i=1 = i=1 20010
300
20010 300 2
2 2 = −( ) =3335−(50 )2=3335−2500=835
V ( X )=E ( X )−[ E( X ) ] 6 6
Ejemplo 2:
Ahora, hallemos la varianza del conjunto de datos C (utilizando la primera fórmula):
C: 0 1 1 99 99 100
Datos Datos2
(xi) (xi2)
0 0
1 1
1 1
99 9801
99 9801
100 10000
6 6
∑ xi ∑ x 2i =
i=1 = i=1 29604
300
2 2
V ( X )=E ( X )−[ E( X ) ]
29604 300 2
= −( ) =4934−(50 )2=4934−2500=2434
6 6 .
Ejercicio resuelto:
Hallar la varianza del conjunto anterior de datos B.
Solución:
Procedamos como en el caso del conjunto de datos C, pero ahora utilizando los datos:
B: 47 48 49 51 52 53
Datos Datos2
(xi) (xi2)
47 2209
48 2304
49 2401
51 2601
52 2704
53 2809
6 6
∑ xi ∑ x 2i =
i=1 = i=1 15028
300
2 2
V ( X )=E ( X )−[ E( X ) ]
15028 300 2
= −( ) =2504 . 67−(50 )2=2504 .67−2500=4 . 67
6 6 (puntos)2.
Como se podría esperar, la varianza en el grupo B (4.67) es mucho más pequeña que
en los grupos A (835) y C (2434), a pesar de que los tres grupos tienen la misma media
y el mismo rango.
DESVIACIÓN ESTÁNDAR
La desviación estándar de un conjunto de datos, que la denotaremos por DE(X), es
igual a la raíz cuadrada de su varianza. Es decir:
DE(X) = √V ( X )
Recordemos que el primer inconveniente para interpretar la varianza es que su valor
se expresa en unidades de medida de la variable, elevado al cuadrado, lo cual casi no
tiene sentido al momento de interpretarla. Esto se resuelve utilizando la desviación
estándar, que se expresa en las mismas unidades de medida de la variable de interés y
no hay problemas con su interpretación.
Ejemplo1:
Hallemos la desviación estándar de nuestro conjunto de datos A:
Solución:
Ejemplo 2:
Ahora, encontremos la desviación estándar para el conjunto de datos C:
COEFICIENTE DE VARIACIÓN
El coeficiente de variación de una variable cuantitativa X, denotado por CV(X), es otra
medida de dispersión de los datos. Para solucionar el segundo inconveniente de la
interpretación de la varianza, relacionado con su magnitud, y que sigue siendo el
mismo problema para la desviación estándar, se define el coeficiente de variación
como una medida relativa de la dispersión, al carecer de unidades. Su utilidad radica
en que con él se puede comparar la dispersión de dos o más conjuntos de datos que se
pueden expresar, incluso, en unidades de medida diferentes, puesto que su valor se
expresa en términos porcentuales (por comodidad para la interpretación),
independiente de la unidad de medida de la variable. Por ejemplo, se puede
comparar, mediante este coeficiente, la variación del peso (en kilogramos) y la de la
estatura (en metros) de un conjunto de personas.
Cuando hay mucha dispersión en los datos, la media no es una medida adecuada para
resumir la información.
El coeficiente de variación lo podemos calcular a través de la fórmula siguiente:
DE( X )
CV ( X )= (100 %)
x
En la práctica, se considera que si el coeficiente de variación es menor al 10%, la
distribución tiene poca dispersión (o que los datos son homogéneos) y se puede
confiar en la media como medida de centralidad y considerarla como representativa
de los datos que resume.
Ejemplo 1:
El ingreso mensual (en miles de dólares) de los jueces de 6 Juzgados de Paz Letrado,
es: 2, 2, 2, 2, 10, 10. El ingreso medio mensual por juez es de 28/6=4.66667
($4,666.67), el cual no es representativo del ingreso de los 6 jueces, porque tuvieron
ingresos muy diferentes: el ingreso mensual de cada uno de 4 jueces es de $2,000.00 y
el de cada uno de 2 jueces es de $10,000.00. El coeficiente de variación es igual a
304.76%, un valor muy grande, indicativo de que la media no es una medida adecuada
para resumir los 6 ingresos mensuales. (Como el coeficiente de variación es muy
grande-mucho mayor que 10%-, se dice que la media no es una buena medida
representativa).
Ejercicios:
1) Verificar que el coeficiente de variación de los datos: 2, 2, 2, 2, 10, 10, es igual a
304.76%.
Guía de solución:
Datos Datos2
(xi) (xi2)
2
2
2
2
10
10
6 6
∑ xi ∑ x 2i =
i=1 = i=1
2 2
V ( X )=E ( X )−[ E( X ) ]
2) El número de síntomas (X) de 6 pacientes diagnosticados de Covid-19 es: 5, 6, 6, 8,
8, 9. Calcular e interpretar las medidas estadística de centralidad y de dispersión
estudiadas. Comente con respecto a la moda.
[Rpsta.: x =7; Md=7; Mo(1) = 6; Mo(2) = 8: hay dos modas; V(X) = 2; DE(X) =
1.41; CV(X) = 20.14%].
PORCENTAJE DIARIO DE
COMU- RESULTADOS
NICADO CONFIRMADOS EN LAS PRUEBAS
30/06/2020 153
Elaboración propia
(Sugerencia: compruebe que sus valores son los que se muestran en la siguiente
tabla, donde la segunda columna corresponde a las pruebas moleculares, la
tercera a las pruebas serológicas y la cuarta a ambas pruebas).
Medidas estadísticas
5) Sin hacer cálculos, ¿cuál de estas dos muestras de datos, correspondientes al número
de expedientes judiciales de 5 Juzgados de Familia de las ciudades A y B, tiene la
mayor varianza? Justificar la respuesta.:
A 3 5 7 9 11
B 3 7 7 7 11
Confirmar o contradecir la respuesta, calculando la varianza de cada muestra.
6) Un abogado desea invertir algún capital en una de tres empresas que operan en bolsa.
Para cada empresa, la media y la desviación estándar de los retornos porcentuales
anuales en los últimos diez años se dan en la siguiente tabla:
MEDIDAS DE ASOCIACIÓN
Las medidas estadísticas estudiadas anteriormente, corresponden a una variable
cuantitativa unidimensional. Cuando de un conjunto de n individuos se toman, al
mismo tiempo, dos variables cuantitativas (denotadas usualmente por X e Y), es de
interés determinar el grado de asociación que existe entre ellas. Una de las medidas
estadísticas que expresan la asociación entre dos variables cuantitativas es el
coeficiente de correlación producto-momento de Pearson o, simplemente,
coeficiente de correlación.
Ejemplo 1:
Se puede cuantificar la asociación que existe entre:
a) Peso y Estatura de las estudiantes.
b) Velocidad y Consumo de combustible de los automóviles.
c) Desgaste y Tiempo de uso de rodamientos.
COEFICIENTE DE CORRELACIÓN
El nombre ampliado del coeficiente de correlación es “COEFICIENTE DE CORRELACIÓN
PRODUCTO-MOMENTO DE PEARSON”. Por simplicidad, se utiliza a menudo el término
COEFICIENTE DE CORRELACIÓN.
Cálculo del coeficiente de correlación:
Por lo regular, facilita el cálculo manual del coeficiente de correlación, utilizando n
datos muestrales de una variable cuantitativa bidimensional (X, Y), denotado por “r”,
construir una tabla como la siguiente (la información inicial sólo está conformada por
las tres primeras columnas; las demás han sido incluidas para ilustrar el cálculo de este
coeficiente):
i xi xi yi xi2 yi2
yi
1 x1 y1 x1 y1 x12 y12
2 x2 y2 x2 y2 x22 y22
. . . . . .
. . . . . .
. . . . . .
n xn yn xn yn xn2 yn2
Tota n n n n
l ∑ xi ∑ yi ∑ xi yi ∑ yi2
i=1 i=1 i=1 i=1
√
n n n n
[n ∑ x 2i −( ∑ x i )2 ][ n ∑ y 2i −( ∑ y i )2 ]
i =1 i =1 i=1 i=1
Ejemplo 2:
i xi yi xi yi x 2i y 2i
1 29 31 899 841 961
2 35 27 945 1225 729
3 28 29
4 44 25
5 25 31
6 34 29
7 30 28
8 33 28
9 28 28
10 24 33
Tota
l
Ejercicios
Calcule e interprete el coeficiente de correlación de los siguientes conjuntos de datos:
Estudiante X Y
1 7 6
2 13 10
3 10 9
4 9 8
5 11 12