Está en la página 1de 36

Segundo caso, variable numérica o cuantitativa.

- En el caso de
la variables numéricas o que son medidos en escala de intervalo o
de razón, los intervalos o clases deben determinarse antes de que
se construya la distribución de frecuencias (este procedimiento es
válido tanto para el procesamiento manual de los datos como para
el procesamiento con ayuda de software).
En la determinación de los intervalos o clases no existe un número
establecido, en su construcción, por lo general se formulan entre 5
y 15. La construcción de los intervalos o clase de las variables
numéricas se pueden presentan los casos de variables discretas y
el de variables continúas:
 Datos discretos: Cuando los datos son discretos y el rango de
variación es pequeño se efectúa la tabulación agrupándolos en
clases o puntos.
Ejemplo: La siguiente información corresponde al número de
hijos por familia en el asentamiento humano “Micaela Bastidas”
de la Provincia de Maynas, información obtenida por los
estudiantes del curso de estadística I-S-2005, se pide construir
una tabla de distribución de frecuencias.
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
5 3 6 2 1 5 4 2 1 3 5 3 2 1 6
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 4 3 2 1 4 3 1 4 2 3 1 5 6 4
0 0
2 5
TABLA Nº 02
ASENTAMIENTO HUMANO “MIACAELA BASTIDAS”-MAYNAS
NÚMERO DE HIJOS POR FAMILIA – 2005

Xi fi Fi  F hi hi % H% H%
01 7 7 34 0.21 21 21 100
02 6 13 27 0.18 18 39 79
03 7 20 21 0.21 21 60 61
04 5 25 14 0.14 14 74 40
05 6 31 9 0.18 18 92 26
06 3 34 3 0.08 8 100 8
Total 34 1.00 100
Fuente: Datos obtenidos por estudiantes de estadística UNAP-2005

Interpretación:
X3: En la tercera clase se han agrupado a las familias que tienen
en promedio 3 hijos
f5: Existen 6 familias que tienen en promedio 5 hijos
h3%: El 21% de las familias del AAHH “Micaela Bastidas” tienen en
promedio 3 hijos.

 Datos continuos: Generalmente son numerosos, con un rango


de variación grande o cuando la variable tiene una escala de
medición de Intervalo o de razón (valores enteros y decimales o
fraccionados), para su mejor interpretación y mayor visión es
necesario construir una tabla de distribución de frecuencias con
intervalos clase a fin de ganar información sobre toda la
distribución de valores, aunque se esté sacrificando información
de ciertos valores individuales. Para de la elaboración de esta
tabla debe tomarse en cuenta las siguientes definiciones:

Intervalos: Son espacios limitados por dos extremos, los mismos


que contienen información sobre una distribución de valores de
una variable en estudio.

Notación: X’i - 1 --- X’i

Dónde: X’i – 1: Límite inferior; X’i: Límite superior

Clases de Intervalos:

Cerrados: Incluye a los dos extremos X’i-1 --- X’i

Abiertos: No incluye a los dos extremos  X’i-1 --- X’i

Semiabiertos: Incluye sólo uno de los extremos: X’i-1 --- X’i  o


 X’i-1 --- X’i

Intervalos de Límites Reales: Cuando se presentan intervalos


de límites cerrados (no traslapados) a los que se denominan
intervalos de límites aparentes, se hace necesario transformarlos
a intervalos de límites reales (traslapados), eligiendo sus límites
de clase sin modificar sus frecuencias. El limite real es igual a su
valor aparente más o menos una mitad de la unidad de medida
utilizada (0.5, 0.05, 0.005, etc.). El procedimiento se realiza
restando 0.5 al límite o extremo inferior y se suma 0.5 al límite o
extremo superior

Amplitud o ancho de clase: La amplitud se determina restando


el límite o extremo inferior del límite o extremo superior si los
límites fueran semiabiertos, en el caso de que limites sean
cerrados a la diferencia anterior se le suma una unidad de medida
utilizada (u), esta amplitud puede ser constante o variada.

C = X’i - 1 - X’i (Semiabiertos);

C = X’i - 1 - X’i + u (Cerrados)

Marca de clase: La marca de clase es el punto medio del


intervalo de clase (promedio), se calcula sumando los extremos y
dividiendo entre dos
' '
X + X
X = i−1 i

Regla para construir una Tabla de Distribución de


Frecuencias (T.D.F.).- existen diversas reglas para construir
tablas de distribución de frecuencias, tomaremos la que
pensamos que es la más adecuada por cumplir los criterios
matemáticos cuyos pasos son los siguientes:

1ro. Determinación del Rango (R)

R = Valor máximo – Valor mínimo

2do. Determinación del número de clases (m)

Según la Regla de Sturges: m = 1 + 3.33 Log (n)

Dónde: n: Total de datos en estudio

Observación: Cuando los resultados son números reales con


decimales, entonces debe ser redondeado a números enteros
puesto que no existen intervalos fraccionados

3ro. Determinación de la amplitud o ancho de clase (C). Se


determina mediante

C = R/m

En este caso todas las clases deben tener la misma longitud


con posible excepción del primer y el último intervalo.

Observación: El resultado debe ser redondeado a las unidades


(u) de medida en que se encuentran dado los datos así por
ejemplo, si la variable esta expresada en enteros entonces se
debe redondear a enteros; sí esta expresada en decimales a la
posición decimal que se encuentren dado.

4to. Balanceo de la Información (E). Para que toda la información


(datos) se incluyan dentro del total de intervalos para lo cual se
Se utiliza el artificio del exceso mediante:
E = mxC - R
 El resultado puede ser, cero; E=0; entonces se construye el
primer intervalo o intervalo fundamental, teniendo en cuenta
que el último intervalo debe ser de extremos cerrados.
 E  0 (E>0 o E<0); entonces se debe seguir los pasos del
siguiente diagrama:
E= m x C - R
E 0 E0

Entero Decimal

PAR PAR

E1 E1
E E = m (C + u) - R y/o
E E = C (m + 1) - R
E2 E2

E1 = E2 E1 = E2
Se selecciona el menor
IMPAR
E1 positivo
IMPAR
E1 E

E E2
E2 E1 E2

E1 E 2

Luego se determina los nuevos valores máximo y mínimo:

Nvo. Min. = Min. Orig. - E1; Nvo. Max. = Max. Orig. + E2

Repetimos el procedimiento con los nuevos límites.

Nvo. Recorr.= Nvo. Max. -Nvo Min.

Nva. Ampl. = Nvo. Recorr. / m*

m*: Si se selecciona en el diagrama E = C (m + u) - R cuando E


 0, esto indica que se debe incrementar un intervalo a la
distribución de frecuencias.

5to. Intervalo fundamental o primer intervalo: Se construye el


primer intervalo o intervalo fundamental teniendo en cuenta el
tipo de intervalo con el que se esté trabajando.
Intervalos Cerrados:  X’i-1 ------------------ X’i 
E=0  Min. ------- Min. + (C – u)
E 0  Nvo. min. ----- Nvo. min. + (C* – u)

Intervalos Semi abiertos  X’i-1 ------------------ X’i


E=0 Min. ----- Min. + C
E 0 Nvo. min. ----- Nvo. min. + C* 

Los siguientes intervalos se construyen sumando la amplitud o


nueva amplitud a los límites inferiores y limites superiores de
cada intervalo.

6to. Proceso de tabulación (Conteo): Se realiza el conteo de los


valores de la variable en cada intervalo de clase mediante el
método de conteos de Tukey (1977)
Ejemplo:
Los alumnos del curso de Estadística de FCEH-UNAP, han
recopilado información sobre la estatura en metros de una muestra
de pobladores del Distrito de Belén - Iquitos durante el año 2013.

1.15 1.50 1.65 1.45 1.04 1.63 1.55 1.58 1.60 1.63 1.45
1.27 1.49 1.68 1.20 1.62 1.35 1.47 1.58 1.36 1.40 1.39
1.69 1.63 1.55 1.58 1.10 1.63 1.45 1.27 1.49 1.68 1.20
1.62 1.35 1.47 1.58.

En base en estas medidas construir una tabla de distribución de


frecuencias.
Solución:
Rango: R = Val. Max – Val. Min.= 1.69 – 1.04 =0. 65

R = 0.65

Número de intervalos: m = 1 + 3.33 log (37) = 6.22

m = 6

Amplitud: Ci = R/m = 0.65 / 6 = 0.10833..

Ci = 0.11 redondeo a las unidades de la base de datos

Balanceo por el artificio del exceso: E = m x c - R

E = 6 x 0.11 - 0.65 = 0.01; E  0


E1 = 0.00; E2 = 0.01 (E1  E2)
Nuevos valores

Nvo Max = Xmax + E2 = 1.69 + 0.01 = 1.70


Nvo Min = Xmin - E1 = 1.04 - 0.00 = 1.04
Nvo Rec = Nvo Max - Nvo Min = 0.66
Nva Ci = Nvo Rec / m = 0.66 / 6 = 0.11
Nva Ci = 0.11

Construcción del 1er. Intervalo o intervalo fundamental:

Intervalos Semi abiertos: [Xi – 1 ----- Xi 


[ Nvo min ------ Nvo min+ NvaC 
[1.04 ------ 1.04 + 0.11 
 1.04 ------ 1.15 
Conteo:
Conteo de Número o
X’i-1 -- X’i 
Tuckey frecuencia
. .
1.04 -- 1.15 2
. .
1.15 -- 1.26 3
.
. .
1.26 -- 1.37 5
. .
. .
1.37 -- 1.48 7
. .
1.48 -- 1.59 9
.
1.59 -- 1.70 11
Total 37

TABLA Nº 03
DISTRITO DE BELÉN- PROVINCIA DE MAYNAS
POBLADORES POR ESTATURA EN
METROS – 2005

X’i-1 -- X’i  Xi fi F F hi hi % H H
% %
1.04 -- 1.09
2 2 37 0.05 5 5 100
1.15 5
1.15 -- 1.20
3 5 35 0.08 8 13 95
1.26 5
1.26 -- 1.31
5 10 32 0.14 14 27 87
1.37 5
1.37 -- 1.42
7 17 27 0.19 19 46 73
1.48 5
1.48 -- 1.53 9 26 20 0.24 24 70 54
1.59 5
1.59 -- 1.64
11 37 11 0.30 30 100 30
1.70 5
Total 37 1.00 100
Fuente:
Interpretación:
X5 : En la tercera clase se han agrupado a los pobladores que
tienen en promedio 1.415 mts. de estatura
f3 : Existen 05 pobladores que tienen una estatura promedio de
1.315 metros
F2 : Los pobladores del Distrito de Belén que tienen una estatura
inferior a 1.26 mts. Son 05.
F4 :27 pobladores del Distrito de Belén tienen estatura iguales o
superiores a 1.37 mts.
h6 :0.30 es la proporción de la muestral de pobladores del Distrito
de Belén que tienen estatura promedio de 1.645 mts.
h3 % : El 14% de la muestra de pobladores del Distrito de Belén
tienen estatura promedio de 1.315 mts.
H4%: De la muestra de pobladores del Distrito de Belén el 46%
tienen estatura menor de 1.48 mts.
H3 %: El 87% de la muestra de pobladores del Distrito de Belén
tienen estatura igual o superior a 1.26 mts.

 Gráficos estadísticos: Las distribuciones de frecuencias


constituyen un método ideal para presentar los aspectos
esenciales de un conjunto de datos en términos entendibles y
concisos. Sin embargo, una distribución de frecuencias puede
analizarse con más facilidad si se representa en forma gráfica. Se
puede tener información de importancia con respecto a un
conjunto de valores de una variable simplemente observando una
representación gráfica de los mismos éstas surgieron a fines del
siglo XVIII y se le atribuye a WILLIAM PLAYFAIR.

Los tipos de gráficos van a elegirse de acuerdo a la escala de


medición de las variables y al propósito para el cual se
construyen, estos no sustituyen a las tablas estadísticas, si no,
son sus auxiliares, los más importantes son: los de barras
simples, barras compuestas, barras superpuestas, de burbujas,
circulares o sectoriales, diagrama de hojas y tallos, de cajas y
patillas (Box plots), de serie de tiempo, pictogramas, histogramas,
polígonos, bastones etc.

Para construir gráficos usualmente es recomendable que la altura


debe ser proporcional a su base, por lo general los ¾ de su
base, en un libro normal la figura debe tener como base de por lo
menos 10 cms. Entonces su altura será de 7.5 cms.; los gráficos
para conferencias o en exposiciones en oficinas de trabajo, la
base podría tener 100 cms. y su altura 75 cms.
Gráficos de variables categóricas: En la elaboración de los
gráficos de barras y circulares se debe observar lo siguiente:

 Las variables con sus respectivas categorías se ubican en el


eje X y las frecuencias en el eje Y.
 Todas las barras deben tener el mismo ancho.
 El espacio entre barra y barra debe ser la mitad del ancho de
la barra.
 Cuando las barras son compuestas deben dividirse en partes
iguales las mismas que corresponden a las categorías de la
segunda variable en la tabla de doble entrada.
 El número de escalas en cada eje debe ser proporcional entre
sí.
 Las barras deben construirse preferentemente en orden
creciente de magnitud, en orden alfabético, cronológico, etc.
 En los gráficos circulares primero se debe transformar a
grados las frecuencias o porcentajes, para que en sentido
horario o anti horario construir los sectores correspondientes a
las categorías de la variable.
 Cuando se elaboran los gráficos de variables cuantitativas los
intervalos o marcas de clase deben estar en el eje horizontal y
cuando éstos no inician con cero se dibuja un símbolo tal como
║ ó √ que significa que el eje está cortado y por lo tanto los
valores no empiezan con el cero, lo mismo sucede en el eje
horizontal en donde se ubican las frecuencias.

Ejemplo: De la tabla Nº 01 realizaremos dos gráficos el de barras


simples y el diagrama circular:

Diagrama circular
GRÁFICO Nº 01
NIVEL DE AUTOESTIMA DE LOS ESTUDIANTES

UNIVESITARIOSDE LA UNAP-2005

Autoestima baja

23.0%

Autoestima alta
77.0%

Fuente: Datos obtenidos por los estudiantes

Barras simples

GRÁFICO Nº 02
FACULTAD DE ENFERMERÍA UNAP
ESTUDIANTES POR NIVEL DE AUTOESTIMA – 2004.
100

%
80
77

60

40

20 23

0
Autoestima baja Autoestima alta

Nivel de autoestima
Fuente: Datos obtenidos por los estudiantes

Ejemplo Nº: De la tabla Nº 04 graficaremos barras compuestas y


barras superpuestas:

TABLA Nº 04
FACULTAD DE ENFERMERÍA UNAP
ESTUDIANTES POR RENDIMIENTO ACADÉMICO SEGÚN NIVEL
DE AUTOESTIMA – 2004

Nivel de Autoestima
Rendimiento Total
Baja Alta
académico
n % N % n %
Muy bueno 1 0.7 4 2.6 5 3.3
Bueno 5 3.3 22 14.5 27 17.8
Regular 27 17.8 87 57.2 114 75.0
Malo 2 1.3 4 2.6 6 3.9
Total 35 23.0 117 77.0 152 100
Fuente: Elaborado por los estudiantes de enfermería IS-2004

Barras Compuestas
GRÁFICO Nº 03
FACULTAD DE ENFERMERÍA UNAP
ESTUDIANTES POR RENDIMIENTO ACADÉMICO SEGÚN
NIVEL DE AUTOESTIMA – 2005.
% E stu d ia n te s
100

87
80

60

40

27 Autoestim a
20 22
Baja

0 5 Alta
Muy bueno Bueno R egular M alo

Rendimiento académico

Fuente: Datos obtenidos por los estudiantes

Barras Superpuestas

GRÁFICO Nº 04
FACULTAD DE ENFERMERÍA UNAP
ESTUDIANTES POR RENDIMIENTO ACADÉMICO SEGÚN NIVEL
DE AUTOESTIMA – 2005.
% E S T U D IA N T E S

100
80 81 76 67
90

80

70

60

50

40

30 33
Autoestima
20 24
20 19 Alta
10
0 Baja
Muy bueno Bueno Regular Malo

Rendimiento académico

Gráficos de variables numéricas: Los gráficos más comunes de


las variables numéricas son los histogramas, polígonos, bastones
y variaciones:
Histograma: Son gráficos continuos formados por una serie
de rectángulos adyacentes cuya base está formada por el
intervalo y su altura las frecuencias simples (histogramas de
frecuencias simples) o acumuladas (histogramas de
frecuencias acumuladas).
Polígono de frecuencias: Este tipo de gráficos se construyen
con las marcas de clase y las frecuencias simples (polígono de
frecuencias simples) o con los límites reales de los intervalos y
las frecuencias acumuladas (polígono de frecuencias
acumuladas u ojivas), para esto se adiciona un punto extremo
inferior y superior con frecuencia cero. Un polígono también se
construye superponiéndolo en el histograma (frecuencias
simples) uniendo con líneas los puntos medios superiores de
cada rectángulo del histograma simple y para las ojivas
uniendo los extremos de cada rectángulo del histograma de
frecuencias acumulada. Ejemplo: Tomando como referencia la
tabla Nº 03 construiremos los gráficos siguientes
GRÁFICO Nº 05
DISTRITO DE BELÉN- PROVINCIA DE MAYNAS
POBLADORES POR ESTATURA EN METROS – 2005
fi

10 -
8 –
6 –
4 –
2 –

1.06 1.15 1.26 1.37 1.48 1.59 1.70 Estatura


Fuente: Elaborado por los estudiantes de Educación IS-2004
GRÁFICO Nº 06
DISTRITO DE BELÉN- PROVINCIA DE MAYNAS POBLADORES
POR ESTATURA EN METROS – 2005
Fi
6 _
30 -
24 –
18 –
12 –
6 –

1.06 1.15 1.26 1.37 1.48 1.59 1.70 Estatura


Fuente: Elaborado por los estudiantes de Educación IS-2004

Diagrama de tallos y hojas: Una desventaja de la tabla o cuadro


de distribución de frecuencias es la pérdida de información al
efectuar los conteos. Una técnica que compensa la pérdida de
información que ocurre al resumir datos originales es el
“Diagrama de tallos y hojas”; en el se muestran los datos reales
ordenados y nos proporciona una idea rápida de la tendencia de
los datos, y se pueden ubicar con facilidad la mayoría de las
medidas de posición. En su construcción se debe tener en cuenta
las cifras que forman en datos; una de las primeras cifras forma el
tallo y el resto de las cifras las hojas, si los datos tienen más de
tres cifras estos se deben de redondear a 2 ó 3 cifras
significativas los mismos que se disponen en una tabla con dos
columnas separadas por una línea.
Ejemplo: Si los datos fuesen de dos cifras como 39, se
escribe a la izquierda de la línea los dígitos de las decenas en
nuestro caso 3 (Tallos), y a la derecha las unidades en ejemplo 9
(hojas).
Si los datos son de 3 dígitos el tallo estará formado por los dígitos
de las decenas y centenas y las ramas por los dígitos de las
unidades así el dato 827 82 será el tallo y 7 la hoja
Cuando el número de datos es pequeño las clases se determinan
sin dificultad, pero cuando los datos son grandes se procede de la
siguiente manera: se determina el recorrido, luego se elige una
amplitud adecuada para obtener entre 5 y 15 clases o intervalos
como ejemplo veamos los datos de estatura de los pobladores del
Distrito de Belén:
Los datos los convertimos a números enteros es decir a
centímetros luego tendremos dígitos de 3 cifras donde las
decenas y centenas serán los tallos y las unidades serán las
hojas

Tallo Hojas

10 4
11 5 0
12 7 0 7 0
13 5 6 9 5
14 5 5 9 7 0 5 9 7
15 0 5 8 8 5 8 8
16 5 3 0 3 8 2 9 3 3 8 2

Si se girara 90 grados la tabla se verá que se tiene una figura que


muestra la distribución de frecuencias sesgada hacia la izquierda.

Gráficos de cajas y patillas (Box Plots): son de utilidad para


mostrar distribuciones de frecuencias, se ha usado en gran
medida como resultado de la influencia de Tukey (1977), se
muestran en forma vertical u horizontal, por lo general estos
gráficos se hacen utilizando el software SPSS, Excel, etc., las
gráficas de caja también son útiles para comparar las
distribuciones de dos o más grupos para alguna variable de
interés. Permite tener una idea de la dispersión de los datos.
En la anatomía de un gráfico de caja, se nombran las diferentes
partes de un gráfico de caja, el mismo que está en sentido vertical
y no horizontalmente. Se puede dibujar indistintamente de
cualquiera de las dos maneras, pero cuando se usa gráficos de
caja para comparar dos o más grupos es probable que sea más
fácil contemplarlos verticalmente. Donde los lados laterales QL y
QU representan los cuartiles 1 y 3 respectivamente, en el
rectángulo (Caja) se indica la mediana con un segmento

Anatomía de un gráfico de caja

Periféricos lejanos
Periférico
Cercado superior
Bigote

QU
Caja

Mediana

QL
Bigote

Cercado inferior

TRABAJO DE APLICACIÓN – PRIMER CAPÍTULO

Definir una línea de investigación, seleccionar el tema y plantear el


problema de investigación teniendo en cuenta el esquema de anteproyecto
y desarrollar el trabajo de campo.
CAPÍTULO 2

ANALISIS NUMERICO UNIVARIADO

MEDIDAS DE RESUMEN

Competencias:

1. Calcula y utiliza los estadígrafos de tendencia central y de posición en la

resolución de problemas.

2. Calcula y utiliza los estadígrafos de dispersión y deformación en la

resolución de problemas.

3. Mide el tamaño promedio de los valores en una muestra, esparcimiento

y deformación.
2 MEDIDAS DE RESUMEN:
Después de construir tablas y gráficos, a partir de una colección de datos, se
requiere medidas más exactas. Las estadísticas de resumen proporcionan
medidas para describir un conjunto de datos.

2.1 MEDIDAS DE TENDENCIA CENTRAL


En el quehacer diario, el lenguaje más común que utilizamos con un
concepto estadístico es el “promedio”, utilizándose desde la primaria,
continuamente estamos observando reportes de promedios: Sueldo
promedio, precipitación pluvial promedio, peso promedio, e incluso
promedio de goles. El “promedio” resulta algo ambiguo, escuchamos
acerca del ama de casa promedio, votante promedio, familia promedio,
incluso “hombre promedio”; el término promedio se utiliza en maneras
diferentes que rara vez se usa en la comunicación científica, a menos que
el contexto haga claro su significado, debemos distinguir entre las tres
medidas comunes del “promedio” o más precisamente medidas de
tendencia central: la media, mediana y moda

Cuando se explora un conjunto desordenado de calificaciones de examen


para ver si su calificación es alta o baja o por encima o por debajo del
promedio, está buscando información estadística relevante que le va
permitir interpretar y evaluar su desempeño con más precisión y significado
y se puedan obtener interpretaciones correctas de los datos.

Una medida de tendencia central o localización media, es la más importante


descripción de una distribución, esto es aplicable a la investigación empírica
y a la información cuantitativa diseñada para el público en general.

MEDIA
La media o promedio aritmético de un conjunto de datos (X) es simplemente
la suma (X) dividida entre el número de observaciones (n), cuando se
obtiene de una muestra la media se representa por X y se obtiene de una
población se representa por  . La media de la población (  ) es un
parámetro y se determina con el conjunto completo de las unidades de
observación (N) definida por el investigador, por ejemplo todos los docentes
de la provincia de Maynas, todas las escuelas primarias de la región de
Loreto, la media muestral (X), es un estadígrafo inferencial que se obtiene
de un subconjunto representativo de la población, preferentemente una
muestra aleatoria, de unidades de observación (n).

Utilizando fórmulas la media aritmética se define como:


Para datos en serie
n
∑ xi x + x + x + .. .. .. . .. .+ x
1 2 3 n
X = i =1 =
n n

Para datos agrupados en distribuciones de frecuencias como:


k
∑ xi f i x f +x f +x f xf
i=1 1 1 2 2 3 3 +. .. .. . .. ..+ k k
X= =
n n

Características de la media:
 Para un conjunto de observaciones o una distribución de frecuencias la
media aritmética es única.
 La media aritmética de una constante C es la misma constante C.
 La media aritmética cuando se modifica o cambia algún valor se afecta,
es decir que también cambia o se modifica.
 Si a los valores de una variable en estudio (X), se le suma o se resta
una constante C, la media aritmética estará sumada o restada en la
constante C.

Si: Y=X+C  Y = X + C

 Si los valores de una variable en estudio (X), son multiplicados o


divididos por una constante C, la media aritmética quedará multiplicada
o dividida por la constante C.
Y = CX  Y = CX
 La media aritmética estará afectada por la presencia de valores
extremos tanto al inicio o al final de un conjunto de datos ordenados, es
decir que si existe valores extremos al inicio de los datos la media estará
inclinada hacia el lado izquierdo y si fuese al final de los datos la media
estará inclinada hacia el lado derecho.
 No es posible calcular la media aritmética en tablas de distribución de
frecuencias que contienen intervalos de clase con extremos de clase al
inicio o al final de los mismos, es decir en intervalos que contengan
intervalos de clase con “menor o menos de” y/o “mayor o más de”.
 La media aritmética es la medida más utilizada en estadística por que
es utilizada en la estadística paramétrica, en prueba de hipótesis
estadísticas, estimación de intervalos de confianza, etc.

MEDIANA
La mediana (Me) es otra de las medidas de tendencia central, se define
como el valor medio en un conjunto de observaciones ordenadas
crecientemente o decrecientemente: el punto máximo del 50% de las
observaciones que caen en la parte inferior o el punto mínimo del otro 50%
de las observaciones que caen en la parte superior
La mediana puede determinarse para cualquier serie de datos que pueda
ordenarse, esto es que sólo se requiere una escala ordinal de medición.
Por ejemplo, en un salón de clase de educación secundaria, suponga que
los alumnos están clasificados por su rendimiento académico, cada
elemento de estudio tendrá un rango según las calificaciones obtenidas, la
mayor calificación obtenida por la mitad de los alumnos, representa la
mediana con respecto a esta escala.
Cuando n es muy pequeña, las observaciones pueden clasificarse
rápidamente, de modo que puede determinarse en forma sencilla. Cuando
n es muy grande, el proceso de determinar la mediana toma tiempo, en la
actualidad con la ayuda de software y las microcomputadoras el cálculo se
hace relativamente fácil. Ante la falta de modernización en nuestro medio
todavía incluiremos métodos aproximados para estimar la mediana de
distribuciones de frecuencia agrupadas.
Matemáticamente la mediana para una serie de datos se define como:

{
X .. . .. .. . .. . , n
n +1
2
es impar
Me=
X +X n
2
n
2
+1
. . .. , n es par
2

Para datos agrupados en tablas de distribución de frecuencias la mediana


se obtiene según lo siguiente:
1ro. Se construye las distribuciones acumulada ascendente (absoluta o
relativa).
2do. El número total de datos ( n ) se divide entre 2 ( n/2).
3ro.El resultado determinado en 2, se presenta en las frecuencias
acumuladas y el primer valor en el que esté contenido, va ha
constituir la clase mediana.
4to.Se aplica la fórmula siguiente:

( )
n
− F k −1
Me =L. R . I . + 2
fk ck
Dónde:
L.R.I.: Limite real inferior de la clase mediana
F k – 1: Frecuencia acumulada ascendente anterior al de la clase mediana.
f k : Frecuencia simple correspondiente a la clase mediana.
C k : Amplitud del intervalo que pertenece a la clase mediana
n / 2 : Rango que determina la clase mediana.

La mediana es la medida de tendencia central que mejor describe a los


datos que se encuentran medidos en escala ordinal y para su cálculo se
procede de la siguiente manera:
1ro. Se construye las distribuciones acumuladas ascendentes (absoluta o
relativa).
2do. El número total de datos ( n ) se divide entre 2 ( n / 2).
3ro. El resultado determinado en 2, se presenta en las frecuencias
acumuladas y el primer valor en el que esté contenido, va ha
constituir la clase mediana.
4to. Se ubica en la clase mediana la categoría de la variable, la misma que
corresponderá a la mediana.

Ventajas de la mediana:
 La mediana no es una medida sensible como la media aritmética, es
decir no está afectada por valores extremos y por lo tanto es más
representativa que la media aritmética cuando los valores de la variable
en estudio tienen valores extremos o en distribuciones poco simétricas.
 La mediana se calcula aún en tablas de distribución de frecuencias que
tienen extremos ilimitados.
 Es la medida más adecuada cuando la variable pertenece a la escala
ordinal.

MODA
La moda es el valor de la variable que ocurre con más frecuencia, es decir
el valor más común o el más popular en una serie de datos o en una tabla
de distribución de frecuencias, la moda no siempre existe, existen series de
datos que tienen una sola moda (unimodal), dos modas (bimodal) y más de
dos modas (multimodal), es la medida de tendencia central que mejor
representa a las variables de escala nominal. La moda en una tabla de
distribución de frecuencias puede diferir marcadamente de la moda real,
así mismo la moda varía mucho de muestra a muestra y no puede
depender de dar una buena estimación de la moda de la población, si no
tenemos un tamaño de muestra grande.
La moda de una serie de datos es el valor de la variable que se presenta
en mayor número de veces.
El cálculo de la moda de datos agrupados en distribuciones de frecuencias
se obtiene teniendo presente lo siguiente:

1ro. Si el polígono de frecuencias simples correspondiente tiene un solo


máximo absoluto, se dice que la distribución es unimodal y si tiene más
de un máximo, esto es máximos relativos, entonces la distribución es
bimodal o multimodal.
2do. En la tabla de distribución se ubica la frecuencia simple de mayor
valor, la misma que va ha determinar la clase modal.
3ro. Se aplica la siguiente fórmula.

Mo 1
(
Δ1
= L . R . I .+ Δ + Δ C K
2
)
Dónde:

L.R.I.: Limite real inferior de la clase modal


1 = f k - f k - 1 Exceso de la frecuencia simple de la clase modal sobre la
frecuencia simple anterior a ella.
2 = f k - f k + 1 Exceso de la frecuencia simple de la clase modal sobre la
frecuencia simple posterior a ella.
C k : Amplitud del intervalo que pertenece a la clase modal

Ventajas de la Moda
 Al igual que la mediana no es una medida que pueda estar afectada por
valores extremos.
 Su uso es el más adecuado cuando los datos están medidos en una
escala nominal.
 El cálculo de la moda no depende de la magnitud de las observaciones,
por tanto permanece invariable si se incrementa o se varia el número de
ellas.
 La moda no es una medida única, es decir un conjunto de datos puede
tener más de una moda.
 Cuando existen más de dos modas en una distribución se hace difícil su
interpretación.

RELACIÓN ENTRE LA MEDIA, MEDIANA Y MODA


 Cuando la media, mediana y moda son iguales o aproximadamente
iguales y la distribución es unimodal entonces la distribución es normal o
simétrica.

 Si la media mediana y la moda son diferentes por lo menos de dos en


dos se dice que la distribución es asimétrica o sesgada:

 Si se tiene que la media es mayor que la mediana y la moda, entonces


la distribución es tiene sesgo positivo (X  Me  Mo), la curva
presenta una larga cola hacia la derecha.

 Si se tiene que la media es menor que la mediana y la moda, entonces


la distribución es tiene sesgo negativo (X  Me  Mo), la curva
presenta una larga cola hacia la izquierda.

 Esto nos sugiere que la media aritmética se desvía en el sentido del


sesgo en relación de Mediana y la Moda.

X  ó  Me  ó  Mo X  Me  Mo X  Me  Mo
MEDIA PONDERADA
Cuando se tienen algunos datos con mayor peso e importancia que otros por
ejemplo un examen final tiene más peso que el examen parcial, esto
conduce a determinar un promedio ponderado, esto también sucede cuando
se particionan en sub-muestras, conociéndose sus medias y tamaños
también se puede encontrar la media de toda la muestra sin conocer los
datos originales a lo que se le denomina media global, la importancia radica
en identificar la variable y luego el peso o tamaño de muestra; luego la media
ponderada o media global se define:
k
∑ X p

i i
i=1
p= k
∑ X i
i=1

k
∑ x̄ i ni
X̄ G=
i=1
k
∑ ni
i=1
PROMEDIO GEOMÉTRICO
Se define como la raíz n-ésima del producto de todas las observaciones de
la variable, es usada para promediar los datos que se encuentra medido en
una escala de razón. Carece de significado si alguno de los valores no
tiene valor o es negativo, es usado en datos que están en progresión
geométrica, en los números índices.
La media geométrica o promedio es empleada en la microbiología cuando
se quiere calcular títulos de disolución promedio, cantidades de
proporciones y cantidades en proporciones o tasas de crecimiento y
cuando es necesario realizar alguna transformación logarítmica.
La media geométrica se define para datos en serie (no agrupados) y para
datos de distribuciones de frecuencias (agrupados)

Para datos no agrupados en TDF

√∏ x
n

X̄ G =
n
¿ i¿

i=1

Empleado logaritmos: se tiene que es el antilogaritmo de la media


aritmética de los logaritmos de los valores de la variable en estudio.

X̄ G = Antilogaritmo
1

n i=1
log xi
(
n

)
Para datos en tablas de distribución de frecuencias (TDF)

√∏
k

X̄ x
n fi
G = ¿ i ¿
i=1
Empleado logaritmos: se tiene que es el antilogaritmo de la media
aritmética de los logaritmos de las marcas de clase ponderadas por las
frecuencias absolutas.

X̄ ( )
n
1
G = Antilogaritmo ∑
n i=1
xi log xi

PROMEDIO ARMONICO
Está definida como el inverso del promedio de una serie invertida de datos;
es utilizada para promediar fenómenos físicos cuyas unidades presentan:
razón inversa, razones de cambio (% o tasas), los valores de los datos
difieren significativamente y cuando la muestra es relativamente pequeña.
Así por ejemplo cuando se desea promediar velocidades de un automóvil
que recorre los primeros 10 Km., a 25 kph. Y las segundas a 55 kmh, a
simple inspección puede decirse que la velocidad media entre 25 y 55 es
40 kph, lo que está errado dado que en física se define como la distancia
total que recorre el móvil dividida entre el tiempo total que emplea en
recorrer tal distancia, operando se tiene que la velocidad media resulta
38.82 kph. Lo que se puede comprobar utilizando el promedio armónico.
El promedio armónico no tiene significado cuando alguno de los valores de
los datos es cero. Se define para datos en serie (no agrupados) y para
datos de distribuciones de frecuencias (agrupados)

Para datos en serie


Se define como el recíproco de la media aritmética de los recíprocos de los
valores de los valores de la variable.

X̄ H = n
n
1
; x ≠0 ,
i ∀i

i=1
x i

Para datos en tablas de distribución de frecuencias


Se define como el recíproco del promedio aritmético de los recíprocos de
las marcas de clase ponderadas por las frecuencias absolutas.

X̄ =
n
; x ≠0 , ∀ i

(x ) f
H n i
1
∑ i
i=1
i

COMPARACIÓN ENTRE LA MEDIA ARITMÉTICA, LA MEDIA


GEOMÉTRICA Y LA MEDIA ARMÓNICA
Cuando se obtiene medias de datos numérico y se aplican los tres tipos de
promedios siempre se determina que la media aritmética da valores
mayores que la media geométrica y la media armónica luego se puede
decir que

X  XG  XH

2.2 MEDIDAS DE POSICIÓN


Las medidas de posición son las que dividen o distribuyen los datos, a uno
y otro lado, en porcentajes dados, una vez que se han ordenado o
clasificados. Las medidas de posición más usadas son los cuartiles, deciles
y percentiles, todas éstas medidas se conocen como Cuantiles. Así
tenemos que los Cuartiles (Qr) divide a al distribución de frecuencias en
cuatro partes iguales de 25% cada una, los Deciles (D r) clasifica la
información en 10 partes iguales de 10% y los Percentiles (Pr) que sub-
clasifican a la distribución de frecuencias en 100 partes del 1% cada una. El
cálculo para datos en serie y agrupados en distribución de frecuencias se
presentan a continuación.

CUANTILES: Cuartiles, Deciles y Percentiles para datos no


agrupados
Para determinar los Cuartiles, Deciles y Percentiles, en primer lugar, se
debe ordenar los valores de la variable tal que X 1  X2  X3  ............ 
X n, luego:

Cuartiles (Qr): Se encuentra dado por el valor de la variable que ocupa el


lugar (r/4) (n + 1).

Q =X r r
4
( n + 1)

Deciles (Dr): En el ordenamiento de la variable es el valor de la


variable que ocupa el lugar (r/10) (n + 1).

D =X r r
10
( n + 1)

Percentiles (Pr): Los percentiles queda determinado por el valor de la


variable que se encuentra en el lugar (r/10) (n + 1)

P =X
r r
100
( n + 1)

Si la posición de la variable resulta no entera, se establece la


proporcionalidad entre los valores correspondientes de la variable
entre las cuales se encuentra comprendida la fracción
C −X r k
=
Fracción

X −X k +1 k
1

C r= X +( X
k k +1− X ) Fracción
k

CUANTILES: Cuartiles, Deciles y Percentiles para datos


agrupados en distribuciones
Cuando los datos se encuentran agrupados en distribuciones de
frecuencias, se sigue el mismo procedimiento que para la mediana, es
decir se determina el rango cuantil, el mismo que en las frecuencias
acumuladas quede contenido en alguna clase, luego se hace uso de las
siguientes fórmulas:

C r
k
=L . R . I +
( (r k ) n
f

j
F j −1

) C j

Dónde:
L.R.I.: Limite real inferior de la clase cuantil

F j – 1: Frecuencia acumulada ascendente anterior al de la clase cuantil.

fj : Frecuencia simple correspondiente a la clase mediana.

C j : Amplitud del intervalo que pertenece a la clase cuantil

(r / k)n : Rango que determina la clase cuantil.

r=k-1

Cuartiles:

Q =L . R . I
r +
( (r 4 ) n
f

j
F j−1

) C j

Deciles

D =L . R . I
r +
( (r 10 ) n
f

j
F j −1

) C j
Percentiles

P =L . R . I
r +
( (r 100 ) n
f

j
F j−1

) C j

2.3 MEDIDAS DE DISPERSIÓN

INTRODUCCIÓN
Las medidas descriptivas que se acaban de estudiar han estado referidas a
describir un método básico para describir un conjunto de datos como los
promedios que resumen los valores de una variable a un solo valor, existen
medidas estadísticas que muestran la variación de los datos alrededor del
promedio tan importante como el mismo promedio, que se denominan
medidas de dispersión o concentración. Por ejemplo, si tomamos en cuenta
dos grupos de alumnos de dos diferentes secciones A y B que tienen el
mismo promedio en las calificaciones por alumno. Esto podría interpretarse
como que las calificaciones en las dos secciones es la misma, lo que sería
erróneo dado que puede ser que en una de las secciones por ejemplo en A
las calificaciones fuera estabilizada en el sentido que todos los alumnos
tuviesen aproximadamente la misma calificación y en la sección B la
mayoría de los alumnos tengan calificaciones bajas y pocos tengan
calificaciones altas, de esta manera se pude concluir que una medida de
tendencia central de una distribución no es suficiente para un análisis
descriptivo de una distribución.

La situación de que todos los alumnos de la sección A tenga la misma


calificación, puede interpretarse como que las calificaciones no varían de
alumno a alumno, es decir que las calificaciones no presentan variación, en
forma análoga lo que sucede con la sección B puede entenderse como que
la variación de las calificaciones entre los alumnos es alta.

Existe gran necesidad de utilizar medidas de tendencia central y de


variabilidad o de dispersión, propagación o diferencias individuales como
características más importantes de cualquier distribución de datos para
deducir si la distribución de datos bajo estudio es marcadamente
homogénea o marcadamente heterogénea.

DEFINICIÓN
Las medidas de dispersión o concentración son magnitudes que miden el
grado de dispersión o concentración de los valores de una variable con
respecto a un valor de una medida de tendencia central; son dos los
propósitos fundamentales de las medidas de dispersión: 1ª. La confiabilidad
de los promedios y, 2ª Control de la variación de los valores de la variable.
Por lo general se puede hablar indistintamente de concentración y de
dispersión.
Las medidas de dispersión de uso más frecuente son: Recorrido o rango,
recorrido intercuantílico, recorrido semi-intercuantílico, desviación media,
varianza, desviación estándar y coeficiente de variación.

Rango o recorrido de la variable (R): Es la diferencia entre el valor


máximo y el valor mínimo de la variable en estudio, su uso como medida
de dispersión es restringido ya que da una idea acerca de la dispersión de
los valores de la variable y porque además solo toma en cuenta los valores
extremos y no la dispersión de los valores intermedios, su mayor uso se
encuentra en las cartas de control de calidad de productos.

R = Valor máximo – Valor mínimo

Rangos intercuantílicos (R.I.): Estas medidas de dispersión o


concentración excluyen una parte específica de cada extremo y considera
solo considera la dispersión de los valores comprendidas en los extremos;
entre los de más uso se tienen los rangos intercuartílicos y los rangos
interpercentílicos.
R. I. Q. = Q 3 - Q 1

R. I. P. = P 90 - P 10

Rangos Semi- intercuantílicos (R.S.I): Son medidas de dispersión que


solo dependen de los valores que están distribuidos en la mitad. Su uso se
dan cuando las medidas de dispersión se encuentran afectadas por valores
extremos o también cuando se tiene distribuciones con intervalos de
extremos ilimitados es decir en donde no es posible determinar la media y
la desviación estándar. Los más usados son los rangos semi-
intercuartílicos y los semi-interpercentílicos.
R. S. I. Q. = Q 3 - Q 1
2
R. S. I. P. = P 90 - P 10
2

VARIANZA Y DESVIACIÓN ESTÁNDAR (S 2; S)


Es una de las medidas de dispersión o concentración más importantes en
estadística, nos va a indicar si los valores de la variable se encuentran
concentrados o dispersos alrededor de su media aritmética, se define
como el promedio de los cuadrados de las desviaciones de los valores de
la variable en relación a su promedio total.

{
∑ ( x i− x̄ )
2

, Datos en serie
n
S=
2

∑ ( x i− x̄ ) f
2

i
, Datos en distribuciones
n de frecuencias
VARIANZA DE COCHRAN
Conocida como varianza de la muestra, es usada cuando n es pequeña ( n
 30 ), algunos software estadísticos y calculadoras de bolsillo lo
consideran como varianza muestral y a la varianza ordinaria como
varianza poblacional

{
∑ ( x i − x̄ )
2

, Datos en serie
S= n−1
2

∑ ( x i − x̄ ) f
2

i
, Datos en distribuciones
n−1 de frecuencias
La concentración o dispersión de los valores de la variable van ha
depender de la magnitud de la varianza así cuanto mayor sea la varianza
los valores de la varianza se encontraran más dispersos con respecto a la
media aritmética y cuanto menor sea ésta los valores de la variable
estarán más concentrados alrededor de la media aritmética.

FORMULAS ABREVIADAS PARA DATOS EN DISTRIBUCIONES DE


FRECUENCIA

{ {∑ x f }
k


2 2
1
i i− n ; Si n> 30
S= n
2 i=1

{∑ x f }
k


2 2
1
i i− n si n≤30
n−1 i=1

CARACTERÍSTICAS DE LA VARIANZA
1º. La varianza de una constante es cero
2ª. La varianza de una constante multiplicada por una variable es la
constante al cuadrado por la varianza de la variable.
3ª. Si a una variable se le suma o se le resta una constante la varianza de
la variable no varía.

VARIANZA GLOBAL
Cuando se tiene una muestra particionada en sub-muestras cada una con
un tamaño y media aritmética determinada; y se quiere determinar su
varianza, a la que se denomina varianza global o total, no es necesario
conocer los valores de todos y cada una de las observaciones, basta
conocer la media, varianza y el tamaño de cada una de las sub-muestras:

( )
k 2

k
∑ ni ( s i + x̄ i )
2 2
∑n i
x̄ i
S
2
i =1 i=1
G= −
n
n
DESVIACIÓN ESTANDAR (TÍPICA)
La desviación estándar o típica está dada por la raíz cuadrada positiva de
la varianza, como medida de dispersión es más usada que la varianza, por
la razón de que la varianza tiene como unidades el cuadrado de las
unidades originales y al tomar la raíz cuadrada tendremos una medida de
dispersión en unidades originales, la desviación estándar se designa por
(S).

√s
2
S=
COEFICIENTE DE VARIACIÓN (CV.)
Es una medida de variabilidad o de dispersión relativa que generalmente
se presenta en porcentajes, también se le conoce como coeficiente de
variabilidad, se encuentra dado por el cociente o razón entre la
desviación estándar y la media aritmética:

S
C . V .= x 100

Cuando es necesario comparar la variabilidad de dos ó más conjuntos de
datos en serie o en distribuciones de frecuencias en cuanto a las
variables del estudio se tiene que:
 Si sus medias aritméticas son aproximadamente iguales o iguales y
además están expresadas en las mismas unidades de medida, entonces
la serie de datos o distribución de frecuencias que tiene la mínima
desviación estándar o varianza es la más homogénea y la de máxima
desviación estándar o varianza la más heterogénea.
 Si tenemos como resultado medias aritméticas diferentes pero sus
desviaciones estándar o varianzas resultan aproximadamente iguales o
iguales y además están expresadas en las mismas unidades de medida,
entonces la serie de datos o distribución de frecuencias que tiene la
mayor media aritmética es mejor que la de menor desviación estándar o
varianza.
 Si al determinar las medidas de resumen determinamos que las medias
aritméticas y las desviaciones estándar difieren marcadamente y
además están expresadas en diferentes unidades de medida, entonces
la serie de datos o distribución de frecuencias que tiene el menor
coeficiente de variación es la que tiene menor dispersión relativa o es
más homogénea y la de mayor coeficiente de variación es la
heterogénea.

Esto nos dice que cuando las medias aritméticas y desviaciones estándar
no son iguales o aproximadamente iguales y las series de datos o
distribuciones de frecuencias que se están comparando presentan
distintas unidades de medida es imperativo el uso del coeficiente de
variación como medida relativa de dispersión
Cuando se trata del estudio de una sola serie de datos o una distribución
de frecuencias, en la práctica se dice que un coeficiente de variación
mayor que el 50% indica un alto grado de dispersión y como
consecuencia de ello la media aritmética no es muy representativa de la
población, para valores inferiores al 50% y más cercanos a cero la media
aritmética será tanto más representativa.

2.4 MEDIDAS DE FORMA


Dado que las medidas de dispersión solo indican la magnitud de las
variaciones y no la dirección de las mismas es que se tienen la medidas
de forma que muestran la dirección de la dispersión de los datos en
referencia a su centro en sentido horizontal y vertical, completando la
descripción de los datos en serie y en distribuciones de frecuencias estas
medidas son: Asimetría (no ser simétrico) y curtosis o apuntamiento.

MEDIDAS DE ASIMETRÍA
Son medidas que indican el grado de deformación horizontal o la
inclinación de la distribución de datos con respecto a un eje vertical que
pase por la mediana, la curva normal se toma como referencia para
establecer la deformación horizontal, dado que la curva normal es
simétrica y se caracteriza porque en ella la media aritmética es igual o
aproximadamente igual a la mediana y a la moda respectivamente ( X =
ó ≈ Md = ó ≈ Mo), las distribuciones que no poseen estas características
no son simétricas y se dice que tienen asimetría y esta puede ser positiva
o negativa según sea el valor del coeficiente de asimetría que es una
medida cuantitativa del grado de deformación horizontal de la distribución
de los datos:

Primer coeficiente de asimetría de Pearson (CAS1)


Lo formuló Karl Pearson se denota por CAS 1, es el más utilizado cuando
las distribuciones que son homogéneas su fórmula es la siguiente.

CAS 1=
3 ( x̄ − Md )
s

Segundo coeficiente de asimetría de Pearson: (CAS2)


También fue formulado por Karl Pearson se denota por CAS 2, y es
utilizado en distribuciones que son unimodal y su formula es la siguiente:

x̄ − Mo
CAS 2=
s
Tercer coeficiente de asimetría o media asimétrica: (CAS3 )
Fue formulado por Arthur Boeley es un coeficiente basado en los
cuarteles y se utiliza en distribuciones de frecuencias (tablas) en donde
no es posible determinar la media aritmética y consecuentemente la
desviación estándar es decir en distribuciones de frecuencias con
intervalos de clase con extremos ilimitados, su formula es:

Q3 +Q1 − 2 Q 2
CAS 3 =
Q 3 −Q1
Cuarto coeficiente de asimetría o media asimétrica: (CAS4)
Es parecido al tercer coeficiente de asimetría pero se basa en los
percentiles y se usa en los mismos casos y su formula es:

P90 + P10− 2 P50


CAS 4 =
P90 −P10
De acuerdo a los resultados obtenidos al aplicar cualquiera de los
coeficientes de asimetría según sea el caso se debe interpretar de
acuerdo a lo siguiente:

 Si el CAS es igual a cero o aproximadamente a cero entonces la


distribución es simétrica o aproximadamente simétrica.

CAS = ó  0

 Si el CAS es diferente de cero entonces la distribución es asimétrica y


puede ser:
CAS < 0 Distribución sesgada hacia la izquierda
CAS > 0 Distribución es hacia la derecha

CAS < 0 Sesgo negativo CAS > 0 Sesgo Positivo


MEDIDAS DE CURTOSIS
Estudia la deformación vertical de una distribución de datos, el objetivo es
analizar el grado de elevación o apuntamiento de la curva que la
representa, con respecto a la elevación de la curva normal, esto se realiza
mediante el coeficiente de curtosis.

Coeficiente de curtosis.
Es una medida cuantitativa del grado de deformación vertical de una
distribución, se denota por Ck y se define como:
Q 3− Q 1
Ck =
2 ( P 90 − P10 )

Según la magnitud que se obtenga del coeficiente de curtosis las


distribuciones pueden ser:

 Leptocúrtica picuda o puntiaguda


 Mesocúrtica moderada o normal
 Platicúrtica achatada o plana

Mesocúrtica Leptocúrtica Platicúrtica

Como la curtosis se realiza con respecto a la curva normal entonces se


tiene que:
 Para una curva normal el Ck = 0.2630.
 Una distribución es platicúrtica cuando su rango Inter.-percentil supera al
rango Inter.-cuartil y la distribución será casi plana si Ck 0 (tiende a
cero) es decir será más platicúrtica cuanto más exceda el rango Inter.-
percentil al rango Inter.-cuartil
 Una distribución es leptocúrtica cuando tiene concentradas la mayor
parte de sus mediciones en la parte central es decir que las diferencias
entre los rangos Inter.-percentil y Inter.-cuartil es pequeña entonces
Ck ½, la distribución será más leptocúrtica cuanta más mínima sea la
diferencia entre los rangos.

Es necesario tomar en cuenta los valores Ck, manera como se indica en


siguiente esquema para establecer la curtosis de una distribución:

0.0 0.125 0.2630 0.375 0.50

0 ⅛ ¼ ⅜ ½
Platicúrtica Mesocúrtica Leptocúrtica

MOMENTOS
Al describir otros aspectos importantes de una serie de datos o una
distribución de frecuencias se hacen uso de los Momentos, estos se
definen como promedios de distintas potencias de las desviaciones de los
valores de los datos con respecto a algún valor B, la teoría de los
momentos fue dada por PEARSON, quien derivó su nombre debido a su
semejanza con la teoría de los momentos que se estudia en Mecánica,
de acuerdo a su definición existen n momentos, pero los que se utilizan
son los cuatro primeros momentos:

Cuando la referencia es el valor B = 0, la desviación es el mismo valor de


la observación, obteniéndose los momentos alrededor del origen o con
respecto al origen.

Si el valor referencial B = X , la desviación es del valor de la


observación con respecto a la media aritmética o alrededor de la media
aritmética, obteniéndose los momentos alrededor de la media o
Momentos Centrales.

1) Momentos con respecto al origen: Estos se dan cuando el valor de


la referencia B = 0, y se denota como m´r, que es el r-ésimo
momento de la muestra con respecto al origen de orden r y se define
como:

{
n
1
' n
∑xr i ; Datos en serie
m = M (X) =
r i=1

r 1
n

n
∑ x r fi ;
i=1
i Datos en distribución de frecuencias
r = 0, 1, 2, 3, ……

 Momento cero con respecto al origen: Para datos no


agrupados

n
1
m
'
0 ¿
n
∑x0=1
i=1
i ; si x ≠ 0 ; ∀ i
i

Datos en tablas de distribución de frecuencias

n
1
m
'
0 ¿
n
∑ x 0 fi = 1 ;
i=1
i si x i ≠ 0 ; ∀ i

 Primer Momento con respecto al origen: Para datos no


agrupados

n
1
m
'
1 ¿
n
∑ x 1 = x̄
i=1
i ; Media aritmética

Datos en tablas de distribución de frecuencias

n
1
m
'
1 ¿
n
∑ x 1 fi = x̄ ;
i=1
i Media aritmética
 Segundo Momento con respecto al origen: Para datos en serie
(sin agrupar)

n
1
m
'
2 ¿
n
∑x2
i=1
i

Datos en tablas de distribución de frecuencias

n
1
m
'
2 ¿
n
∑ x 2 fi
i=1
i

Del segundo momento se obtiene la media cuadrática que está


dada por su respectiva raíz cuadrada positiva, misma que es
importante por su uso en el estudio teórico de la estadística y en
problemas de la Física e Ingeniería.

 Tercer Momento con respecto al origen: Para datos en serie (sin


agrupar)

n
1
m
'
3 ¿
n
∑x3
i=1
i

Datos en tablas de distribución de frecuencias

n
1
m
'
2 ¿
n
∑ x 2 fi
i=1
i

Al igual que del Momento anterior, del tercer Momento se obtiene


la Media Cúbica, que viene a estar dado por su raíz cúbica.

 Cuarto Momento con respecto al origen: Para datos en serie


(sin agrupar)
n
1
m
'
4 ¿
n
∑x4
i=1
i

Datos en tablas de distribución de frecuencias


n
1
m
'
4 ¿
n
∑ x 4 fi
i=1
i

2) Momentos Centrales o Momentos con respecto al origen: Estos


momentos resultan cuando el valor referencial B =X, es decir las
desviaciones de cada valor de la variable es con respecto a su media
aritmética, se denota por mr, que es el r-ésimo momento de la
muestra con respecto a la media aritmética de orden r y se define
como:

{
1
n

∑ ( x − X̄ )
r

m = M [ ( X − X̄¯ ) ] =
r Datos en serie
n
i

r 1
n
i=1

n
∑ ( x i − X̄ )r Datos en distribución de frecuencias
i =1
r = 0, 1, 2, 3, ……

 Momento cero con respecto a la media aritmética (Momento


cero central): Para datos en serie (sin agrupar)
n
1
∑ (x
0
m 0 ¿ i
− X̄ ) = 1 ; si x i ≠ ¯
X̄ ; ∀ i
n i=1

Datos en tablas de distribución de frecuencias


n
1
∑ ( x i − X̄ ) fi = 1
0
m 0 ¿ i ¯ ;∀ i
; x ≠ X̄
i
n i=1
,

 Primer Momento central : Para datos en serie (sin agrupar)


n
1
∑ ( x − X̄ ) = 0
1
m 1 ¿ i
n i =1

Datos en tablas de distribución de frecuencias


n
1
∑ ( x − X̄ ) fi = 0
1
m 1 ¿ i
n i =1

 Segundo Momento con respecto al origen: Para datos en serie


(sin agrupar)
n

m¿1 ∑ ( xi − X̄ ) = S ; Varianza muestral


2 2
2

n i =1

Datos en tablas de distribución de frecuencias


n

m¿1 ∑ ( x − X̄ ) fi = S ; Varianza muestral


2 2
2 i
n i=1

Del segundo momento se obtiene la Varianza muestral que esta


dada por su respectiva raíz cuadrada positiva, la misma que es
importante por su uso en la inferencia estadística.
 Tercer Momento con respecto al origen: Para datos en serie (sin
agrupar)
n
1
∑ ( x − X̄ )
3
m 3 ¿ i
n i =1

Datos en tablas de distribución de frecuencias


n
1
∑ ( x − X̄ ) fi
3
m 3 ¿ i
n i =1

El tercer momento central dividido por el cubo de su desviación


estándar da como resultado el Coeficiente de Asimetría
Estandarizado. Que es definido por

μ3
CAS = 3
S , donde  3 = m3
Si existen valores de datos muy altos en comparación de la media
aritmética, el coeficiente de asimetría tendría un valor positivo y la
serie de datos o la distribución de frecuencias sería segada hacia
la derecha, en cambio sí que existen valores de datos muy
pequeños en relación a la media aritmética, el coeficiente de
asimetría sería negativo y la serie de datos estaría sesgada hacia
la izquierda y finalmente si los valores de los datos estuvieran
distribuidas casi aproximadamente en forma simétrica alrededor
de la media aritmética, el coeficiente se aproximará a cero y
tendríamos:

CAS < 0 Distribución sesgada hacia la izquierda


CAS > 0 Distribución es hacia la derecha
CAS0 Distribución ligeramente sesgada o
aproximadamente simétrica o normal

 Cuarto Momento con respecto al origen: Para datos en serie


(sin agrupar)
n
1
∑ ( x − X̄ )
4
m 4 ¿ i
n i= 1

Datos en tablas de distribución de frecuencias


n
1
∑ ( x − X̄ ) fi
4
m 4 ¿ i
n i= 1
Este cuarto momento con respecto al origen pero corregido
(corrección de Sheppard) es utilizado para medir la curtosis, la
misma que se denota por  4 = m4 y se define como:

μ = ∫ ( xi − X̄ ) f ( x ) dx
4
4

Del cual se obtiene la siguiente relación


2 4
w 7w
μ = m4 − m2 +
2 240
4

Luego el coeficiente de curtosis estandarizado será:

μ4
k= 4
σ
Dado que en la distribución normal la curtosis tiende o es igual a 3
entonces el coeficiente de curtosis estandarizado es:

μ4
k= 4 − 3
σ
 Si k se acerca o tiende a cero por la derecha o por la izquierda
entonces la distribución es Mesocúrtica, moderada o normal.
 Si k se hace más pequeña negativamente (se aleja de cero
negativamente) la distribución será Platicúrtica.
 Si k se hace más grande (se aleja de cero positivamente) la
distribución será Leptocúrtica.
Su uso queda condicionado al tamaño de la muestra, esto es de que si la
muestra no es grande su uso es poco recomendable

También podría gustarte