Está en la página 1de 29

UNIDAD 2

VARIABLES
Definicin
Se podra conceptuar como algo susceptible de ser
medido o contado. Tiene cada una su correspondiente unidad de informacin,
que es aquella por la cual se identifica y la representa. Ej: para la poblacin de
un pas su unidad ser: persona; de las longitudes ser alguna perteneciente al
sistema mtrico; de igual manera con pesos; volmenes, capacidad, superficie,
etc.; otras concentran muchas variables: razas de ganado (Holando Argentino,
Shorton, Hereford, etc) sern cabezas de ganado; etc.; cosechas (Trigo, maz,
cebada, etc.) sern las bolsas, o quintales o hectreas, etc. Los datos son las
cantidades, las observaciones se hacen respecto de cada unidad.

Clasificacin:

Continua: mediciones

Cuantitativa

Discreta: conteos
Variable

Dicotmica: dos variables


ej: sexo

Cualitativa
(atributos)
Policotmica: mas de dos
variables ej: estado civil, razas
de ganado

Cuantitativa: se reconocen dos clases segn el conjunto de nmeros a los


cuales pertenezcan:

Cuantitativa Continua: pertenecen al campo de los nmeros reales, entre uno


y otro existe infinitos nmeros. Sus operaciones se encuentran dentro de la
integracin. Son reas.
Cuantitativa Discreta: Toman cifras numricas enteras positivas y/o negativas
incluido el cero. Es decir, pasa de un nmero a otro sin existir otros
intermedios. Son conteos. Se utilizan sumatorias

Cualitativa: surgen del conteo en base al agrupamiento de los atributos o


categoras de ellos.

Dicotmica: toman dos modalidades. Ej: sexo: femenino masculino.

Policotmica: toman mas de dos modalidades. Ej: estado civil: soltero


casado divorciado viudo unin consensual. Color de ojos: marrones
verdes azules etc.

MEDIDAS CENTRALES O DE CENTRALIZACIN O DE


TENDENCIA CENTRAL Y MEDIDAS DE DISPERSIN

Las podemos esquematizar con el siguiente cuadro

Media X

Medidas centrales Mediana X

Modo o Moda X

Rango R

Medidas de dispersin Desvo estndar S = DS

Varianza V = S = Var.

Antes de ingresar a ellas deberemos recordar:

Subndices: dada una serie de nmeros, el subndice determinar la posicin


del nmero. Se encuentran ubicados en la parte inferior derecha.

Ej: sea la serie 2 7 4 3 5

Se puede escribir X1 X2 X3 X4 X5

Sumatoria: si deseamos representar la suma de esta serie utilizamos de


smbolo de sumatoria
Por lo tanto X1 + X 2 + X 3 + X 4 + X 5

Se representar como Xi
Y se leer como la sumatoria de todos los X variando i desde uno hasta 5 (en
este caso).

En forma general se escribe como xi

Y se lee: sumatoria de todos los Xi , variando i desde 1 hasta n

Donde Xi : datos y N: la cantidad de datos

Series Simples

Se considerarn para el caso que nos ocupa, series finitas.


(estn acotadas). Es decir, que tienen una cantidad de nmeros limitada
(pocos) y que sea posible realizar operaciones no engorrosas utilizando
calculadoras.
Estn dadas entonces, por una cantidad finita de datos
estn estos ordenados o no.

MEDIDA DE TENDENCIA CENTRAL O DE CENTRALIZACIN

Siempre se debe acompaar la medida de tendencia central utilizada con una


medida de dispersin. Una medida central no explica por s misma mas que un
punto central (masa). Acompaada de una medida de dispersin explica
adems, cuanto se apartan los datos del centro. Si se concentran cerca o lejos
de l.

Media Aritmtica

es un simple promedio

xi
N

Est dada por la expresin

Sea la serie simple: 2 3 2 1 7


Aplicando la frmula precedente, la media aritmtica ser

2+3+2+1+7 15
X = =3
5 5

Propiedades de la media. Dos de las ms importantes son:

a) la sumatoria de los desvos con respecto a la media aritmtica


da cero.

b) la sumatoria de los desvos cuadrticos con respecto a la


media aritmtica es un mnimo.

Simetra, Asimetra y Formas posibles

Positiva Negativa
Simtrica Asimtrica
(Normal o de Gauss)

J forme anti J forme en U

Mediana
Es el parmetro central de posicin que divide a la serie en dos partes
exactamente iguales. Se la puede definir como la medida del valor central o la
semisuma de los dos valores centrales de la serie.

Los pasos a seguir son los siguientes y en este orden:

a) Ordenar la serie del valor menor al mayor o la inversa. Es imprescindible


realizarlo.

b) Posicin de la mediana Dicha posicin se obtiene por:

N+1
2

Es la ubicacin en la serie ordenada. El puesto. En este momento no se


determina el valor, solo el lugar que ocupa en la serie.

Ir a la serie ordenada y visualizar el puesto

Si es una cantidad de nmeros impar, el valor estar exactamente en el centro.


Habr igual cantidad de nmeros a la izquierda que a la derecha.
Si la cantidad de nmeros es par, el valor de la mediana ser la semisuma de
los dos valores centrales

c) obtener el valor de la mediana.

Ej:
Retomemos a modo de ejemplo la serie dada anteriormente para la media

2 3 2 1 7

orden 1 2 2 3 7

posicin N+1 = 5+1 = 6/2 = 3


2 2

la posicin corresponde (la serie es impar), al tercer valor.

1 2 2 3 7

por lo tanto la mediana ser: X=2

Propiedades
a) el valor de la mediana no se ve afectada por la
existencia de algunos valores o muy pequeos o muy
altos(aberrantes o espurios). No es el caso de la
media aritmtica que s es sensible a la existencia de
ellos y modifican su valor, perturbando su posicin
central. Es decir, la media se ve afectada y la
mediana no.
b) Por lo tanto, en algunos casos se proceder a elegir
la mediana como medida de tendencia central con la
desventaja de que tendremos que previamente
ordenar los datos.
c) O si elegimos la media, deberemos excluirlos de su
clculo, con la observacin al pie de que datos fueron
incluidos.

Ej: si a la serie anterior le agregaremos un nmero muy alto = 170

La serie quedara 1 2 2 3 7 170

Para la mediana:
La posicin ser 3,5. Como es una serie par, el valor se obtendr por la
semisuma de los dos valores centrales que en este caso son los
correspondientes al tercer y cuarto puesto dentro de la serie ordenada.
El valor de la mediana ser por lo tanto X = 2.5

Para la media:
Como se explic anteriormente ser el cociente de la sumatoria de los valores
componentes de la serie con la cantidad de datos que la componen.

185/6 = 30.83 X = 30.83

que como se puede apreciar no representa genuinamente a la serie.

Conclusin: el mejor parmetro de tendencia central en este caso es la


mediana, como se ve el n 170 no la afecta.

Modo o Moda

En las series simples es por visualizacin. Es el nmero o nmeros que se


repite la mayor cantidad de veces.

Sea la serie presentada anteriormente:

1 2 2 3 7

el modo ser X=2


Recapitulando hasta el momento sobre la serie dada hemos obtenido los tres
parmetros centrales:

X = 3

X = 2

X = 2

Como se puede observar, no obstante ser una pequea serie, la mediana y el


modo coinciden, no es el caso de la media en la cual se aprecia
un corrimiento hacia un mayor valor.

Podemos encontrar varias clases de modo segn sea la cantidad de


repeticiones:

Unimodal: un solo modo

Bimodal: dos modos

Multimodal: mas de dos modos

Curtosis: es el grado de achatamiento o apuntalamiento


de la curva que representa la serie.

Platocrtica Mesocrtica Leptocrtica

(Gauss)

MEDIDAS DE DISPERSIN

El concepto sera: cuanto se apartan los datos del parmetro de tendencia


central elegido. Por ello, toda medida central debe ir acompaada de una
medida de dispersin. Este hecho explica con mayor completitud las
magnitudes observadas con respecto a la/s variable/s en estudio.
En series simples ya se han mencionado algunos conceptos introductorios se
trata de:

Rango

O recorrido; en una serie tanto simple como en los datos agrupados est dado
por la diferencia existente entre el mayor valor y el menor.
Es una medida grosera de dispersin y habitualmente no se lo utiliza. No es
demasiado explicativo.

Sea la serie simple: 1 2 2 3 7

Ser 71 =6

Varianza

Se obtiene realizando el cociente de la sumatoria de los desvos cuadrticos de


cada uno de los valores con respecto a la media y la cantidad de valores que
poseemos.

Sea la serie simple anterior

1 2 2 3 7

y la media correspondiente a esta serie X = 3

entonces:
(1-3) + (2-3) + (2-3) + (3-3) + (7-3)

4 + 1 + 1 + 16 22
5 5

Varianza = S = Var
V = 4.4

Desvo Estndar:
Es la raz cuadrada de la varianza

Si nuestra varianza es 4.4 el desvo ser:

4.4 = 2.098

ajustado a un decimal S = 2.1

X S = 68.27%
X 2 S = 95.45%
X 3 S = 99.73%
-3 -2 -1 0 1 2 3

Siendo la raz cuadrada de la varianza , en el ejemplo = 2.1, en mas menos un


desvo se encontrar el 68.27% de los datos. Cuanto mayor sea la magnitud
del desvo mas dispersos se hallarn los datos con respecto a la media o
parmetro central que se haya elegido, en el razonamiento inverso se hallarn
mas concentrados alrededor de la media.

Siendo la X = 3 y S = 2.1 3 2.1 = (1.1 ; 5.1) con el 68.27% de igual


manera con respecto a dos y tres desvos con sus correspondientes
porcentajes.
Datos Agrupados

Hasta el momento se han desarrollado y obtenido los


parmetros centrales y de dispersin en series simples. No es habitual que se
tengan tan pocos datos como los que antecedieron, por lo tanto entraremos en
la operatoria cuando, de manera mas real, poseemos mayor cantidad de datos.

Introduccin: La operacin mediante la cual se inicia el trabajo estadstico es


el relevamiento o captacin de datos. Es el contacto con la realidad de lo que
queremos conocer que es susceptible de ser medido o contado.
Es la correlativa experimentacin que proporciona el material necesario para
poder realizar posteriormente el anlisis estadstico. Es importante efectuar el
relevamiento lo mas cuidadosamente posible, en ello reside el cimiento de todo
resultado exitoso. Cualquier error, imprecisin u omisin (los hay en todo
momento: en la confeccin del formulario, en la deficiente instruccin de los
encuestadores, en el conteo, en el agrupamiento, etc.) proveniente de la
captacin y/o manejo de los datos influir en los resultados finales.
Por todo ello es necesario que la poblacin est
inequvocamente definida en espacio y tiempo. As surge la necesidad de fijar
con precisin el territorio y la fecha de realizacin del trabajo estadstico. Esta
ltima es particularmente importante en el caso de trabajo censal, de manera
que todos los datos sean referidos a esa fecha (el censo de poblacin se
realiza en un da determinado en todo el territorio nacional) o en un perodo
(Censo Econmico y Censo Agropecuario) de manera que todos sean referidos
a esos tiempos y territorio, ya que el carcter dinmico de muchos atributos
que los censos contienen hace necesaria esa referencia.

Organizacin de la masa de datos

Una vez obtenido los datos necesarios y realizadas las


observaciones de todas las unidades contenidos en ellas, estamos en
presencia de una gran masa de datos en bruto, los cuales rara vez son
significativos sin organizacin ni tabulacin. Se comenzar presentando un
procedimiento sencillo para mejorar una informacin no organizada.
Tenemos una gran cantidad de datos desorganizados
deberemos conformarlos de manera tal que podamos obtener los resultados
visualizados para cumplir el objetivo.
Para lograr el orden conveniente los agrupamos en clases
con el intervalo adecuado, las cuales por convencin no son menos de 5 ni
ms de 20 (salvo mejor opcin).
La manera de proceder, en general:

- orden.
- observar la magnitud de los valores. Es til obtener en este momento el
rango o recorrido.
- Comenzar con un agrupamiento en clases tentativo. Para lo cual se habr
determinado el intervalo de clase y sus lmites. Uniforme para todas las
clases o no. El agrupamiento correcto ser aquel que al trazar el
Histograma o Polgono de Frecuencias se concrete una forma campanular y
no posea clases vacas (cero).
- Se construye la distribucin de frecuencias contando para cada clase la
cantidad de valores que en ella caen.

Supongamos por ejemplo que hemos contado los


aspirantes atendidos en una oficina de ingreso de personal, por un lapso de 20
das la cual cuenta con tres entrevistadores y cada uno de ellos 5 horas de
trabajo. Tendremos 20 datos, los cuales por supuesto no son una gran masa de
datos, pero en este caso servir a modo de ejemplo para desarrollar conceptos.

30 11 42 8 30 18 25 25
17 30 29 21 23 25 15 35
26 13 21 36

Estas observaciones no tienen significado a menos que se


organicen adecuadamente. La forma mas sencilla de organizar los datos en
bruto es formar un arreglo, es decir, colocar las observaciones en orden de su
magnitud, visualizando el nmero menor y mayor.

Probamos utilizando el rango: R = 42 - 8 = 34 nos puede dar indicativamente


la amplitud que deberamos utilizar para obtener la cantidad de clases que no
sean menores a 5 o mayores de 20, (no es exacto, sino solamente
aproximado).

rango
Ancho o amplitud del intervalo =
Nmero de clases tentativas

Si tentativamente desease 5 clases reemplazo

Amplitud = 34/5 = 6.8 ~ 7 Con una amplitud 7 obtendra 5 clases

Amplitud = 34/7 = 4.571 ~ 5 anlogamente con amplitud 5 obtendra 7


clases

Un orden, confeccionando en principio un arreglo ascendente tentativo, podra


ser el obtenido en primer lugar, es decir, 5 clases con amplitud de 7. Si a su vez
trato de centrar el menor valor en el medio de la primera clase:

5 a 11 12 a 18 19 a 25 26 a 32 33 a 39 40 a 46
8 18 25 30 36 42
11 17 25 30 35
15 25 30
13 21 29
23 26
21
Si invertimos esta tabla-arreglo y tomamos las columnas de
nmeros, ya su forma se aproxima a una campana.
Se habrn determinado entonces:
Nmero de Clases: 6
Intervalo de Clase: 7, siendo todas ellas de igual tamao.
No existe ninguna clase desierta.
Si aceptamos entonces, este agrupamiento, podemos construir la distribucin
de frecuencias.

Distribucin de Frecuencias
La mejor forma de analizar los datos masivos es agruparlos en clases.
Las clases son divisiones con amplitudes o intervalos establecidas en forma
conveniente.
En resumen: una distribucin de frecuencias es una tabla de resumen en
la que los datos se agrupan en clases o categoras ordenadas en forma
numrica, establecidas de modo conveniente.
Cuando los datos se agrupan o condensan en tablas de distribucin de
frecuencias, el proceso de anlisis e interpretacin de datos se vuelve mucho
mas manejable y significativo. En esa forma resumida, se logra una
aproximacin muy fcil a las caractersticas de los datos salientes, lo cual
compensa el hecho de que, cuando los datos se agrupan de ese modo, la
informacin inicial perteneciente a observaciones individuales que estaba
previamente disponible, se pierde en el curso del proceso de agrupamiento o
condensacin. Como consecuencia de este ltimo concepto las variables
cuantitativas discretas y cualitativas reciben tratamiento de continuas.
Se perder la identidad de los valores individuales, se los ha condensado
dentro de cada clase para ser representados por la marca de clase o punto
medio.
El punto medio o marca de clase es el valor representativo de los datos de esa
clase. Se determina su valor mediante y dentro de los lmites de las clases por:

Ls - Li
+ Li
2

Se lo puede indicar con el smbolo X, o simplemente en adelante x i


Por lo tanto, la distribucin de frecuencias es en realidad, una tabla resumen en
la cual se condensan o agrupan los datos originales para facilitar el anlisis de
los datos.

La construccin ser, retomando el ejemplo dado:

Frecuen
Clases
cias (fi )
5 11 2
12 18 4
19 25 6
26 32 5
33 - 39 2
40 46 1
N= 20

Donde:

N = cantidad de datos totales.


fi = cantidad de datos de cada clase

En la construccin de esta tabla se observ que:

1. Debimos seleccionar el nmero de clases apropiado.


2. Obtener un intervalo de clase o ancho o amplitud para cada clase.
3. Establecimos los lmites de clase evitando superposiciones (es decir, que
un dato pueda ser contado en mas de una clase).

1.- Nmero de Clases: dependen en forma primordial del nmero de


observaciones, es decir, cuanto mayor es el nmero de datos tanto mayor
podra llegar a ser el nmero de clases (mas de 5 pero menos de 20 25). Si
no hay suficientes clases habr demasiada concentracin de datos y si son
muchas existiran posiblemente clases vacas y/o datos desperdigados. En
ambos casos extremos se obtiene poca informacin.

2.- Intervalo o Amplitud o Tamao de Clase: al desarrollar la tabla de


distribucin de frecuencias, es deseable (pero no imprescindible) que todas las
clases tengan el mismo tamao. Para determinar el ancho de las clases, el
recorrido o rango puede ser til (el nmero mayor menos el menor),
dividindolo por el nmero de clases que proponemos.
A medida que consideramos un menor nmero de clases, el ancho del intervalo
se hace ms grande y viceversa.

3.- Establecimiento de los lmites de clase: es necesario establecerlos con


claridad, a fin de que las observaciones se puedan contar en el agrupamiento
correcto evitando superposiciones.
En una clase cualquiera se distinguen dos lmites: el lmite inferior y el
lmite superior. Entre el lmite inferior de una clase y el lmite superior de la
clase que la antecede existen infinitos nmeros.
Cuando contamos datos enteros este concepto no es significativo y el
nico cuidado que se debe tener es que esos dos lmites mencionados no
posean el mismo nmero.
Pero si nuestras magnitudes son mediciones, los datos provenientes de
ellas sern decimales (campo numrico real). En este caso el concepto de
infinitos nmeros entre el lmite inferior de la clase y el superior del que la
antecede es importante. Deberemos establecer por ajuste de decimales, o el
cual convenga, a cual pertenecern los datos sin lugar a duras.

En el caso de la primer clase del ejemplo, el lmite inferior de la primer


clase es 5 y el lmite superior 11. El lmite real inferior ser 5,00 y el superior
11,99

Ajuste de datos: el nmero 46,8365

redondeo al centsimo ser: 46,84


al dcimo 46,8
al milsimo 46,836 46,837 segn se haya
instituido si el 5 aumenta 1 milsimo el nmero o lo deja como est.
Generalmente se opta por la primera.

Grficos para presentacin y anlisis de distribuciones de


frecuencias

Histograma y Polgono de Frecuencias: Son los grficos especiales y


especficos para representar las distribuciones de frecuencias. Representan
reas o superficies, este significado es el que los diferencia de los grficos
comunes y va ntimamente unido al concepto de representatividad que el
agrupamiento en clases realiza de los datos en conjunto.

Histograma
Es en su forma un grfico de barras verticales, sin separacin
entre ellas. Al trazarlas, la variable o fenmeno de inters se representa a lo
largo del eje horizontal (x) y en el vertical (y) la cantidad de observaciones.
Con este grfico no se pueden comparar dos o ms conjuntos de
datos agrupados, la superposicin de las barras ocasionara dificultades en la
interpretacin.
La forma de este grfico tratar de asemejarse a una campana
(con intensin de que se acerque a la forma de la curva normal o de Gauss.
Si los intervalos de clases son iguales la base tendr para cada una de las
barras igual longitud sobre el eje horizontal y la altura ser la frecuencia de la
clase.
Si los intervalos de clase no son iguales, la longitud de la base representada en
eje x, ser proporcional al tamao de ellas entre s.
Ya se ha convenido que el conjunto de barras que componen el
histograma es una superficie. Dado que cada barra es un rectngulo, por lo
tanto su superficie ser el resultado de:
Utilizando la distribucin de frecuencias del ejemplo, su histograma ser:
8-

fi
5-

1-

5 12 19 26 33 40 47
clases

Polgono de Frecuencias:
Al igual que en el histograma, al trazar el polgono el
fenmeno de inters se representa a lo largo del eje horizontal y las
frecuencias en el vertical. Se forma al hacer que la marca de clase o punto
medio de cada clase represente los datos de esa clase y luego se conectan
entre si de forma lineal.
Es lineal en su construccin pero es una superficie.
Se puede usar para comparar dos o tres distribuciones de frecuencias siempre
que la estructura de ellos sea semejante.
No se construye un polgono de frecuencias a partir y sobre el histograma de
una nica distribucin de frecuencias.

De igual forma que la anterior ejemplifica

8-

fi
5-

1-

5 12 19 26 33 40 47
clases

Medidas de Centralizacin para datos Agrupados


El agrupamiento de datos en distribuciones de frecuencias
conlleva la formulacin de frmulas adecuadas a l.

fi xi
Media Aritmtica X N

Se leer como: la sumatoria de las marcas de clase multiplicadas por la


frecuencia de cada clase y dividida por la cantidad de valores que poseemos.

Donde: Xi : marcas de clase


fi : frecuencias de clase
N : cantidad de datos

Se obtiene de la siguiente forma. Volviendo a nuestro ejemplo:

Xi f i xi
Clases fi

5 11 2 8 16
12 18 4 15 60
19 25 6 22 132
26 32 5 29 145
33 39 2 36 72
40 - 46 1 43 43
20 468

X = 23.4
X = 468/20 = 23.4

Valor que no sorprende, si visualizamos la tabla de distribucin este valor de


media se encuentra contenido en la tercer clase y es donde se encuentra la
mayor frecuencia.

Frecuencias acumuladas
Aqu debemos introducir otro concepto que es el de
las frecuencias acumuladas las cuales se pueden confeccionar con valores
absolutos y/o relativos.
Se obtienen sumando acumuladamente las frecuencias de cada fila ms la
anterior.

Estos conceptos sern de utilidad para obtener el siguiente parmetro central


Mediana X N/2 - fax
Li + c
fx

Donde: Li = lmite real inferior de la clase que contiene a la mediana


N = cantidad de datos
fax = frecuencia acumulada anterior de la clase que contiene a la
mediana.
fx = frecuencia de la clase a que contiene a la mediana
c = intervalo de clase que contiene a la mediana

Siendo nuestra distribucin de frecuencias ejemplo con sus frecuencias


acumuladas,

Clases f fa

5 11 2 2

12 18 4 6

19 25 6 12

26 32 5 17

33 39 2 19

40 46 1 20

20

Se siguen los siguientes pasos:

1. Se obtiene la posicin para determinar que clase la contiene, por N + 1


2
21/2 = 10.5 ubicacin de la mediana

2. Se ubica que clase contiene en mayor o igual esa cantidad entrando a la


tabla por la columna de las frecuencias acumuladas (flecha).
Ser la tercera clase (19 - 25) con fa. = 12 (ya que la anterior solo contiene
6 datos acumulados en sus frecuencias).
3. La (fax ) es la referencia a la fa. anterior a la clase de la mediana, es = 6.
4. Observo el intervalo de clase que contiene la mediana. = 7. ( Ls Li + 1)
5. El lmite real inferior de la clase de la mediana = 19.
6. (fx) es la frecuencia de la clase donde se ubica la mediana.

Reemplazo en la frmula:

20/2 - 6
X = 19 + 7 X = 23,67
6

Mtodo grfico para obtener la mediana, es solamente indicativo, no es


exacto, pero en algn momento nos puede resultar de utilidad.
Sobre el eje cartesiano se representa una de las frecuencias acumuladas
porcentuales de menos que: o mas que: . Se traza una paralela al eje x
hasta cortar la curva y luego una perpendicular desde ese punto de
interseccin hasta el eje x donde se representan las clases, de la siguiente
manera:

fa
Clases fi menos fa
que mas
que
5 11 2 2 20
12 18 4 6 18
19 25 6 12 14
26 32 5 17 8
33 39 2 18 3
40 46 1 20 1
20

20 -
fa

10 -

5 12 19 26 33 40 47
clases

Modo X = 1
Li + c
1 + 2

Donde: Li = Limite inferior real de la clase con mayor cantidad de frecuencias

1 = Diferencia absoluta entre la frecuencia de la clase modal y la anterior.


2 = Diferencia absoluta entre la frecuencia de la clase modal y la siguiente.
c = amplitud de la clase modal (la clase que tiene la mayor cantidad de frecuencias)

siguiendo los siguientes pasos:

1. Visualizo la clase con mayor cantidad de frecuencias (clase modal), en este


caso la 19 25, y determino su lmite real inferior = 19
2. Realizo las diferencias existentes entre la frecuencia de la clase modal y las
frecuencias anterior a ella y siguiente.
3. Reemplazando en la frmula dada y utilizando el mismo ejemplo:

Clases fi

5 11 2
12 18 4
19 25 6
26 32 5
33 39 2
40 - 46 1
20

2
X = 19 + 7 X = 23,67
2 + 1

Una forma grfica de obtenerlo es utilizando el histograma con las barras de


mayor frecuencia, anterior y posterior.
6 - M Q
1 2
N
R
fi 4 -

2 -

12 19 26 33
clases

- Trazo una recta de R a Q y otra de M a N cruzndose en P.


- Por ese cruce comienzo a trazar una perpendicular al eje x.

A partir de este razonamiento y por tringulos semejantes, parte el desarrollo


para obtener la frmula utilizada.

Resumen Medidas Centrales

X = 23.4

X = 23.7

X = 23.7

Como era previsible ya sea por la conformacin de la tabla de frecuencias, por


la forma tanto del histograma como del polgono de frecuencias y por la
obtencin grfica de mediana y modo; numricamente se ha corroborado que
se trata de una poblacin de conformacin casi simtrica. Los parmetros
centrales se ubicarn: la mediana y el modo en la cspide y la media casi
imperceptiblemente corrida.

Relacin til:

Cuando no poseemos los tres parmetros centrales (no es menester tenerlos,


solamente poseemos dos y la distribucin es simtrica o levemente asimtrica.
Una relacin de utilidad para obtener el tercero faltante ser:

X - X = 3(X - X)
Medidas de Dispersin para datos Agrupados

Rango:
De igual forma que para las series simples es la diferencia entre el
mayor valor y el menor de los datos. En datos agrupados se ha visto que se
puede utilizar para la bsqueda de la cantidad de clases para confeccionar una
distribucin de frecuencias considerando segn tamao del intervalo.

Rango = Mayor Valor - Menor Valor


de la serie

Varianza
fi (xi - x)
Var = S = V
N

Donde: fi = frecuencias
Xi = punto medio o marca de clase.
x = media aritmtica de la distribucin.
N = cantidad de datos o sumatoria de las frecuencias.

Recordemos que en nuestro ejemplo X = 23.4

Desarrollaremos la siguiente tabla de trabajo secuencial:

xi xi - x
Clases fi (xi - x) fi(xi - x)

5 11 2 8 -15.4 237.16 474.32


12 18 4 15 -8.4 70.56 282.24
19 25 6 22 -1.4 1.96 11.76
26 32 5 29 5.6 131.36 156.8
33 39 2 36 12.6 158.76 317.52
40 - 46 1 43 19.6 384.16 384.16
20 1626.8

V = 1626.8 /20 = 81.34

V = 81.34

Otra forma de obtenerla es mediante la expresin

V x - (x)

Se lee como la diferencia de la media de los cuadrados menos el cuadrado de


la media.

xi (xi)
Clases fi fi (xi)

5 11 2 8 64 128
12 18 4 15 225 900
19 25 6 22 484 2904
26 32 5 29 841 4205
33 39 2 36 1296 2592
40 - 46 1 43 1849 1849
20 12578

Siendo la x = 23.4 (23.4) = 547.56


V = 81.34
V = 12578/20 - 547.56 = 81.34

Igual valor al obtenido anteriormente.

Desvo Estndar:
Se obtiene como la raz cuadrada de la varianza. O
aplicando la forma:

fi (xi - x)
N

La varianza del ejemplo tiene valor 81.34 por lo tanto su


desvo ser igual

S = 9.02
Es decir nueve unidades y media de corrimiento con respecto al valor central
de la media.

Propiedades

a) Sea a un promedio distinto de la media aritmtica, de todas las


desviaciones, la mnima es aquella para la que a = x, esta propiedad es
la que suministra una razn de peso para definir la desviacin con la
frmula que se ha presentado anteriormente.
b) Para las distribuciones normales resulta que:
i. 1.- el 68,27% de los casos estn comprendidos entre x S
ii. 2.- el 95,45% entre x 2S
iii. 3.- el 99,73% entre x 3S
c) c) Suponiendo dos series de datos de N 1 y N2 nmeros (o dos
distribuciones de frecuencias con frecuencias totales N 1 y N2 ) cuyas
variaciones vienen dadas por S 1 y S2 , respectivamente, y que tienen
la misma media. Entonces, la varianza combinada para ambas series (o
ambas distribuciones de frecuencia) est dada por:

N1 S1 + N2 S2
S =
N1 + N2

Resumen Medidas Centrales y de Dispersin:

X = 23.4, X y X = 23.7 V = 81.34 S = 9.02

Entonces a lo ya comentado podemos agregarle los desvos con sus


correspondientes porcentajes, por lo tanto en nuestra distribucin ejemplo.

X S = (23,4 + 9.02 ; 23,4 - 9.02) = (32.42 ; 23.4)

Da el intervalo donde se concentrar el 68.27% de los valores reales que ser


el comprendido por todos aquellos entre 32.42 y 23.4
Otras Medidas de Tendencia Central

Cuartiles, Deciles y Percentiles

Si una serie de datos se colocan en orden de magnitud, el valor medio (media


aritmtica) que divide al conjunto de datos en dos partes iguales es la mediana.

Por extensin se puede dividir el conjunto ordenado en cuatro partes iguales,


representados por Q1 , Q2 y Q3 se llaman primero, segundo y tercer cuartil. (el
segundo cuartil es la mediana).

Anlogamente, si los valores ordenados se dividen en diez partes iguales se


llaman deciles y se representan por D1 , D2 , .............. , D9

Si los valores se dividen en cien partes iguales se llaman percentiles y se


presentan como P1 , P2 , .............. , P99

El quinto decil y el quincuagsimo percentil coinciden y se corresponden con la


mediana, junto con el segundo cuartil.

X = Q2 = D5 = P50
y

P25 y P75 se corresponden con el Q1 y Q3

Las frmulas por las cuales se obtienen son similares a la de la mediana, ya


que su principio de orden es el mismo, solo se diferencia en el trmino N/2, si
lo cambisemos a uno mas general como:

Cuartiles: qN/4 Deciles: dN/10 Percentiles: pN/100

Cuartiles Deciles
qN/4 - faq dN/10 - fad
Li + c Li + c
fq fd

Percentiles
pN/100 - fap
Li + c
fp

Otras Medidas de Dispersin


Rango Semiintercuartlico o Desviacin cuartlica
De una serie de datos se define por

Q3 - Q1
Q 2 desviacin cuartlica o rango semiintercuartlico

Donde Q3 y Q1 son el tercer y primer cuartil de los datos.

El rango intercuartlico Q3 - Q1 se emplea a veces, pero el rango


semiintercuartlico es ms utilizado como medida de dispersin.

Rango entre Percentiles 10-90


Viene definido por

Rango percentil 10-90 P90 - P10

Donde P10 y P90 son los percentiles dcimo y nonagsimo.

Tambin puede emplearse el rango semipercentil 10-90, aunque se empleo


no es corriente

P90 - P10

Coeficiente de Variacin

Si la dispersin absoluta es S y x es la media, entonces la dispersin relativa


se conoce como coeficiente de variacin o coeficiente de dispersin, dado por:

V S
x

y est generalmente expresado como porcentaje. El coeficiente de variacin es


independiente de las unidades utilizadas. Por esta razn es til para comparar
distribuciones donde las unidades pueden ser diferentes. Un inconveniente del
coeficiente de variacin es que deja de ser til cuando x est prxima a cero.
Variable normalizada, Referencias Tipificadas

X - X
z =
S

Mide la desviacin de la media en unidades de desviacin se llama variable


normalizada o tipificada y sus cantidades son adimensionales (es decir,
independientes de las unidades empleadas).
Si las desviaciones de la media vienen dadas en unidades de desviacin, se
dice que estn expresadas en unidades tipificadas o referencias tipificadas.
Son de gran valor en la comparacin de distribuciones.

Sesgo y Curtosis

Sesgo

Es el grado de asimetra, o falta de simetra, de una distribucin. Si la curva de


frecuencias (polgono de frecuencias suavizado) de una distribucin tiene una
cola mas larga a la derecha del mximo central que a la izquierda, se dice de
la distribucin que est sesgada a la derecha o que tiene sesgo positivo. Si es
al contrario, se dice que est sesgada a la izquierda o que tiene sesgo
negativo.
En distribuciones sesgadas, la media tiende a situarse con respecto al modo al
mismo lado que la cola mas larga. As, una medida de la asimetra viene dada
por la diferencia (media modo). Esta medida puede adimensionarse,
dividindola por una medida de dispersin, tal como el desvo:

media - modo X - X
Sesgo = =
desvo S

se puede evitar el empleo del modo utilizando:

3(media - mediana) 3(X - X)


Sesgo = =
Desvo S

Tambin se pueden obtener a travs de los cuartiles y de los percentiles, con


las siguientes frmulas:

Q3 - 2Q2 + Q1
Coeficiente de sesgo cuartlico =
Q3 - Q1
P90 - 2P50 P10
Coeficiente de sesgo percentlico 10-90 =
P90 - P10

Curtosis o kurtosis

Es el grado de apuntalamiento de una distribucin, normalmente se toma en


relacin a la distribucin normal. Una distribucin que presenta un
apuntalamiento relativo alto se llama leptocrtica, mientras que si es achatada,
se llama platocrtica. La distribucin normal no es ni lo uno ni lo otro, se llama
mesocrtica.
Se emplean tambin para obtener esta medida los cuartiles y percentiles:

Q
coeficiente de curtosis percentlico k =
P90 - P10

donde Q es el rango semiintercuartlico Q = (Q3 - Q1 ).

Para la distribucin normal vale 0.263.


Demostracin de la formula utilizada para el Modo

6 - M Q
1 N 2

fi R
4 -

2 -

Li x U s
12 19 26 33
clases centrales

1. Tomemos las tres clases centrales las cuales poseen las mayores
frecuencias del histograma de nuestro ejemplo
2. Trazamos MN y RQ, se cortan en P.
3. La perpendicular al eje x determina la posicin del x dentro del grfico.
4. Se fijan el Li y Us como lmites inferior y superior de la clase modal.
5. 1 y 2 son las diferencias con las clases anterior y posterior a la
modal.
6. Se han determinado dos tringulos semejantes MPR y QPN.
7. Trazo la altura:

EP PF EP = x - Li
MR QN PF = Us - x
1 2

8. x - Li Us - x
1 2

9. 2 (x - Li ) = 1 (Us - x) aplic. distributiva

10. 2 x - 2 Li = 1 Us - 1 x agrupando y pasando trminos

11. 2 x + 1 x = 1 Us + 2 Li sacando factor comn x

12. (2 + 1 ) x = 1 Us + 2 Li despejando x
1 Us + 2 Li
13. x =
( 2 + 1 )

14. como Us = Li + c y siendo c = amplitud de clase

entonces:

1 (Li + c) + 2 Li
x =
(2 + 1 )

1 Li + 1 c + 2 Li
x = saco factor comn
(2 + 1 )

Li (1 + 2 ) + 1 c
x =
2 + 1

Li (1 + 2 ) + 1 c
x = separo en dos trminos
2 + 1

Li (1 + 2 ) 1 c
x = + simplifico y saco c afuera del segundo trmino
2 + 1 2 + 1

1
x = Li + c
2 + 1

Queda demostrada la frmula utilizada a partir del histograma.

También podría gustarte