Está en la página 1de 20

Representación de tronco y hoja

Un método para iniciar el análisis exploratorio de los datos, previo al uso de los
métodos estadísticos tradicionales, y que además proporciona información rápida,
visual y es relativamente nueva, es la representación gráfica de tronco y hoja.
Esta representación se basa en la ordenación de los datos a manera de gráfico, pero
sin llegar a ello, utilizando las decenas y las unidades.

Esta técnica se puede encontrar en el libro de Freund y Simon, pero comentaremos


su uso a través del siguiente ejemplo que contiene las calificaciones obtenidas en
una prueba de matemáticas:

78 93 61 100 70 83 88 74 97 72
66 73 76 81 83 64 91 70 77 86

Ahora pensaremos en cada uno de los datos separando las decenas de las
unidades, es decir, el número 51 se verá como 5 | 1. De esta manera las decenas se
pondrán en una columna, en forma vertical, y las unidades a su derecha:

6 1 6 4
7 8 0 423607
8 3 8 136
9 3 7 1
10 0

Para entenderle un poco más, hemos de decir que el primer renglón que dice 6 | 1 6
4 quiere decir que entre la lista de datos se encuentran los valores 61, 66 y 64.

Esta es la representación gráfica tronco y hoja, donde cada renglón es una


posición de tronco y cada dígito de la derecha es una hoja.

El procedimiento para realizarla es primero empezar con los troncos, es decir la


columna de la izquierda, y después dato por dato ir llenando las hojas a la derecha
de la línea vertical, en el tronco correspondiente.

Además, si se desean tener los datos ordenados, y hay gente que lo prefiere así, se
pueden ordenar las hojas en cada renglón para que la representación quede como
sigue:

6 1 4 6
7 0 0 234
8 6 7 8
9 1 3 368
1 1 3 7
0 0
En realidad una representación de tronco y hojas presenta la misma información
que la lista original de datos, pero de una manera mucho más compacta
(especialmente si la lista de datos es más grande) y manejable.

Sin embargo, información más compleja resulta un poco más difícil de manejar, por
lo que en ocasiones conviene redondear los datos, ignorar sus partes decimales o
utilizar las centenas u otras posiciones de los números para las troncos. En cada
uno de esos casos conviene hacer alguna anotación, o poner una nota, a fin que los
lectores puedan identificar las adecuaciones realizadas y así poder interpretar lo
que se quiere transmitir.

Para mostrar la información de manera más clara, es posible modificar el número de


posiciones del posiciones del tronco, aumentándola o disminuyéndola de acuerdo a
las necesidades particulares de cada problema. Por ejemplo, con los datos del
examen anterior, se pueden dividir en dos cada posición del tronco, utilizando la
primera posición para disponer las hojas 0, 1, 2, 3 y 4, y la segunda posición para
las hojas restantes. De esta manera, se obtiene la
6- representación gráfica de doble tronco:
6
+ Con esto se han duplicado el número de posiciones del tronco,
14
7- con la intención de buscar una mayor claridad en la
6
7 presentación.
00234
+
678
8- Los métodos empleados para resumir y organizar datos se
133
8 denominan estadística descriptiva; mientras que los métodos
68
+ para tomar decisiones se denominan inferencia estadística
13
9-
7
9 El término población se refiere a los elementos del universo
0
+ respecto al cual se quieren obtener conclusiones o tomar
10 decisiones. A cada elemento se le puede asociar una medición
- que bien puede ser numérica o cualitativa dependiendo de la
característica que se quiera estudiar. El término muestra se refiere al subconjunto
de observaciones seleccionadas de la población de interés

TIPOS DE VARIABLES CUANTITATIVAS


Continuas: números infinito no numerables de elementos. Tiene asociado el
concepto de medida
Ejemplo: Presión arterial, Edad, peso.
Discretas: números finitos o infinitos numerables de elementos. Se asocia con el
concepto de conteo.
Ejemplo: N° de hijos, N° de casos de tuberculosis por estado.

Notación sistematizada Son las diferentes formas de escribir algunas de las


cantidades que implican anotaciones amplias, como son: notación logarítmica,
notación del sistema binario, notación del sistema de cualquier base, notación
científica, notación factorial, entre otros. En estadística se manejan la notación
sigma, factorial y científica
NOTACION SISTEMATIZADA a) “Notación Sigma” Sumatoria y notación sigma: su
notación se debe al nombre de la letra griega con la cuál se representa y es “Σ”,
que indica un conjunto de números o cantidades que deben ser sumadas
NOTACION SISTEMATIZADA “Notación Sigma” Escribe el subíndice del Escribe el
subíndice del último número de la último número de la serie que debe ser serie que
debe ser sumada sumada n Variable con subíndice x Letra griega Sigma que
queVariable con subíndice Letra griega Sigma que xi n representa el que
representa el Σ indica que debe i indica que debe iésimo ? realizarse la sumatoria
realizarse laelemento del iésimo elemento del i sumatoria conjunto conjunto i=?
Escribe el subíndice del Escribe el subíndice del primer elemento de la primer
elemento de la serie que va aa ser serie que va ser sumada sumada
Ejemplo :NOTACION SISTEMATIZADA “Notación Sigma”  x  x La sumatoria de
una variable es igual a la suma de cada una de ellas 8 1 x i 1 2 3 7 8 i  x    x
NOTACION SISTEMATIZADA b) “Notación Factorial” Factorial de un Notación factorial
número (n): es el resultado de “n!” multiplicar su número por todos los números se
lee enteros positivos “el factorial de n” menores que dicho número.
NOTACION SISTEMATIZADA “Notación Factorial” n! Ejemplos: El factorial de 5 y 31
  3 n  2  n  1 n  5!=(5)(4)(3)(2)(1) = 120 3!=(3)(2)(1) = 6
NOTACION SISTEMATIZADA c) “Notación Científica” Al multiplicar un número por
10 , siendo “n” un número n entero positivo, se corre el punto decimal tantos
lugares “según n” a la derecha.
NOTACION SISTEMATIZADA “Notación Científica” resultado de una notación
científica se le llama notación desarrollada. Notación Notación científica a
desarrollada 5 4.8×10 480 000
NOTACION SISTEMATIZADA “Notación Científica” Ejemplos: Valor de “n” positivo
*4×105 = 4×10×10×10×10×10 = 400,000 (al no tener punto el 4, éste se
considera al final) Valor de “n” negativo *4×10–5 = 0.00004 (al no tener punto el 4,
se considera al final) ¡ ÁNIMO !
CIFRAS SIGNIFICATIVAS Son las cifras de un resultado en las que podamos tener
confianza de que son precisas
CIFRAS SIGNIFICATIVAS Reglas izquierda no son significativos 103 3 cifras
significativas 0.000103 3 cifras Ceros a la derecha sí son significativos 1 kg 1
cifrasignificativas Ceros a la derechasignificativa 1.00 kg 3 cifras significativas
(precisión) para especificar punto decimal no son significativos 150 000 000 000 m
Distancia tierra – sol Cifras significativas 12 ? NO, distancia no es precisa. 1.50 x
1011 3 Cifras significativas sólo el primer cero es significativo.
En Números enterosCIFRAS SIGNIFICATIVAS Reglas Losse infiere que tienen una
cantidad infinita de cifras significativas factores de conversión generalmente son
exactos 1 pié 12 pulgadas 1 km 1000 m 1 pulg 2.54 cm (por definición)
Conversiones dentro de un mismo sistema son exactas

El rango de la muestra es la medida de variabilidad más sencilla entre todas las


mencionadas; y se define como la diferencia entre la observación más grande y la
más pequeña :
La distribución de frecuencias agrupadas es una tabla que contiene las columnas
siguientes: intervalo de clase, puntos medios, tabulación frecuencias y frecuencias
agrupadas. Los pasos para diseñarla son:

1 Se localizan el computo mas alto y el mas bajo de la serie de datos.

2 Se encuentra la diferencia entre esos dos computos.

3 La diferencia obtenida se divide entre números nones tratando de encontrar un


cociente cercano a 15 pero no mayor. Lo anterior indica cuantas clases va a tener la
distribución de frecuencias agrupadas y cuál va a ser la magnitud del intervalo de
clase.

4 Se determina el primer intervalo de clase y posteriormente se van disminuyendo


los límites del intervalo de clase de acuerdo al valor de la magnitud establecida
previamente.

1. Cálculo de tamaño de clase: para calcular el tamaño de clase es


necesario calcular primeramente el número de clases utilizando la regla de
Sturges y despés se obtiene el tamaño de clase dividiendo el rango entre el
número de clases.

*No. De clases (Regla de Sturges): 1 + 3.332 log N


*Tamaño de clase = Rango / No. De clases
2. Límites de clase: representan el tamaño de cada clase. El límite inferior
de la primer clase toma el valor de el dato menor de la colección de datos, para
obtener el límite inferior de la clase siguente, se suma al límite inferior de la
case anterior el tamaño de clase.
3. Límites reales de clase: se obtienen sumando al LS de la clase el Lide la
clase contigua superior y dividiendo entre dos.
4. Marca de clase : Es el punto medio de la clase y se obtiene sumando los
LI y LS de la clase y dividiendo entre 2. La marca de clase también se llama
punto medio de la clase.

Marca de Clase: Es el punto medio del intervalo de clase, se recomienda observar


que los puntos medios coincidan con los datos observados para minimizar el error.

Número de clases: es el número total de grupos en que se clasifica la información,


se recomienda que no sea menor que 5 ni mayor que 15

A continuación serán expuestas las definiciones y notaciones que vamos a utilizar


en
estadística descriptiva:
Frecuencia  Absoluta: i f
Frecuencia
 Relativa: i h
Frecuencia
 Relativa Porcentual: % i h
Frecuencia
 Acumulada: i F
Frecuencia
 Relativa Acumulada: i H
Frecuencia
 Porcentual Acumulada: % i H
Marca  de Clase ( i X ):
2
LimiteInferior LimiteSuperior
Amplitud  de Clase ( a ):
k
M N
M Máximo , N Mínimo
1)  Número de Clases ( k ): k n n tamaño de la muestra
Observación: Esta regla es útil cuando n 400.  
2)  Número de Clases ( k ): 13,322*log(n) (Regla de Sturges)
 Número de Clases ( k ): log(n) / log(2)
3)

Frecuencias absolutas y relativas. Frecuencias acumuladas.

Frecuencia absoluta: Llamaremos así al número de repeticiones que


presenta una observación. Se representa por ni.

Frecuencia relativa: Es la frecuencia absoluta dividida por el número total de


datos, se suele expresar en tanto por uno, siendo su valor -iésimo
ni
fi =
n

La suma de todas las frecuencias relativas, siempre debe ser igual a


la unidad.

Frecuencia absoluta acumulada: es la suma de los distintos valores de la


frecuencia absoluta tomando como referencia un individuo dado. La última
frecuencia absoluta acumulada es igual al nº de casos:

N1 = n1
N2 = n1+ n2
Nn = n1 + n2 + . . . . . . + nn-1 + nn=n

Frecuencia relativa acumulada, es el resultado de dividir cada frecuencia


absoluta acumulada por el número total de datos, se la suele representar con la
notación: Fi

De igual forma, también se puede definir a partir de la frecuencia relativa,


como suma de los distintos valores de la frecuencia relativa, tomando como
referencia un individuo dado. La última frecuencia relativa acumulada es igual a la
unidad.
Histograma de frecuencias

4.1. Teoría

En muchos casos, si los datos han sido tomados de forma correcta, las conclusiones
que se pueden obtener a partir de los mismos son inmediatas. Si no es así,
raramente se precisan análisis estadísticos complicados, suele bastar con una
adecuada representación gráfica.

Cuando se trata de analizar la dispersión que presentan unos datos, la


representación gráfica más adecuada es el histograma. Para realizar un histograma
se marcan una serie de intervalos sobre un eje horizontal, y sobre cada intervalo se
coloca un rectángulo de altura proporcional al número de observaciones (frecuencia
absoluta) que caen dentro de dicho intervalo. De esta manera el histograma de
frecuencias resulta muy útil para representar gráficamente la distribución de
frecuencias

Si se pretende comparar varios histogramas construidos con distinto número de


datos, es preferible que las alturas de los rectángulos sean proporcionales al
porcentaje de observaciones en cada intervalo o al tanto uno por uno (frecuencia
relativa). Utilizando la frecuencia relativa en el eje de ordenadas también se facilita
la comparación entre el histograma obtenido y un determinado modelo teórico
representado por una función densidad de probabilidad. En este caso se considera
que la frecuencia relativa es proporcional al área definida por cada columna. Puede
interpretarse la función densidad de probabilidad como la representación del
histograma cuando el número de observaciones tiende a infinito y la anchura de los
rectángulos tiende a cero.

En el siguiente gráfico podemos apreciar la distribución de frecuencias


correspondiente al ejemplo del apartado 3 de esta página, pero esta vez
representada con un histograma de frecuencias absolutas.
En un histograma de frecuencias, la altura de los rectángulos está determinada por

la frecuencia absoluta de la clase. De manera similar, en un histograma de


frecuencias relativas (frecuencias acumuladas, frecuencias relativas acumuladas),
la altura de los rectángulos está determinada por la frecuencia relativa

(frecuencia absoluta acumulada , frecuencia relativa acumulada ) de la


clase. El histograma de frecuencias acumuladas para los datos del ejemplo anterior
se muestran en la figura que se puede apreciar en el siguiente gráfico.

Este gráfico muestra como se distribuyen los valores de nuestra variable de interés.
Condensa un conjunto de datos para una fácil compresión visual de sus
características generales tales como valores típicos, dispersión y forma. También
nos ayuda a detectar observaciones inusuales en un conjunto de datos.

Al pasar de los datos originales a la tabla de frecuencias o al histograma, se pierde


parte de la información debido a que ya no se tiene las observaciones. Sin embargo,
esta perdida en la información a menudo es pequeña comparada con la facilidad de
interpretación ganada al utilizar la distribución de frecuencias e histogramas.

4.2. Formas típicas de histogramas relacionadas con curvas de frecuencias

En el siguiente apartado se presentan varias formas de histogramas que responden


a patrones de comportamiento típico. A su lado podemos encontrar curvas de
frecuencia que aparecen normalmente en la práctica y que se relacionan con estos
histogramas ya que representan a datos con características muy parecidas.

El histograma 1 corresponde a la forma de campana habitual que representa la


variabilidad debida a causas aleatorias. A su lado podemos apreciar una curva de
frecuencias simétricas o en forma de campana, se caracteriza porque las
observaciones equidistantes del máximo central tienen la misma frecuencia. En
este caso corresponde con la curva de la normal o Gaussiana.
El histograma 2, con dos máximos diferenciados, responde a una distribución
denominada bimodal y se presenta cuando están mezclados datos de distinto
origen centrados en valores distintos. De igual manera la curva de frecuencia
bimodal tiene dos máximos, ya que representan a la misma colección de datos.

El histograma 3 se denomina, por su forma, sesgado a la derecha, y responde a la


variabilidad que presenta ciertas variables que no siguen una ley normal, como los
tiempos de vida. En las curvas de frecuencias poco asimétricas, o segadas, la cola
de la curva a un lado del máximo central es más larga que al otro lado. Si la cola
mayor está a la derecha, la curva se dice asimétrica a la derecha o de asimétrica
positiva.

El histograma 4 parece faltarle una parte y por ello se le llama censurado o


sesgado (en este caso, a la izquierda). No representa una variabilidad natural y por
tanto hay que sospechar que se han eliminado algunos valores. Igual ocurre con las
curvas de frecuencias poco asimétricas o sesgadas a la izquierda o de asimetría
negativa.

Por último tenemos los histogramas 5 y 6, en los cuales aparecen datos que no
siguen el patrón de comportamiento general (anomalías, errores, etc...). Su
variabilidad puede atribuirse a alguna causa asignable que deberá ser identificada y
eliminada.
Otra forma de representación de un uso menos común, y muy parecida a las
gráficas de líneas, es el polígono de frecuencias. La diferencia fundamental entre
ambas es que en el polígono de frecuencias se añaden dos clases con frecuencias
cero: una antes de la primera clase con datos y otra después de la última. El
resultado es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que
podría ser una línea separada del eje se convierte, junto con éste, en un polígono.

El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e


investigación durante el año de 1990 en cinco países (fuente: Revista "Ciencia y
Desarrollo", 1994, XIX(114):12):

El Excel no crea automáticamente polígonos de frecuencias, sino que produce


gráficas de líneas. Sin embargo, es posible arreglárselas para hacerlas.

Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de


aplicar parcialmente la misma técnica a una distribución acumulativa y de igual
manera que éstas, existen las ojivas mayor que y las ojivas menor que.

Existen dos diferencias fundamentales entre las ojivas y los polígonos de


frecuencias (y por ésto la aplicación de la técnica es parcial):

1. Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor


que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho.
2. En el eje horizontal en lugar de colocar las marcas de clase se colocan las
fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor;
para la ojiva menor que, la mayor.

Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la


menor que, utilizando los datos que se usaron para ejemplificar el histograma:
La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el
punto que está sobre la frontera de clase "4:00" se ven las visitas que se realizaron
en una hora mayor que las 4:00 horas (en cuestiones temporales se diría: después
de las 4:00 horas). De forma análoga, en la ojiva menor que la frecuencia que se
representa en cada frontera de clase son el número de observaciones menores que
la frontera señalada (en caso de tiempos sería el número de observaciones antes de
la hora que señala la frontera).

Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva


(mayor que o menor que según sea el caso) cuyo eje vertical tiene una escala que
va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que que se acaba
de usar, pero con una distribución porcentual:

Dados los n números a1,a2, ... , an, la media aritmética se define simplemente
como:

Por ejemplo, la media aritmética de 8, 5 y -1 es igual a:


Se utiliza la X con una barra horizontal sobre el símbolo para representar medias de
una muestra ( ), mientras que la letra µ (mu) se usa para la media aritmética de
una población, es decir, el valor esperado de una variable.

Existen dos estrategias para calcular la mediana: considerando los datos en forma
individual, sin agruparlos, o bien utilizando los datos agrupados en intervalos de
clase. Veamos cada una de ellas.

Datos sin agrupar [editar]

Sean los datos de una muestra ordenada en orden creciente y


designando la mediana como Me, distinguimos dos casos:

a) Si n es impar, la mediana es el valor que ocupa la posición una vez que los
datos han sido ordenados (en orden creciente o decreciente), porque éste es el
valor central. Es decir: .

Por ejemplo, si tenemos 5 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8,


x5 = 9 => El valor central es el tercero: . Este valor, que es la
mediana de ese conjunto de datos, deja dos datos por debajo (x1, x2) y otros dos por
encima de él (x4, x5).

b) Si n es par, la mediana es la media aritmética de las dos observaciones centrales.


Cuando n es par, los dos datos que están en el centro de la muestra ocupan las

posiciones y . Es decir: .

Por ejemplo, si tenemos 6 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8,


x5 = 9, x6 = 10 => Hay dos valores que están por debajo del y otros
dos que quedan por encima del siguiente dato . Por tanto, la mediana
de este grupo de datos es la media aritmética de estos dos datos:

Datos agrupados [editar]

Al tratar con datos agrupados, si coincide con el valor de una frecuencia


acumulada, el valor de la mediana coincidirá con la abscisa correspondiente. Si no
coincide con el valor de ninguna abcisa, se calcula a través de semejanza de
triángulos en el histograma o polígono de frecuencias acumuladas, utilizando la
siguiente equivalencia:
Dónde Ni y Ni − 1 son las frecuencias absolutas tales que , ai − 1 y ai
son los extremos, inferior y superior, del intervalo donde se alcanza la
mediana y Me = ai − 1 es la abscisa a calcular, la moda. Se observa que xi f Ni
ai − ai − 1 es la amplitud de los intervalos seleccionados para el i
diagrama. 1 2 2
2 2 4
Ejemplos [editar]
3 4 8
Ejemplo: Cantidad (N) impar de datos [editar] 4 5 13
Las calificaciones en la asignatura de Matemáticas de 39 alumnos de 21 >
5 8
una clase viene dada por la siguiente tabla: 19.5
6 9 30
Calificaciones 1 2 3 4 5 6 7 8 9 7 3 33
Número de 8 4 37
22458934 2
alumnos
9 2 39
Primero se halla las frecuencias absolutas acumuladas Ni. Así, aplicando la formula
asociada a la mediana para n impar, se obtiene X(39 + 1) / 2 = X20.

• Ni-1< n/2 < Ni = N19 < 19.5 < N20

Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar.En
este ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me
= 5 puntos, la mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o
más.

Ejemplo: Cantidad (N) par de datos [editar]

Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase


viene dada por la siguiente tabla (debajo):

Calificaciones 1 2 3 4 5 6 7 8 9
Número de
22456944 2
alumnos
f
xi Ni+w
i
1 2 2
2 2 4
3 4 8
4 5 13
Primero se hallan las frecuencias absolutas acumuladas Ni. Ni. Así,
aplicando la formula asociada a la mediana para n par, se obtiene X(38 / 5 19 =
6
2) = X19. 19
6 9 28
• Ni-1< n/2 < Ni = N18 < 19 < N19
7 4 32
Con lo cual la mediana será la media aritmética de los valores de la 8 4 36
variable que ocupen el decimonoveno y el vigésimo lugar. En el ejemplo 9 2 38
el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6 con lo que Me =
(5+6)/2 = 5,5 puntos, la mitad de la clase ha obtenido un 5,5 o menos y la otra
mitad un 5,5 o más.

Ejemplo [editar]

Entre 1.80 y 1.70 hay 3 estudiantes.


Entre 1.70 y 1.60 hay 5 estudiantes.
Entre 1.60 y 1.50 hay 2 estudiantes..

Método de cálculo general [editar]


xi fi Ni

[x11-x12] f1 N1

. . .

. . .

. . N(i-2)

f(
[x(i-1)1-x(i- f(i-1)-N(i-
i-
1)2] 2)=N(i-1)
1)

[xi1-xi2] fi fi-Ni-1=Ni
f(
[x(i+1)1- f(i+1)-
i+
x(i+1)2] Ni=N(i+1)
1)

. . .

. . .

. . .

f fM-N(M-
[xM1-xM2]
M 1)=NM

Consideramos [editar]

- x11 valor mínimo


- xM2 valor máximo

- [xi1-xi2] primer intervalo situado por encima de

Entonces:

Método proyectivo [editar]

Con base en el método proyectivo, se puede obtener la mediana para datos


agrupados de la siguiente forma:

1. Tomar el número total de frecuencias y dividirlo entre dos.


2. Restar a ese número el total de frecuencias de las clases anteriores a la clase
mediana.
3. Usar el número obtenido para hacer un cambio del doble superior de escala entre
las frecuencias de la clase mediana y sus rangos para obtener la distancia parcial
4. Sumamos la distancia parcial obtenida a el límite inferior de la clase.
Usando el ejemplo anterior:

1. El número total de frecuencias es de; (3+5+2)/2 = 10/2 = 5


2. El total de frecuencias anteriores es 2; (5 - 2) = 3
3. Hacemos el cambio de escalas:

Resolviendo:

la mediana es la suma de todos los datos dividido entre


el numero de datos

4. Se suma la distancia parcial al límite inferior:

MODA:

La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que más
se repite, es la única medida de centralización que tiene sentido estudiar en una
variable cualitativa, pues no precisa la realización de ningún cálculo.

Por su propia definición, la moda no es única, pues puede haber dos o más valores
de la variable que tengan la misma frecuencia siendo esta máxima. En cuyo caso
tendremos una distribución bimodal o polimodal según el caso.

Por lo tanto el cálculo de la moda en distribuciones discretas o cualitativas no


precisa de una explicación mayor; sin embargo, debemos detenernos un poco en el
cálculo de la moda para distribuciones cuantitativas continuas.
Media geométrica:

La media geométrica de N observaciones es la raíz de índice N del producto de


todas las observaciones. La representaremos por G.

Solo se puede calcular si no hay observaciones negativas. Es una medida


estadística poco o nada usual.

Media armónica:

La media armónica de N observaciones es la inversa de la media de las inversas de


las observaciones y la denotaremos por H

Al igual que en el caso de la media geométrica su utilización es bastante poco


frecuente.

Medidas de posición no centrales

Las medidas de posición no centrales permiten conocer otros puntos característicos


de la distribución que no son los valores centrales. Entre otros indicadores, se
suelen utilizar una serie de valores que dividen la muestra en tramos iguales:

Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma


creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos
concentra el 25% de los resultados.

Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma


creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos
concentra el 10% de los resultados.

Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma


creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos
concentra el 1% de los resultados.
Medidas de dispersión

Rango estadístico [editar]

El rango o recorrido estadístico es la diferencia entre el valor mínimo y el valor


máximo en un grupo de números aleatorios. Se le suele simbolizar con R.

Requisitos del rango [editar]

• Ordenamos los números según su tamaño.


• Restamos el valor mínimo del valor máximo.

Ejemplo [editar]

Para una muestra (1, 45, 50, 55, 100), el dato menor es 1 y el dato mayor es 100.
Sus valores se encuentran en un rango de:

Rango = 100 – 1 =99

RANGO O RECORRIDO
Definición: se llama recorrido de una distribución a la diferencia entre el mayor y el
menor valor de la variable estadística.

Cálculo del recorrido

Es muy sencillo aplicando la definición, consiste en ordenar los valores de menor a


mayor y restar al último el primero.

Observaciones al recorrido
1.Cuanto menor es el recorrido mayor es el grado de representatividad de los valores
centrales.
2.Cuanto mayor es, la distribución está menos concentrada o más dispersa.
3.Tiene la gran ventaja de su sencillez de cálculo.
4.Tiene gran aplicación en procesos de control de calidad,
5.Tiene el inconveniente de que sólo depende de los valores extremos. De esta forma
basta que uno de ellos se separe mucho para que el recorrido se vea sensiblemente
afectado.

6.Para paliar este inconveniente a veces se utilizan otros dos rangos:

• Rango intercuartílico: Q = Q3 – Q1
• Rango entre percentiles: P = P90 – P10

Estos rangos son algo más estables, ya que tienden a eliminar aquellos valores
extremadamente alejados.
Desviación media

De Wikipedia, la enciclopedia libre


Saltar a navegación, búsqueda

La desviación media es la media de las diferencias en valor absoluto de los


valores a la media.

Este valor estadístico no es de mucha utilidad en estadística debido a que no es


fácil manipular dicha función al no ser derivable.

Siendo más formales, la desviación media debería llamarse desviación absoluta


respecto a la media, para evitar confusiones con otra medida de dispersión, la
desviación absoluta respecto a la mediana, DM, cuya fórmula es la misma,
sustituyendo la media aritmética por la mediana M. Pero tal precisión no es
relevante, porque la desviación absoluta respecto a la mediana es de uso todavía
menos frecuente.

La desviación absoluta respecto a la media, Dm, la desviación absoluta respecto a la


mediana, DM, y la desviación típica, σ, de un mismo conjunto de valores verifican la
desigualdad:

Siempre ocurre que

donde el Rango es igual a

Rango = valor máximo − valor mínimo


Dm = 0 cuando los datos son exactamente iguales (e iguales a la media
aritmética)

justo sólo hay dos valores en los datos, :a,b, y hay


exactamente la mitad de datos igual a :a y :b.
LA DESVIACIÓN ESTÁNDAR (S ó δ)
Es una medida de la cantidad típica en la que los valores del conjunto de
datos difieren de la media. Es la medida de dispersión más utilizada, se le llama
también desviación típica. La desviación estándar siempre se calcula con respecto a
la media y es un mínimo cuando se estima con respecto a este valor.
Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raíz
cuadrada positiva de esta. A la desviación se le representa por la letra minúscula
griega "sigma" ( δ ) ó por la letra S mayúscula, según otros analistas.
Cálculo de la Desviación Estándar
δ = √δ2 ó S = √S2
Ejemplo:
Del calculo de la varianza de las edades de cinco estudiantes
universitarios de primer año se obtuvo δ2=27.44, como la desviación
estándar es la raíz cuadrada positiva, entonces δ = √27.44 = 5.29 años.
Igual procedimiento se aplica para encontrar le desviación estándar de
las cuentas por cobrar de la Tienda Cabrera’s y Asociados, recordemos
que la varianza obtenida fue de 721.645, luego entonces la desviación
estándar es igual a δ =√721.645 = 26.86 balboas.
o Propiedades de la Desviación Estándar

A su vez la desviación estándar, también tiene una serie de propiedades


que se deducen fácilmente de las de la varianza (ya que la desviación
típica es la raíz cuadrada positiva de la varianza):
o La desviación estándar es siempre un valor no negativo S será siempre ³
0 por definición. Cuando S = 0 è X = xi (para todo i).
o Es la medida de dispersión óptima por ser la más pequeña.
o La desviación estándar toma en cuenta las desviaciones de todos los
valores de la variable
o Si a todos los valores de la variable se le suma una misma constante la
desviación estándar no varía.
o Si a todos los valores de la variable se multiplican por una misma
constante, la desviación estándar queda multiplicada por el valor absoluto de
dicha constante.

1.4.- El Coeficiente de Variación de Pearson (C.V.)


Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un
valor representativo, las medidas de dispersión nos dicen hasta que punto estas
medidas de tendencia central son representativas como síntesis de la información.
Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de
los valores de la distribución respecto al valor central. Distinguimos entre medidas
de dispersión absolutas, que no son comparables entre diferentes muestras y las
relativas que nos permitirán comparar varias muestras.
El problema de las medidas de dispersión absolutas es que normalmente son un
indicador que nos da problemasa la hora de comparar. Comparar muestras de
variables que entre sí no tienen cantidades en las mismas unidades, de ahí que en
ocasiones se recurra a medidas de dispersión relativas.
Un problema que se plantea, tanto la varianza como la desviación estándar,
especialmente a efectos de comparaciones entre distribuciones, es el de la
dependencia respecto a las unidades de medida de la variable. Cuando se quiere
comparar el grado de dispersión de dos distribuciones que no vienen dadas en las
mismas unidades o que las medias no son iguales se utiliza el llamado
"Coeficiente de Variación de Pearson", del que se demuestra que nos da un
número independiente de las unidades de medidas empleadas, por lo que entre dos
distribuciones dadas diremos que posee menor dispersión aquella cuyo coeficiente
de variación sea menor., y que se define como la relación por cociente entre
la desviación estándar y la media aritmética; o en otras palabras es la
desviación estándar expresada como porcentaje de la media aritmética.
Definición del Coeficiente de Variación

Donde: C.V. representa el número de veces que la


desviación típica contiene a la media aritmética y por lo
tanto cuanto mayor es CV mayor es la dispersión y menor la
representatividad de la media.
• Propiedades del Coeficiente de Variación :

o Si a todos los valores de la variable se le suma una misma constante el


coeficiente de variación queda alterado .