Está en la página 1de 21

ESTADÍSTICA DESCRIPTIVA

INTRODUCCION
Al analizar los datos contenidos en una muestra, un paso importante es
presentar diversos resúmenes numéricos de la información que contiene. Estos
resúmenes numéricos, que representan características interesantes de la
muestra, serán denominados 'estadísticas'. De una manera más formal, se
puede dar la siguiente definición: 

Estadística, es una función de la muestra que no contiene parámetros


desconocidos.

En otras palabras, estadística es una función numérica de los datos que puede
efectivamente calcularse, porque los elementos necesarios para hacerlo son
conocidos. Existe una gran variedad de resúmenes numéricos que pueden
calcularse con los datos de la muestra. Cada uno de éstos ofrece una
descripción propia de algún aspecto de interés.

Normalmente, la variable que se intenta medir es conocida de manera


insuficiente para el estudio que se realiza. Esto no significa que no se tenga
algún conocimiento global de valores que pueda asumir, sino que es necesario
conocerla mejor para tomar alguna decisión de importancia. Por ejemplo, si se
desea comparar las estaturas de alumnos varones del último año de
enseñanza media de dos colegios de características diferentes, de antemano
se sabe que éstas estarán casi siempre entre 140cm y 210cm. En general,
nadie dudaría de un margen tan ancho para estaturas. Sin embargo este
conocimiento no es lo suficientemente preciso para hacer la comparación
deseada. Es indispensable afinarlo más. Para cada uno de los dos colegios,
interesa saber dónde están centradas las estaturas, cuánto se dispersan, que
forma tienen, etc. De los muchos aspectos de los datos, que intentamos
representar numéricamente con estadísticas, tres son los más importantes:

su posición,  su dispersión, su forma.

Conceptos Básicos en Estadística 


En general se podía decir que las pruebas estadísticas resuelven problemas en
tres grandes tipos de situaciones:
a) - Cuando se trata de resumir o describir un conjunto de datos. Estadística
descriptiva
b) - Cuando tratamos de "conocer o estimar alguna característica de las
poblaciones o situaciones de donde proceden nuestros datos muestrales.
Técnicas de Estimación
c) - Finalmente cuando tratamos de decidir entre dos opciones o hipótesis de
trabajo. Analizamos la información muestral  mediante técnicas de Contraste de
hipótesis ( pruebas estadísticas) decidimos que hipótesis es la más compatible
con los datos experimentales.
No importa lo complicada que sea la metodología estadística que se emplee,
esencialmente estará incluida en una de las categorías anteriores

Contenido

Técnicas descriptivas y de estimación


 Estimación estadística y conocimiento de las poblaciones
 Técnicas de diagnóstico
 Manejando la información acerca de la dispersión

Métodos estadísticos
 Conceptos básicos sobre pruebas estadísticas
 Como elegir la prueba estadística adecuada
 La prueba más universal para la comparación de dos tratamientos
 Análisis Estadístico de datos de Supervivencia
 Se puede confiar en el Meta-Análisis ?
 Ventajas y limitaciones del Análisis de la Varianza (ANOVA)
 Utilización e Interpretación de las Técnicas de Regresión y Correlación

Utilidades estadísticas
 He dado positivo, Estaré enfermo?
 Cálculo del tamaño muestral en la comparación de dos muestras
 Bibliografía

Población y Muestra.
Dos conceptos básicos en estadística son población y muestra.

En un estudio científico, el conjunto de elementos que enmarca el trabajo y


sobre el cual queremos hacer afirmaciones, se llama población objetivo. 

En muchas ocasiones, no todos los elementos de esta población objetivo son


potencialmente alcanzables para su observación directa; aquellos que sí lo son,
forman un subconjunto denominado población muestral, porque son los
elementos susceptibles a ser seleccionados para su estudio.
Se debe destacar que ambos tipos de poblaciones, necesitan estar bien
definidas. No debe haber ambigüedad en determinar si un elemento pertenece
a una de ellas o no.

No siempre las poblaciones objetivo y muestral son la misma. Es común que


esta última sea un subconjunto estricto de la primera. 

Por la característica del trabajo estadístico, sólo interesa la población muestral,


ya que es aquí donde se puede hacer uso apropiado de la metodología
correspondiente.

En resumen, cualquier conclusión con validez estadística debe circunscribirse a


la población muestral. Las conclusiones que van más allá de ésta, se obtienen
con argumentos extra-estadísticos que no se estudian en estas notas. Esto no
significa necesariamente que los procedimientos que buscan extender
resultados más allá de la población muestral deban descartarse totalmente.
Sólo debe tenerse presente que corresponden a metodologías no avaladas
directamente por la estadística y por lo tanto no se debe culpar a esta última si
aparecen errores evidentes en los resultados obtenidos. (Tampoco se le debe
atribuir eventuales éxitos conseguidos con estos procedimientos)

Un ejemplo aclarará lo anterior. Supóngase que se quiere saber la opinión de


los habitantes de una ciudad acerca de un tema de interés general. Si para
estos efectos se hace una encuesta sólo a aquellos que tienen teléfono, los
resultados obtenidos no pueden extenderse a toda la ciudad sustentados
directamente por métodos estadísticos. Quien lo haga, estaría usando otras
metodologías y debe destacarlo para evitar confusiones en la interpretación de
los resultados.

De aquí en adelante, sólo se hará uso de la población muestral y cuando no


exista posibilidad de confusión, se mencionará solamente como ‘población’.

Otro concepto que se usará, momentáneamente sin una definición cuidadosa,


es el denominado muestra; baste saber por ahora que es un subconjunto de la
población muestral que se extrae para ser estudiado.
MEDIDAS DE TENDENCIA CENTRAL.
PROMEDIO O MEDIA ARITMÉTICA.
Sean, x1 ,x2 ,....,xn , n observaciones muestrales, definiremos promedio de estas
observaciones al valor dado por:

En esta expresión, puede verse que el promedio de un conjunto de números se


calcula sumándolos y luego dividiendo la suma por el número de sumandos.

La estadística promedio representa muy bien el 'centro' de la distribución de los


datos cuando se trata de casos 'normales'. Entendemos aquí por casos
'normales' aquellos conjuntos de datos que no contienen valores muy
extremos, valores muy alejados de los demás. 

Debido a que en muchas situaciones experimentales, el comportamiento de los


datos es relativamente 'normal', el promedio es muy usado, convirtiéndose en
la primera estadística calculada para representar el 'centro' de la población en
estudio.

Ejemplo:

En la tabla siguiente se tiene los puntajes obtenidos en la Prueba de Aptitud


Académica por 30 jóvenes, provenientes de un mismo establecimiento
educacional:

P. Ap. P. Ap. P. Ap. P. Ap.


Verbal Matemática Verbal Matemática

685 664 730 642

490 548 618 533

580 567 690 654

705 665 680 542


470 452 690 678

620 506 710 732

650 618 742 749

702 718 685 570

643 621 595 574

540 555 674 657

575 502 722 747

600 531 585 620

500 478 505 482

680 558 600 643

587 600 543 500

Con los datos de la tabla, se puede caracterizar el establecimiento educacional


usando el promedio de cada una de las pruebas.

Lo primeros que se necesita es calcular la suma de los puntajes de los treinta


alumnos.  Dichas sumas son las siguientes:

Prueba de Aptitud Verbal 18796

Prueba de Aptitud Matemática 17906

El cuociente de estas sumas con el tamaño de la muestra considerada, nos


entrega como resultado:

Promedio Prueba de Aptitud Verbal 626.533

Promedio Prueba de Aptitud Matemática 596.867

Ejercicio.
Si, para cada alumno, su puntaje de Prueba de Aptitud Académica es el
promedio de la Prueba de Aptitud Verbal y la Prueba de Aptitud Matemática.
¿Cuál es el promedio de la Prueba de Aptitud Académica del establecimiento
representado por la muestra?

Compárelo con el promedio del Promedio Prueba de Aptitud Verbal y el


Promedio Prueba de Aptitud Matemática. Comente estos resultados.

Nota.

Si en un conjunto de datos, aparecen valores muy extremos, pueden producir


distorsiones en el promedio. Estas distorciones perturban la búsqueda del
centro desconocido de la población, debido a la inestabilidad que inducen en
cálculo realizado.

Para disminuir el efecto anterior, se puede usar estadísticas alternativas al


promedio, que descartan o amortiguan esos valores extremos y que, por lo
tanto, tienen valores que no se ven mayormente afectados por la presencia de
estos datos en la muestra.

MEDIANA
La mediana es una medida de centro que resulta ser un caso particular de
percentil.

Es el percentil 50.

Debido a su definición, el valor de la mediana no cambia si los valores


centrales que intervienen en su cálculo no lo hacen, aunque sí lo hagan otros
de modo que no cambie el orden de los datos centrales.

Ejemplo.

Considere el conjunto de 5 datos:

12   34   43   57   63

En este caso, la mediana es 43, el tercer valor cuando se ordenan los datos.
Mientras este tercer valor no cambie, tampoco lo hará la mediana. Sin
embargo, los valores 57 y 63 pueden asumir cualquier valor superior o igual a
43 y la mediana no cambiará de valor. Asimismo, los valores 12 y 34 pueden
asumir cualquier valor menor o igual a 43 sin que cambie el valor de la
mediana.

MODA
Es un valor del recorrido de las observaciones que presenta mayor frecuencia
que aquellos a su alrededor.
En un conjunto de datos, puede haber más de un valor que cumple con la
característica presentada en el párrafo anterior. En consecuencia, la moda de
un conjunto de datos puede no ser única.

Esta estadística debe usarse con cuidado. Su objetivo es identificar zonas


donde se producen aglomeraciones de datos, sin embargo, podría ser que por
el solo hecho de haber una observación extra en un punto aislado, éste
pudiese aparecer como una moda. 

Este inconveniente es especialmente delicado cuando hay pocas


observaciones en la muestra, tal como es el caso que se observa en el gráfico
siguiente.

Como puede apreciarse, cuatro alumnas tienen una estatura de 165 cm.. Si no
se pone atención al resto de las observaciones, se podría reportar este valor
como la moda principal, lo que tiende a confundir ya que alrededor 159 cm. hay
una gran concentración de datos. La mayor utilidad de la moda, se presenta al
usarla con muestras relativamente grandes, donde la influencia de un dato
individual no distorsiona el análisis.

PROMEDIO PONDERADO
En muchas ocasiones, las observaciones recolectadas no tienen la misma
importancia relativa. Para hacer presente este hecho en la búsqueda de un
'centro' que represente a los datos, es necesario asignar a cada uno de éstos,
una ponderación (peso o coeficiente) que represente su importancia dentro de
la muestra.

A modo de ejemplo, considérese un sistema de calificación de un curso en que


las pruebas tienen distinto 'coeficiente', según su importancia en el proceso de
evaluación del trabajo del alumno. En este caso, no resulta apropiado el
promedio simple. Cada nota parcial debe ser multiplicada por su coeficiente,
para luego sumar estos resultados y dividirlos por la suma de los coeficientes
respectivos.

Formalizando lo anterior, se puede dar la siguiente definición.

Definición.
Sean x1 ,x2 ,....,xn , n datos y w 1 ,w2,....,wn, n, números reales tales que w i>=0;
i=1,2,....n; con a lo menos un wi>0. Entonces el promedio ponderado de los
datos, está dado por:

                                    

Si wi=k, k constante positiva, entonces coincide con .


Esto equivale a decir que, si cada observación tiene la misma ponderación,
entonces el promedio y el promedio recortado son iguales.
 
Ejemplo.
Si un alumno obtiene un 5.5 en una prueba de coeficiente 1 y un 4.9 en otra de
coeficiente 2. ¿Cuál es nota promedio de estas dos pruebas?
En este caso, los coeficientes son diferentes, por lo tanto no debe usarse el
promedio simple sino uno ponderado en que las ponderaciones son 1 y 2
respectivamente. En consecuencia, la suma del denominador está dada por
5.5*1 + 4.9*2 = 15.3. El denominador, que consiste en la suma de las
ponderaciones, está dado por 1 + 2 = 3 En consecuencia, el promedio
ponderado es 15.3/3 = 5.1.

PROMEDIO RECORTADO
Considérese una muestra de n datos. Para calcular el promedio recortado, es
necesario comenzar ordenando los datos de menor a mayor. Después de esto,
se eliminan los datos menores y los mayores, dejando sólo los del centro. Con
estos últimos se calcula el promedio habitual.

Esta forma de calcular, tiene la ventaja de estabilizar el cálculo del centro al


eliminar la influencia de posibles valores extremos.

 Aunque aparentemente se pierde información, lo que realmente sucede es que


la misma información se usa de modo distinto. El hecho de ordenar todos los
datos, ya hace uso completo de la muestra, aunque como consecuencia de
esto, algunos datos no sean ocupados en el paso siguiente.

 En estudios de simulación se ha podido observar que el promedio recortado es


muy bueno, porque a pesar de que en los casos de observaciones 'normales' el
promedio corriente funciona bien, en el caso con observaciones extremas es
muy inestable y es fuertemente superado por esta nueva estadística.
Sean , ,..., , observaciones obtenidas en una muestra, definiremos
promedio recortado al  %, al valor obtenido mediante el siguiente
procedimiento:

1º. Ordenar las observaciones en forma ascendente.

2º. Eliminar las observaciones menores y las mayores en un número


equivalente al  % del tamaño de la muestra para cada caso.

3º. Calcular el promedio del (100-2 )% de las observaciones restantes.

El procedimiento anterior, parece ser más complicado de lo que realmente es.


En el ejemplo siguiente, se verá como se procede en el cálculo de promedios
recortados en distintos porcentajes. Una vez que se conocen los valores
descartados, sólo resta calcular el promedio habitual a los restantes.

Ejemplo.

En la tabla siguiente, aparecen veinte datos ordenados de menor a mayor. La


primera columna indica el orden de 1 a 20. La segunda columna contiene los
datos. La tercera columna muestra la posición donde comienzan y terminan los
datos contenidos en el cálculo del promedio, cuando se usa el porcentaje de
recorte indicado

Para el cálculo del promedio, como siempre, se incluye a todos los datos. Para
el promedio recortado al 5%, se eliminan el 23 y el 89.El cálculo se hace con
los valores 25 al 78 inclusive. A medida que aumenta el porcentaje de recorte,
aumenta el número de datos eliminados del cálculo.

Nota.

A primera vista, no parece haber mayores ventajas en el uso del promedio


recortado. Sin embargo, el resultado obtenido es más estable que el promedio
sin recortar. Este último hecho representa una clara ventaja en la práctica,
porque no es extraño encontrar poblaciones cuya distribución permita la
aparición de valores extremos.

Estudios de simulación hechos a principios de años setenta, permitieron


comparar el promedio con varios promedios recortados. Al usar datos
provenientes de poblaciones que permitían la aparición frecuente de valores
extremos, el promedio se comportó siempre peor que los recortados. También
se pudo apreciar que los promedios con recortes entre 10% y 15%, estuvieron
entre las mejores estadísticas de centro usadas en el estudio.

MEDIDAS DE DISPERSION.
RANGO
El Rango es una medida de dispersión muy simple, 

es la diferencia entre el mayor y el menor valor de los datos representados en


la muestra.

Al usar los extremos de una muestra, se corre el riesgo de obtener resultados


muy cambiantes debido a la posible presencia de algunos valores mucho
mayores o mucho menores que la gran parte de los datos. 

Esta dificultad muestra un aspecto negativo del rango, sin embargo, su gran
simplicidad de cálculo, hace que en muchas situaciones sea práctico su uso.

RANGO = Máx. datos - Mín. datos

Esta diferencia es fácil de calcular por personal no especializado.

DESVIACION MEDIANA.
El criterio que guía esta estadística, radica en el uso de diferencias de cada
dato respecto a la mediana muestral m. 

Si estas diferencias son muy grandes, entonces estamos ante un caso de gran
variabilidad, y si son pequeñas se espera que la variabilidad sea pequeña.

Naturalmente que el criterio que parece más apropiado es agrupar las


discrepancias individuales y tratarlas en conjunto. 
Un agrupamiento natural sería una suma de ellas, pero el sólo uso de las
diferencias  no garantiza que se pueda medir discrepancias porque algunas
(prácticamente la mitad) serán menores que la mediana, con diferencias
negativas, y el resto mayores que la mediana, con diferencias positivas, y al
sumar dichos valores habría compensaciones entre valores negativos y
positivos.

Por lo tanto, una salida a esta dificultad es considerar el valor absoluto de la


diferencias calculadas y promediarlos.

Esto conduce a la definición siguiente: 

Dado un conjunto de datos, x1, ..., xn su desviación mediana d.m., está


definida por :

donde m representa la mediana de los datos.

Puede verse entonces que, cuanto mayor sea la dispersión existente entre los
datos, tanto mayor tenderá a ser el promedio del valor absoluto de las
diferencias de los datos, respecto de la mediana muestral.

Esta estadística se encuentra medida en la misma escala que los datos


originales, lo que facilita su comprensión.

VARIANZA
Dado un conjunto de datos, una forma de medir su variabilidad consiste en
calcular las diferencias de cada dato respecto del centro de los datos
representado por su promedio. Como las diferencias tienen signos negativos o
positivos, según el dato sea menor o mayor que el promedio, la simple suma de
las diferencias no sirve por los valores se compensan. 

Tanto es así, que la suma de estas diferencias es siempre cero.

Comentario pedagógico.

Esta propiedad de la suma de diferencias respecto al promedio puede ser


demostrada sin grandes dificultades. 

Para calcular la estadística denominada 'varianza muestral' se elevan al


cuadrado las diferencias mencionadas y se les calcula el promedio. De esta
forma, se reúnen aditivamente todos los efectos relativos a cada observación.
De manera más formal podemos decir que si  x1,x2, .....xn, son n observaciones,
su varianza muestral está dada por

Nota.

Existe una estadística similar a la aquí definida, cuyo denominador es (n-1). El


uso de esta alternativa no será discutido en estas notas. Sólo se dirá que en el
caso de muestras de gran tamaño ambas producen valores muy parecidos.

Se menciona su existencia porque es común encontrarla incluso en las


calculadoras científicas más básicas.

Al usar la varianza muestral, debe notarse que los resultados obtenidos no


están en la misma unidad de medida que los datos originales.

DESVIACION ESTANDAR MUESTRAL


La varianza muestral está medida en el cuadrado de las unidades observadas
al hacer las mediciones contenidas en la muestra. Para devolverse a una
estadística que use las mismas unidades que las observaciones, es necesario
calcular su raíz cuadrada.

Lo anterior conduce a la definición de la estadística denominada 'desviación


estándar muestral', que no es otra cosa que la raíz cuadrada de la varianza.

Para una muestra de tamaño n, x1, ..., xn, se tiene que:

El uso de esta estadística es recomendado en aquellos conjuntos de datos que


ofrecen cierto grado de simetría respecto de su centro. En estos casos,
habitualmente tiene sentido medir discrepancias de un valor con el centro de
los datos usando múltiplos de la desviación estándar.

A modo de ejemplo, se puede decir que un valor está bastante alejado del
centro de los datos si su distancia de él supera dos desviaciones estándar.

Apoyándose en la idea anterior, la desviación estándar puede ser usada para


determinar valores que se encuentran 'cerca' del centro. Este uso va más allá
de la simple descripción, en otros ámbitos de Estadística es usada para tomar
decisiones respecto de la población de la que fue extraída la muestra.

MEDIDAS DE FORMA
ASIMETRIA
Además de la posición y la dispersión de un conjunto de datos, es común usar
medidas de forma en la descripción. Una de estas medidas es una estadística
que busca expresar la simetría ( o falta de ella ) que manifiestan los datos.

Esta estadística se llama coeficente de asimetría y está definido por la


expresión:

Se puede ver que la diferencia de una observación respecto del promedio de


los datos, se encuentra elevada al cubo. Esto tiene como resultado que,
observaciones alejadas del promedio, aporten un gran valor a la suma; ya sea
positivo o negativo. En consecuencia, si los grandes valores de la diferencia
están producidos por datos mayores que el promedio, el coeficiente tenderá a
ser positivo. Si, por el contrario, predominan observaciones muy menores que
el promedio, el coeficiente será negativo. Si, finalmente, las observaciones
presentan un alto grado de simetría respecto al promedio, el coeficiente
asumirá valores cercanos a cero.

Si el valor de este coeficiente es mayor que cero entonces se dice que la


distribuciónde los datos se encuentra sesgada a la derecha, si es menor que
cero entonces se dice que está sesgada a la izquierda.

La Figura A, muestra una curvada sesgada a la derecha, con un valor de


asimetría mayor que cero mientras que en la Figura B, el valor de la asimetría
es menor ue cero para una curva sesgada a la izquierda

Fig. A . Curva Sesgada a la derecha  


Fig. B . Curva Sesgada a la izquierda

CURTOSIS
El coeficiente de  curtosis mide cuan 'puntiaguda' es una distribución
respecto de un estándar. Este estándar es una forma acampanada
denominada 'normal', y corresponde a una curva de gran importancia en
estadística.

El coeficiente de curtosis está definido por:

 De acuerdo a su valor, la 'puntudez' de los datos puede clasificarse en tres


grupos:  

Leptocúrticos, con valores grandes para el coeficiente.

Mesocúrticos, con valores medianos para el coeficiente.

Platicúrticos, con valores pequeños para el coeficiente. 

Las siguientes figuras muestran gráficamente los tres tipos de curvas de


acuerdo a la definición anterior:

Leptocúrtica 
 
 Platicúrtica
 

Mesocúrtica
Una curva Mesocúrtica tiene un Coeficiente de Curtosis  cercano  a cero. Una
Leptocúrtica, un valor notoriamente mayor que cero y una Platicúrtica valores
menores que cero.

MEDIDAS DE POSICIÓN
PERCENTIL q (pq)
Una medida de posición muy útil para describir una población, es la
denominada 'percentil'. En forma intuitiva podemos decir que es un valor tal
que supera un determinado porcentaje de los miembros de la población.

Por ejemplo, considere un curso de cuarenta alumnos que se forma en línea


por orden de estatura, primero los grandes y al final los chicos. Suponga,
además, que se considera ‘chico’ a un alumno de la cuarta parte final de esta
línea.

Éste es un concepto relativo a este curso, con toda seguridad variará al


referirse a otro. Es fácil aceptar que los ‘chicos’ de octavo básico tienen menor
estatura que los ‘chicos’ de cuarto medio.

Como la cuarta parte corresponde al 25% de la población, en el ejemplo que se


menciona, los chicos de un curso, son aquellos cuya estatura no supera el
‘percentil veinticinco’ de la población formada por los alumnos del curso.

Si una variable pudiese asumir muchos valores, la representación de la


proporción del total, menor o igual que un valor, tendría una forma creciente
parecida a la siguiente:
       

Si en este conjunto de valores se quiere encontrar el percentil 20, la solución


gráfica es muy simple

Como puede verse, el valor de la variable bajo el cual se encuentra un 20% de


los valores, es algo mayor que 2.

En forma aproximada se podría conocer los percentiles usando este tipo de


gráfico.

La descripción intuitiva de ‘percentil’ en una población continua, como la


anterior, no es difícil de entender. Sin embargo, la definición en una muestra de
tamaño finito puede resultar más difícil porque, en este caso, los valores que
representan las proporciones acumuladas tienen una representación gráfica en
forma de escalera.

Ejemplo.

Considere los siguientes datos de una muestra de tamaño 10.

4   8   11  12   13   16   18   19   21   22


En una muestra de tamaño n, cada dato representa 1 enésimo del total. En
este caso, en que hay diez datos, esta proporción es un décimo. En el gráfico,
puede observarse que la gráfica muestra un salto de un décimo (10%) en cada
dato muestral. El primer salto se observa en el número 4,el menor de los datos.
Antes del valor 4, la curva asume el valor cero y a partir de él, un décimo. El
segundo salto se produce en 8, a partir del cual la gráfica comienza a valer dos
décimos. Así se producen los saltos hasta alcanzar el valor uno (100%) a partir
del último dato muestral 22.

Si en este ejemplo se decide calcular el percentil 25, se observa que la recta


horizontal trazada a la altura del 25%, cruza la gráfica de escalera justo al
llegar al tercer dato ordenado (11), por lo tanto, éste es el valor buscado.
(Nótese que percentiles cercanos, mayores que 20 y menores que 30, tienen el
mismo valor 11).

Sin embargo, si se desea calcular un percentil que coincida con una proporción
asociada a un dato de la muestra, se produce una indefinición. Tómese el caso
del percentil 20. En este caso la línea horizontal que busca cortar la gráfica de
escalera, coincide justamente con un tramo horizontal de ésta; el que corre a la
altura del 20% entre los datos muestrales 8 y 11. Cualquier valor entre 8 y 11
podría ser considerado como el percentil 20.
Más adelante se usará una convención para encontrar salidas a esta
indefinición.

La presentación gráfica hecha anteriormente corresponde a la siguiente


definición de percentil:

 Definición.

Sea q un número real tal que 0<=q<=100. El percentil q ( p q ). es un valor


del recorrido de las observaciones tal que:

1º. A lo menos q% de las observaciones son menores o iguales que p q.

2º. A lo menos (100-q)% de las observaciones son mayores o iguales que


pq.

Para calcular un percentil, no es práctico usar esta definición. 

Resulta más conveniente usar la siguiente regla que se deduce de la misma.

 Para obtener el percentil q (0<q<100), se ordenan los datos de menor a


mayor y se calcula el número

Si no es entero, el percentil está dado por:


Esto es, el dato cuyo orden es el entero inmediatamente superior a
.

 Si es entero, el percentil cumple la siguiente condición:

Es decir, pq se encuentra entre dos datos de orden consecutivo. El menor

es el de orden dado por y el mayor es el dato siguiente en la


muestra ordenada.

En el caso del ejemplo anterior, el percentil 25 se obtuvo calculando en primer


lugar el 25% de 10, dado que éste es el tamaño n de la muestra. Entonces,

está dado por . Por lo tanto, el entero inmediatamente


superior es 3. En consecuencia, el percentil 25 es el tercer dato en el orden
creciente; es decir 11. Tal como ya se determinó gráficamente.

Al calcular el percentil 20, tenemos que , valor entero. Por lo tanto,


el percentil 20 es cualquier número entre el segundo y tercer dato ordenado. Es
decir, cualquier número entre 8 y 11.

NOTA.

El cálculo de un percentil de una muestra presenta algunas dificultades por


tratarse de un conjunto de datos en que se producen incrementos de la
proporción acumulada en forma de saltos, y no suavemente como en el caso
de una variable continua. Estos saltos representados por un gráfico de escalera
son los que producen situaciones indefinidas en los casos que se indicó
anteriormente.

Sin embargo, el uso inicial del gráfico de escalera y alguna ejercitación con la
fórmula de cálculo, ayudan a entender un procedimiento que en un comienzo
aparece mucho más difícil.

CÓMO DECIDIR EN EL CASO DE MÚLTIPLES SOLUCIONES PARA UN


PERCENTIL.
Como se viO anteriormente, existen situaciones en el cálculo de un percentil
muestral en las que todo un intervalo de números reales cumple con las
condiciones de ser el percentil buscado. Esta respuesta no es útil porque
habitualmente se necesita un único valor como resultado.

Para obtener este único resultado hay diversas soluciones. Aquí se usará
aquella que calcula un punto de intervalo entregado por el cálculo anterior
usando el mismo porcentaje que define al percentil.

El procedimiento es el siguiente:

1. Se calcula la longitud del intervalo

mediante la diferencia de sus extremos.

2. La longitud calculada anteriormente se multiplica por el porcentaje que define


el percentil.

3. El valor obtenido en 2. se suma al límite inferior del intervalo calculado. Este


resultado es el percentil buscado.

 Ejemplo.

Como se vio en los cálculos precedentes, el percentil 20 del conjunto de datos


usado se encuentra entre 8 y 11. Aplicando el procedimiento recién descrito,
calculamos la longitud del intervalo.

Ésta resulta ser 11 - 8 = 3.

A continuación calculamos el 20% de 3 y obtenemos 0.6.


En consecuencia, el percentil 20 para este caso es 8 + 0.6 = 8.6.
 
Comentario.
 
No hay sólo un criterio para calcular percentiles muestrales. De hecho,
importantes programas de computación estadística entregan resultados
diferentes debido a que usan criterios similares, pero no iguales. No debe
causar sorpresa, entonces, encontrar estas diferencias originadas por la
falta de un procedimiento universalmente aceptado.
 
Algunos ejemplos de percentiles.
Mediana.
La mediana  es el percentil 50.
Cuartiles.
El primer cuartil , es el percentil 25.
El tercer cuartil , es el percentil 75.
Deciles.
El k-ésimo decil, k entero entre 0 y 10, es el percentil 10*k.
Ejemplo.
En la tabla siguiente se presentan treinta datos simulados y ordenados, que
permitirán practicar el cálculo de percentiles muestrales.

8 135 592 678 806 945

58 190 651 717 880 960

65 217 674 730 888 970

119 260 675 738 903 980

129 491 677 741 944 983


 

También podría gustarte