Clase 8 Estadistica

ESTADÍSTICA DESCRIPTIVA
Parte 1
Rigalli A
¿Qué es la estadística?
La estadística es una ciencia con base matemática que se encarga de la recolección, análisis e
interpretación de datos.
La palabra “estadística” procede del vocablo “Estado”, pues era función principal de los
Gobiernos de los Estados establecer registros de población, nacimiento, defunciones,
impuestos, cosechas. Su aporte primordial era la cuantificación y hasta la actualidad la
Estadística constituye una herramienta del Estado para contar al pueblo.
Los datos se obtienen a partir de unidades experimentales, es decir el objeto de estudio, las
mismas pueden ser por ejemplo en el laboratorio un grupo de ratas, seres humanos, tubos con
alguna reacción química, muestras de leche, entre otras. Todas las unidades experimentales que
comparten una o más características en común reciben el nombre de población. Mientras que el
conjunto de unidades experimentales que seleccionamos para realizar nuestro experimento se
conoce como muestra, y en base a esa muestra sacaremos las conclusiones respecto de la
población que estamos estudiando.
Por otro lado, es de esperar que en la población las características asuman valores distintos
(variabilidad) y desconocidos (incertidumbre), por lo que se las denomina variables. Las
variables pueden manifestarse mediante atributos o cualidades, o mediante valores numéricos,
por lo cual se las denomina variables cualitativas y variables cuantitativas, respectivamente.
Una vez recolectados los datos que expresan comportamientos de variables en una población
determinada se puede comenzar con su análisis. Para obtener una visión de ese conjunto y con
el fin de describir apropiadamente las diversas características del mismo son útiles las
herramientas de la estadística descriptiva, que permite organizar los datos en gráficos o en
medidas que los resuman. Las variables cualitativas se establecen utilizando proporciones,
razones y tasas, mientras que para las variables cuantitativas se emplean medidas de resumen,
ya sean de posición o de dispersión. Una vez que esos datos han pasado por la estadística
descriptiva, fueron analizados e interpretados, dejan de ser meramente datos, para
transformarse en información. Si dicho trabajo se repite durante un período de tiempo
constituye un registro.
Dentro de las medidas de posición central, o también denominadas de tendencia central
encontramos: media o promedio, mediana, moda o modo, y pudiendo no ser centrales siempre
encontramos a los cuartilos y los percentilos, que nos dan un valor que se puede tomar como
representativo de todos los datos. Mientras que las medidas de dispersión por su parte,
cuantifican la separación, la dispersión y la variabilidad de los valores de la distribución
respecto al valor central, las mismas son: rango, desvío estándar y varianza. Los percentilos y
cuartilos son también indicadoras de dispersión de los datos.
Medidas de resumen, posición y tendencia central
Media
La media, también conocida como media aritmética es el promedio de las observaciones, es
decir, el cociente entre la suma de todos los datos y el número de ellos. Es la más utilizada,
principalmente en distribuciones normales – simétricas. Carece de significado para variables
nominales u ordinales. Su principal desventaja es que resulta sensible a cada una de las
observaciones. La fórmula para su cálculo se indica en la siguiente ecuación
x=
∑ xi
n
Ejemplo
Iremos ejemplificando cada medida de resumen. Supongamos que hemos medido en nueve
individuos el peso corporal, que mostramos en la tabla siguiente
Individuo peso corporal en kg
1 50
2 75
3 85
4 120
5 58
6 60
7 75
8 60
9 71
Para calcular la media sumamos todos los valores de los pesos y lo dividimos
por 9
50+75+85+120+58+60+75+60+71
x= =72.7 kg
9
Podríamos decir que en promedio la muestra tiene un peso de 72.7 kg, lo que
indica que hay individuos que pesan más y otros menos que ese valor. Bajo
ciertas condiciones, este valor sería central a los valoes individuales.
Mediana
La mediana es el valor de la variable que ocupa la posición central una vez que los datos han
sido ordenados de menor a mayor. De tal forma que el 50% de estos son menores que la
mediana y el 50% restante son mayores. Si el número de datos es impar la mediana será el
valor central. En cambio si el número de datos es par tomaremos como mediana el promedio de
los dos valores centrales. Esta medida divide al grupo de datos en 2 partes iguales y no es
sensible al valor de cada medición, sino que se la llama “robusta”, al no influenciarse por datos
atípicos, alejados de los valores habituales medidos en una muestra de la población en estudio.
Ejemplo
Utilicemos los mismos datos que ordenamos de menor a mayor peso
1 50
5 58
8 60
6 60
9 71
7 75
2 75
3 85
4 120
El individuo número 9 con un peso de 71kg es el valor de la mediana de esta muestra. Cuatro
individuos tienen menor y otros cuatro individuos tienen mayor peso que el valor de la
mediana. También podemos interpretar el valor de la mediana con un valor, en este caso del
peso corporal, por debajo del cual existen la mitad de los individuos y la otra mitad tiene peso
mayor a dicho valor.
Moda o Modo
La moda es el valor de la variable que más veces se repite, puede no ser único, por lo que en
este caso estaríamos frente a una población bimodal o multimodal. Es donde se concentra la
mayor frecuencia de un conjunto de valores y es útil para variables cualitativas. Es más fácil de
observar si los datos se ordenan ya sea en forma creciente o decreciente.
Ejemplo
En la muestra que estamos analizando tenemos un caso bimodal, vemos que el valor de peso 60
y 75 aparecen dos veces
1 50
5 58
8 60
6 60
9 71
7 75
2 75
3 85
4 120
Cuartilos
Los cuartilos son los tres valores de la variable que dividen a un conjunto de datos ordenados
crecientemente en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes
al 25%, al 50% y al 75% de los datos, respectivamente. Q2 coincide con la mediana. El cuartilo
Q1 o 25% es el valor de la variable que deja el 25% de los valores por debajo de él y el 75%
por encima.
Ejemplo
Hemos medido el peso corporal en 350 alumnos de una escuela y luego calculamos los
cuartilos, siendo los valores Q1: 48kg, Q2: 60kg y Q3: 71kg. ¿Qué indican estos valores?
El valor de Q1: 48kg, nos indica que el 25% de los alumnos pesan menos de 48kg o bien el
75% pesa más de 48kg. De la misma manera interpretamos Q3: 71kg. El 75% de los alumnos
pesan menos de 71kg.
Percentilos
Los percentilos son valores de la variable medida en una muestra que separan las unidades
experimentales según su valor. Por ejemplo el percentilo 50 es un valor de la variable tal que en
la muestra en estudio el 50% de las unidades experimentales tiene mayor valor de la variable y
el otro 50% tiene el valor menor que el del percentilo. Se localizan con la siguiente fórmula:
L*(N/100)
L = frecuencia absoluta acumulada.
N = número del percentil que debemos hallar.
De esta manera veremos que el primer cuartil coincide con el percentil 25, el segundo cuartil
con el percentil 50 y el tercer cuartil con el percentil 75.
Medidas de dispersión
Rango
El rango de una muestra de datos es un par de datos que tiene como primer valor el menor
valor de la muestra y como segundo valor el mayor valor de la muestra. Calculando la
diferencia entre la menor y la mayor de las observaciones de 2 poblaciones puedo determinar
cual posee mayor o menor dispersión de sus datos.
Ejemplo
Retomamos el análisis de la tabla con los pesos de los nueve individuos que utilizamos
ordenados de menor a mayor
1 50
5 58
8 60
6 60
9 71
7 75
2 75
3 85
4 120
El rango en este caso se expresa [50,120], siendo 50 el menor valor y 120 el mayor.
Por otro lado podemos calcular el rango intercuartílico o rango intercuartil que se define como
la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), es decir:
RQ=Q3−Q1
Ejemplo
Para el caso de los 350 alumnos de una escuela cuyos cuartilos son Q1: 48kg, Q2: 60kg y Q3:
71kg. El RQ es
RQ=71−48=23
Cuanto más grande es el RQ, más dispersos se hallan los valores medidos de la variable.
Variancia
La variancia de una muestra indica cuanto se alejan los valores medidos respecto de la media y
se calcula de la siguiente manera: a cada uno de los valores se le resta la media, luego el
resultado se eleva al cuadrado, se suman los resultados y se divide por la cantidad de datos
menos 1.
σ2 =
∑ (x i−x)2
n−1
Ejemplo
Retomamos los datos utilizados cuya media habíamos calculado en el valor 72.7
1 50
2 75
3 85
4 120
5 58
6 60
7 75
8 60
9 71
2 (50−72.7)2 +(75−72.7)2 +(85−72.7)2 +(120−72.7)2 +(58−72.7)2+(60−72.7)2+(75−72.7)2+(60−72.7)2+(71−72.7)2

σ= =432
8
la variacia toma el valor 432. Si otra muestra tuviera una variancia mayor nos
indicaría que estaríamos frente a un grupo de datos que tiene pesos más
diferentes que la muestra en cuestión.
Desvío estándar
El desvío estándar se calcula obteniendo la raíz cuadrada positiva de la variancia. El mismo se
calcula utilizando una fórmula que se halla incluida en cualquier planilla de cálculo. El desvío
estándar informa sobre la dispersión de los datos respecto al valor de la media, cuanto mayor
sea su valor, mas dispersos estarán los datos. Es desvío estándar tiene la ventaja sobre la
varianza que tiene las mismas unidades que la variable y nos indica en promedio cuanto se
alejan los valores de la media.
Ejemplo:
para el caso anterior que la varianza tuvo el valor 432kg 2, el desvío estándar sería la raíz
cuadrada de este número, es decir 20.78kg.
Funciones para el cálculo de estadísticas descriptivas
Para calcular las estadísticas antes mencionadas es común utilizar funciones que vienen
incluidas en las planillas de cálculos. Para el caso de la planilla Calc de libreOffice las
funciones son las siguientes:
media = AVERAGE(...)
desvío estándar = STDEV(...)
mediana = MEDIAN(...)
percentilo 25 o 1er cuartilo = QUARTILE(...,1)
rango = [MAX(), MIN()]
Los puntos entre paréntesis hacen referencia a las celdas de la planilla de cálculo.
Para el cálculo con R se utilizan las siguientes funciones:
mean(...), para calcular la media de una muestra.
sd(....), para calcular el desvío estándar de una muestra.
median(....), para calcular la mediana.
quantile(........, probs=......), para calcular un percentilo en particular.
range(......), para calcular el rango de los datos, es decir el mayor y el menor valor de una
variable en una muestra.
Los puntos entre paréntesis de cada función indican el nombre de la tabla y la columna que
deseamos calcular. Por ejemplo: tabla1$medicion.

Clase 8 Estadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 8 Estadistica

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA DESCRIPTIVA

2 (50−72.7)2 +(75−72.7)2 +(85−72.7)2 +(120−72.7)2 +(58−72.7)2+(60−72.7)2+(75−72.7)2+(60−72.7)2+(71−72.7)2

También podría gustarte