Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Gráficos
El uso de gráficos es conveniente cuando se requiere una comparación más clara
entre los diferentes datos recopilados. Existen distintos tipos de gráficos:
Gráfico de barras y de bastones: Se utilizan para representar variables
cualitativas o cuantitativas discretas.
Se pueden utilizar barras horizontales siempre que la variable sea
cualitativa o geográfica.
La elección del gráfico a utilizar depende del tipo de información que se tenga. Si lo
que interesa es poder comparar las distintas respuestas entre sí, lo mas conveniente
es usar gráficos de barra o pictogramas. Si lo que queremos mostrar es la distribución
de respuestas en relación al total de encuestas realizadas, el gráfico circular es el
adecuado, siempre y cuando no haya muchas categorías.
¿Cómo se tabula?
Los datos obtenidos se pueden analizar sin agrupar o agrupados.
Podemos agrupar los datos por variable en serie simple (generalmente cuando las
variables son discretas o enteras) o en intervalos de clase(cuando las variables son
continuas o toman valores reales). Si en cambio nos interesa trabajar conjuntamente
con dos variables, lo ideal es una tabla de contingencia o de doble entrada
En todas las tablas pueden detallarse la siguiente información:
f: Frecuencia Absoluta, número de repeticiones de la variable
fr: Frecuencia Relativa= f/n
F: Frecuencia Absoluta Acumulada, acumula frecuencias por renglón
Fr: Frecuencia Relativa Acumulada, acumula frecuencias relativas por renglón
%: Porcentaje =fr*100=
Interpretación fila 3
136 veces o el 35% de la veces, se embalaron 30 artículos.
199 veces o 51% de las veces se embalaron 30 o menos artículos
Interpretación fila 2
70 personas o el 28% de las personas tiene entre 14 y 16 años.
103 personas o el 41% de las personas tienen menos de 16 años
Medidas resumen.
En todo análisis se pueden utilizar ciertas medidas descriptivas que sirven para
extraer y resumir las principales características de un conjunto de datos.
1) Medidas de posición central o tendencia central: La mayoría de los conjuntos de
datos manifiestan una tendencia a agruparse en torno a cierto punto. Valores que
sean en cierto sentido “típicos” de ese conjunto de datos. Son utilizadas para
señalar la posición que ocupa un dato determinado, en relación con el resto,
permitiendo así conocer otros puntos propios de la distribución de datos, que se
encuentran alejados a los valores centrales. Estas son : la media, mediana y modo
2- Mediana
La mediana es el valor de la variable que ocupa la posición central, cuando los
datos se encuentran ordenados (de mayor a menor o viceversa). Es decir, el 50%
de las observaciones tiene valores iguales o inferiores a la mediana y el otro 50%
tiene valores iguales o superiores a la mediana.
Se simboliza: Me
Ejemplos
Hallar la mediana de los siguientes datos:
1) 3 – 5 – 12 – 16 – 9
Primero debemos ordenar los datos: 3 – 5 – 9 – 12 – 16
Me= 9
2) Veamos ahora si la cantidad de observaciones es par:
-2 – 3 – 5 – 8 – 12 – 25 ; entonces la mediana se calcula promediando
los dos valores centrales (5+8)/2=6,5.
3- Moda o Modo
El modo o moda de una distribución se define como el valor de la variable que
aparece con mayor frecuencia, es decir el valor de la variable más se repite. En un
gráfico de barras la moda se corresponde con la barra más alta.
Se simboliza: Mo.
Veamos algunos ejemplos.
La media es una medida que tiene como ventaja que toma en consideración todas
las observaciones, también es una medida conocida. La desventaja que presenta
es que se ve afectada por observaciones extremas, es decir si alguno de los
registros es un valor muy alto (o bajo) la media aumentará (o disminuirá). Por
ejemplo: la media de: 4 – 6 – 5 ; es 3; pero si cambiamos el 5 por 50; la media es
20
La mediana tiene como ventaja no se ve afectada por ninguna observación
extrema; por ejemplo en la serie: 3 – 5 – 8 Me=5; y en serie: 3 – 5 – 800 Me=8.
La desventaja que presenta es que no tiene en consideración todas las
observaciones.
La ventaja que presenta la moda gráficamente se identifica fácilmente y es de fácil
cálculo, mientras que la desventaja es que puede haber más de una, lo cual
dificulta los estudios o bien no existir.
Por lo tanto, si bien la media es por lo general la medida más utilizada, no siempre
es la mejor, en general siempre que haya una observación extrema parece más
apropiado usar la mediana (o moda, si es unimodal) en vez de la media para
describir una serie de datos.
1- Cuartiles
Existen tres cuartiles, ellos se simbolizan:
Q1: corresponde al 1er cuartil, y representa el valor por debajo del cual quedan
un cuarto o sea un 25% de los valores distribución (previamente ordenados).
Q2: corresponde al 2do cuartil, y representa el valor por debajo del cual quedan
la mitad de los valores distribución (previamente ordenados); es decir que Q2=Me
Q3: corresponde al 3er cuartil, y representa el valor por debajo del cual quedan
tres cuartos o sea un 75% de los valores distribución (previamente ordenados).
2- Deciles
D1: corresponde al 1er decil, y representa el valor por debajo del cual quedan
un 10% de los valores distribución (previamente ordenados).
D2: corresponde al 1er decil, y representa el valor por debajo del cual quedan
un 20% de los valores distribución (previamente ordenados).
3- Percentiles
Existen noventa y nueve percentiles simbolizados como P(k); donde k representa
el porcentaje, por ejemplo P(33) representa el valor por debajo del cual quedan
un 33% de los valores distribución (previamente ordenados). Entonces P(50)=Me
Podemos decir que tanto los cuartiles como los deciles son casos particulares de
los percentiles, por ejemplo Q1= P(25); D3=P(30)
Medidas de Dispersión
RANGO:
Es la primera medida que vamos a estudiar, se define como la diferencia existente
entre el valor mayor y el menor de la distribución, Lo notaremos como R. Realmente
no es una medida muy significativa en la mayoría de los casos, pero indudablemente
es muy fácil de calcular y nos da una idea global del conjunto de datos
Es muy utilizada en los pronósticos del tiempo.
Hemos estudiado varias medidas de centralización, por lo que podemos hablar de desviación
con respecto a cualquiera de ellas, sin embargo, la más utilizada es con respecto a la media.
Se llama DESVÍO a la diferencia que se observa entre el valor de la variable y la
media aritmética.
Pero si lo hacemos para cada valor de la variable, No tenemos una sola medida, sino
muchas medidas, un desvio por cada valor de la variable, por lo que precisaremos una
medida que resuma dicha información.
DESVÍO MEDIO:
Es la media de los valores absolutos de las desviaciones
N
x
i 1
i
DESVÍO MEDIO POBLACIONAL
N
x
n
i X
i 1
DESVÍO MEDIO MUESTRAL
n 1
VARIANZA:
x i
VARIANZA POBLACIONAL
2 i 1
x
n 2
i X
VARIANZA MUESTRAL s
2 i 1
n 1
2 1 4 4 4 4 4
2 2
5 4 6 4
2 2
2,8
5
DESVIACIÓN ESTÁNDAR:
Es la raíz cuadrada de la varianza, se denota por S / / DE
Este estadístico se mide en la misma unidad que la variable por lo que se puede
interpretar
DESVÍO ESTANDAR POBLACIONAL 2
DESVÍO ESTÁNDAR MUESTRAL s s2
COEFICIENTE DE VARIACIÓN:
Es un estadístico de dispersión que tiene la ventaja de no llevar asociada ninguna
unidad, por lo que nos permitirá decidir entre dos muestras, cual es la que presenta
mayor dispersión sin necesidad de utilizar la misma unidad de medida. La
denotaremos por C.V.
COEFICIENTE DE VARIACIÓN POBLACIONAL C.V . 100
COEFICIENTE DE VARIACIÓN MUESTRAL
s
C.V . 100
X
Si el CV>20% decimos que el conjunto de datos es heterogéneo en cuyo caso la
media no es representativa
Si el CV<20% el conjunto de datos es homogéneo y en ese caso, cualquier medida de
posición central estudiada es representativa
1,67
…en nuestro ejemplo: C.V . 100 41,75
2,8
Medidas de Forma
SIMETRÍA
Interpretación y conclusiones
Si bien el grupo 1, tiene un puntaje promedio (media=84.64) más elevado en actitud
hacia la Estadística también se puede observar que todos puntuaron parecido a la
media, ya que CV=11.32<20% por lo que se considera que el grupo1 tiene una actitud
pareja, mas pareja que el grupo 2, con un CV=43.33, que es un grupo heterogéneo
Lo típico en el grupo 1, fue una puntuación entre 84.64 ± 9.58 (Desvío estándar=DE)