Está en la página 1de 10

Presentación de datos

¿Cómo recolectamos los datos?

Todo procedimiento de selección depende de listados, ya existentes o construidos ad


hoc (cuestionarios).Los listados pueden ser el directorio telefónico, listas de
asociaciones, listas de escuelas oficiales, etc. Cuando no existen listas de elementos
de la población se recurre a otros marcos de referencia que contengan descripciones
del material, organizaciones o sujetos seleccionados como unidades de análisis, como
por ej. hemerotecas, archivos o mapas.

¿Cómo se resumen los datos?


Usando los métodos numéricos: medidas descriptivas y métodos de inferencia
estadística y /o usando los métodos gráficos: gráficos estadísticos
Con el resumen de datos e interpretando los resultados en lenguaje coloquial se
realiza el informe estadístico

Gráficos
El uso de gráficos es conveniente cuando se requiere una comparación más clara
entre los diferentes datos recopilados. Existen distintos tipos de gráficos:
 Gráfico de barras y de bastones: Se utilizan para representar variables
cualitativas o cuantitativas discretas.
 Se pueden utilizar barras horizontales siempre que la variable sea
cualitativa o geográfica.

 Los bastones recomendables cuando la variable (cualitativa o


cuantitativa) tiene numerosas categorías.

 El histograma: Se utiliza para representar variables cuantitativas continuas


cuyas distribuciones de frecuencias están agrupadas en intervalos de clase.
Puede representarse tanto frecuencias absolutas, relativas o porcentajes.

 El diagrama circular o de sectores: Se utiliza para cualquier tipo de variable,


en general se representan porcentajes. Se suelen utilizar cuando se desea
describir como están distribuidos los datos en la población. Pero es útil siempre
que no existan muchas categorías distintas, en caso contrario las diferencias
no se destacarían en el total. Nos ayuda a visualizar la importancia relativa de
cada categoría respecto del total.

 Pictogramas: Utilizable en todo tipo de variables, especialmente con las


cualitativas; en lugar de dibujar una barra o un rectángulo, se dibuja una figura
que hace referencia al problema objeto de estudio.

La elección del gráfico a utilizar depende del tipo de información que se tenga. Si lo
que interesa es poder comparar las distintas respuestas entre sí, lo mas conveniente
es usar gráficos de barra o pictogramas. Si lo que queremos mostrar es la distribución
de respuestas en relación al total de encuestas realizadas, el gráfico circular es el
adecuado, siempre y cuando no haya muchas categorías.

Curvas de frecuencias: Se utilizan para observar de una manera rápida la tendencia


del grupo de datos.

 El polígono de frecuencias o gráfico de línea sirve para mostrar evolución o


todo lo contrario, hay que poner suma atención en la escala utilizada.

 Las ojivas se usan para leer o aproximar visualmente los percentiles.

¿Cómo se tabula?
Los datos obtenidos se pueden analizar sin agrupar o agrupados.
Podemos agrupar los datos por variable en serie simple (generalmente cuando las
variables son discretas o enteras) o en intervalos de clase(cuando las variables son
continuas o toman valores reales). Si en cambio nos interesa trabajar conjuntamente
con dos variables, lo ideal es una tabla de contingencia o de doble entrada
En todas las tablas pueden detallarse la siguiente información:
f: Frecuencia Absoluta, número de repeticiones de la variable
fr: Frecuencia Relativa= f/n
F: Frecuencia Absoluta Acumulada, acumula frecuencias por renglón
Fr: Frecuencia Relativa Acumulada, acumula frecuencias relativas por renglón
%: Porcentaje =fr*100=

Tabla de datos agrupados en Serie Simple o de Frecuencias


Artículos f fr F Fr %
embalados
10 4 0.01 4 0.01 1
20 59 0.15 63 0.16 15
30 136 0.35=136/387 199=4+63+136 0.51=0.01+0.15+0.35 35=0.35*100
40 132 0.34 331 0.85 34
50 56 0.15 387 1 15
N 387

Interpretación fila 3
136 veces o el 35% de la veces, se embalaron 30 artículos.
199 veces o 51% de las veces se embalaron 30 o menos artículos

Tabla de datos agrupados en intervalos de clase


Edad f fr F Fr %
12-14 33 0.13 33 0.13 13
14-16 70 0.28=70/254 103=33+70 0.41=0.13+0.28 28=0.28*100
16-18 71 0.28 174 0.66 71
18-20 80 0.31 254 1 31
n 254

Interpretación fila 2
70 personas o el 28% de las personas tiene entre 14 y 16 años.
103 personas o el 41% de las personas tienen menos de 16 años

Medidas resumen.

En todo análisis se pueden utilizar ciertas medidas descriptivas que sirven para
extraer y resumir las principales características de un conjunto de datos.
1) Medidas de posición central o tendencia central: La mayoría de los conjuntos de
datos manifiestan una tendencia a agruparse en torno a cierto punto. Valores que
sean en cierto sentido “típicos” de ese conjunto de datos. Son utilizadas para
señalar la posición que ocupa un dato determinado, en relación con el resto,
permitiendo así conocer otros puntos propios de la distribución de datos, que se
encuentran alejados a los valores centrales. Estas son : la media, mediana y modo

2) Medidas de posición relativas: percentiles, cuartiles y deciles


3) Medidas de dispersión o variabilidad: miden la diseminación o el
desperdigamiento de los datos. Dos conjuntos pueden tener las mismas medidas de
tendencia central y diferir notablemente en cuanto a la dispersión.
Son: el desvío estándar, la varianza y el coeficiente de variación

4) Medidas de forma: Otra cuestión a tener en cuenta al describir los datos, es la


forma o patrones que éstos presentan. Buscamos las asimetrías y valores atípicos,
es decir, los valores poco usuales que difieren de la mayoría de los datos.
Son: los coeficientes de asimetría y curtosis

Medidas de posición central o tendencia central

1- Promedio o media aritmética


Es la medida de tendencia central más conocida y utilizada. La media recibe
notación distinta según se trate de una población o de una muestra. Se representa
̅ (x barra o
por la letra griega µ cuando el estudio es referido a la población y por 𝒙
raya) cuando el estudio es referido a la muestra.
El valor de µ es una constante, es decir un parámetro; mientras que 𝒙 ̅ es una
variable aleatoria puesto que diferentes muestras extraídas de la misma población
tienden a tener diferentes medias.
Ya sea la media poblacional o muestral estas se calculan sumando todos los
valores observados y dividiendo por el total.

2- Mediana
La mediana es el valor de la variable que ocupa la posición central, cuando los
datos se encuentran ordenados (de mayor a menor o viceversa). Es decir, el 50%
de las observaciones tiene valores iguales o inferiores a la mediana y el otro 50%
tiene valores iguales o superiores a la mediana.
Se simboliza: Me
Ejemplos
Hallar la mediana de los siguientes datos:

1) 3 – 5 – 12 – 16 – 9
Primero debemos ordenar los datos: 3 – 5 – 9 – 12 – 16
Me= 9
2) Veamos ahora si la cantidad de observaciones es par:
-2 – 3 – 5 – 8 – 12 – 25 ; entonces la mediana se calcula promediando
los dos valores centrales (5+8)/2=6,5.
3- Moda o Modo
El modo o moda de una distribución se define como el valor de la variable que
aparece con mayor frecuencia, es decir el valor de la variable más se repite. En un
gráfico de barras la moda se corresponde con la barra más alta.
Se simboliza: Mo.
Veamos algunos ejemplos.

Hallar el modo de:


1. 2 – 5 – 3 – 2 – 3 – 2 - 2 – 5 Mo=2
Si la distribución tiene un solo modo se denomina Unimodal.
2. 3 – 5 – 2 – 5 -2 – 2 – 3 – 5 Mo= 2 y 5
Si la distribución tiene dos modos se denomina Bimodal.
3. 3 – 5 – 2 – 5 -2 – 2 – 3 – 5 – 3 En este caso la distribución no tiene modo,
pues no hay un valor que se repita más veces, es decir es Amodal.
Entonces una muestra puede tener más de una moda o bien no tener.

Ventajas y desventajas de las medidas de posición.

La media es una medida que tiene como ventaja que toma en consideración todas
las observaciones, también es una medida conocida. La desventaja que presenta
es que se ve afectada por observaciones extremas, es decir si alguno de los
registros es un valor muy alto (o bajo) la media aumentará (o disminuirá). Por
ejemplo: la media de: 4 – 6 – 5 ; es 3; pero si cambiamos el 5 por 50; la media es
20
La mediana tiene como ventaja no se ve afectada por ninguna observación
extrema; por ejemplo en la serie: 3 – 5 – 8 Me=5; y en serie: 3 – 5 – 800 Me=8.
La desventaja que presenta es que no tiene en consideración todas las
observaciones.
La ventaja que presenta la moda gráficamente se identifica fácilmente y es de fácil
cálculo, mientras que la desventaja es que puede haber más de una, lo cual
dificulta los estudios o bien no existir.
Por lo tanto, si bien la media es por lo general la medida más utilizada, no siempre
es la mejor, en general siempre que haya una observación extrema parece más
apropiado usar la mediana (o moda, si es unimodal) en vez de la media para
describir una serie de datos.

Medidas de posición relativas


Así como la mediana divide la distribución en dos partes iguales, existen otras
medidas que la dividen en: cuatro partes iguales ellos son los cuartiles, en diez
partes iguales son los deciles y aquellos que la dividen en cien partes iguales se
denominan percentiles.

1- Cuartiles
Existen tres cuartiles, ellos se simbolizan:
Q1: corresponde al 1er cuartil, y representa el valor por debajo del cual quedan
un cuarto o sea un 25% de los valores distribución (previamente ordenados).
Q2: corresponde al 2do cuartil, y representa el valor por debajo del cual quedan
la mitad de los valores distribución (previamente ordenados); es decir que Q2=Me
Q3: corresponde al 3er cuartil, y representa el valor por debajo del cual quedan
tres cuartos o sea un 75% de los valores distribución (previamente ordenados).

2- Deciles

Existen nueve deciles simbolizados como D1, D2,…,D9,

D1: corresponde al 1er decil, y representa el valor por debajo del cual quedan
un 10% de los valores distribución (previamente ordenados).

D2: corresponde al 1er decil, y representa el valor por debajo del cual quedan
un 20% de los valores distribución (previamente ordenados).

Entonces podemos decir que el D5=Me.

3- Percentiles
Existen noventa y nueve percentiles simbolizados como P(k); donde k representa
el porcentaje, por ejemplo P(33) representa el valor por debajo del cual quedan
un 33% de los valores distribución (previamente ordenados). Entonces P(50)=Me

Podemos decir que tanto los cuartiles como los deciles son casos particulares de
los percentiles, por ejemplo Q1= P(25); D3=P(30)

... Analicemos la siguiente situación

Se registró durante 100 días, en una universidad, el número de llamados de


interesados para que le envíen información referida a planes de estudios y se
obtuvieron los siguientes resultados:
Media=95 Mediana=97 Modo=98 P(20)=85 P(75)=107

¿Cómo interpretamos estos resultados?


Media=95 el promedio de llamados de interesados por día fue de 95
Mediana=97 la mitad de los días llamaron 97 o más interesados
Modo= 98 el número de llamados que mas se repitió fue 98
P(20)=85 el 20% de los días se recibieron 85 llamados o menos
P(75)=107 el 75% de los días llamaron 107 personas interesadas o menos

Medidas de Dispersión

 RANGO:
Es la primera medida que vamos a estudiar, se define como la diferencia existente
entre el valor mayor y el menor de la distribución, Lo notaremos como R. Realmente
no es una medida muy significativa en la mayoría de los casos, pero indudablemente
es muy fácil de calcular y nos da una idea global del conjunto de datos
Es muy utilizada en los pronósticos del tiempo.

Hemos estudiado varias medidas de centralización, por lo que podemos hablar de desviación
con respecto a cualquiera de ellas, sin embargo, la más utilizada es con respecto a la media.
Se llama DESVÍO a la diferencia que se observa entre el valor de la variable y la
media aritmética.
Pero si lo hacemos para cada valor de la variable, No tenemos una sola medida, sino
muchas medidas, un desvio por cada valor de la variable, por lo que precisaremos una
medida que resuma dicha información.

La primera solución puede ser calcular el promedio de todas las desviaciones, es


decir, si consideramos como muestra la de todas las desviaciones y calculamos su
media. Pero esta solución es mala pues el resultado es siempre 0.
Luego por lo tanto esta primera idea no es válida, pues las desviaciones positivas se
contrarrestan con las negativas.
Para resolver este problema, tenemos dos caminos:

 Tomar el valor absoluto de las desviaciones. DESVÍO MEDIO


 Elevar al cuadrado las desviaciones. VARIANZA

 DESVÍO MEDIO:
Es la media de los valores absolutos de las desviaciones
N

 x
i 1
i  
DESVÍO MEDIO POBLACIONAL
N

 x 
n

i X
i 1
DESVÍO MEDIO MUESTRAL
n 1

 VARIANZA:

Es la media de los cuadrados de las desviaciones, y la denotaremos por 𝜎 2 / 𝑠 2

Para realizar el cálculo aplicamos esta fórmula


N 2

 x i  
VARIANZA POBLACIONAL  
2 i 1

 x 
n 2

i X
VARIANZA MUESTRAL s 
2 i 1

n 1

Miremos el siguiente ejemplo


Los datos son 1-4-4-5-6 por lo tanto la media es 4= (1+4+4+5+6)/5 entonces la
varianza poblacional es

 
2 1  4  4  4  4  4
2 2
 5  4  6  4
2 2
 2,8
5

Este estadístico tiene el inconveniente de que la unidad de medida queda elevada al


cuadrado y esto hace que no tenga sentido interpretarla. Por ejemplo, si la variable
viene dada en centavos. La varianza vendrá en centavos2.No nos sirve para hacer un
informe.

 DESVIACIÓN ESTÁNDAR:
Es la raíz cuadrada de la varianza, se denota por S /  / DE

Este estadístico se mide en la misma unidad que la variable por lo que se puede
interpretar
DESVÍO ESTANDAR POBLACIONAL   2
DESVÍO ESTÁNDAR MUESTRAL s  s2

..En nuestro ejemplo:   2,8  1,67


 Si la distribución de los datos es aproximadamente simétrica, alrededor del
68% de los datos se encuentran comprendidos en el intervalo
   ,    
Todas estas medidas de dispersión respetan la unidad de medida de la variable. Si
queremos comparar dos variables que se miden distinto, con lo que aprendimos hasta
ahora no vamos a poder.
Necesitamos, una medida "escalar", es decir, que no lleve asociado ninguna unidad de
medida.

 COEFICIENTE DE VARIACIÓN:
Es un estadístico de dispersión que tiene la ventaja de no llevar asociada ninguna
unidad, por lo que nos permitirá decidir entre dos muestras, cual es la que presenta
mayor dispersión sin necesidad de utilizar la misma unidad de medida. La
denotaremos por C.V.


COEFICIENTE DE VARIACIÓN POBLACIONAL C.V .   100

COEFICIENTE DE VARIACIÓN MUESTRAL
s
C.V .   100
X
Si el CV>20% decimos que el conjunto de datos es heterogéneo en cuyo caso la
media no es representativa
Si el CV<20% el conjunto de datos es homogéneo y en ese caso, cualquier medida de
posición central estudiada es representativa

1,67
…en nuestro ejemplo: C.V .   100  41,75
2,8

Medidas de Forma

SIMETRÍA

Es una de las características gráficas de una distribución que determina hacia


qué valores tienden a concentrarse los datos.

Para medir la asimetría se puede realizar atendiendo básicamente a dos


criterios:

 Comparando la Media y la Mediana o al Modo


 Comparando los valores de la variable con la media.

Si la media es mayor al mediana, entonces es asimétrica positiva, al revés es


asimétrica negativa y si son parecidas es simétrica. Por lo que se define el
COEFICIENTE DE ASIMETRÍA como:

Esta medida es muy fácil de calcular, algunos paquetes estadísticos y planillas de


cálculo lo tienen incluidos en sus resúmenes estadísticos.

Si AS>0 la curva es asimétrica +, si AS<0 es asimétrica – y cercano a cero, simétrico


EJEMPLO PARA PENSAR
Se calculó sobre una base de datos, la varianza, el desvío, el CV y el rango y arrojó el
siguiente resultado

Interpretación y conclusiones
Si bien el grupo 1, tiene un puntaje promedio (media=84.64) más elevado en actitud
hacia la Estadística también se puede observar que todos puntuaron parecido a la
media, ya que CV=11.32<20% por lo que se considera que el grupo1 tiene una actitud
pareja, mas pareja que el grupo 2, con un CV=43.33, que es un grupo heterogéneo
Lo típico en el grupo 1, fue una puntuación entre 84.64 ± 9.58 (Desvío estándar=DE)

El grupo 1 presenta una leve asimetría negativa (-0,20=asimetría), la media=84.64 <


mediana= 87, en el grupo 2, la asimetría es más marcada, pero también negativa. Es
decir que en ambos casos, los puntajes tienden a superar el promedio
Podemos decir que en el grupo 2, la mayoría puntuó alto, pero estos valores son bajos
comparados con el grupo 1. Con lo cual la actitud hacia la estadística es más alta si el
docente agrega humor a sus clases, y hay diferencias muy notables en el caso
contrario, dado que la mayoría tiene actitud bastante más baja comparada con el otro
grupo.

También podría gustarte