Documentos de Académico
Documentos de Profesional
Documentos de Cultura
• Horarios de trenes
• Originalmente el horario ocupa una tabla de 10 filas y 9 columnas más una
columna "viuda" con el tren de las 22:38. Un total de 91 campos con formato
hh.mm cada uno, 455caracteres.
En el diagrama Stem & Leaf se representa
la hora a la izquierda de la barra de
separación | y losminutos de la salida de cada
tren a la derecha. La frecuencia de los trenes se
deduce fácilmente de lalongitud de las filas y
es, además, muy fácil ver en que minutos de
cada hora pasan típicamente los mismos.
Por otra parte, dado que a algunas horas se
repite exactamente el horario de los trenes se
puede reducir aún más el tamaño del
gráfico, sin perder información y ganando en
claridad.
Al final tenemos 59 campos de 2
dígitos, 118 caracteres más los separadores, es
decir 4 veces menos dígitos que con el horario
original, menos espacio y más claridad.
PRACTICA
• Edad de 15 personas
tallo hojas
HISTOGRAMAS, POLÍGONOS DE
FRECUENCIA Y OJIVAS
• Un Histograma es la representación gráfica de una tabla de
frecuencias. El histograma puede ser: de frecuencias absolutas,
de frecuencias relativas, de frecuencias absolutas acumuladas
y de frecuencias relativas acumuladas.
HISTOGRAMAS, POLÍGONOS DE
FRECUENCIA Y OJIVAS
• Un Polígono de Frecuencia es el nombre que recibe una clase de gráfico
que se crea a partir de un histograma de frecuencia. Los histogramas
emplean columnas verticales para reflejar las frecuencias, los polígonos de
frecuencia se forman uniendo los puntos más altos de cada una de las
columnas del Histograma.
HISTOGRAMAS, POLÍGONOS DE
FRECUENCIA Y OJIVAS
• Una Ojiva se utiliza para representar la frecuencia acumulada. Similar al
Polígono de frecuencia, se forma o se construye uniendo los puntos más
altos de cada columna pero de un Histograma que represente las
Frecuencias Acumuladas.
ESTADÍSTICA DE LOCALIZACIÓN
• Percentiles:
• Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
• Obtener los percentiles 23 del siguiente conjunto de datos:
• 43 47 10 14 5 34 11 11 5 37 41 11 24 9 10 12 25 31 3 34 16 1 7 20 38 32 12 48
• 1 3 5 5 7 9 10 10 11 11 11 12 12 14 16 20 24 25 31 32 34 34 37 38 41 43 47 48
• Cuartiles
• Son los 3 valores de la variable que dividen a un conjunto de
datos ordenados en cuatro partes iguales. Q1, Q2, Q3
determinan los valores correspondientes al 25%, 50% y 75%
de los datos.
• (N+1)/4
CUARTILES
• Ejemplo:
• Deciles
• El primer decil será el sujeto (N+1)/10=xi ; si es decimal, el
decil será un número entre el Xi y Xi+1
• D= Xi + d(Xi - Xi+1)
MEDICIONES DE VARIABILIDAD
• RANGO
• También llamado Recorrido o Amplitud total, es la diferencia
entre el máximo valor del conjunto de datos y el mínimo de
ellos. A mayor rango, mayor dispersión.
• El rango del conjunto 4 6 4 7 8 6 5 3 4 7 7 9 6 5 es 6, la
diferencia entre el máximo 9 y el mínimo 3.
MEDICIONES DE VARIABILIDAD
• DESVIACIÓN MEDIA
• Es una medida de la dispersión consistente en la media
aritmética de las desviaciones individuales respecto a la
media, tomadas en valor absoluto. También se usan
desviaciones respecto a la mediana.
MEDICIONES DE VARIABILIDAD
• VARIANZA
• Es una medida muy sensible de la variabilidad y base de
muchas técnicas estadísticas.
• Junto con la media forma el conjunto más importante de
medidas.
• Es propia de las medidas de intervalo o razón. Su
inconveniente es que no usa la misma unidad que los datos,
sino su cuadrado.
• No se deben comparar varianzas en conjuntos de unidades
muy distintas, como estatura e inteligencia.
MEDICIONES DE VARIABILIDAD
• DESVIACIÓN ESTANDAR
• Es la raíz cuadrada de la anterior. Su objeto es conseguir medir
la variabilidad en las mismas unidades que los datos. Así, un
conjunto medido en metros, tendrá la varianza medida en
metros cuadrados, pero la desviación típica en metros.
• Como en la varianza, para datos aislados basta con suprimir
las frecuencias ni.
• La desviación típica s es base de muchas técnicas, al igual que
la media y la varianza. Su gran ventaja es estar medida en las
mismas unidades que los datos y la media, lo que permite
establecer razones y proporciones entre ella
GRÁFICAS DE CAJA