Está en la página 1de 31

EXPLORACIONDE

DATOS CON TABLAS


Y GRAFICAS
CARACTERISTICAS DE LOS DATOS
 CENTRO: Un valor representativo que indica dónde se encuentra el centro del conjunto de
datos.

 VARIACIÓN: Una medida de qué tanto varían los valores de los datos.

 DISTRIBUCIÓN: La naturaleza o forma de la dispersión de los datos en el rango de valores


(por ejemplo, en forma de campana).

 DATOS ATÍPICOS: Valores muestrales que están muy alejados de la gran mayoría de los
demás valores de la muestra.

 TIEMPO: Cualquier cambio en las características de los datos a través del tiempo.
Los objetivos del capitulo son:
DISTRIBUCIONES DE FRECUENCIAS PARA ORGANIZAR Y RESUMIR DATOS
 Desarrollar la capacidad de resumir datos
 Para una distribución de frecuencias, identificar los valores de la anchura de clase, la
marca de clase, los límites de clase y las fronteras de clase

HISTOGRAMAS
 Desarrollar la capacidad de representar la distribución de datos
 Examinar un histograma e identificar las distribuciones comunes, incluyendo una
distribución uniforme y normal

GRÁFICAS QUE INFORMAN Y GRÁFICAS QUE ENGAÑAN


 Desarrollar la capacidad de graficar datos utilizando un diagrama de puntos, una gráfica
de tallo y hojas, entre otros.
 Determinar cuándo una gráfica es engañosa

DIAGRAMAS DE DISPERSIÓN, CORRELACIÓN Y REGRESIÓN


 Desarrollar la capacidad de trazar un diagrama de dispersión de datos pareados.
 Analizar un diagrama de dispersión para determinar si parece haber una correlación
entre dos variables.
Distribuciones de frecuencias para
organizar y resumir datos
DEFINICION
Una distribución de frecuencias (o
tabla de frecuencias) indica cómo
un conjunto de datos se divide en
varias categorías (o clases) al listar
todas las categorías junto con el
número de valores de los datos
(frecuencias) que hay en cada una.
DEFINICIONES
Limites inferiores Limites superiores de Fronteras de
de clase clase clase

Son las cifras más Son las cifras más Son las cifras que se
pequeñas que pueden grandes que pueden utilizan para separar las
pertenecer a cada una pertenecer a cada una clases, pero sin los
de las clases. de las clases espacios creados por
los límites de clase.

Marcas de clase Anchura de clase

Son los valores en el Es la diferencia entre dos


punto medio de las límites inferiores de clase
clases consecutivos (o dos fronteras
inferiores de clase
consecutivas) en una
distribución de frecuencias.
OJO
Encontrar la
anchura de clase NOTA
puede ser Con respecto a las
complicado fronteras de clase,
recuerde que dividen la
Para la anchura de clase, diferencia entre el final
no cometa el error más de una clase y el
común de usar la comienzo de la
diferencia entre un límite siguiente
inferior de clase y un
límite superior de clase
Determinación de las fronteras de clase a partir
de los límites de clase de la tabla
PASO 1: Liste los
límites de clase de Tiempos de servicio en el
la tabla a la auto para los almuerzos
izquierda en McDonald’s

PASO 2: Divida la
diferencia como se
muestra.

PASO 3: Encuentre
los valores primero
y último de 74.5 y
324.5 proyectando
el mismo patrón.
Procedimiento para elaborar una distribución de
frecuencias
los pasos para elaborarlas manualmente son
1. Seleccione el número de clases, normalmente entre 5 y 20. El número de clases puede verse afectado
por la conveniencia de utilizar números redondeados. (De acuerdo con la “Regla de Sturges”, el número
ideal de clases para una distribución de frecuencias puede aproximarse por 1 + (log n)/(log 2) donde n es el
número de valores de los datos

2. Calcule la anchura de clase

Redondee este resultado para obtener un número conveniente.


3. Elija el valor para el primer límite inferior de clase utilizando el valor
mínimo o un valor conveniente por debajo del mínimo.

4. A partir del primer límite inferior de clase y de la anchura de clase, liste


los demás límites inferiores de clase

5. Liste los límites inferiores de clase en una columna vertical y después


determine e introduzca los límites superiores de clase.

6. Tome cada valor de datos individual y coloque una marca de registro en


la clase apropiada. Agregue las marcas de registro para encontrar la
frecuencia total de cada clase
Tiempos de servicio para los almuerzos en McDonald’s para
elaborar la distribución de frecuencias
Tiempos de servicio en el auto (segundos) para los almuerzos en McDonald’s

Paso 1: Seleccione 5 como el número de clases deseadas.

Paso 2: Calcule la anchura de clase como se muestra a continuación. Observe que redondeamos de 45
a 50, que es un número más cómodo de usar.
Paso 3: El valor mínimo de los datos es 83, que no es un
punto de inicio muy conveniente, así que busque un valor más
conveniente por debajo de 83, por ejemplo 75, como el primer
límite inferior de clase. (Podríamos haber usado 80 o 50 en su
lugar).

Paso 4: Sume la anchura de clase de 50 al valor inicial de


75 para obtener el segundo límite inferior de clase de 125.
Continúe sumando la anchura de clase de 50 hasta tener
cinco límites inferiores de clase. Por lo tanto, los límites
inferiores de clase son 75, 125, 175, 225 y 275.

Paso 5: Liste los límites inferiores de clase en forma


vertical, como se muestra en el margen. A partir de esta
lista, identifique los límites superiores de clase
correspondientes como 124, 174, 224, 214 y 324
Paso 6: Introduzca una marca
de registro para cada valor de
datos en la clase apropiada. A
continuación, sume las marcas
de registro para encontrar las
frecuencias mostradas en la
tabla a continuacion
DATOS
CATEGORICOS
Es posible utilizar las
distribuciones de frecuencias
para resumir datos categóricos
(o cualitativos, o de atributo),
como lo ilustra el ejemplo a
continuación
VISITAS A LAS SALAS DE EMERGENCIA POR LESIONES EN DEPORTES Y
ACTIVIDADES RECREATIVAS
En la tabla se presentan los datos de las siete principales fuentes de lesiones que resultaron en
una visita a la sala de urgencias de un hospital en un año reciente (con base en datos de los
Centros para el Control de Enfermedades).
Distribución de frecuencias relativas
Una variación de la distribución de frecuencias básica es una
distribución de frecuencias relativas o distribución de
frecuencias porcentuales, en la que cada frecuencia de clase
se sustituye por una frecuencia relativa (o proporción) o
porcentaje. En este curso usamos el término “distribución de
frecuencias relativas”, tanto si empleamos frecuencias relativas
como porcentajes. Las frecuencias relativas y porcentajes se
calculan de la siguiente manera.

LA SUMA DE LOS PORCENTAJES EN UNA DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS


DEBE SER MUY CERCANA A 100% (CON UN PEQUEÑO MARGEN PARA ERRORES DE
REDONDEO).
Distribución de frecuencias
acumuladas
Distribución de frecuencias acumuladas de los tiempos
de servicio para el almuerzo en McDonald’s Otra variación de una
distribución de frecuencias
es una distribución de
frecuencias acumuladas en
la que la frecuencia para
cada clase es la suma de las
frecuencias para la misma y
todas las anteriores.
PENSAMIENTO CRÍTICO: USO DE DISTRIBUCIONES DE
FRECUENCIAS PARA ENTENDER LOS DATOS

Al comienzo de esta sección observamos que


una distribución de frecuencias puede
ayudarnos a entender la distribución de un
conjunto de datos, que es la naturaleza o
forma de la dispersión de los datos sobre el
rango de valores (por ejemplo, en forma de
campana).
DISTRIBUCION NORMAL
1. Las frecuencias comienzan bajas, luego aumentan a una o dos frecuencias altas y luego
disminuyen a una frecuencia baja.
2. La distribución es aproximadamente simétrica: las frecuencias que preceden a la frecuencia
máxima deben ser aproximadamente una imagen especular de aquellas que siguen de la
frecuencia máxima.
LA PRESENCIA DE BRECHAS PUEDE SUGERIR QUE
LOS DATOS SON DE DOS O MÁS POBLACIONES
DIFERENTES.

Lo contrario a este principio no


es verdadero, porque los datos
de diferentes poblaciones no
necesariamente producen
espacios.

La combinación de dos o más


distribuciones de frecuencias
relativas en una tabla facilita
en gran medida las
comparaciones entre los datos.
HISTOGRAMAS
Concepto Clave

Una distribución de
frecuencias es una
herramienta útil para resumir
datos e investigar su
distribución; una herramienta
incluso mejor es un
histograma, una gráfica más
fácil de interpretar que una
tabla de números.
DEFINICION

Un histograma es una gráfica que consiste en


barras adyacentes de igual anchura dibujadas (a
menos que haya espacios en los datos). La
escala horizontal representa clases de valores
cuantitativos, y la escala vertical representa sus
frecuencias. Las alturas de las barras
corresponden a los valores de frecuencia.
USOS IMPORTANTES DE UN HISTOGRAMA

Despliega visualmente la forma de la


distribución de los datos.

Muestra la ubicación del centro de los datos.

Muestra la dispersión de los datos.

Identifica los valores atípicos.


Un histograma es en esencia una gráfica de una distribución de frecuencias.

Las frecuencias de clase deben usarse para la escala vertical, la cual se debe etiquetar
como se ve a continuación

es común utilizar los límites de clase o los puntos medios de clase o los límites
de clase o algún otro valor.
PENSAMIENTO CRITICO

Aunque la creación de
histogramas es lo más divertido
que los seres humanos pueden
hacer, el objetivo final es
entender las características de
los datos.
FORMAS COMUNES DE
DISTRIBUCION
Los histogramas que se muestran representan cuatro formas comunes de distribución.
DISTRIBUCIONES COMUNES

Cuando se grafica como un histograma, una distribución


normal tiene una forma de “campana”

Distribución en forma de campana de las circunferencias del brazo Debido a que este
histograma tiene una forma aproximada de campana, se dice que los datos tienen
una distribución normal.
ASIMETRIA

Una distribución de datos es


asimétrica si se extiende más
hacia un lado que hacia el
otro. Los datos asimétricos a
la derecha (también
llamados positivamente
asimétricos) tienen una cola
derecha más larga
EVALUACIÓN DE LA NORMALIDAD CON GRÁFICAS
CUANTILARES NORMALES

Algunos métodos realmente importantes que se


presentan en capítulos subsecuentes tienen el
requisito de que los datos muestrales provengan de
una población con distribución normal. Los
histogramas pueden ser útiles para determinar si se
satisface tal requisito de normalidad, pero no son muy
útiles con conjuntos de datos pequeños
Criterios para
evaluar la
normalidad con una
gráfica cuantilar
normal
DISTRIBUCIÓN NORMAL

La distribución de una población es


normal si el patrón de los puntos en la
gráfica cuantilar normal está
razonablemente cerca de una línea
recta y los puntos no muestran un
patrón sistemático diferente a un
patrón lineal.
DISTRIBUCION NO NORMAL
Distribución no normal: La distribución de
la población no es normal si la gráfica
cuantilar normal cumple una o dos de las
siguientes condiciones:
• Los puntos no se encuentran
razonablemente cerca de un patrón de
línea recta.
• Los puntos muestran algún patrón
sistemático diferente a un patrón de línea
recta.
Esto se puede ver con el siguiente ejemplo

También podría gustarte