Está en la página 1de 8

Instituto Tecnológico de Santo Domingo

Materia: Probabilidad y Estadística


Código: CBM206
Sección: 07

Informe: Capitulo 2

Nombre: Welnys Enmanuel Taveras Tejada

ID: 1087396
Capítulo 2- Exploración de datos con tablas y graficas.

• Sección 2-1. Distribuciones de frecuencias para organizar y


resumir datos.
Cuando se trabaja con grandes conjuntos de datos, una distribución de
frecuencia suele ser útil para la organización y el resumen de los datos. Esta nos
ayuda a comprender la naturaleza de la distribución de un conjunto de datos.

Conceptos clave.
Una distribución de frecuencia indica como un conjunto de datos se divide en
varias categorías al listar todas las categorías junto con el numero de valores de
los datos que hay en cada una.
La frecuencia para una clase es el numero de valores originales que caen en esa
clase.
Los limites inferiores de clase son las cifras más pequeñas que pueden
pertenecer a cada una de las clases.
Los limites superiores de clase son las cifras mas grandes que pueden
pertenecer a cada una de las clases.
Las fronteras de clase son las cifras que se utilizan para separar las clases, pero
sin los espacios creados por los límites de la clase.
Las marcas de la clase son los valores en el punto medio de las clases.
Anchura de clase es la diferencia entre dos limites inferiores de clase (o dos
fronteras de clase) consecutiv@s en una distribución de frecuencias.
Procedimientos para elaborar una distribución de frecuencias.

1. Seleccionar el numero de clases, normalmente entre 5 y 20. El numero


de clases puede verse afectado por la conveniencia al utilizar métodos
redondeados.
2. Calcular la anchura de la clase de la siguiente forma:
(𝑉𝑎𝑙𝑜𝑟 𝑚𝑎𝑥𝑖𝑚𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠)−(𝑉𝑎𝑙𝑜𝑟 𝑚𝑖𝑛𝑖𝑚𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠)
Anchura de clase ≈
𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠

(Redondear el resultado hacia arriba para obtener un numero conveniente)


3. Elegir el valor para el primer limite inferior de clase utilizando el valor
mínimo o un valor conveniente por debajo del mínimo.
4. A partir de este primer limite inferior de clase y de la anchura de la clase,
listar los demás limites inferiores de clase (sumando la anchura de clase
al primer límite inferior de clase para obtener el segundo límite inferior
de clase. Después se suma la anchura de clase al segundo límite inferior
de clase para obtener el tercer límite inferior de clase, y así
sucesivamente).
5. Listar los limites inferiores de clase en una columna vertical después
determinar e introducir los limites superiores de clase.
6. Tomar cada valor de datos individual y colocar una marca de registro en
la clase apropiada. Agregar las marcas de registro para encontrar la
frecuencia total de cada clase.

Distribución de frecuencias relativas


Una variación en la distribución de frecuencias básica es una distribución de
frecuencias relativas o distribución de frecuencias porcentuales, en la que cada
frecuencia de clase sustituye por una frecuencia relativa o porcentaje. Las
frecuencias relativas y porcentajes se calculan de la siguiente manera.
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑝𝑎𝑟𝑎 𝑢𝑛𝑎 𝑐𝑙𝑎𝑠𝑒
Frecuencias relativas para una clase =
𝑠𝑢𝑚𝑒 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑝𝑎𝑟𝑎 𝑢𝑛𝑎 𝑐𝑙𝑎𝑠𝑒
Porcentaje para una clase = ∗ 100%
𝑠𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠
Distribución de frecuencias acumuladas
Otra variación de una distribución de frecuencias es una distribución de frecuencias
acumuladas en la que la frecuencia para cada clase es la suma de las frecuencias
para la misma y todas las anteriores.

Pensamiento crítico: uso de distribuciones de frecuencias para entender


los datos
Al comienzo de esta sección observamos que una distribución de frecuencias para
ayudarnos a entender la distribución de un conjunto de datos, que es la naturaleza
o forma de la dispersión de los datos sobre el rango de valores. Con frecuencia, en
estadística es importante determinar si los datos tienen una distribución normal.

• Sección 2-2. Histogramas.


Conceptos básicos de los histogramas
Un histograma es una grafica que consiste en barras adyacentes de igual anchura
dibujada. La escala horizontal representa clases de valores cuantitativos, y la escala
vertical representa sus frecuencias. Las alturas de las barras corresponden a los
valores de frecuencia.

Uso importante de un histograma.


• Despliega visualmente la forma de la distribución de los datos.
• Muestra la ubicación del centro de los datos.
• Muestra la dispersión de los datos
• Identifica los valores atípicos.
Un histograma es en esencia una gráfica de una distribución de frecuencias.
Historia de frecuencias relativas
Un histograma de frecuencias relativas tiene la misma forma y escala horizontal
que un histograma, pero la escala vertical utiliza frecuencias relativas en vez de
frecuencias reales.

Distribución normal
Cuando se grafica un histograma, una distribución normal tiene una forma de
“campana”. Muchos métodos estadísticos requieren los datos muestrales
provengan de una población con distribución aproximadamente normal, y a
menudo se puede usar un histograma para juzgar si este requisito se cumple.

Distribución no normal
La distribución de la población no es normal si la gráfica cuantilar normal cumple
con una o dos de las siguientes condiciones:
• Los puntos no se encuentran razonablemente cerca de un patron de línea
recta.
• Los puntos muestran algún patrón sistemático diferente a un patrón de línea
recta.

• Sección 2-3. Graficas que informan y graficas que engañan

Graficas que informan


Una grafica de puntos consiste en un grafico de datos cuantitativos en el que cada
valor de datos se representa como un punto sobre una escala horizontal de
valores. Los puntos que representan valores iguales se apilan.
Graficas de tallo y hojas
Un diagrama de tallo y hojas representa datos cuantitativos separando cada valor
en dos partes: el tallo (el digito más a la izquierda) y las hojas (el digito más a la
derecha). A menudo, los diagramas tallo y hojas se obtienen al redondear primero
los valores de los datos originales.

Graficas de series de tiempo


Una grafica de series de tiempo es una grafica de datos dados en series de tiempo,
los cuales son datos cuantitativos recopilados en diferentes momentos, por
ejemplo, cada mes o cada año.

Graficas de barras
Una grafica de barras utiliza barras de igual anchura para mostrar las frecuencias
de categorías de datos categóricos. Las barras pueden o no estar separadas por
pequeños espacios.

Gráficos de Pareto
Una grafica de Pareto es una grafica de barras para datos categóricos, con la
estipulación añadida de que las barras se ordenan de manera descendente de
acuerdo con las frecuencias, por ello las barras disminuyen de altura de izquierda a
derecha.

Graficas circulares
Una gráfica circular es una gráfica muy común que representa datos categóricos
como rebanadas de un círculo, el tamaño de cada rebanada es proporcional al
conteo de frecuencias para categorías.
Graficas que engañan
Por lo general, las graficas engañosas se usan para mentirle a la gente. Las graficas
deben trazarse de una manera justa y objetiva. Se debe dejar que los lectores
hagan sus propios juicios en vez de manipularlos mediante graficas engañosas.

Eje vertical sin cero


Una gráfica engañosa común implica el uso de una escala vertical que comienza en
algún valor mayor que cero para exagerar las diferencias entre los grupos.

Pictogramas
Los datos que son de naturaleza unidimensional se representan a menudo con
objetos bidimensionales u objetos tridimensionales. Mediante el uso de
pictogramas, los dibujantes pueden crear falsas impresiones que distorsionan
groseramente las diferencias mediante el uso de sencillos principios de geometría
básica.

• Sección 2-4. Diagramas de dispersión, correlación y


regresión
Existe una correlación entre dos variables cuando los valores de una variable están
de alguna manera asociados con los valores de otra.
Existe una correlación lineal entre dos variables cuando una correlación y los
puntos graficados de los datos pareados dan como resultado un patrón que puede
aproximarse mediante una línea recta.
Un diagrama de dispersión (o gráfica de dispersión) es un diagrama de datos
cuantitativos pareados (x, y) con un eje x horizontal y un eje vertical y, el eje
horizontal se utiliza para la primera variable (x) y el eje vertical se usa para la
segunda variable (y).
El coeficiente de correlación lineal se expresa con r, y mide la fuerza de la
asociación lineal entre dos variables.
Dada una colección de datos muestrales pareados, la línea de regresión (o línea de
mejor ajuste o línea de mínimos cuadrados) es la recta que mejor se ajusta a la
dispersión de datos.

La ecuación de regresión:
ŷ = b0 + b1x
describe algebraicamente la línea de regresión.

También podría gustarte