Tratamiento de Datos

PROBABILIDAD
Tratamiento de datos
Lic. Alondra Nohemi Hernández Villanueva
Universidad Autónoma de Nuevo León

Facultad de Ciencias Fı́sico Matemáticas
Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

– Conceptos generales –
Definición. Variable
Una variable es una caracterı́stica que cambia o varı́a con el
tiempo y/o para diferentes personas u objetos bajo consideración.

– Conceptos generales –
Definición. Variable
Una variable es una caracterı́stica que cambia o varı́a con el
tiempo y/o para diferentes personas u objetos bajo consideración.
Por ejemplo, la temperatura corporal es una variable que cambia con
el tiempo en una sola persona; también varı́a de una persona a otra.
La afiliación religiosa, el origen étnico, el ingreso, la estatura, edad
y número de hijos son todas ellas variables, es decir, caracterı́sticas
que varı́an según la persona seleccionada.

Definición. Unidad experimental
Es la muestra de unidades que es necesario producir en una
condición para obtener una medición o dato representativo.

Definición. Población
Una población es el conjunto de mediciones de interés para el
investigador.

Definición. Población
Una población es el conjunto de mediciones de interés para el
investigador.
Definición. Muestra
Una muestra es un subconjunto de mediciones seleccionado de la
población de interés.

TIPOS DE VARIABLES
Se pueden clasificar variables en una de dos categorı́as:

cualitativas y cuantitativas.
Definición. Tipo de variables
Las variables cualitativas miden una cualidad o caracterı́stica en
cada unidad experimental. Las variables cuantitativas miden una
cantidad numérica en cada unidad experimental.

Las variables cualitativas producen datos que se pueden clasificar
de acuerdo a similitudes o diferencias en clase; por lo tanto, con
frecuencia se denominan datos categóricos. Como ejemplo:
• Afiliación polı́tica: republicano, demócrata, independiente.
• Clasificación de gusto: excelente, bueno, regular, malo.

• Color de un dulce M&M’S: café, amarillo, rojo, anaranjado,
verde, azul.

Las variables cuantitativas, con frecuencia representadas por la letra
x , producen datos numéricos, por ejemplo estos:
• x = tasa preferencial de interés.

• x = número de pasajeros en un vuelo de Los Ángeles a Nueva
York.
• x =peso de un paquete listo para ser enviado
• x = volumen de jugo de naranja en un vaso.

Hay una diferencia en los tipos de valores numéricos que pueden
tomar estas variables cuantitativas. Por ejemplo, el número de
pasajeros puede tomar sólo los valores x = 0, 1, 2, ... mientras que
el peso de un paquete puede tomar cualquier valor mayor a cero, o
sea 0 < x < ∞.
Para describir esta diferencia, definimos dos tipos de variables cuan-

titativas: discretas y continuas.

Definición. Variables discretas y continuas
Una variable discreta puede tomar sólo un número finito o
contable de valores. Una variable continua puede tomar
inifinitamente muchos valores correspondientes a los puntos en un
intervalo de recta.
Variables como el número de miembros de una familia, el número de
ventas de autos nuevos y el número de llantas defectuosas devueltas
para cambio son todos ejemplos de variables discretas.
Por el contrario, variables como la estatura, peso, tiempo, distancia
y volumen son continuas porque pueden tomar valores en cualquier
punto a lo largo de un intervalo de recta.

Construcción de una distribución de frecuencias
Una vez recolectados los datos, éstos pueden consolidarse y re-

sumirse para mostrar la siguiente información:
• ¿Qué valores de la variable han sido medidos?
• ¿Con qué frecuencia se presenta cada uno de los valores?
Para este fin, se puede construir una tabla estadı́stica que se puede
usar para mostrar los datos gráficamente como una distribución de
datos. El tipo de gráfica que se escoja depende del tipo de variable
que se haya medido.

Cuando la variable es cualitativa, la tabla estadistica es una lista de
categorı́as siendo consideradas junto con una medida de la frecuencia
con que se presenta cada valor. Se puede medir la frecuencia de tres
formas diferentes:
• La frecuencia o número de mediciones en cada categorı́a.

• La frecuencia relativa o proporción de mediciones en cada
categorı́a.
• El porcentaje de mediciones de cada categorı́a.

Las distribuciones de frecuencias son tablas en que se dispone las
modalidades de la variable por filas. En las columnas se dispone el
número de ocurrencias por cada valor, porcentajes, etc. La finalidad
de las agrupaciones en frecuencias es facilitar la obtención de la
información que contienen los datos.
Una distribución de frecuencias en estadı́stica se refiere a la tenden-

cia que siguen los datos organizados en grupos, categorı́as o clases,
cuando a cada una se le asigna un número denominado frecuencia,
el cual indica cuántos datos hay en cada grupo.

Pasos para hacer una tabla de distribución de frecuencias
La forma de conocer la distribución de frecuencias de un conjunto de

datos consiste en primer lugar en crear las categorı́as y luego hacer
la tabla de frecuencias y posteriormente su representación visual.
Son varios los pasos que deben seguirse para consturir una tabla de
distribución de frecuencias.
En primer lugar hay que disponer de los datos, los cuales pueden ser
de variada ı́ndole: las edades de los niños de un colegio, el número
de respuestas correctas en un test, la altura de los empleados de una
empresa, el largo de las hojas de un árbol, etc.

Paso 1. Identificar el valor mı́nimo Xmin y el valor máximo Xmax en
el conjunto de datos X .

Paso 1. Identificar el valor mı́nimo Xmin y el valor máximo Xmax en
el conjunto de datos X .
Paso 2. Calcular el rango R, que se define como al diferencia entre el

valor máximo con el valor mı́nimo, expresado por:
R = Xmax − Xmin

Paso 3. Determinar el número k de intervalos o clases, las cuales pueden
estar preestablecidas. El número k determinará el número de
filas que tendrá la tabla de frecuencias.
El menor número de categorı́as recomendado es 5, pero dado
a que esta cantidad puede ser mayor es por esa razón que se
calcula con la regla se Sturges representada por:
k = 1 + 3.322 log(n)
Como el resultado dentro del corchete seguramente será un

número real, el corchete nos indica que debe ser redondeado
hacia arriba.

Paso 4. Se calcula la amplitud A de cada intervalo (clases o categorı́as)
tomando el cociente entre el rango R y el número de intervalos
k, es decir
R Xmax −Xmin
A= k = k
Si los datos originales son números enteros, entonces A se re-

dondea al entero más próximo, de lo contrario se deja su valor
real.

Paso 5. Determinar los lı́mites inferior Li y superior Ls de cada intervalo
o clase.
El primer intervalo, o la clase más baja, tiene como lı́mite infe-

rior Li el más pequeño de los datos originales, es decir
Li = Xmin
y como lı́mite superior el valor mı́nimo más la amplitud del

intervalo, esto es
Ls = Xmin + A.

Paso 6. Se determina la marca de clase Mc para cada intervalo, medi-
ante la siguiente fórmula:
Li +Ls
Mc = 2
La marca de clase es el punto medio de cada intervalo. La

marca de clase es el valor que representa a todo el intervalo
para el cálculo de algunos parámetros como la media artmética
o la desviación tı́pica.

Caracterı́sticas
• Uniformidad: Todos lo sintervalos de clase sean del mismo

tamaño.

Caracterı́sticas

tamaño.
• Unicidad: Que un dato pertenece única y exclusivamente a un

solo intervalo de clase.

Caracterı́sticas

tamaño.
• Unicidad: Que un dato pertenece única y exclusivamente a un

solo intervalo de clase.
• Completez: Todos los datos perteneces a uno de los intervalos,

ningún dato se excluye del conteo.

Ejemplo
Los siguientes datos corresponden a las respuestas acertadas de un

cuestionario de 100 preguntas aplicado a un grupo de 52 estudiantes:
65, 70, 70, 74, 61, 77, 85, 36, 70, 62, 62, 77, 80, 89, 39, 43, 70,
77, 79, 77, 88, 52, 85, 1, 55, 47, 73, 63, 59, 51, 56, 65, 85, 79,
53, 79, 3, 71, 7, 54, 8, 61, 61, 77, 67, 58, 61, 45, 48, 64, 15, 50

Gráficas de una distribución de frecuencias
Como complemento a este primer análisis que realiza el investigador

por medio de las tablas de distribución de frecuencias existe la posi-
bilidad de construir gráficas de diversos tipos que le permiten explicar
más fácilmente el comportamiento de los datos estudiados.
Una gráfica permite mostrar, explicar, interpretar y analizar de man-

era sencilla, clara y efectiva los datos estadı́sticos mediante for-
mas geométricas tales como lı́neas, áreas, volúmenes, superficies,
etcétera. Las gráficas permiten además la comparación de magni-
tudes, tendencias y relaciones entre los valores que adquiere una
variable.
Las gráficas tienen gran utilidad como medios de divulgación del

análisis estadı́stico, ya que las relaciones visuales se captan con fa-
cilidad y resulta sencillo recordarlas.

Tipo de gráficas
GRÁFICA DE BARRAS
Son una representación visual de los datos utilizando rectángulos

horizontales o verticales, cuyas longitudes son proporcionales a las
cantidades que representan.
Las gráficas de barras se deben utilizar para datos cualitativos o

categóricos. Pueden utilizarse también para describir variables cuan-
titativas discretas que toman pocas valores.
Dicha gráfica muestra la comparación entre las diferentes categorı́as.
La principal caracterı́stica de una gráfica de barras es que, ordena

las categorı́as de acuerdo a su frecuencia o al valor asociado a ellas.

Tipo de gráficas
HISTOGRAMA
Histograma es un gráfico que representa una distribución de frecuen-

cia; las alturas de las barras representan frecuencias observadas. En
otras palabras, un histograma es una visualización gráfica de datos
utilizando barras de diferentes alturas. Generalmente, no hay espa-
cio entre las barras adyacentes.
Un histograma muestra la acumulación ó tendencia, la variabilidad

o dispersión y la forma de la distribución.
Dicha gráfica es adecuada para representar variables continuas, aunque

también se puede usar para variables discretas. Es decir, mediante
un histograma se puede mostrar gráficamente la distribución de una
variable cuantitativa o numérica.

Tipo de gráficas
DIAGRAMA CIRCULAR
El diagrama circular (también llamado gráfica circular, gráfica de

pastel o diagrama de sectores) sirve para representar variables cual-
itativas o discretas. Se utiliza para representar la proporción de
elementos de cada uno de los valores de la variable.
Consiste en partir el cı́rculo en porciones proporcionales a la fre-

cuencia relativa. Entiéndase como porción la parte del cı́rculo que
representa a cada valor que toma la variable.

Ejercicio
Se calculó la estatura a cada estudiante del grupo de probabilidad

y previamente se ordeno de manera ascendente. Se pide realizar un
histograma y diagrama circular de los datos proporcionados.

Medidas descriptivas de tendencia central
Existe una manera más precisa de medir la acumulación o tendencia

y la variabilidad de los datos, esto a partir de las medidas de tenden-
cia o acumulación se conocen como medidas de tendencia central y
las de variabilidad como medidas de dispersión o de variabilidad.
Las medidas de tendencia central mas utilizadas son la media ar-

itmética, la mediana y la moda.
Sirven como puntos de referencia para describir caracterı́asticas básicas

de un estudio con datos cuantitativos.

MEDIA O MEDIA ARITMÉTICA
Definición
La media aritmética o promedio de un conjunto de n mediciones
es igual a la suma de las mediciones dividida entre n.
Media poblacional
P
xi
µ= N
i
N: Tamaño de la población
Media muestral
P
xi
x̄ = i
n
n: Tamaño de la muestra.

MEDIANA
Definición
La mediana m de un conjunto de n mediciones es el valor de
x que cae en la posición media cuando las mediciones son
ordenadas de menor a mayor.
Mediana poblacional
µ̃
Mediana muestral
x̃

Regla del cálculo de la mediana
Primeramente, se ordena los valores de menor a mayor.
1. Si el conjunto de datos hay un número impar de valores, la

mediana es el valor colocado en el centro.
2. Si en el conjunto de datos hay un número par de valores en-
tonces la mediana es el promedio de los dos valores centrales.

Moda
Definición
La moda es la categorı́a que se presenta con más frecuencia o
el valor de x que se presenta con más frecuencia.
Moda poblacional:
M
Moda muestral:
m

Medidas descriptivas de dispersión
Los conjuntos de datos pueden tener el mismo centro pero con as-
pecto diferente por la forma en que los números se dispersan desde
el centro. Considere las dos distribuciones que se muestran en la
figura. Ambas distribuciones están centradas en x = 4, pero hay
una gran diferencia en la forma en que las mediciones se dispersan
o varı́an. Las mediciones de la figura a) varı́an de 3 a 5; en la figura
b) las mediciones varı́an de 0 a 8.

Las medidas de dispersión, o de variabilidad, expresan cómo se dis-
tribuyen los datos en torno a alguna de las medidas de centralización
definidas antes, y son un complemento a estas últimas para describir
más fielmente un conjunto de datos.
La variabilidad o dispersión es una muy importante caracterı́stica

de datos. Por ejemplo, si usted fabrica tornillos, la variación ex-
trema en los diámetros de los tornillos causarı́a un alto porcentaje
de productos defectuosos.
Las medidas de variabilidad pueden ayudar a crear una imagen men-

tal de la dispersión de los datos. La medida más sencilla de variación
en el rango.

Definición
El rango,R, de un conjutno de n mediciones se define como la
diferencia entre la medición más grande y la más pequeña.
El rango es fácil de calcular e interpretar, es una medida adecuada de
variación para conjuntos pequeños de datos. Pero, para conjuntos
grandes, el rango no es una medida adecuada de variabilidad.

Definición
La varianza de una población de N mediciones es el promedio de
los cuadrados de las desviaciones de las mediciones alrededor de su
media µ. La varianza poblacional se denota con σ 2 y está dada por
la fórmula
P
(xi −µ)2
σ2 = i
N
La mayor parte de las veces, no tendremos todas las medidas de

población disponibles pero necesitaremos calcular la varianza de una
muestra de n mediciones.

Definición
La varianza de una muestra de n mediciones es la suma de las
desviaciones cuadradas de las mediciones alrededor la media x̄ divi-
dida entre (n − 1). La varianza muestral se denota con s 2 y está
dada por la fórmula
P
(xi −x̄ )2
s2 = i
n−1

La varianza se mide en términos del cuadrado de las unidades orig-
inales de medición. Si las mediciones originales son en pulgadas,
la varianza se expresa en pulgadas cuadradas. Tomando la raı́z
cuadrada de la varianza, obtenemos la desviación estándar, quere-
gresa la medida de variabilidad a las unidades originales de medición.
Definición
La desviación estándar de un conjunto de mediciones es igual a la
raı́z cuadrada positiva de la varianza.

Recordar...
• El valor de s es siempre mayor o igual a cero.

• Cuanto mayor sea el valor de s 2 o de s, mayor es la variabilidad
del conjunto de datos.
• Si s 2 o s es igual a cero, todas las mediciones deben tener el
mismo valor.
• Para medir la variabilidad en las mismas unidades que las ob-
servaciones.

Ejercicios Tarea 1
PROBLEMA 1.
El costo de asegurar un auto se ha convertido en un tema de disgusto

en California porque las tasas de seguro dependen de variables tan
distintas; por ejemplo, la ciudad en la que el usuario vive, el número
de autos que tenga y la compañı́a en la que está asegurado. El sitio
web www.insurance.ca.gov informa de la prima anual para 2006-
2007 para un hombre soltero, con licencia de manejo durante 6-8
años, que conduce un Honda Accord de 12 600 a 15 000 millas al
año y no ha tenido infracciones ni accidentes.

Ejercicios tarea 1
¿Cuál es el promedio de las primas de Allstate Insurance?

Ejercicios Tarea 1
PROBLEMA 2. El número de cafeterı́as Starbucks en 18 ciudades

a no más de 20 millas de la Universidad de California, en Riverside,
se muestra en la tabla siguiente
a) Encuentre la media, la mediana y la moda.

Ejercicios Tarea 1
PROBLEMA 3.
Calcule la varianza y desviación estándar para las cinco medi-

ciones siguientes:
5, 7, 1, 2, 4

Ejercicios Tarea1
PROBLEMA 4
Un artı́culo en Archaeometry contenı́a un análisis de 26 muestras de

cerámica romano-británica hallada en cuatro hornos diferentes en el
Reino Unido. Las muestras fueron analizadas para determinar su
composición quı́mica. El porcentaje de óxido de hierro en cada una
de las cinco muestras recolectadas en el sitio de Island Thorns fue:
1.28 2.39 1.50 1.88 1.51
a) Calcule el rango.
b) Calcule la varianza muestral y la desviación estándar.
c) Compare el rango y la desviación estándar. ¿El rango es
aproximadamente cuántas desviaciones estándar?

Tratamiento de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tratamiento de Datos

Cargado por

Copyright:

Formatos disponibles

PROBABILIDAD

Lic. Alondra Nohemi Hernández Villanueva

Universidad Autónoma de Nuevo León

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Se pueden clasificar variables en una de dos categorı́as:

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

• Afiliación polı́tica: republicano, demócrata, independiente.

• Clasificación de gusto: excelente, bueno, regular, malo.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

• x = tasa preferencial de interés.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Para describir esta diferencia, definimos dos tipos de variables cuan-

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Una vez recolectados los datos, éstos pueden consolidarse y re-

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

• La frecuencia o número de mediciones en cada categorı́a.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Una distribución de frecuencias en estadı́stica se refiere a la tenden-

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

La forma de conocer la distribución de frecuencias de un conjunto de

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Paso 2. Calcular el rango R, que se define como al diferencia entre el

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Como el resultado dentro del corchete seguramente será un

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Si los datos originales son números enteros, entonces A se re-

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

El primer intervalo, o la clase más baja, tiene como lı́mite infe-

y como lı́mite superior el valor mı́nimo más la amplitud del

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

La marca de clase es el punto medio de cada intervalo. La

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

• Uniformidad: Todos lo sintervalos de clase sean del mismo

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

• Uniformidad: Todos lo sintervalos de clase sean del mismo

• Unicidad: Que un dato pertenece única y exclusivamente a un

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

• Uniformidad: Todos lo sintervalos de clase sean del mismo

• Unicidad: Que un dato pertenece única y exclusivamente a un

• Completez: Todos los datos perteneces a uno de los intervalos,

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Los siguientes datos corresponden a las respuestas acertadas de un

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Como complemento a este primer análisis que realiza el investigador

Una gráfica permite mostrar, explicar, interpretar y analizar de man-

Las gráficas tienen gran utilidad como medios de divulgación del

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Son una representación visual de los datos utilizando rectángulos

Las gráficas de barras se deben utilizar para datos cualitativos o

Dicha gráfica muestra la comparación entre las diferentes categorı́as.

La principal caracterı́stica de una gráfica de barras es que, ordena

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

Histograma es un gráfico que representa una distribución de frecuen-

Un histograma muestra la acumulación ó tendencia, la variabilidad

Dicha gráfica es adecuada para representar variables continuas, aunque

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos