Está en la página 1de 48

PROBABILIDAD

Tratamiento de datos

Lic. Alondra Nohemi Hernández Villanueva

Universidad Autónoma de Nuevo León


Facultad de Ciencias Fı́sico Matemáticas

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Tratamiento de datos
– Conceptos generales –

Definición. Variable
Una variable es una caracterı́stica que cambia o varı́a con el
tiempo y/o para diferentes personas u objetos bajo consideración.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Tratamiento de datos
– Conceptos generales –

Definición. Variable
Una variable es una caracterı́stica que cambia o varı́a con el
tiempo y/o para diferentes personas u objetos bajo consideración.
Por ejemplo, la temperatura corporal es una variable que cambia con
el tiempo en una sola persona; también varı́a de una persona a otra.
La afiliación religiosa, el origen étnico, el ingreso, la estatura, edad
y número de hijos son todas ellas variables, es decir, caracterı́sticas
que varı́an según la persona seleccionada.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Definición. Unidad experimental
Es la muestra de unidades que es necesario producir en una
condición para obtener una medición o dato representativo.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Definición. Unidad experimental
Es la muestra de unidades que es necesario producir en una
condición para obtener una medición o dato representativo.

Definición. Población
Una población es el conjunto de mediciones de interés para el
investigador.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Definición. Unidad experimental
Es la muestra de unidades que es necesario producir en una
condición para obtener una medición o dato representativo.

Definición. Población
Una población es el conjunto de mediciones de interés para el
investigador.

Definición. Muestra
Una muestra es un subconjunto de mediciones seleccionado de la
población de interés.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


TIPOS DE VARIABLES

Se pueden clasificar variables en una de dos categorı́as:


cualitativas y cuantitativas.
Definición. Tipo de variables
Las variables cualitativas miden una cualidad o caracterı́stica en
cada unidad experimental. Las variables cuantitativas miden una
cantidad numérica en cada unidad experimental.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Las variables cualitativas producen datos que se pueden clasificar
de acuerdo a similitudes o diferencias en clase; por lo tanto, con
frecuencia se denominan datos categóricos. Como ejemplo:

• Afiliación polı́tica: republicano, demócrata, independiente.

• Clasificación de gusto: excelente, bueno, regular, malo.


• Color de un dulce M&M’S: café, amarillo, rojo, anaranjado,
verde, azul.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Las variables cuantitativas, con frecuencia representadas por la letra
x , producen datos numéricos, por ejemplo estos:

• x = tasa preferencial de interés.


• x = número de pasajeros en un vuelo de Los Ángeles a Nueva
York.
• x =peso de un paquete listo para ser enviado
• x = volumen de jugo de naranja en un vaso.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Hay una diferencia en los tipos de valores numéricos que pueden
tomar estas variables cuantitativas. Por ejemplo, el número de
pasajeros puede tomar sólo los valores x = 0, 1, 2, ... mientras que
el peso de un paquete puede tomar cualquier valor mayor a cero, o
sea 0 < x < ∞.

Para describir esta diferencia, definimos dos tipos de variables cuan-


titativas: discretas y continuas.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Definición. Variables discretas y continuas
Una variable discreta puede tomar sólo un número finito o
contable de valores. Una variable continua puede tomar
inifinitamente muchos valores correspondientes a los puntos en un
intervalo de recta.
Variables como el número de miembros de una familia, el número de
ventas de autos nuevos y el número de llantas defectuosas devueltas
para cambio son todos ejemplos de variables discretas.
Por el contrario, variables como la estatura, peso, tiempo, distancia
y volumen son continuas porque pueden tomar valores en cualquier
punto a lo largo de un intervalo de recta.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Construcción de una distribución de frecuencias

Una vez recolectados los datos, éstos pueden consolidarse y re-


sumirse para mostrar la siguiente información:
• ¿Qué valores de la variable han sido medidos?
• ¿Con qué frecuencia se presenta cada uno de los valores?
Para este fin, se puede construir una tabla estadı́stica que se puede
usar para mostrar los datos gráficamente como una distribución de
datos. El tipo de gráfica que se escoja depende del tipo de variable
que se haya medido.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Cuando la variable es cualitativa, la tabla estadistica es una lista de
categorı́as siendo consideradas junto con una medida de la frecuencia
con que se presenta cada valor. Se puede medir la frecuencia de tres
formas diferentes:

• La frecuencia o número de mediciones en cada categorı́a.


• La frecuencia relativa o proporción de mediciones en cada
categorı́a.
• El porcentaje de mediciones de cada categorı́a.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Las distribuciones de frecuencias son tablas en que se dispone las
modalidades de la variable por filas. En las columnas se dispone el
número de ocurrencias por cada valor, porcentajes, etc. La finalidad
de las agrupaciones en frecuencias es facilitar la obtención de la
información que contienen los datos.

Una distribución de frecuencias en estadı́stica se refiere a la tenden-


cia que siguen los datos organizados en grupos, categorı́as o clases,
cuando a cada una se le asigna un número denominado frecuencia,
el cual indica cuántos datos hay en cada grupo.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Pasos para hacer una tabla de distribución de frecuencias

La forma de conocer la distribución de frecuencias de un conjunto de


datos consiste en primer lugar en crear las categorı́as y luego hacer
la tabla de frecuencias y posteriormente su representación visual.

Son varios los pasos que deben seguirse para consturir una tabla de
distribución de frecuencias.

En primer lugar hay que disponer de los datos, los cuales pueden ser
de variada ı́ndole: las edades de los niños de un colegio, el número
de respuestas correctas en un test, la altura de los empleados de una
empresa, el largo de las hojas de un árbol, etc.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Paso 1. Identificar el valor mı́nimo Xmin y el valor máximo Xmax en
el conjunto de datos X .

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Paso 1. Identificar el valor mı́nimo Xmin y el valor máximo Xmax en
el conjunto de datos X .

Paso 2. Calcular el rango R, que se define como al diferencia entre el


valor máximo con el valor mı́nimo, expresado por:
R = Xmax − Xmin

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Paso 3. Determinar el número k de intervalos o clases, las cuales pueden
estar preestablecidas. El número k determinará el número de
filas que tendrá la tabla de frecuencias.
El menor número de categorı́as recomendado es 5, pero dado
a que esta cantidad puede ser mayor es por esa razón que se
calcula con la regla se Sturges representada por:

k = 1 + 3.322 log(n)

Como el resultado dentro del corchete seguramente será un


número real, el corchete nos indica que debe ser redondeado
hacia arriba.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Paso 4. Se calcula la amplitud A de cada intervalo (clases o categorı́as)
tomando el cociente entre el rango R y el número de intervalos
k, es decir
R Xmax −Xmin
A= k = k

Si los datos originales son números enteros, entonces A se re-


dondea al entero más próximo, de lo contrario se deja su valor
real.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Paso 5. Determinar los lı́mites inferior Li y superior Ls de cada intervalo
o clase.

El primer intervalo, o la clase más baja, tiene como lı́mite infe-


rior Li el más pequeño de los datos originales, es decir

Li = Xmin

y como lı́mite superior el valor mı́nimo más la amplitud del


intervalo, esto es

Ls = Xmin + A.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Paso 6. Se determina la marca de clase Mc para cada intervalo, medi-
ante la siguiente fórmula:
Li +Ls
Mc = 2

La marca de clase es el punto medio de cada intervalo. La


marca de clase es el valor que representa a todo el intervalo
para el cálculo de algunos parámetros como la media artmética
o la desviación tı́pica.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Caracterı́sticas

• Uniformidad: Todos lo sintervalos de clase sean del mismo


tamaño.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Caracterı́sticas

• Uniformidad: Todos lo sintervalos de clase sean del mismo


tamaño.

• Unicidad: Que un dato pertenece única y exclusivamente a un


solo intervalo de clase.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Caracterı́sticas

• Uniformidad: Todos lo sintervalos de clase sean del mismo


tamaño.

• Unicidad: Que un dato pertenece única y exclusivamente a un


solo intervalo de clase.

• Completez: Todos los datos perteneces a uno de los intervalos,


ningún dato se excluye del conteo.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Ejemplo

Los siguientes datos corresponden a las respuestas acertadas de un


cuestionario de 100 preguntas aplicado a un grupo de 52 estudiantes:

65, 70, 70, 74, 61, 77, 85, 36, 70, 62, 62, 77, 80, 89, 39, 43, 70,
77, 79, 77, 88, 52, 85, 1, 55, 47, 73, 63, 59, 51, 56, 65, 85, 79,
53, 79, 3, 71, 7, 54, 8, 61, 61, 77, 67, 58, 61, 45, 48, 64, 15, 50

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Gráficas de una distribución de frecuencias

Como complemento a este primer análisis que realiza el investigador


por medio de las tablas de distribución de frecuencias existe la posi-
bilidad de construir gráficas de diversos tipos que le permiten explicar
más fácilmente el comportamiento de los datos estudiados.

Una gráfica permite mostrar, explicar, interpretar y analizar de man-


era sencilla, clara y efectiva los datos estadı́sticos mediante for-
mas geométricas tales como lı́neas, áreas, volúmenes, superficies,
etcétera. Las gráficas permiten además la comparación de magni-
tudes, tendencias y relaciones entre los valores que adquiere una
variable.

Las gráficas tienen gran utilidad como medios de divulgación del


análisis estadı́stico, ya que las relaciones visuales se captan con fa-
cilidad y resulta sencillo recordarlas.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Tipo de gráficas
GRÁFICA DE BARRAS

Son una representación visual de los datos utilizando rectángulos


horizontales o verticales, cuyas longitudes son proporcionales a las
cantidades que representan.

Las gráficas de barras se deben utilizar para datos cualitativos o


categóricos. Pueden utilizarse también para describir variables cuan-
titativas discretas que toman pocas valores.

Dicha gráfica muestra la comparación entre las diferentes categorı́as.

La principal caracterı́stica de una gráfica de barras es que, ordena


las categorı́as de acuerdo a su frecuencia o al valor asociado a ellas.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Tipo de gráficas
HISTOGRAMA

Histograma es un gráfico que representa una distribución de frecuen-


cia; las alturas de las barras representan frecuencias observadas. En
otras palabras, un histograma es una visualización gráfica de datos
utilizando barras de diferentes alturas. Generalmente, no hay espa-
cio entre las barras adyacentes.

Un histograma muestra la acumulación ó tendencia, la variabilidad


o dispersión y la forma de la distribución.

Dicha gráfica es adecuada para representar variables continuas, aunque


también se puede usar para variables discretas. Es decir, mediante
un histograma se puede mostrar gráficamente la distribución de una
variable cuantitativa o numérica.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Tipo de gráficas
DIAGRAMA CIRCULAR

El diagrama circular (también llamado gráfica circular, gráfica de


pastel o diagrama de sectores) sirve para representar variables cual-
itativas o discretas. Se utiliza para representar la proporción de
elementos de cada uno de los valores de la variable.

Consiste en partir el cı́rculo en porciones proporcionales a la fre-


cuencia relativa. Entiéndase como porción la parte del cı́rculo que
representa a cada valor que toma la variable.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Ejercicio

Se calculó la estatura a cada estudiante del grupo de probabilidad


y previamente se ordeno de manera ascendente. Se pide realizar un
histograma y diagrama circular de los datos proporcionados.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Medidas descriptivas de tendencia central

Existe una manera más precisa de medir la acumulación o tendencia


y la variabilidad de los datos, esto a partir de las medidas de tenden-
cia o acumulación se conocen como medidas de tendencia central y
las de variabilidad como medidas de dispersión o de variabilidad.

Las medidas de tendencia central mas utilizadas son la media ar-


itmética, la mediana y la moda.

Sirven como puntos de referencia para describir caracterı́asticas básicas


de un estudio con datos cuantitativos.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


MEDIA O MEDIA ARITMÉTICA

Definición
La media aritmética o promedio de un conjunto de n mediciones
es igual a la suma de las mediciones dividida entre n.
Media poblacional
P
xi
µ= N
i

N: Tamaño de la población

Media muestral
P
xi
x̄ = i
n

n: Tamaño de la muestra.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


MEDIANA

Definición
La mediana m de un conjunto de n mediciones es el valor de
x que cae en la posición media cuando las mediciones son
ordenadas de menor a mayor.
Mediana poblacional
µ̃
Mediana muestral

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Regla del cálculo de la mediana

Primeramente, se ordena los valores de menor a mayor.

1. Si el conjunto de datos hay un número impar de valores, la


mediana es el valor colocado en el centro.
2. Si en el conjunto de datos hay un número par de valores en-
tonces la mediana es el promedio de los dos valores centrales.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Moda

Definición
La moda es la categorı́a que se presenta con más frecuencia o
el valor de x que se presenta con más frecuencia.
Moda poblacional:
M
Moda muestral:
m

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Medidas descriptivas de dispersión

Los conjuntos de datos pueden tener el mismo centro pero con as-
pecto diferente por la forma en que los números se dispersan desde
el centro. Considere las dos distribuciones que se muestran en la
figura. Ambas distribuciones están centradas en x = 4, pero hay
una gran diferencia en la forma en que las mediciones se dispersan
o varı́an. Las mediciones de la figura a) varı́an de 3 a 5; en la figura
b) las mediciones varı́an de 0 a 8.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Las medidas de dispersión, o de variabilidad, expresan cómo se dis-
tribuyen los datos en torno a alguna de las medidas de centralización
definidas antes, y son un complemento a estas últimas para describir
más fielmente un conjunto de datos.

La variabilidad o dispersión es una muy importante caracterı́stica


de datos. Por ejemplo, si usted fabrica tornillos, la variación ex-
trema en los diámetros de los tornillos causarı́a un alto porcentaje
de productos defectuosos.

Las medidas de variabilidad pueden ayudar a crear una imagen men-


tal de la dispersión de los datos. La medida más sencilla de variación
en el rango.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Definición
El rango,R, de un conjutno de n mediciones se define como la
diferencia entre la medición más grande y la más pequeña.
El rango es fácil de calcular e interpretar, es una medida adecuada de
variación para conjuntos pequeños de datos. Pero, para conjuntos
grandes, el rango no es una medida adecuada de variabilidad.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Definición
La varianza de una población de N mediciones es el promedio de
los cuadrados de las desviaciones de las mediciones alrededor de su
media µ. La varianza poblacional se denota con σ 2 y está dada por
la fórmula
P
(xi −µ)2
σ2 = i
N

La mayor parte de las veces, no tendremos todas las medidas de


población disponibles pero necesitaremos calcular la varianza de una
muestra de n mediciones.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Definición
La varianza de una muestra de n mediciones es la suma de las
desviaciones cuadradas de las mediciones alrededor la media x̄ divi-
dida entre (n − 1). La varianza muestral se denota con s 2 y está
dada por la fórmula
P
(xi −x̄ )2
s2 = i
n−1

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


La varianza se mide en términos del cuadrado de las unidades orig-
inales de medición. Si las mediciones originales son en pulgadas,
la varianza se expresa en pulgadas cuadradas. Tomando la raı́z
cuadrada de la varianza, obtenemos la desviación estándar, quere-
gresa la medida de variabilidad a las unidades originales de medición.

Definición
La desviación estándar de un conjunto de mediciones es igual a la
raı́z cuadrada positiva de la varianza.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos
Recordar...

• El valor de s es siempre mayor o igual a cero.


• Cuanto mayor sea el valor de s 2 o de s, mayor es la variabilidad
del conjunto de datos.
• Si s 2 o s es igual a cero, todas las mediciones deben tener el
mismo valor.
• Para medir la variabilidad en las mismas unidades que las ob-
servaciones.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Ejercicios Tarea 1

PROBLEMA 1.

El costo de asegurar un auto se ha convertido en un tema de disgusto


en California porque las tasas de seguro dependen de variables tan
distintas; por ejemplo, la ciudad en la que el usuario vive, el número
de autos que tenga y la compañı́a en la que está asegurado. El sitio
web www.insurance.ca.gov informa de la prima anual para 2006-
2007 para un hombre soltero, con licencia de manejo durante 6-8
años, que conduce un Honda Accord de 12 600 a 15 000 millas al
año y no ha tenido infracciones ni accidentes.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Ejercicios tarea 1

¿Cuál es el promedio de las primas de Allstate Insurance?

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Ejercicios Tarea 1

PROBLEMA 2. El número de cafeterı́as Starbucks en 18 ciudades


a no más de 20 millas de la Universidad de California, en Riverside,
se muestra en la tabla siguiente

a) Encuentre la media, la mediana y la moda.

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Ejercicios Tarea 1

PROBLEMA 3.

Calcule la varianza y desviación estándar para las cinco medi-


ciones siguientes:
5, 7, 1, 2, 4

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos


Ejercicios Tarea1

PROBLEMA 4

Un artı́culo en Archaeometry contenı́a un análisis de 26 muestras de


cerámica romano-británica hallada en cuatro hornos diferentes en el
Reino Unido. Las muestras fueron analizadas para determinar su
composición quı́mica. El porcentaje de óxido de hierro en cada una
de las cinco muestras recolectadas en el sitio de Island Thorns fue:

1.28 2.39 1.50 1.88 1.51

a) Calcule el rango.
b) Calcule la varianza muestral y la desviación estándar.
c) Compare el rango y la desviación estándar. ¿El rango es
aproximadamente cuántas desviaciones estándar?

Lic. Alondra Nohemi Hernández Villanueva PROBABILIDAD Tratamiento de datos

También podría gustarte