Está en la página 1de 12

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN.

FACULTAD DE CIENCIAS FÍSICO MATEMÁTICAS.

LCC

Probabilidad

Trabajo de investigación sobre

el tratamiento de datos

Equipo:

Juan Carlos Arredondo Herrera 1756544

Alberto Baltazar Gutiérrez Ortega 1887970

Josué Reyna Valdez 1800822

Christopher Antonio Vega Martínez 1793788

Viernes 27 de septiembre de 2019


Índice

1.-Tratamiento de datos 3

2.¿Qué es la estadística? 3
Conceptos 4
Ejemplo: Velocidades del viento 4
Ejemplo: Velocidades del viento 2.0 5

3. Medidas de tendencia central 6


Definiciones 6
Media muestral/aritmética ( x ) 6
Mediana 7
Moda ( x ) 7
Varianza 7
Desviación estándar ( s) 7

4. Medidas de Tendencia Central para datos agrupados 9


Media para datos agrupados 9
Mediana para datos agrupados 9
Varianza para datos agrupados 10

5. Regla empírica 12
1. Tratamiento de datos
El tratamiento de datos realiza el tratamiento estadístico de todos los datos
seleccionados, que consiste en afirmaciones estadísticas de los datos. Sin embargo,
en la vida real el análisis no puede quedar reducido a una operación contable de
obtención de promedios, medias e índices, etc. Hay que analizarlos, interpretarlos y
darles sentido.

El propósito del análisis es resumir y comparar las observaciones llevadas a cabo de


tal forma que sea posible materializar los resultados de la investigación con el fin de
dar respuesta a las interrogantes formuladas en la investigación.

El objetivo de la interpretación es buscar un significado más amplio a las respuestas


mediante su conjugación con otros conocimientos disponibles, generalizaciones,
leyes, teorías, etc.

2. ¿Qué es la estadística?

● La rama de las matemáticas que estudia la recolección, análisis,


interpretación y presentación de masas de información numérica (Webster´s
New Collegiate Dictionary)
● Estadística es la rama del método científico que estudia los datos obtenidos
por contar o medir las propiedades de poblaciones. Stuart y Ort (1991)

Ejercicio: Para cada una de las siguientes situaciones, identifique la población de


interés la meta inferencial y diga como emprendería la recolección de una muestra.
a) Un investigador universitario desea estimar la proporción de ciudadanos
estadounidenses de la generación X que están interesados en iniciar sus
propios negocios.
Población de interés: Generación X de Estados Unidos
Meta inferencial: % de personas que quieren iniciar un negocio
Recolección: Metro

b) Un ingeniero municipal desea estimar el promedio de consumo semanal de


agua para unidades habitacionales unifamiliares en la ciudad.
Población de interés: Habitantes de la ciudad
Meta inferencial: % de consumo semanal de agua
Recolección: Base de datos

Conceptos

Tabla de frecuencia: Representa la “distribución” de la población con respecto a


una característica específica.
Histograma: Es una representación gráfica de la distribución de la población con
respecto a una característica específica.

Ejemplo: Velocidades del viento

Promedio de velocidades del viento (en millas por hora) para 45 ciudades de
Estados Unidos.

vientos = [8.9, 7.1, 9.1, 8.8, 10.2, 12.4, 11.8, 10.9, 12.7, 10.3,
8.6, 10.7, 10.3, 8.4, 7.7, 11.3, 7.6, 9.6, 7.8, 10.6, 9.2, 9.1, 7.8, 5.7, 8.3,
8.8, 9.2, 11.5, 10.5, 8.8, 35.1, 8.2, 9.3, 10.5, 9.5, 6.2, 9.0, 7.9, 9.6, 8.8,
7.0, 8.7, 8.8, 8.9, 9.4]
Para obtener el límite (L) con el que vamos a trabajar, se debe encontrar el valor
más pequeño y el más grande y dividirlo entre el número de intervalos deseados.

35.1 − 5.7
L= = 4.9
6

Intervalo Límite Límite Marca de Frecuencia Frecuencia Frecuencia


Inferior Superior la clase absoluta relativa relativa

1 5.7 10.6 8.15 37 37 / 45 37 / 45

2 10.7 15.6 13.15 7 7 / 45 44 / 45

3 15.7 20.6 18.15 0 0 44 / 45

4 20.7 25.6 23.15 0 0 44 / 45

5 25.7 30.6 28.15 0 0 44 / 45


6 30.7 35.6 33.15 1 1 / 45 45 / 45

Histograma

Ejemplo: Velocidades del viento 2.0

Si removemos el valor de 35.1, la tabla y el histograma se ven diferentes. Esto


comprueba que en ocasiones un solo valor puede afectar mucho el análisis.

12.7 − 5.7
L=
6

Intervalo Límite Límite Marca de Frecuencia Frecuencia Frecuencia


inferior Superior la clase absoluta relativa acumulada

1 5.7 7.1 6.4 4 4 / 44 4 / 44

2 7.2 8.5 7.85 9 9 / 44 13 / 44


3 8.6 10 9.3 18 18 / 44 31 / 44

4 10.1 11.5 10.8 10 10 / 44 41 / 44

5 11.6 13 12.3 3 3 / 44 44 / 44

Histograma

3. Medidas de tendencia central

Definiciones

Media muestral/aritmética (x
̅)
La media de una muestra de n medidas X1, X2, … , Xn está dada por

𝑋1 + 𝑋2 + . . . + 𝑋𝑛 ∑𝑛𝑖= 1 𝑋𝑖
x̅ = =
𝑛 𝑛
Mediana
En un conjunto de datos ordenados en forma creciente la mediana es el dato que se
encuentra en la posición de enmedio cuando el número de datos es impar y es el
promedio de los datos centrales cuando el número de datos es par.

Moda ( 𝑥̂ )
Es el dato que se repite con mayor frecuencia.

Varianza
La varianza de una muestra de mediciones 𝑋1 + 𝑋2 , . . . , 𝑋𝑛 denotada por 𝑠 2 se
define por:

2 ∑𝑛
𝑖 = 1 (𝑋𝑖 − 𝑋 )
2
𝑠 = 𝑛−1

Desviación estándar ( s )
La desviación estándar de una muestra de mediciones, es la raíz cuadrada positiva
de la varianza.

Entonces con el ejemplo visto anteriormente “Velocidades del viento


2.0” se determinarán estos conceptos (media, moda, etc..)
4. Medidas de Tendencia Central para datos agrupados

Cuando se trabaja con datos que han sido agrupados en una distribución de
frecuencias, no se sabe con certeza los valores individuales de cada dato. Por lo
que se utilizan métodos alternos para aproximar los valores de las medidas
descriptivas.

Media para datos agrupados


Se supone que las observaciones en cada clase son iguales al punto medio de la
clase

∑𝑐𝑖 = 1 𝑓𝑖 ∗ 𝑚𝑖
x̅ =
𝑛
donde
c : número de clases (o intervalos)
𝑓𝑖 : frecuencia absoluta de la clase i
𝑚𝑖 : marca de la clase i
n : número total de clases

Mediana para datos agrupados


Primero se encuentra la clase mediana, la cual es la clase cuya frecuencia
𝑛
acumulada es mayor o igual a y puede determinarse mediante la siguiente
2
fórmula:

donde
𝐿𝑖 : límite inferior del intervalo de la mediana
n : tamaño de la muestra
𝐹𝑖 − 1: Frecuencia absoluta acumulada del intervalo anterior, al intervalo de la
mediana
𝑓𝑖 : frecuencia absoluta simple del intervalo de la mediana
a : amplitud del intervalo de la mediana. Se le resta al limite superior el limite inferior
del intervalo de la mediana.

Varianza para datos agrupados


Es un método para estimar la varianza de varias poblaciones diferentes.

∑ 𝑐 2 2
𝑖 = 1 𝑓𝑖 ∗ (𝑚𝑖 ) − 𝑛 ( x̅ )
𝑠2 =
𝑛 − 1
donde
𝑥 : media agrupada
c : número de clases (o intervalos)
𝑓𝑖 : frecuencia absoluta de la clase i
𝑚𝑖 : marca de la clase i
n : número total de clases

Considerando el ejemplo Velocidades del viento 2.0

Marca de 𝑓𝑖
la clase

6.4 4

7.85 9

9.3 18

10.8 10

12.3 3
5. Regla empírica

Muchas distribuciones de datos de la vida real tienen forma de montículo; esto es,
se pueden aproximar por medio de una distribución de frecuencia en forma de
campana conocida como curva normal. Los datos que poseen distribuciones en
forma de montículo tienen características definidas de variación.

Regla empírica
Para una distribución de mediciones que sea aproximadamente normal (forma de
campana), se deduce que el intervalo con puntos extremos

μ ± 𝝈 contiene aproximadamente 68% de las mediciones


μ ± 2𝝈 contiene aproximadamente 95% de las mediciones
μ ± 3𝝈 contiene casi todas las mediciones

Ejemplo
Suponga que se sabe que las calificaciones de un examen de preparatoria en un
estado tienen, aproximadamente, una distribución normal con media de μ = 64 y
desviación estándar 𝝈 = 10. Entonces se puede deducir que aproximadamente 68%
de las calificaciones están entre 54 y 74, que aproximadamente 95% de las
calificaciones están entre 44 y 84 y que casi todas las calificaciones están entre 34 y
94. Así, el conocimiento de la media y la desviación estándar nos da una imagen
más o menos buena de la distribución de frecuencia de las calificaciones.