Está en la página 1de 11

18/01/2018

TECNOLÓGICO DE MONTERREY Agenda

IN4027 – CIENCIA DE DATOS E INFERENCIA 1. Introducción


ESTADÍSTICA
2. Muestreo

MUESTREO Y ANÁLISIS DESCRIPTIVO 3. Estadísticos

Dr. Rodrigo E. Peimbert García 4. Resúmenes Gráficos


Master Black Belt
Material preparado en conjunto con: Maestría en Ciencias de la Ingeniería
Dr. Víctor G. Tercero Gómez Monterrey, México
2

RESÚMENES GRÁFICOS
• Los resúmenes gráficos se utilizan para visualizar una lista de
números.

RESÚMENES GRÁFICOS
• Algunas técnicas gráficas para visualizar los datos son:

– Diagrama de tallos y hojas.


– Diagrama de puntos.
– Histograma.
– Diagrama de caja.
– Diagrama de dispersión.

3 25
4

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


DIAGRAMA DE TALLO Y HOJA EJEMPLO
• Cada elemento se divide en dos partes: un tallo, que consiste 4 259
en él dígito, o los dos dígitos de la izquierda, y la hoja, que 5 0111133556678
consiste en el siguiente dígito. 6 067789
7 01233455556666699
8 000012223344456668
• Es una forma compacta de representar los datos.
9 013

• Un punto a favor de esta técnica es que permite visualizar • Observe la primera línea. Ésta representa los valores 42, 45 y
todos los valores de la muestra. Uno puede reconstruir la 49, en minutos.
muestra a partir del diagrama de tallos y hojas.

25
5 25
6

1
18/01/2018

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


DIAGRAMA DE PUNTOS • Generalmente no se utilizan en presentaciones formales.
• Un diagrama de puntos es un gráfico que puede usarse para
dar una vaga idea de la forma de la muestra. EJEMPLO

• Es útil cuando el tamaño de la muestra no es muy grande y


cuando la muestra contiene valores repetidos.

• Los diagramas de tallo hoja y los diagramas de puntos son


buenos métodos para examinar una muestra de manera
informal.

26
7 27
8

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


HISTOGRAMA • En general, es mejor tener más intervalos, pero también es
• Un histograma es un gráfico que da una idea sobre la bueno tener varios números en los intervalos.
“forma” de la muestra.
• Cuando el número de observaciones n es grande, es
• El primer paso es construir la tabla de frecuencias. recomendable calcular el número de clases como: o
2 ⁄.
• Los intervalos se conocen propiamente como intervalos de
clase. Éstos dividen la muestra en grupos. • Las barras del histograma se tocan entre sí. Un espacio indica
que no hay observaciones en dicho intervalo.
• No existen una regla definida sobre como elegir el ancho de
cada intervalo de clase.

27
9 27
10

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


• Elegir puntos frontera para los intervalos de clase. EJEMPLO
Usualmente estos intervalos tiene el mismo ancho.

• Calcule las frecuencias. Este es el número de observaciones


que ocurren en cada intervalo.

• Calcule las frecuencias relativas de cada clase. Estas son las


frecuencias divididas entre el total de las observaciones.

28
11 28
12

2
18/01/2018

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


1. De ser posible, hacer que los intervalos sean todos del SIMETRÍA Y SESGO
mismo tamaño. • Un histograma es perfectamente simétrico si la mitad
derecha es un espejo de la mitad izquierda. Por ejemplo, la
2. Generalmente entre 5 y 20 intervalos de clase son estatura de los hombres tomadas aleatoriamente tienden a
suficientes. ser simétricas.

3. La raíz cuadrada de n también • Los histogramas que no son simétricos se dice que son
nos puede servir de referencia sesgados.
para determinar la cantidad
de intervalos.

13 31
14

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


• Un histograma con una cola larga hacia la derecha se dice EJEMPLOS
que está sesgados hacia la derecha, o positivamente
sesgado. Por ejemplo, el ingreso de las personas está
sesgado hacia la derecha.

• Un histograma son una cola larga hacia la izquierda se dice


que está sesgado hacia la izquierda, o negativamente
sesgado. Por ejemplo, las calificaciones de un examen fácil
están sesgadas hacia la izquierda.

31
15 31
16

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


• Cuando un histograma es aproximadamente simétrico, la HISTOGRAMAS UNIMODALES Y BIMODALES
media y la mediana son aproximadamente iguales. • Un histograma unimodal es aquel que tiene un solo pico,
moda o máximo local.
• Cuando un histograma esta sesgado hacia la derecha, la
media es mayor que la mediana. • Un histograma bimodal tiene dos picos claramente
definidos.
• Cuando un histograma está sesgado hacia la izquierda, la
media es menor que la mediana. • En algunos casos, un histograma bimodal indica que la
muestra puede dividirse en dos sub-muestras que difieren
una de otra de manera importante.

31
17 31- 18
32

3
18/01/2018

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


EJEMPLOS DIAGRAMA DE CAJA
• Un diagrama de caja es un gráfico que presenta la mediana,
el primer y tercer cuartil, y cualquier punto atípico que este
presente en la muestra.

• El rango intercuartílico (RIC) es la diferencia entre el tercer y


primer cuartil. Esta distancia mide la cobertura de la mitad
central de los datos.

• Cualquier punto 1.5*RIC arriba del tercer cuartil, o 1.5*RIC


debajo del primer cuartil, son considerados puntos atípicos.

31- 19 33
20
32

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


1. Caja: Calcular la mediana, primer y tercer cuartil. Indique
estos puntos con líneas horizontales. Dibuje líneas
verticales para completar la caja.
MIN{Q3+1.5RIC; Dato mayor)
2. Bigotes: líneas verticales que se extienden desde el primer
cuartil y el tercer cuartil. Extienda líneas verticales hasta los Rango Inter- cuartilico:
puntos más distantes que no son puntos atípicos. RIC=Q3-Q1

MAX{Q1-1.5RIC;Dato menor)
3. Puntos atípicos: Dibuje cada punto atípico individualmente
con una cruz. Valor Extremo
Valor fuera de los limites de los
bigotes del diagrama de caja

33- 21 22
34

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


EJEMPLO COMPARACIÓN DE DIAGRAMAS DE CAJA
• La distancia entre el tercer cuartil y la mediana es menor • Una ventaja de los diagramas de caja es que se pueden
que la diferencia entre la mediana y el primer cuartil. colocar uno al lado del otro para poder compararlos
visualmente de una manera fácil.
• El bigote inferior es mayor
que el superior, lo que • Esto permite comparar las
indica que la cola inferior medianas y los cuartiles
es mayor que la superior. entre las muestras. También
nos indica como están
• Este diagrama sugiere que dispersos los datos entre las
los datos están sesgados muestras.
hacia la izquierda.
34- 23 35
24
35

4
18/01/2018

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


EJERCICIO DATOS MULTIVARIADOS – DIAGRAMA DE DISPERSIÓN
Elaborar un Diagrama de Tallos y hojas, un Histograma y un Diagrama de Caja con los siguientes datos: • A los datos que consisten de más de un valor se les llama
multivariados. Cuando un elemento tiene un par de valores,
438
413
450
450
487
430
451
431
452
465
441
444
444
471
461
453
432
431
471
458
se dice que los datos son bivariados.
444 450 446 444 466 458 471 452 455 445
468
445
459
466
450
456
453
434
473
471
454
437
458
459
438
445
447
454
463
423
• Uno de los resúmenes gráficos
472 470 433 454 464 443 449 435 435 451 más útiles para datos numéricos
474 457 455 448 478 465 462 454 425 440 bivariados es el diagrama de
454 441 459 435 446 435 460 428 449 442 dispersión.
455 450 423 432 459 444 445 454 449 441
449 445 455 441 464 457 437 434 452 439

25 37
26

RESÚMENES GRÁFICOS RESÚMENES GRÁFICOS


• Si los puntos del diagrama están dispersos de forma
aleatoria, se dice que las dos variables tiene poca relación
entre ellas.

• Si los datos están dispersos alrededor de alguna línea


(siempre que no sea una línea recta con pendiente cero), se
dice que una variable podría usarse para predecir a la otra.

38
27 28

RESÚMENES GRÁFICOS TECNOLÓGICO DE MONTERREY

IN4027 – CIENCIA DE DATOS E


INFERENCIA ESTADÍSTICA

PROBABILIDAD

Dr. Rodrigo E. Peimbert García


Master Black Belt

Material preparado en conjunto con: Maestría en Ciencias de la Ingeniería


29 Dr. Víctor G. Tercero Gómez Monterrey, México

5
18/01/2018

Agenda

1. Introducción

2. Ideas Básicas

3. Métodos de Conteo
INTRODUCCIÓN
4. Probabilidad Condición e Independencia

5. Variables Aleatorias.
31 32

INTRODUCCIÓN
• El desarrollo de la teoría de probabilidad fue financiada por
los jugadores de apuestas en los años 70´s, quienes
contrataron algunos de los mejores matemáticos del

IDEAS BÁSICAS
momento, para calcular las probabilidades correctas para
ciertos juegos de azar.

• Después, las personas se dieron cuenta que los procesos


científicos también involucraban “suerte”, y desde entonces
los métodos probabilísticos se han utilizado para estudiar el
mundo físico que nos rodea.

9 34
0

IDEAS BÁSICAS IDEAS BÁSICAS


• Para poder estudiar sistemáticamente la probabilidad, se • Al conjunto de todos los posibles resultados de un
requiere conocer un poco de la terminología. experimento se le conoce como el Espacio Muestra del
experimento.
• Un experimento es un proceso que origina un resultado que
no se puede predecir con certeza. • Para el lanzamiento de una moneda, se puede definir el
conjunto {Cara,Águila} como el espacio muestra. Para lanzar
• Por ejemplo, lanzar una moneda, un dado, medir el diámetro un dado de seis caras, se puede utilizar el conjunto
de un tornillo y pesar el contenido de una caja de cereal son {1,2,3,4,5,6}.
ejemplos de experimentos.
• Estos espacios muestrales son finitos, pero existen
experimentos cuyos espacios muestrales son infinitos.

4
48
8

6
18/01/2018

IDEAS BÁSICAS IDEAS BÁSICAS


• Para algunos experimentos, hay diferentes espacios • A un sub-conjunto del espacio muestra se le conoce como
muestrales que se pueden elegir. Evento.

• Por ejemplo, asuma que en un proceso se manufacturan • Note que para cualquier espacio muestra Ø, el conjunto
pernos cuya longitud varia entre 5.20 y 5.25 cm. El espacio vacío es un evento, tal como lo es todo el espacio muestra.
muestra obvio será {x|5.20 < x < 5.25}.

• Sin embargo, si sólo se requiere determinar si el perno es


muy corto, muy largo, o sí cumple con la especificación, un
buen espacio muestra sería {muy corto, muy largo, dentro de
especificación}.

49 49

IDEAS BÁSICAS IDEAS BÁSICAS


EJEMPLO • Denotaremos con S al espacio muestra.
• Un Ingeniero Eléctrico tiene a la mano dos cajas con cuatro resistores
cada uno. Los resistores en la primera caja están etiquetados como 10
ohms, pero en realidad las resistencias son de 9, 10, 11 y 12 ohms. S = {(9,18), (9,19), (9,20), (9,21), (10,18), (10,19), (10,20),
Mientras tanto, los resistores en la segunda caja están etiquetados como (10,21), (11,18), (11,19), (11,20), (11,21), (12,18), (12,19),
20 ohms, pero en realidad las resistencias son de 18, 19, 20 y 21 ohms. El (12,20), (12,21)}
Ingeniero elige un resistor de cada caja y determina la resistencia de
cada uno.
A = {(11,18), (11,19), (11,20), (11,21), (12,18), (12,19),
• Sea A el evento donde el primer resistor tiene una resistencia mayor a (12,20), (12,21)}
10; sea B el evento donde el segundo resistor tiene una resistencia B = {(9,18), (10,18), (11,18), (12,18)}
menor a 19; y sea C el evento donde la suma de las resistencias es igual a
28. Encuentre el espacio muestra para este experimento, y especifique C = {(9,19), (10,18)}
los sub-conjuntos correspondientes, para los eventos A, B y C.

49 50

IDEAS BÁSICAS IDEAS BÁSICAS


COMBINACIÓN DE EVENTOS • La unión de dos eventos A y B, denotada por A∪B, es el
• A menudo se construyen eventos combinando eventos conjunto re resultados que pertenecen ya sea a A, a B, o a
simples. ambos.

• Dado que los eventos son sub-conjuntos de los espacios • La intersección de dos eventos A y B, denotada por A∩B, es
muestrales, normalmente se utiliza la notación de conjuntos el conjunto de resultados que pertenecen tanto a A como a
para describir los eventos construidos de esta manera. B.

• El complemento de un evento A, denotado por Ac, es el


conjunto de resultados que no pertenecen a A.

50 50

7
18/01/2018

IDEAS BÁSICAS IDEAS BÁSICAS


• DIAGRAMAS DE VENN EJEMPLO
• Para el ejemplo anterior, encuentre B∪C y A∩Bc.

B∪C = {(9,18),(10,18),(11,18),(12,18),(9,19)}

A∩Bc = {(11,19),(11,20),(11,21),(12,19),(12,20),(12,21)}

50 50

IDEAS BÁSICAS IDEAS BÁSICAS


EVENTOS MUTUAMENTE EXCLUYENTES DEFINICIÓN
• Existen algunos eventos que no pueden ocurrir juntos. • Los eventos A y B se conocen como mutuamente excluyentes
si no tienen resultados en común.
• Por ejemplo, es imposible que una moneda resulte en cara y
águila al mismo tiempo. • De manera más general, a la colección de eventos A1, A2, …,
An se les conoce como mutuamente excluyentes si ningún
• Es imposible que un perno de metal pueda ser muy corto y par de ellos tiene resultados en común.
muy largo a la vez.

• A estos eventos se dice que son mutuamente excluyentes.

51 51

IDEAS BÁSICAS IDEAS BÁSICAS


PROBABILIDADES • Dado un experimento y cualquier evento A:
• Cada evento en un espacio muestra tiene una probabilidad
de ocurrencia. • La expresión P(A) denota la probabilidad de que el evento A
ocurra.
• Existen varias interpretaciones de lo que es una
probabilidad; una importante es que un evento es la • P(A) es la proporción de veces que el evento A ocurriría en el
proporción de veces que el evento ocurriría en el largo plazo, largo plazo, si el experimento se repitiera una y otra vez.
si el experimento se repitiera una y otra vez.

52 52

8
18/01/2018

IDEAS BÁSICAS IDEAS BÁSICAS


• En algunas ocasiones, la única manera de estimar la AXIOMAS DE PROBABILIDAD
probabilidad de un evento es repetir el experimento varias • La probabilidad se basa en tres reglas de sentido común,
veces y determinar la proporción de veces que el evento conocidas como axiomas:
ocurre.
1. Sea S un espacio muestra. Entonces, P(S) = 1.
• En algunos casos, las probabilidades pueden ser
determinadas en base a la naturaleza física del evento.
2. Para cualquier evento A, 0 ≤ P(A) ≤ 1.

• En la práctica, los científicos e ingenieros estiman las


probabilidades en base al conocimiento científico y su 3. Si A y B son eventos mutuamente excluyentes, entonces
experiencia, y después utilizan reglas matemáticas para P(A∪B) = P(A) + P(B).
calcular las probabilidades de otros eventos.
52 53

IDEAS BÁSICAS IDEAS BÁSICAS


• Existen un par de reglas básicas que son útiles para calcular EJEMPLO
probabilidades: • La siguiente tabla presenta las probabilidades para el número de veces
que un sistema digital se falla o se “cae” en una semana. Sea A el evento
correspondiente a más de dos fallas durante la semana, y B el evento
• Para cualquier evento A, correspondiente a que el sistema falla al menos una vez. Encuentre el
espacio muestra y los sub-conjuntos del espacio muestra que
corresponden a los eventos A y B. Finalmente encuentre P(A) y P(B).
P(AC) = 1 – P(A)
Fallas Probabilidad
0 0.60
• Sea Ø el conjunto vacío. Entonces, 1 0.30
2 0.05
P(Ø) = 0 3 0.04
4 0.01

53 54

IDEAS BÁSICAS IDEAS BÁSICAS


• Si A es un evento que contiene los resultados O1, …, On, lo • Un ejemplo simple es el lanzamiento de un dado
que significa que A={O1,…,On}, entonces balanceado, para el cual el espacio muestra es {1,2,3,4,5,6} y
cada uno de éstos tiene una probabilidad de 1/6.
P(A) = P(O1) +P(O2) + … + P(On)
• Si S es un espacio muestra que contiene N resultados
ESPACIOS MUESTRALES CON RESULTADOS IGUALMENTE igualmente probables, y si A es un evento que contiene k
PROBABLES. resultados, entonces:
• Para algunos experimentos, el espacio muestra puede
construirse con resultados igualmente probables.

55 55

9
18/01/2018

IDEAS BÁSICAS IDEAS BÁSICAS


EJEMPLO EJEMPLO
• Un dado de extrusión es utilizado para producir barras de aluminio. • Para el ejemplo anterior, ¿Cuál es la probabilidad de que la barra sea
Existen especificaciones para la longitud y de diámetro de las barras. muy corta o muy gruesa?
Para cada barra, la longitud se clasifica como: muy corta, muy larga, o
bien. Mientras tanto, el diámetro se clasifica como: muy delgado, muy
grueso, o bien. Para la población de 1,000 barras, el número de barras en
cada clase es:
Diámetro
Muy • Sean A y B cualquier par de eventos. Entonces.
Longitud Bien Muy grueso
delgado
Muy corta 10 3 5
Bien 38 900 4 P(A∪B) = P(A) + P(B) – P(A∩B)
Muy larga 2 25 13
• Se toma una muestra de una barra a partir de la población. ¿Cuál es la
probabilidad de que sea muy corta?
56-
56
57

IDEAS BÁSICAS
EJEMPLO
• En un proceso que manufactura latas de aluminio, la probabilidad de que
una lata este dañada por un lado es 0.02, la probabilidad de que este

TAREA
dañada de la parte superior es 0.03, y la probabilidad de que este
dañada tanto de un lado como de la parte superior es 0.01. ¿Cuál es la
probabilidad de elegir una lata, seleccionada de manera aleatoria, que
este dañada? ¿Cuál es la probabilidad de que no tenga ningún daño?

58
58

TAREA SECTION 1.3 – EXERCISE 5


• Libro: Navidi (2015). Statistics for Engineers & Scientists, 4º. • A certain reaction was run several times using each two catalysts, A and
Edition. McGraw Hill. B. The catalysts were supposed to control the yield of an undesirable
side product. Results, in units of percentage yield, for 24 runs of catalyst
A and 20 runs of catalyst B are as seen in the Excel File Tarea#1.xls.
• CAPÍTULO 1:
– Sección 3: Ejercicios 5, 11 y 18. a. Construct a histogram for the yields of each catalyst.
b. Construct comparative boxplots for the yields of the two catalysts.
• CAPÍTULO 2:
c. Using the boxplots, what differences can be seen between the
– Sección 1: Ejercicios 3, 7 y 17. results of the yields of the two catalysts?

• Puedes intentar hacer otros ejercicios. Los aquí descritos son


simplemente una guía para tu estudio.

59

10
18/01/2018

SECTION 1.3 – EXERCISE 11 SECTION 1.3 – EXERCISE 18


• The following table (Tarea#1.xls) presents the number of students absent
in a middle school in northwestern Montana for each school day in • Match each scatterplot to the
January 2008. statement that best describes it.
i. The relationship between x
and y is approximately linear.
a. Construct a boxplot.
b. There was a snowstorm on January 27. Was the number of
absences the next day an outlier? ii. The relationship between x
and y is nonlinear.

iii. There isn’t much of any


relationship between x and y.

iv. The relationship between x


and y is approximately linear,
except for an outlier.

SECTION 2.1 – EXERCISE 3 SECTION 2.1 – EXERCISE 7


• A section of an exam contains four True-False questions. A completed • In a survey of households with television sets, the proportion of
exam paper is selected at random, and the four answers are recorded. television sets in various types of rooms was:

a) List all 16 outcomes in the sample space. Room Proportion


b) Assuming the outcomes to be equally likely, find the probability Bedroom 0.37
that all the answers are the same. Living Room 0.26
Den 0.22
c) Assuming the outcomes to be equally likely, find the probability
Basement 0.12
that exactly one of the four answers is “True”.
Kitchen 0.02
d) Assuming the outcomes to be equally likely, find the probability Bathroom 0.01
that at most one of the four answers is “True”.
a) What is the probability that a TV set is located in a living room or
den?
b) What is the probability that a TV set is not located in a bedroom?

SECTION 2.1 – EXERCISE 17


• A system contains two components, A and B. The system will function
only if both components function. The probability that A functions is
0.98, the probability that B functions is 0.95, and the probability that
either A or B functions is 0.99. What is the probability that the system
functions?

11

También podría gustarte