Está en la página 1de 26

Procesamiento y Exploración

de datos
Probabilidad para ciencia de datos
Esp. Martín Pustilnik, Mg. Iris Sattolo
año 2023
Conceptos de probabilidad y estadística

PRIMERA PARTE

1) Introducción
2) Espacio de probabilidad
3) Tablas de frecuencia
Taller procesamiento y exploración de datos
1- Introducción

● Seguramente está acostumbrado a escuchar o leer :


○ “Según la encuestadora XX los datos recogidos muestran la tendencia de tal persona sobre
tal otra….”
○ O puede encontrar una tabla donde se relacionan las respuestas con las personas
entrevistadas, por ejemplo en la ciudad de Hurlingham ¿ qué tipo de residuos clasifica Ud.?
1- Introducción
Cuando usted ve un artículo como el anterior, ¿simplemente lee el título y el primer párrafo, o lee más y
trata de entender el significado de los números? ¿Cómo obtuvieron estos datos los autores? ¿En
realidad entrevistaron a todos las personas de la ciudad ?
La observación de la sociedad y la naturaleza, el intento de dar una explicación a los hechos que en
ellas se producen y, en consecuencia, la búsqueda de soluciones que den respuesta a las necesidades
existentes, es un elemento crucial en el camino para producir conocimiento, y así progresar.
● De forma que, cuando se intenta dar una explicación a un determinado fenómeno observado en una
población (o en una parte de ella), es necesario disponer de una herramienta rigurosa que permita
extraer conclusiones sobre dicha población y eliminar, en gran medida, la posible subjetividad
presente en el observador. Esta herramienta es la estadística.
● La estadística es una rama de las matemáticas que tiene aplicaciones en toda faceta de nuestra
vida.
1- Introducción
● En el estudio de la estadística tratamos básicamente con la presentación e interpretación de
resultados fortuitos que ocurren en un estudio planeado o en una investigación científica. Al
referirnos a cualquier registro de información, ya sea numérica o no, utilizaremos el termino
observación.
● Los estadísticos utilizan la palabra experimento para describir cualquier proceso que genere un
conjunto de datos. Un ejemplo simple de experimento estadístico es el lanzamiento de una moneda
al aire. En tal experimento solo hay dos resultados posibles: cara o cruz. En la mayoría de los casos
los resultados dependerán del azar, por lo tanto, no se pueden predecir con certeza.
● Existen dos tipos de fenómenos: determinísticos y aleatorios
○ Un fenómeno se dice determinístico, si se sabe con toda certeza cuál será su comportamiento.
○ Un fenómeno es aleatorio, cuando no podemos afirmar con certeza cuál será su comportamiento.

Ejemplo
Si lanzamos una piedra al aire, podemos afirmar con certeza que volverá a
caer a la superficie de la tierra, pero no podemos saber con precisión el punto
en el que caerá. Así, la caída es un fenómeno determinístico, mientras que el
lugar en que se producirá dicha caída es aleatorio, ya que existe incertidumbre
respecto del punto preciso en el que caerá.
2- Espacios de probabilidad

La teoría de la probabilidad estudia el comportamiento de los fenómenos o experimentos aleatorios.

La aleatoriedad está relacionada con el concepto de probabilidad.


Seguramente escuchó o dijo estas palabras
¿Cuál es la probabilidad de que llueva hoy?
¿Qué probabilidad existe en que gane mi equipo el campeonato?

Mediante ciertos estudios probabilísticos se podrán realizar afirmaciones respecto de la probabilidad


de que determinado artículo de una línea de producción sea defectuoso, la probabilidad de ganar cierto
juego de azar o la probabilidad de que al extraer un individuo al azar del curso de estadística, que el
mismo sea mayor de 30 años, y que sea fumador.
2- Espacios de probabilidad

Eventos o sucesos
● En cualquier experimento dado, podríamos estar interesados en la ocurrencia
de ciertos eventos, mas que en la ocurrencia de un elemento específico en
el espacio muestral. Por ejemplo, quizás estemos interesados en el evento A,
en el cual el resultado de lanzar un dado es 2.
● Un evento es un subconjunto de un espacio muestral.
2- Espacios de probabilidad
● Definimos, a continuación, ciertos elementos comunes de cualquier experimento:
– Espacio muestral (𝜴 ): conjunto de todos los posibles resultados que se pueden dar al realizar un
experimento.
– Evento Simple: cada uno de los posibles resultados, considerados individualmente. Es decir, cada
uno de los elementos del espacio muestral.
– Evento compuesto: conjunto de eventos simples.

● En general, salvo aclaración en contrario, la letra griega omega (𝜴 ) representará el espacio


muestral, mientras que las letras mayúsculas del alfabeto latino (A, B,...) denotarán eventos, tanto
simples como compuestos. Unos ejemplos clarificarán las definiciones enunciadas.
2- Espacios de probabilidad

● Ejemplo 1:
Considere el lanzamiento de un dado. El espacio muestral está dado por
𝛺= { 1,2,3,4,5,6 } , un evento simple es A =”el resultado es 2” y un evento compuesto es
B =” el resultado es un número par”. Los eventos pueden escribirse también como
A= {2} y B= {2,4,6}
● evento simple: salió 2

Espacio muestral: Pero puede ser evento compuesto:


Todas las posibilidades que tiene el dado Salió dos y el resultado es par.
2- Espacios de probabilidad

● Ejemplo 2:
Si se considera un experimento dado por el lanzamiento de una moneda, el espacio
muestral está dado por 𝛺= { cara, ceca} , y en este caso sólo es posible considerar los
eventos simples A= {cara} y B= {ceca}
2- Espacios de probabilidad
¿Cómo pueden relacionarse esos eventos? → OPERACIONES CON EVENTOS
Esos eventos los relacionamos con la teoría de conjuntos. ( nomenclatura)

Definimos como S al evento cierto o seguro


∅ es un evento imposible
A U B ( unión) Ocurre A o ocurre B
A ∩ B (intersección) Ocurre A y B
𝐴𝐶 Complemento de A No ocurre A
A-B = A ∩ 𝐵𝐶 Diferencia: Ocurre A y no ocurre B
A ⊂ B = si A ocurre implica que B ocurre
A ∩ B = ∅ implica que A y B son mutuamente excluyentes o disjuntos
2- Espacios de probabilidad

● Considere el lanzamiento de un dado.


El espacio muestral (𝛀) está dado por: 𝛀= {1,2,3,4,5,6}
A = { 1,2,3} y B = { 2,4,6} C= { 5} D= {2,3}
Defina:
● A∪ B = {1,2,3,4,6} operación lógica asociada A or B
● A∩ B = {2} operación lógica asociada A and B
● A∩ C = { ∅}
● AC = {4,5,6} El complemento se define en relación al espacio muestral
● D⊆ A D está incluido en A
2- Espacios de probabilidad

Teoría de conjuntos
A∪ B A∩ B AC

A B A B

A
2- Espacios de probabilidad
¿A qué nos referimos cuando hacemos afirmaciones como “Juan probablemente
ganara el torneo de tenis”, o “tengo 50% de probabilidades de obtener un número par
cuando lanzo un dado”, o “la universidad no tiene posibilidades de ganar el juego de
futbol esta noche”?
En cada caso expresamos un resultado del cual no estamos seguros, pero con base en
la experiencia, la probabilidad de la ocurrencia de un evento que resulta de tal
experimento estadístico se evalúa utilizando un conjunto de números reales
denominados pesos o probabilidades, que van de 0 a 1. Para todo punto en el
espacio muestral asignamos una probabilidad tal que la suma de todas las
probabilidades es 1.
Un evento imposible de ocurrir tendrá probabilidad cero, mientras un evento seguro
tendrá probabilidad uno.
2- Espacios de probabilidad
Definición Clásica de probabilidad

Sea 𝛀 un espacio muestral finito que contiene N eventos simples, y sea A un


evento que puede darse de n maneras distintas; es decir, que al realizar un
experimento hay N resultados posibles de los cuales n son favorables al
evento A . La probabilidad de que ocurra el evento A está dada por:

𝑃 𝐴 = resultados favorables
resultados posibles
2- Espacios de probabilidad
La probabilidad de un evento A es la suma de los pesos de todos los puntos muestrales en A.
Por lo tanto,
0 ≤ P(A) ≤ 1, P(ϕ) = 0 y P(S) = 1.
Además, si A1, A2, A3,・・・ es una serie de eventos mutuamente excluyentes, entonces
P(A1 ∪ A2 ∪ A3 ∪ ・・・) = P(A1) + P(A2) + P(A3) + ・・・.

Ejemplo 1:Una moneda se lanza dos veces. ¿Cuál es la probabilidad de que ocurra al menos una
cara (H)?
Solución: El espacio muestral para este experimento es
S = {HH, HT, TH, TT}
Si la moneda esta balanceada, cada uno de estos resultados tendrá las mismas probabilidades de
ocurrir. Por lo tanto, asignamos una probabilidad de ω a cada uno de los puntos muestrales.
Entonces, 4ω = 1 o ω = 1/4. Si A representa el evento de que ocurra al menos una cara (H),
entonces
1 1 1 3
A = {HH ,H T, TH } y P (A) = + + =
4 4 4 4
2- Espacios de probabilidad
Ejemplo 2:A una clase de estadística para ingenieros asisten 25 estudiantes de ingeniería
industrial, 10 de ingeniería mecánica, 10 de ingeniería eléctrica y 8 de ingeniería civil. Si el
profesor elige al azar a un estudiante para que conteste una pregunta, ¿qué probabilidad hay de
que el elegido sea a) estudiante de ingeniería industrial, b) estudiante de ingeniería civil o
estudiante de ingeniería eléctrica?.

Las especialidades de los estudiantes de ingeniería industrial, mecánica, eléctrica y civil se


denotan con I, M, E y C, respectivamente. El grupo esta integrado por 53 estudiantes y todos
tienen las mismas probabilidades de ser seleccionados.
a) Como 25 de los 53 individuos estudian ingeniería industrial, la probabilidad del evento I, es
decir, la de elegir al azar alguien que estudia ingeniería industrial, es
25
P (I )=
53
b) Como de los 53 estudiantes 18 son de las especialidades de ingeniería civil o eléctrica, se
18
deduce que P (C∪E) =
53
2- Espacios de probabilidad

● La Definición Frecuentista de probabilidad surge debido a la existencia de


fenómenos aleatorios en los cuales no se puede determinar con precisión la
probabilidad clásica de cada evento simple, es decir, que no podemos precisar
cuántos resultados favorables a un evento existen y/o cuántos resultados posibles
hay.
● Para estimar la probabilidad de cada uno de esos eventos, se recurre a la segunda
manera de definir a la probabilidad, utilizando la frecuencia relativa de ocurrencia
de los mismos.
● La frecuencia relativa entonces corresponde a las veces que se repite un número en
un conjunto de datos respecto al total, pero se expresa en porcentajes (%)
2- Espacios de probabilidad
● Ejemplo de Definición frecuentista de probabilidad
Consideremos un control de calidad de una empresa, en el cual se desea saber la probabilidad de
que un determinado artefacto tenga una vida útil superior a las 1200 hs. Para ello, el departamento
de control de calidad separa 500 unidades de la producción y mide la vida útil de cada unidad. Los
resultados se observan en la siguiente tabla:

Así, de acuerdo a la Definición Frecuentista


(y considerando que 500 es un número
suficientemente grande), la probabilidad de
que la vida útil sea mayor o igual a 1200 hs.
es:
3- Tablas de frecuencia
● ¿Qué es una tabla de frecuencia?
● Una tabla de frecuencias muestra de forma ordenada un conjunto de datos
estadísticos y a cada uno de ellos le asigna una frecuencia que, en pocas palabras,
son las veces que se repite un número o dato. Puedes usar las tablas de frecuencias
para ordenar variables cuantitativas o cualitativas.

● Tipos de frecuencias
• Frecuencia absoluta: es el número de veces que se repite un número en un conjunto de
datos.
• Frecuencia absoluta acumulada: es la suma de las frecuencias absolutas.
• Frecuencia relativa: corresponde a las veces que se repite un número en un conjunto
de datos respecto al total, pero se expresa en porcentajes (%).
• Frecuencia relativa acumulada: es la suma de las frecuencias relativas.
3- Tablas de frecuencia
● ¿Para que se utilizan?
Para analizar datos y para realizar gráficos.

Mediana,
● Tipos de tablas de frecuencia: Simples o con rangos (intervalos) moda. Se
Simples -→ mediana y la moda da valores exactos verán en la
Rangos- → mediana y moda los valores estarán un poco corridos teoría
siguiente
El de rango favorece para los gráficos.
3- Tablas de frecuencia
● Suponer 50 datos de la velocidad con las que los conductores transitan por
una avenida
¿que tipo de tabla de frecuencia me conviene para realizar un gráfico?
INTERVALO :porque son muy variados los datos que aparecen
¿Y para obtener la media, moda y mediana?
SIMPLE
3- Tablas de frecuencia
Con los datos anteriores

Simple Intervalos

Veloc. FA Veloc. FA
Rango can
27 1 51 7

30 1 52 7 < 30 1
32 1 53 5
30-40 3
37 1 54 5

41 1 55 4 41-50 8
45 2 56 4
51-60 36
48 1 57 1

60 3 61-70 1
49 1
68 1
47 1 >70 1
50 2 71 1
3- Tablas de frecuencia
Cómo obtener el rango????

1) Observar valor máximo y mínimo y obtener su diferencia


RANGO = MÁXIMO - MÍNIMO
1) Decidir el número de categoría que tendremos. Generalmente es un numero entre 5 y 15
La cantidad de categorías se la establece de acuerdo al número (n) de observaciones del estudio
de una manera tentativa se determina esta cantidad al aplicar este criterio:
Nº DE CATEGORÍAS = 1 + 3.3*LOG(n)
3) El resultado se aproxima al entero superior o inferior. Se calcula la amplitud del intervalo
i =RANGO/(N° CATEGORÍAS)
3- Tablas de frecuencia
16 13 14 15 14 13
Edad de inscriptos a una escuela de 15 14 14 14 13 15
deportes
14 15 13 16 15 14
15 13 14 14 14 16
18 14 14 13 16 15

Tablas con frecuencia absoluta y relativas


Edades frecuencia Frecuencia Frecuencia %
absoluta = f absoluta relativa fr
acumulada F
13 6 6 6/30 = 0,20 20
14 12 18 12/30 = 0,40 40
15 7 25 7/30 = 0,23 23
16 4 29 4/30 = 0,13 13
17 0 29 0
18 1 30 1/30 = 0,03 3
Bibliografía
1) Introducción a la probabilidad y a la estadística. 2018- Libro en PDF
Autores: Bachini, Vázquez, Bianco, García Fronti
Editor: Facultad de Ciencias Económicas, Universidad de Buenos Aires
2) Probabilidad y Estadística para Ingeniería y Ciencias E-Books Académicos
Autores: Walpole, Myers, Myers
Editorial: Pearson
3) Apuntes probabilidad y Estadística 2017
Departamento de Matemática, Facultad de Ciencias Exactas y Naturales, Universidad
de Buenos Aires.
Autores: Ferrari, Jonckheere.

También podría gustarte