Está en la página 1de 37

UNIDAD 1

Estadística: El arte y la ciencia de recolectar, analizar, presentar e interpretar datos

Datos: son hechos/informaciones y cifras que se recogen, analizan y resumen para su presentación e
interpretación. A todos los datos reunidos para un determinado estudio se les llama conjunto de datos
para el estudio. (un dato es un valor numérico o cualidad de una variable).

Elementos/ Unidad elemental: son las entidades de las que se obtienen los datos o los elementos en
estudio. Ejemplo: población, muestra.

Variable: es una característica de los elementos de interés. Por ejemplo: persona, animales, plantas,
etc.

El elemento es el conjunto general (población o muestra), dentro de este van a estar las variables
(características del elemento), y estas variables se van a convertir en datos cuando le asignamos
valores, atributos o cualidades.

Escala de medición: determinará la cantidad de información que contiene cada dato, donde a su vez
indica la manera más apropiada para resumirlos y analizarlos estadísticamente.

Estas escalas sirven para determinar la cantidad de información contenida en datos cualitativos,
entendiendo por estos a todos aquellos datos que contienen atributos, etiquetas, nombres, cualidades,
etc.:

 Escala nominal: se la utiliza cuando a la variable en estudio se le puede asignar como dato un
nombre, número u orden.
 Escala ordinal: se utiliza si los datos de la escala nominal muestran una mayor cantidad de
propiedades, y el orden o clasificación es significado. Ejemplo: Por ejemplo, una empresa
automovilística envía a sus clientes cuestionarios para obtener información sobre su servicio
de reparación. Cada cliente evalúa el servicio de reparación como excelente, bueno o malo.
Como los datos obtenidos son las etiquetas excelente, bueno o malo, tienen las propiedades
de los datos nominales, pero además pueden ser ordenados o jerarquizados en relación con la
calidad del servicio. Un dato excelente indica el mejor servicio, seguido por bueno y, por
último, malo. Por lo que la escala de medición es ordinal.
Variable: cuestionario que la empresa envía a sus clientes.
Datos: excelente, bueno, malo.

Estas escalas sirven para determinar la cantidad de información contenida en datos cuantitativos,
entiendo a estos como todos aquellos que son identificados con números:

 Escala de intervalos: se da cuando los datos de una variable tienen las mismas propiedades
que los datos de una escala ordinal y el intervalo entre los valores se expresan en unidades
fijas. Ejemplo: las calificaciones obtenidas por tres alumnos en la prueba de matemáticas con
620, 550 y 470, pueden ser ordenadas en orden de mejor a peor. Además, las diferencias entre
las calificaciones tienen significado. Por ejemplo, el estudiante 1 obtuvo 620-550= 70 puntos
más que el estudiante 2 mientras que el estudiante 2 obtuvo 550-470 = 80 puntos más que el
estudiante tres.
 Escala de razón: en esta escala los datos tienen las mismas propiedades que los datos de
intervalos y la razón de los dos valores es significativa, se la puede utilizar para medir
distancias, tiempos, alturas, peso, etc. Ejemplo: considere el costo de un automóvil. El valor

1
cero para el costo indica que el automóvil no cuesta, que es gratis. Además, si se compara el
costo de un automóvil de $30 000, con el costo de otro automóvil, $15 000, la propiedad de
razón muestra que $30 000/$15 000 = 2: el primer automóvil cuesta el doble del costo del
segundo.

Datos de sección transversal y de series de tiempo

 Datos de sección transversal: son recabados en el mismo momento.


 Datos de serie de tiempo: son recabados en varios periodos.

Fuente de datos

Los datos pueden ser obtenidos a partir de:

 Fuentes existentes: donde los datos ya existen y lo que se hace es buscarlos en las bases de
datos de la empresa, registraciones internas y/o contables (sueldos, edades, etc.).
 Estudios estadísticos: en este caso los datos para llevar a cabo un proyecto por ejemplo no se
encuentran disponibles en fuentes existentes, por lo que es necesario obtenerlos a través de
diferentes estudios estadísticos experimentales y observacionales. Ejemplos: encuestas,
estadísticas.
 Errores de adquisición de los datos: ejemplo: un entrevistador puede cometer un error de
escritura, como una transposición al escribir la edad de una persona y en lugar de 24 años
escribir 42 años, o en una entrevista, el entrevistado puede malinterpretar una pregunta y dar
una respuesta incorrecta.

ESTADISTICA DESCRIPTIVA

Dicha estadística recolecta y resume diferentes tipos de datos de forma tal que, cuando los mismos
sean presentados puedan ser comprendidos fácilmente por el lector. Son ejemplos de esta estadística
la información que se encuentra en diarios, revistas, informes de empresas, etc. Se basa en la teoría de
las probabilidades.
Los elementos que forman parte de la estadística descriptiva son:
 Población: es el elemento bajo estudio más grande y los paramentos utilizados son:
o Promedio.
o Desvió estándar.
 Muestra: subconjunto de la población que debe ser representativa de la misma (para que
sea representativa tienen que estar si o si en la misma proporción todas las variables/
datos que se encuentran en la población). Y el parámetro utilizado es:
o Promedio estadístico.

ESTADÍSTICA INFERENCIAL:

La inferencia estadística consiste en tomar datos de una muestra y con ellos realizar
estimaciones e hipótesis sobre las características de la población
Población: totalidad de familias de clase de media de Reconquista.
Muestra: 10 familias de clase media de Reconquista.
Al no tener fuentes de datos existentes, utilizaremos estudios estadísticos para obtener datos
de nuestra muestra y así realizar hipótesis respecto de la población en general. (estamos trabajando
con inferencia estadística).

2
UNIDAD 2
Datos/variables cualitativas: Son todos aquellos datos que contienen atributos, etiquetas,
nombres, cualidades, etc.

 Distribución de frecuencias: permite ordenar los datos estadísticos en forma de tabla,


y sirven para las dos variables. Existen 3 tipos de frecuencias:
o Frecuencia absoluta (fi): Representa el número de veces que la variable (dato)
toma un valor determinado. La suma de las frecuencias absolutas debe ser
igual al número total de datos “n”.
o Frecuencia relativa (fir): cociente entre (fi de un dato) / (Número total de
datos “n”). La suma de todas las frecuencias debe ser igual a 1.
o Frecuencia porcentual (fir%): fir*100. La suma de todas las frecuencias debe
ser igual a 100.

Xi (variable o dato) fi (frecuencia fir (frecuencia fir% (frecuencia


absoluta) relativa) porcentual)
0 5 0,125 12.5
1 9 0,225 22,5
2 12 0,30 30
3 6 0,15 15
4 5 0,125 12.5
5 3 0.075 7.5
40 1 100
Variable (Xi)= número de hijos de 40 familias.

Población “n”: 40 familias.

Interpretación reglón 2: “de las 40 familias hay 9 de ellas que tienen 1 hijo”. “el 22.5% de las
40 familias tienen 1 hijo”

Gráficas para variables cualitativas

o Gráficos de barra: se utilizan para representar los datos cualitativos que figuran en la
distribución de frecuencias absoluta, relativa y porcentual.
 Simples.
 Compuestos: comparar cosas diferentes. Ejemplo: rendimientos de hombres y
mujeres en distintos trabajos.
 Bidireccionales: comparar cosas opuestas.
o Grafica circular o de pastel: para elaborarla primero se traza un circulo que representa
todos los datos, luego con las frecuencias relativas se subdivide el circulo en partes, que
estas representan las frecuencias relativas de cada clase.

Datos/Variables Cuantitativos: Pueden ser:

3
 Discretos: se da cuando la variable toma como valores números enteros, y estos surgen de
un proceso de conteo. Por ejemplo: número de hijos que tiene una familia, número de
unidades producidas, etc.
 Continuos: la variable puede tomar como valores números enteros como decimales, y el
mismo surge de un proceso de medición. Por ejemplo: sueldos, peso de una persona, etc.

Distribución de frecuencia: para poder realizarla con datos cuantitativos se deben seguir tres
pasos:

1. Determinar el número de clases que no se superponen: las clases son los números de
intervalos que se van a utilizar para agrupar los datos.
2. Definir el ancho de cada clase: el número y el ancho de las clases no son decisiones
independientes, sino que se determinan en base a distintos procedimientos. en este
caso para definir el ancho de la clase, vamos a utilizar la siguiente formula:

Ancho de clase aproximado = (valor de datos mayor – valor de datos menos) / número de
clases

3. Determinar los límites de clases: se los debe fijar para definir en qué intervalo se van a
incluir cada dato. El límite de clase inferior identifica el menor valor asignado a la
clase, mientras que el límite de clase superior identifica el mayor valor asignado a la
clase.

EJEMPLO:

AUDITORÍA ANUAL
(DÍAS DE DURACIÓN)
12 14 19 18

15 15 18 17

20 27 22 23

22 21 33 28

14 18 16 13

 Numero de clase/ intervalo: 5


 Ancho de la clase: (33- 12) / 5 = 4.2 pero se redondea en 5 días (cada intervalo va a
estar formado por 5 días)
 Límite de clases: mediante los datos de la duración de las auditorías de la tabla
2.4, se elige 10 días como límite inferior y 14 como límite superior de la primera
clase. En la tabla 2.5, esta clase se denota como 10–14

DISTRIBUCIÓN DE FRECUENCIA DE LAS AUDITORÍAS:


Duración de las
auditorías (días)- Frecuencia Una vez determinados números,
10–14 4 ancho y límites de las clases, se
15–19 8 obtiene la distribución de
frecuencia contando el número de
datos que corresponden a4cada
clase.
20–24 5
25–29 2
30–34 1

Total 20
En esta distribución de frecuencia se observa lo siguiente:
1. Las duraciones de las auditorías que se presentan con más frecuencia son de la clase 15-
19 días. Ocho de las 20 auditorías caen en esta clase.
2. Sólo una auditoría requirió 30 o más días.

Gráficos para variables cuantitativas:

 Discretas:
 Frecuencia absoluta (fi): grafico de bastones
 Frecuencia acumulada (Fi): grafico escalonado
 Continuas:
 Frecuencia absoluta (fi): histograma
Polígono de frecuencia
 Frecuencia acumulada (Fi): ojiva

Histograma: La figura es un histograma de las duraciones de las auditorías. La clase con mayor
frecuencia se indica mediante el rectángulo que se encuentra sobre la clase 15–19 días. La altura
del rectángulo muestra que la frecuencia de esta clase es 8

Ojiva

5
Análisis exploratorio de datos

Las técnicas del análisis exploratorio de datos consisten en una aritmética sencilla y
gráficas fáciles de dibujar útiles para resumir datos.

Diagrama de tallo y hoja:

Es una de las formas que se tiene para realizar el análisis exploratorio de datos, y sirve
para mostrar simultáneamente la clasificación y la forma de un conjunto de datos. Este grafico se
puede utilizar independientemente si la variable es continua o discreta. LOS DATOS TIENEN QUE
ESTAR ORDENADOS DE MENOR A MAYOR.
Para realizarlo primero se coloca los dígitos principales de cada dato, a la izquierda de una
línea vertical. Y en el caso de que se tenga un numero de tres cifras, las dos primeras van a la
izquierda y la última a la derecha. El tallo es lo que se coloca a la izquierda y puede estar formado
por varios números del mismo dato, y la hoja es lo que va a la derecha y solamente puede
formarse por una cifra de cada dato.
Las ventajas de utilizar este grafico
 Es más fácil elaborarlo a mano que un histograma.
 Dentro de un intervalo proporciona más información que un histograma, ya que el tallo y
hoja muestran datos actuales.
 Permite reconstruir aproximadamente el lote de datos original (a través de la unidad de
hoja).
 Permite que participen todos los datos.
 Permite visualizar el comportamiento de datos.

 Para sacar la cantidad máxima de tallos se aplica la siguiente formula:


10 x log “n”
 La cantidad de tallos a utilizar se la obtiene de la siguiente manera:
Tallo máximo – Tallo mínimo + 1

Se puede realizar con datos mayores a 3 dígitos:

6
Resumen de Cinco Números: En este caso se usan los siguientes valores para resumir a la
totalidad de datos:

1) Valor menor.
2) Primer Cuartil.
3) Mediana.
4) Tercer Cuartil.
5) Valor Mayor.

Para realizar el resumen de 5 números se recomienda colocar a todos los datos en orden
ascendente, es decir, de menor a mayor, para así detectar el fácilmente el menor y mayor valor y
luego los cuartiles y mediana.

Características:

 Es el gráfico más fácil de construir.


 Se logra visualizar rápidamente la distribución de frecuencia.
 Permite comparar de a cuartos la dispersión de los datos.

Diagrama de Caja (Box-Plot): éste también es un resumen gráfico de datos que se basa en un
resumen de 5 números. Para éste se necesitan los mismos datos que para el resumen de 5
números y además el Rango Intercuartílico. PERMITE IDENTIFICAR OBSERVACIONES ATÍPICAS.

Pasos para su elaboración:

1) Se realiza una caja (rectángulo), en donde sus extremos están ubicados en el cuartil 1 y en
el cuartil 3. Contiene el 50% de datos.
2) Se traza una línea vertical dentro de la caja que representa a la Mediana.

7
3) Con el Rango intercuartilico se localizan los límites, el límite inferior es 1.5 por debajo del
cuartil 1 y 1.5 por encima del cuartil 3.
4) Se señala con un asterisco la ubicación de observaciones atípicas.

Tabulaciones cruzadas:
Covarianza:
Es un resumen de los datos de 2 variables, se elaboran con dos variables cualitativas,
cuantitativas o una combinación de ambas. Ejemplo: si el restaurante 5 de la primera tabla tiene
muy buena calidad y su precio es $33, a este restaurante le corresponde el renglón 2 y la columna
3 de la tabla cruzada.
Forma de cálculo:
Si trabajamos con una muestra:

Si trabajamos con la población:

Ejemplo:

Diagrama de dispersión:
Es una representación gráfica de la relación entre dos variables cuantitativas.
Línea de tendencia:
Es una línea que da una aproximación de la relación.

Ejemplo de ambas:

8
Muestra el diagrama de dispersión y la línea de tendencia para los datos de la tabla
anterior. Para la semana uno hay 2 comerciales que generan 50 ventas, y ese punto (2;50) se traza
en el diagrama que sigue, lo mismo con los demás datos. También muestra una relación positiva
entre el número de comerciales y las ventas, ya que a mayor publicidad hay mayores ventas, pero
esto no es perfecto.

Unidad 3
Medidas de localización, posición o tendencia central
Con estas medidas se busca calcular y obtener un valor de la variable “x” que, en lo posible
este en el centro de distribución.
Media aritmética o promedio:
La media nos brinda una medida de ubicación central de los datos y es la medida de
ubicación más importante para una variable. Si los datos son datos de una muestra, la media se
denota ; si los datos son datos de una población, la media se denota con la letra griega μ.
La media es el valor de la variable que resulta de sumar todos los valores que toma la
variable dividido el número total de datos. ESTA NO SE GRAFICA.
Ejemplo.
Datos: 46; 54; 42; 46; 32
n= 5 datos

Media o promedio= (46+54+42+46+32) / 5= 44

Mediana:
La mediana es el valor que se encuentra en el medio de los datos, cuando estos están
acomodados de menor a mayor.
 Para un número impar de datos, la mediana es el valor del medio. Ejemplo:
Datos: 4; 5; 7; 8; 10

9
n= 5
mediana= 7
 Para un numero par de datos, no se tiene un valor central, por ende, se debe calcular la
posición de la mediana, y luego buscar la misma en el dato a dato.
Posición de la mediana= (n+1) /2
Moda:
Es el valor que más frecuentemente se presenta (es el valor de la variable que
corresponde a la mayor frecuencia). SE GRAFICA EN GRAFICO DE BASTONES Y SE ENCUENTRA EN
EL BASTON MAS ALTO.
Muchas veces puede pasar que no haya moda y esto se debe a que no hay frecuencia, es
decir que no hay una repetición del valor que toma la variable. También hay situaciones en que la
mayor frecuencia ocurre en dos o más valores diferentes, en este caso se tendrán datos bimodales
o multimodales.

Percentiles:
El percentil p es un valor tal que por lo menos p por ciento de las observaciones son
menores o iguales que este valor y por lo menos (100 - p) por ciento de las observaciones son
mayores o iguales que este valor.
Calculo para obtener percentiles y cuartiles:

Ejemplo:
Determine el percentil 85 en los sueldos mensuales iniciales.
Paso 1: Ordenar los datos de menor a mayor
3310; 3355; 3450; 3480; 3480; 3490; 3520; 3540; 3550; 3650; 3730; 3925
Paso 2:

Paso 3: Como i no es un número entero, se debe redondear. La posición del percentil 85 es el


primer entero mayor que 10.2, es la posición 11.
Observe ahora los datos, entonces el percentil 85 es el dato en la posición 11, o sea 3730.

Cuartiles:
Los datos se dividen en 4 partes, conteniendo cada una de ellas el 25% de las observaciones.
Los puntos de división son definidos como:
 Q1: primer cuartil o percentil 25

10
 Q2: segundo cuartil o percentil 50 (mediana)
 Q3: tercer cuartil o percentil 75

Ejemplo:
Datos: 3310; 3355; 3450; 3480; 3480; 3490; 3520; 3540; 3550; 3650; 3730; 3925
Posición Q1: (25/100) x 12 = 3

Como i es un entero, el paso 3 b) indica que el primer cuartil, o el percentil 25, es el


promedio del tercer y cuarto valores de los datos; esto es, Q1 = (3450 + 3480) /2 = 3465.

Posición Q3: (75/100) x 12= 9

Como i es un entero, el paso 3 b) indica que el tercer cuartil, o el percentil 75, es el


promedio del noveno y décimo valores de los datos; esto es, Q3 = (3550 + 3650) /2 = 3600.

Medidas de Variabilidad o Dispersión


Permiten ver como varían los distintos valores que toma la variable en torno a las medidas
de tendencia central, tomando como referencia a la media aritmética/promedio. Las medidas de
variabilidad más utilizadas son las siguientes:

Rango: Es la medida más sencilla, y su forma de cálculo es la siguiente:

Rango = Valor mayor – Valor menor

Rango Intercuatílico: Es la diferencia entre el tercer cuartil “Q3” y el primer cuartil “Q1”

Varianza: Es la diferencia el valor que toma cada variable (Xi) y la media/promedio elevada
al cuadrado. A diferencia mencionada al inicio se la conoce con el nombre de desviación respecto
de la media/promedio. Dentro de esta tenemos a:

 Varianza Muestral (S2): Es la desviación respecto de la media elevada al cuadrado, y a ese


resultado se lo divide por el total de datos “n” menos 1.

Para ilustrar dicho calculo colocamos a continuación una imagen que contiene un ejemplo:

11
Los

valores asociados con la varianza muestral pueden causar confución ya que, la desviación respecto
de la media está elevada al cuadrado, provocando que la comprención e interpretación intuitiva
de los valores finales de la varianza se dificulte.

 Varianza Poblacional: Es la desviación respecto del promedio elevado al cuadrado,


dividido por la totalidad de datos “N”.

Desviación Estandar: Se la define como la raíz cuadrada de la VARIANZA. Con esta medida
los resultados finales se encuntran expresados en las mismas unidades que los valores
originales (datos iniciales), ya que como la varianza eleba todo al cuadrado al colocar la raíz se
elimina el cuadrado permitiendo ver valores reales. Es más facil de interpretar que la varianza.

Coeficiente de Variación: Permite ver que tan grande es la desviación estándar respecto
de la media/promedio.

12
Formas de Distribución
Con la figura que se coloca a continuación se puede ver diferentes histogramas
sesgados y simétricos:

Para datos sesgados a la izquierda el error (sesgo) es NEGATIVO y la media es MENOR que
la mediana, para aquellos que están sesgados a la derecha el error es POSITIVO y la media es
MAYOR que la mediana, si los datos son simétricos el sesgo es CERO y la media y la mediana son
IGUALES.

Medida de Posición Relativa o Valor Z


Permite determinar a qué distancia de la media se encuentra un valor o dato
determinado. Para su cálculo necesitamos tener el valor de la media/promedio y la desviación
estándar.

13
Teorema de Chebyshev
Dicho teorema permite hacer afirmaciones sobre la proporción de los valores de datos
que deben estar dentro de un número específico de desviaciones estándar de la media. Para éste
se requiere que el valor Z sea mayor que 1, pero no necesariamente que sea un número entero. Se
aplica a cualquier conjunto de datos sin importar la forma de distribución de los mismos.

Su forma de cálculo es la siguiente: 1 – 1/(Z)2

Regla Empírica

Se utiliza cuando los datos tienen una distribución en forma de “campana”:

 Aproximadamente 68% de los valores de datos estará dentro de UNA desviación estándar
de la media
 Aproximadamente 95% de los valores de datos estará dentro de DOS las desviaciones
estnadar de la media.
 Casi todos los valores de datos deben estar dentro de TRES desviaciones estandar de la
media.

Por ejemplo: Los envases de dtergente liquido se llenan automáticamente en una línea de
producción. Los pesos de llenado suelen tener una distribución en forma de campana. El peso
medio de llenado es de 16 onzas y la desviación estandar es de 0.25 onzas, entonces utilizamos la
regla empírica para formaular las siguientes concluciones:

 Aproximadamente el 68% de los envases llenos pesará entre 15.75 onzas (16 – 0.25 onzas)
y 16.25 (16 + 0.25 onzas)
 Aproximadamente el 95 % de los envases llenos pesará entre 15.50 onzas (16 – 0.25 –
0.25) y 16.50 onzas (16 + 0.25 + 0.25)
 Casi todos los envases llenos persarán entre 15.25 onzas (16 – 0.25 – 0.25 – 0.25) y 16.75
onzas (16 + 0.25 + 0.25 + 0.25)

Deteccion de observaciones atípicas

Estas observaciones se pueden dar por diferentes motivos y a continucación mencionaremos


cuales son:

1) Un valor de datos que se registró incorrectamente, y en este caso el error debe corregirse
antes de realizar un analisis posterior.
2) Una observación que se introdujo de forma incorrecta en el conjunto de datos y al
detecarla se la debe eliminar.
3) Un valor de datos inusual que se registró correctamente y pertenece al conjunto de datos
que por ende al detecarlo se lo debe conservar.

14
Los valores Z (valores estandarizados) se utilizan para detectar dichas observaciones atípicas y
se recomienda tomar como valor atípico cualquier valor de datos que tenga un valor Z menor a 3 o
mayor que 3.

RESUMEN:
En dicho capítulo se introdujeron varios estadísticos descriptivos que se utilizan para resumir
la posición, la variabilidad y la forma de distribución de una conjunto de datos. En etse caso nos
centramos en variables cuyos datos son númericos y si dichos valores se obtienen de una muestra
se los conoce con el nombre de estadísticos muestrales y si se los obtiene de una población se los
llama parámetros poblacionales. A continuación se verán las simbologias de cada
estadístico/parametro:

FOMULAS CLAVES DE LA UNIDAD 3

15
UNIDAD 4
INTRODUCCIÓN A LA PROBABILIDAD
La probabilidad nos muestra la posibilidad de que un echo/evento ocurra, expresado en
medidas númericas. Los valores de la misma siempre se asignan en una escala de 0 a 1, por ende
una probabilidad ercana a 0 indica que es poco probable de que el evento en cuestión ocurra y
una probabilidad cercana a 1 muestra que el evento tiene una gran posibilidad de ocurrir.

Experimentos: En el estudio de la probabilidad, un experimento se define como aquel proceso que


genera resultados bien definidos y en cada repetición de dicho experimento ocurre uno y solo uno
de todos los resultados posibles.

Ejemplo:

Experimento Resultados del Experimento/Espacio


muestral
Lanzar una moneda Cara o Cruz
Arrojar un dado 1, 2, 3, 4, 5 o 6

Al definir todos los posibles resultados del experimento obtenemos lo que se denomina ESPACIO
MUESTRAL o EVENTO

Reglas de conteo: Existen tres reglas de conteo:

 Regla de conteo para experimentos de pasos múltiples:

Ejemplo: El experimento consiste en lanzar 2 monedas, por lo que tenemos 2 pasos, el


primero es lanzar 1 de las monedas y el segundo es lanzar la otra moneda. Si utilizamos “H” para
denotar a la cara y “T” para denotar a la cruz, entonces (H;H) indica que el resultado experimental
en el que hay una cara en la primera moneda y una cara en la segunda moneda. También
podemos determinar que al aplicar la regla tenemos 4 resultados posibles: ya que al lanzar 1 de

16
las monedas tenemos 2 resultados posibles y a la lanzar la segunda moneda tenemos 2
resultados más.

Experimento Espacio Muestral


Lanzar 2 monedas {(H;H), (H;T),(T;H),(T;T)}
En este caso también podemos utilizar lo que se conoce con el nombre de DIAGRAMA DE
ÁRBOL que permite visualizar de manera más fácil y rápida los posibles resultados de un
experimento.

 Regla de conteo para combinaciones:

Permite contar el número de resultados cuando el experimento consiste en la selección de “n”


objetos de un conjunto (generalmente mayor) de “N” objetos:

Ejemplo: Considere un procedimiento de control de calidad en el que un inspector selecciona


al azar de dos a cinco partes para buscar defectos. En un grupo de 5 pates ¿Cuántas
combinaciones de 2 partes pueden seleccionarse?:

Datos:

N = 5 partes

N = 2 partes

Entonces:

Para el experimento que consiste en tomar solo 2 partes de las 5 partes que se tienen en total
existen 10 resultados posibles.

 Regla de conteo para permutaciones:

Permite que se calcule el numero de resultados experimentales cuando se seleccionan “n” objetos
de un conjunto de “N” objetos totales y el orden de selección es importante:

17
Ejemplo: Tomamos el mismo ejemplo que en la regla de combinación:

N = 5 partes

N = 2 partes

Entonces: Con esta regla


podemos que ver hay 20
resultados
posibles en el experimento planteado.

Asignación de porbabilidades

Requisitos básicos para asignar probabilidades a los resultados de los experimentos:

1) La probabilidad que se le asigna a cada resultado experimental debe estar entre 0 y 1


2) La suma de las probabilidades de todos los resuktados del experimento debe ser igual 1.

Existen 3 métodos que permiten asignar probabilidades:

1) Método clásico o de Laplace:

Dicho método es apropiado utilizarlo cuando todos los resultados del experimento sin
igualmente probables, es decir que todos tienen la misma probabilidad de ocurrencia.

Podemos tomar como ejemplo el experimento que consiste en arrojar una moneda, en donde
los resultados del experimento son igualmente probables ya que hay un 50% de probabilidad de
que salca cara y otro 50% de probabilidad de que salga cruz.

Forma de cálculo:

P(E1) = Número de casos favorables al suceso E1


Número de casos posibles

2) Método frecuencialista o de frecuenci relativa:

Es apropiado cuando los datos están disponibles para estimar la proporción del tiempo en que
ocurrirá el resultado si el experimento se repite un gran número de veces.

Ejemplo: Tomaremos los tiempos de espera en el departamento de rayos X para un hospital


local en donde uno de los empleados registró el número de pacientes que esperan el servicio de
las 9 de la mañana durante 20 días:

18
Utilizando el método bajo estudio tendremos:

P(0) = 2/20 = 0.10 Existe una probabilidad del 10% de que ningun paciente tenga que
esperar solo 2 días para realizarse el estudio

P(3) = 4/20 = 0.20 Existe una probabilidad del 20% de que 3 pacientes deban esperar 4
dias para realizarse el estudio.

3) Método Subjetivo:

Es apropiado de utilizar cuando no se puede asumir de forma realista que los resultados del
experimento son igualmente probables y a su vez se dispone de pocos datos relevantes. Dicho
método utiliza la experiencia o intuición de las personas para asignar probabilidades por lo que se
dice que es un método personal y requiere de un cuidado especial para asegurar que los dos
requisitos básicos se cumplan.

Eventos y sus Probabilidades

Evento: Representa al punto de la muestra, es decir, a UN subconjunto de todos los resultados


posibles que puede generar un experimento (Subconjunto del especio muestral).

Espacio Muestral: Es una colección de todos los resultados experimentales posibles.

Probabilidad de un evento: La probabilidad de cualquier evento es igual a la suma de todas las


probabilidades de los resultados experimentales.

Algunas relaciones básicas de probabilidad

 Complemento de un Evento:

Dado un determinado evento “A”, el complemento del evento “A” se define como:

El evento que consta de todos los puntos de la muestra que NO están incluidos dentro de “A” y se
denota como “AC”.

P(A) + P(Ac) = 1
Entonces de esa formula básica podemos obtener:
La probabilidad de A, conociendo la probabilidad de la ocurrencia de su complemento:
P(A) = 1 - (PAc).

Diagrama de Venn: “Consiste en una representación gráfica del Espacio Muestral y de las
operaciones que involucran a eventos”.

19
Dicha representación se realiza mediante un rectángulo que representa a el especio muestral
en general y mediante círculos dentro del espacio muestral se represnetan a los eventos:

o El rectangulo representa al Espacio muestral, es decir a todos los posibles resultados de la


muestra.
o El circulo representa a el Evento “A”, y muestra a todos los resultados que efectivamente
pertenecen a la muestra.
o El área sombreada del rectángulo contiene a los puntos de la muestra que no forman
parte del evento de “A”, es decir, es el complemento de A.
Espacio Muestral

Evento A

Complemento de A
 Ley de la Adición:

Esta ley es util cuando interesa conocer la probabilidad de que POR LO MENOS ocurra uno de
los dos eventos bajo analisis.
Si tenemos a los eventos “A” y “B” con esta ley nos interesa conocer la probabilidad de que
ocurra el evento “A” O el evento “B” O ambos eventos. (se la utiliza para calcula la probabilidad de
la unión de 2 eventos).

Para estudiar la ley de adición es necesario ondar en un concepto importante:

1) UNIÓN DE DOS EVENTOS: La unión de A y B es el evento que contiene TODOS los


resultados experimentales que pertenecen a A O a B O a ambos.

Entonces ahora con este concepto definido podemos concluir en que la formula para el
cálculo de la ley de adición para eventos compatibles es la siguiente:

P(A U B) = P(A) + P(B) – P(A Y B)


En este caso se le resta la intersección porque sino estariamos sumando dos veces los
mismos puntos de la muestra.

20
Ley de la multiplicación: Se la utiliza para calcular la probabilidad de la intersección de dos
eventos, y también es necesaria para calcular la ley de la adición. En este apartado es
necesario que retomemos la siguiente definición:

1) INTERSECCIÓN DE DOS EVENTOS: Dados dos eventos A y B, la intersección de los mismos


es el evento que contiene los resultados experimentales que pertenecen a A Y a B

Entonces ahora con este concepto definido podemos concluir en que la formula para el
cálculo de la ley de multiplicación para eventos compatibles es la siguiente:

o Ley de la multiplicación para probabilidad condicional:

o Ley de la multiplicación para probabilidades NO condicionales:

o Eventos mutuamente excluyentes o dependientes : Dos eventos son mutuamente


excluyentes cuendo no tienen puntos de la muestra/resultados experimentales en común,
es decir que, cuando ocurre el evento A no existe la posibildad de que también ocurra el
evento B.
P(A y B) = 0 (conjunto vacío).

21
Ley de adición para eventos mutuamente excluyentes:

P(A U B) = P(A) + P(B)


Probabilidad Condicional:

Supongamos que se tiene un evento “A” con probabilidad P(A). Si ademas tenemos
información respecto de la existencia de otro evento “B” que YA OCURRIÓ podriamos obtener una
nueva probabilidad del evento A a la que se denomina PROBABILIDAD CONDICIONAL y se denota
como P(A/B) “probabilidad de A sabiendo que B ya ocurrio”.

Se la necesita para calcular la ley de multiplicación.

Forma de cálculo:

o Tabla de probabilidad conjunta: Brinda un resumen de las diferentes probabilidades que


se tienen en el ejemplo del libro.

Datos del ejercicio:

Los valores de los bordes de la tabla que colocaremos a continuación nos muestran las
probabilidades de cada caso en particular:

P(M) = 960/1200 = 0.80

P(W) = 240/1200 = 0.20

P(A) = 324/1200 =0.27

P(Ac) = 876/1200 = 0.73

22
Dichas probabilidades se las conoce con el nombre de PROBABILIDADES MARGINALES.

Se hará el análisis de probabilidad condicional mediante el cálculo de la probabilidad de


que un oficial sea promovido (A) sabiendo que es hombre (M), es decir P (A / M).

P (A / M) = 288/960 = (288/1200) / (960/1200) = 0.24/0.80 = 0.30

Entonces la probabilidad de que este policía sea ascendido sabiendo que es hombre es del
30%.

 Eventos Independientes: Dos eventos A y B son independientes s:


o P (A / B) = P(A)
o P (B / A) = P(B)

Si no se cumplen dichas condiciones los eventos son dependientes

Teorema de Bayes
El proceso comienza con las estimaciones de probabilidad previa o inicial para eventos
específicos de interés. Luego, de fuentes como una muestra, se obtienen informes especiales o
pruebas de productos que brindan información adicional sobre los eventos que permiten
actualizar los valores iniciales obteniendo lo que se conoce con el nombre de probabilidades
posteriores. El teorema de Bayes proporciona un medio para efectuar estos cálculos.

El teorema es válido siempre y cuando los eventos bajo análisis sean mutuamente
excluyentes y su unión es el espacio muestral total (los eventos son colectivamente exhaustivos).

Forma de cálculo:

23
Pasos para poder llevar a cabo el teorema de bayes:

1) Preparar 3 columnas:
 Columna 1: Mencionar a los eventos mutuamente excluyentes.
 Columna 2: Calcular las probabilidades previas de cada uno de esos eventos mutuamente
excluyente. P (A i).
 Columna 3: Calcular las probabilidades condicionales de los eventos.

2) Elaborar una cuarta (4) columna, en la cual se debe calcular las probabilidades conjuntas a
través de la ley de multiplicación. Estas probabilidades se calculan multiplicando los
valores de la columna 2 y la columna 3.
3) Sumar la totalidad de probabilidades conjuntas de la columna 4 para así obtener la
probabilidad de la NUEVA INFORMACIÓN P(B).
4) En la quinta (5) columna se calculan las probabilidades posteriores utilizando la relación
básica de probabilidad condicional. P (A i / B).

FORMULAS CLAVES PARA LA UNIDAD 4:

24
UNIDAD 5 Y 6

25
Variables Aleatorias
“Una Variable Aleatoria es una descripción numérica de los resultados de un
experimento”. Y por ende pueden asumir como dato valores numéricos.
Al igual que vimos en las primeras unidades las variables pueden ser Discretas o
Continúas dependiendo de los valores que asumen.
1) Discretas: Pueden asumir únicamente valores enteros, es decir: 0, 1, 2, …..
Ejemplo:

Experimento Variable Aleatoria (x) Posibles valores de la


variable aleatoria
DISCRETA
Llamar a 5 clientes Número de clientes que 0, 1, 2, 3, 4, 5
hacen pedidos.
Encargarse de un Número de clientes 0, 1, 2, 3
restaurante por un día atendidos

2) Continuas: Estas pueden asumir cualquier tipo de valor. Los resultados


experimentales basados en escalas de medición como el tiempo, el peso, la
distancia y la temperatura se describen mediante este tipo de variable.
Ejemplo:

Experimento Variable Aleatoria (x) Posibles valores de la


variable aleatoria
CONTINUA
Operar en un banco Tiempo entre la llegada de X > 0
cada cliente medido en
minutos
Llenar latas de refrescos Cantidad de onzas 0 < x < 12.1
(máximo = 12.1 onzas)

Distribuciones de probabilidad Discreta


La distribución de probabilidad de una variable aleatoria describe la manera en la
que se distribuyen las probabilidades entre los valores que toma la misma.
Para una variable DISCRETA, la distribución de probabilidad se define por medio de
una FUNCIÓN DE PROBABILIDAD, denotada por f(x).

Ejemplo: para el ejemplo utilizaremos las ventas de automóviles de DiCarlo


Motors.

26
Durante los últimos 300 días de operación mostraron que durante 54 días no se
vendió ningún automóvil, en 117 días se vendió 1 automóvil, en 72 días se vendieron 2
automóviles, en 42 días se vendieron 3, en 12 días se vendieron 4 y en 3 días se vendieron
5 automóviles.
Variable Aleatoria (x) = Número de automóviles vendidos en 1 día.
Sabemos la cantidad de autos que se venden por día por ende podemos calcular las
probabilidades de cada uno de los valores que puede asumir la variable:
f (0) = 54/300 = 0.18
f (1) = 117/300 = 0.39
f (2) = 72/300 = 0.24 La suma de todas las probabilidas
debe ser igual a 1
f (3) = 42/300 = 0.14
f (4) = 12/300 = 0.04
f (5) = 3/300 = 0.01

Cundo desarrollamos una función de probabilidad para una variable aleatoria


discreta, TAMBIÉN se deben cumplir con los 2 requisitos importantes de probabilidad.

 Función de probabilidad uniforme discreta:

Por ejemplo: Para el experimento que consiste en lanzar un dado, la variable


aleatoria x se define como el número de puntos de la cara que queda hacia arriba.
Para el experimento bajo análisis existen 6 resultados posibles por la tanto la
función de probabilidad para la variable aleatoria discreta es:
f (x) = 1/6 para todos los valores que puede tomar la variable.

27
Valor Esperado y Varianza

 Valor Esperado:
“El valor esperado o media, de una variable aleatoria es su medida de posición central”.
Dicho valor no necesariamente debe ser un valor que la variable deba asumir. Sino que es
el promedio ponderado de todos los valores que asume la variable aleatoria.
Forma de cálculo:

Ejemplo:

 Varianza:
Se la utiliza para resumir la variabilidad en los valores de una variable aleatoria.
Una parte fundamental de la varianza es la desviación, que mide a que distancia está el
valor esperado de un valor particular de la variable aleatoria.
Forma de cálculo:

Ejemplo:

28
o Desviación estándar: Raíz cuadrada positiva de la varianza.

Distribución de Bermoulli

Distribución de probabilidad Binomial


La distribución de probabilidad binomial es una distribución de probabilidad
Discreta y está asociado a un experimento de múltiples pasos que se denomina
experimento binomial. Dicho experimento tiene 4 propiedades:
1) El experimento se basa en una secuencia de “n” ensayos que son idénticos
entre sí.
2) Cada ensayo tiene 2 resultados posibles, en donde a uno de esos se los llama
éxito y al otro fracaso.
3) La probabilidad de éxito “p” no varía de un ensayo a otro, por ende, la
probabilidad de fracaso “1 – p” tampoco tienen cambios.
4) Los ensayos son independientes entre sí.
Por ejemplo: Considere el experimento de lanzar una moneda 5 veces consecutivas y
en cada lanzamiento observe si la moneda cae con cara o cruz en el lado superior.
Suponga que queremos contar el número de caras que aparecen durante los cinco
lanzamientos. ¿Este ejemplo muestra las propiedades de un experimento binomial? ¿Cuál
es la variable aleatoria de interés? Observe que:
1) El experimento se basa en realizar 5 ensayos idénticos. (Arrojar una moneda 5
veces consecutivas)
2) En cada ensayo hay dos resultados posibles: que salga cara o cruz, en este caso la
cara denota a el éxito y la cruz al fracaso.
3) La probabilidad de obtener cara y la probabilidad de obtener cruz son iguales: p =
0.50 y 1-p =0.50
4) Los ensayos/lanzamientos son independientes ya que los resultados no se ven
afectados por otros ensayos.
La variable aleatoria que interesa en este ejemplo es “x” = número de caras que
resultan de los 5 lanzamientos.

 El número de resultados experimentales que producen exactamente “x”


éxitos en “n” ensayos se calcula con la siguiente fórmula:

29
 Función de probabilidad Binomial

 Valor Esperado y Varianza:

Distribución de probabilidad de Poisson


Esta distribución se la suele utilizar para estimar el número de veces que sucede un
hecho determinado en un intervalo de tiempo también determinado. Dicha
distribución también debe cumplir con 2 propiedades:

1) La probabilidad de ocurrencia es la misma para cualquiera de los intervalos de


la misma magnitud.

30
2) La ocurrencia o no ocurrencia en cualquier intervalo es independiente de la
ocurrencia o no ocurrencia del otro intervalo.

 Función de probabilidad de poisson:

Ejemplo considerando intervalos de tiempo:


Suponga que se quiere saber cuántos automóviles llegan a la rampa de un cajero
automático durante 15 minutos. A su vez se sabe que en ese lapso llegan 10 automóviles.
Datos:
Variable aleatoria “x” = número de automóviles que llegan en un lapso de 15 minutos.
Valor esperado o número medio de ocurrencia en un intervalo = 10 automóviles.
Si podemos suponer que la probabilidad de llegada de los automóviles es la misma
en cualquier lapso de tiempo que también sea de 15 minutos y si la llegada o no llegada
de los automóviles es independiente a la llegada o no llegada de otros automóviles en el
mismo lapso de tiempo, entonces podemos utilizar la fórmula de probabilidad de poisson.
Consigna:
Si la administración desea saber la probabilidad de que, en 15 minutos, lleguen
exactamente 5 automóviles se realiza lo siguiente:

Al trabajar con este tipo de distribución es importante saber que tanto el VALOR
ESPERADO como la VARIANZA son iguales.

31
Distribución de probabilidad Hipergeométrica
La distribución de probabilidad hipergeométrica mantiene una relación estrecha con la
distribución de probabilidad binomial, pero difiere de esta última en dos puntos
esenciales:
1) Sus ensayos no son independientes.
2) Su probabilidad de éxito varía de un ensayo a otro.
La función de probabilidad se utiliza para hipergeométrica se utiliza para calcular la
probabilidad de que:

 En una muestra aleatoria de “n” elementos seleccionados sin ningún remplazo, se


obtengan “x” elementos que representen el éxito y “n – x” que representen el
fracaso.

Ejemplo: “control de calidad”


Los fusibles electros producidos por Ontario Electric se empacan en cajas de 12
unidades cada una. Un inspector selecciona al azar 3 de los 12 fusibles que integran la caja
para probarlos y a su vez dentro de dicha caja hay 5 fusibles que están averiados.
Entonces: ¿Cuál es la probabilidad de que el inspector encuentre UN fusible averiado
dentro de los 3 que seleccionó para probar?
Datos:
n = 3 fusibles
n = 12 fusibles
r = 5 fusibles defectuosos

32
Solución:

La probabilidad de que, dentro de los 3 fusibles seleccionados se encuentre uno


defectuoso es del 0.4773
Ahora suponga que quiere conocer la probabilidad de que el inspector encuentre
POR LO MENOS 1 fusible defectuoso.
La manera más fácil de responder a la
pregunta es determinar, en primer lugar, la
probabilidad de que NO se encuentren fusibles
defectuosos:
Entonces con f(0) concluimos en que, la probabilidad de encontrar POR LO MENOS
uno defectuoso es de:
1 – 0.1591 = 0.8409
Es decir que la la probabilidad de encontrar por lo menos un fusible defectuoso es
razonablemente alta.

UNIDAD 7
Distribuciones de probabilidad continuas
Una de las principales diferencias entre las variables aleatorias discretas y continuas
radica en la manera de calcular las probabilidades.

 Para las variables aleatorias DISCRETAS, la función de probabilidad f(x) permite


obtener la probabilidad de que la variable asuma un valor en particular.
 Para las variables aleatorias CONTINUAS la función se probabilidad es la FUNCIÓN
DE DENSIDAD DE PROBABILIDAD también denotada por f(x), y ésta NO permite
obtener la probabilidad directamente. Pero, el área debajo de la gráfica de f(x) que
corresponde a un intervalo determinado, representa la probabilidad de que la
variable asuma cualquier valor que se encuentre dentro de dicho intervalo.

33
Distribución de probabilidad Uniforme

Siempre que la probabilidad sea proporcional a la longitud del intervalo, la variable


aleatoria está distribuida de forma UNIFORME.

En donde “a” es el menor valor


que toma la variable y “b” es el
mayor valor que toma la variable
(serían los extremos de los
intervalos dados)

Ejemplo:
Variable aleatoria x = tiempo de vuelo de un avión que viaja de Chicago a Nueva York.
Dicho tiempo puede ser cualquier valor que se encuentre dentro del intervalo de
120 minutos hasta 140 minutos. Además, se cuenta con datos reales sobre los vuelos que
permiten concluir que:
La probabilidad de que el tiempo de vuelo este dentro de un intervalo de 1
minutos es IGUAL a la probabilidad de que se encuentre dentro de cualquier otro intervalo
de 1 minuto, siempre y cuando esos minutos se encuentren dentro del intervalo general
de 120;140 minutos.
Para el siguiente planteo tenemos la siguiente función de densidad:

1 / (140-120) para 120 < x < 140


f(x) =
0 en los restantes casos

En el caso de una variable aleatoria continua la probabilidad solo se considera en


términos de la posibilidad de que dicha variable tome un valor dentro del intervalo
determinado.
Una pregunta que se podría hacer para el ejemplo es: ¿Cuál es la probabilidad de
que el tiempo de vuelo se encuentre entre 120 y 130 minutos?:
Dicha probabilidad se calcula como el área bajo la gráfica f(x) de 120 a 130, y como
vemos, la gráfica es un rectángulo, el área de un rectángulo es igual el ancho multiplicado
por la altura.
Ancho = 130 – 120 = 10

34
Altura 1/20
Entonces = 10 * 1/20 = 0.50

ÁREA BAJO LA GRÁFICA = PROBABILIDAD DE LA VARIABLE ALEACTORIA CONTINUA


UNIFORME

 Valor Esperado y Varianza:

Distribución de probabilidad Normal

Es la distribución de probabilidad más importante al hablar de variables aleatorias


continuas. Generalmente se utilizan cuando se tiene peso o altura de una persona,
calificaciones de exámenes, entre otros.
Esta distribución describe que tan probables son los resultados obtenidos de un
muestreo.

 Curva Normal:

35
o La curva norma tiene dos parámetros, la media y la desviación estándar, que
determinan la ubicación y la forma de distribución normal.
o El punto más alto de la curva representa a la media y coincide con la mediana y la
moda de la distribución.
o La media de este tipo de distribución puede ser negativa, positiva o incluso valer
cero.
o La distribución normal es simétrica, ya que la forma de la curva a la izquierda de la
media es exactamente igual a la forma de la curva a la derecha de la media y por
ende tampoco está sesgada.
o La desviación estándar determina que tan plana y ancha es la curva normal. Los
valores altos dan lugar a una curva más ancha y plana.
o La probabilidad también está representada por el área debajo de la gráfica (de la
curva normal) y el área total bajo la curva de una distribución normal es 1.

Distribución de probabilidad normal Estándar

Este tipo de distribución se da cuando la MEDIA ES IGUAL A CERO y la


DESVIACIÓN ESTNADAR ES IGUAL A UNO.

Para la distribución normal estándar las áreas bajo la gráfica ya se han


estimado y están disponibles en tablas que se utilizan para el cálculo de la
probabilidad.

36
La razón por la que es tan importante estudiar la distribución normal
estándar radica en
que, para calcular
las

probabilidades de las distribuciones normales si o si necesitamos tener la


distribución estándar. Cuando tenemos una media con cualquier valor y una
desviación estándar también con cualquier valor las preguntas sobre las
probabilidades respecto de esa distribución se responden convirtiendo la
distribución normal a la distribución normal estándar con la siguiente formula:

Aproximación normal de las probabilidades binomiales

37

También podría gustarte