Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística
Consideraciones Generales
El término estadística se deriva del latín status, que significa estado o situación.
Ciencia de las matemáticas encargada de analizar el comportamiento de una población ………
Estadística
Consideraciones Generales
3 0 0 1 0 2 1 0
0 3 4 1 2 0 2 0
1 0 1 2 0 2 1 0
Comentario Métodos estadísticos no son un substituto de leyes físicas que gobiernan un problema
Actividad: 2 voluntarios para recolectar información sobre las edades del curso
Datos son valores de medidas hechas sobre un o más fenómenos. Cada fenómeno medido es una variable
la cual puede ser cualitativa o cuantitativa y ésta ultima puede ser discreta o continua.
Una variable cuantitativa es la que se expresa mediante un número, por tanto se pueden realizar
operaciones aritméticas con ella.
Una variable cualitativa es aquella que representa una característica de calidad del fenómeno medido.
Ejemplo: candidatos en una elección, color, sabor, etc.
1. Estudiar la tecnología actual para tener información sobre posibles resultados experimentales
5. Llevar a cabo los experimentos tal que se obtengan datos precisos y exactos
7. Analizar los resultados para tomar decisiones y/o hacer predicciones (inferencia)
Las formas más comunes de resumir datos son tablas y gráficos. En ambos casos, se muestra la
frecuencia con la que un valor de una variable ha ocurrido en un experimento dado. En otras
palabras, muestran la frecuencia de los resultados.
Métodos Gráficos
Ejemplo: los resultados del experimento anterior se pueden registrar en una tabla y en una
gráfico. La variable es : número de partículas de oro; los valores de la variable son 0, 1, 2, 3 y 4:
0 10
1 6
2 5
3 2
4 1
total 24
Curva de Frecuencias
Si hay muchas observaciones, el histograma se puede reemplazar por una curva suave que pasa por
las intersecciones de los valores de frecuencia con los representantes de clase.
Consiste en agrupar datos sumando las observaciones de una clase con las de la anterior.
Ejemplo: de la tabla anterior se tiene:
20 - 22 6 6
22 - 24 15 21
24 - 26 40 61
26 - 28 30 91
28 - 30 9 100
Los más simples son de dos tipos: medidas de locación o tendencia central y medidas de dispersión.
Medidas de Posición Central
Son la media, mediana y moda.
Estas medidas asumen la representatividad del conjunto de datos.
La Media
Es el estadígrafo más importante de todos. Más adelante se verá que la media muestral estima el
valor esperado de una distribución; de hecho, es un estimador de máxima verosimilitud. Se
calcula mediante:
n
_ yi
y=
i =1 n
Donde : yi son las observaciones y n es el número total de observaciones.
La Media
Si los datos están tabulados en frecuencias la formula de cálculo es:
N
_ f i yi
i 1
y= N
fi
i 1
La Media Ponderada
También conocida como promedio ponderado, es una media aritmética en donde cada uno de los
valores se pondera de acuerdo con su importancia en el grupo en general. Esto es, que a cada valor
yi se multiplica por el factor de ponderación correspondiente, wi , tras de lo cual los productos se
suman para posteriormente dividirse entre la suma de las ponderaciones.
_ wi y i
i 1
y= n
wi
i 1
La Media Ponderada
Ejemplo: Se tiene cuatro de líneas de productos: A B, C, D y cada línea deja un margen de utilidad y
tiene un cierto nivel de ventas, según se muestra en la tabla abajo. Cual es la media del margen de
utilidades?
(y)
A 4.2 30,000 126,000
B 5.5 20,000 110,000
C 7.4 5,000 37,000
D 10.1 3,000 30,300
Total 58,000 303,300
_
303,300
La Media Ponderada y= 5,23%
58,000
Utilizar la media aritmética de 6.8 % es asumir –erróneamente- que todos los productos tienen el mismo
volumen de ventas y que se puede esperar un margen de utilidad de 6.8% para todos.
La Mediana
Es el valor de clase que corresponde al 50% de las observaciones. Se la utiliza en ocasiones en lugar de
la media, especialmente en casos de distribución asimétrica. La mediana es una medida de la acción de
contar y por tanto no esta afectada por valores extremos.
Si y1, y2, y3, ….yn son los datos de una muestra ordenada, entonces:
𝑦𝑛 +𝑦𝑛
2 2 +1
𝑀𝑒 = con n impar
2
Ejemplo: un estudio de gente afectada por una enfermedad reveló que la mayoría de las personas
afectadas estaban por debajo de los dos años y por encima de los setenta; seria por tanto engañoso
concluir simplemente que el "promedio de edad de la gente afectada es 36 años" sabiendo que los
datos están dispersos sobre casi todo el rango de la vida humana.
- Una amplia dispersión de valores con respecto al centro de distribución presenta riesgos
generalmente inaceptables
Toda medida de posición central, para tener una adecuada interpretación, debe estar acompañada
de una de dispersión. Las más comunes son: el rango, la desviación media absoluta, la varianza,
la desviación estándar y el coeficiente de variación.
El Rango
Diferencia entre el valor de la mayor y la menor observación. Útil para comparar la variabilidad de
muestras de igual tamaño. Es muy sensitivo al número de observaciones y por tanto no es una
característica descriptiva de una población.
n
yyi
M.A.D =
i =1 n
Ambas dan una medida de la dispersión de los datos alrededor de la media. Cuando los valores
estén más alejados los unos de los otros, mayor será el valor de la Varianza y de la desviación
estándar.
𝑛 2
𝑦𝑖 − 𝑦ത
La Varianza Muestral se calcula mediante: 𝑆2 =
𝑛−1
𝑖=1
𝑛
𝑦𝑖 − 𝑦ത 2
La desviación estándar es la raíz cuadrada de la Varianza: 𝑆=
𝑛−1
𝑖=1
La desviación estándar tiene las mismas unidades que las medidas originales y por esta razón se la
prefiere como un estadígrafo de dispersión; sin embargo, para propósitos de análisis teórico y de
cálculo, se trabaja generalmente con varianzas.
9/5/2018 Jaime Ortega 28
Estadística
La Varianza Muestral y la Desviación Estándar
𝑛 𝑛
2 𝑦𝑖 − 𝑦ത 2
2
𝑦𝑖 − 𝑦ത
𝑆 = 𝑆=
𝑛−1 𝑛−1
𝑖=1 𝑖=1
𝑛 2 𝑛
2
𝑦𝑖 − 𝑦ത 𝑦𝑖 − 𝑦ത 2
𝑆 = 𝑆=
𝑛−1 𝑛−1
𝑖=1 𝑖=1
En Estadística, la suma de los residuos es necesariamente 0 ya que existen variables con valores
superiores e inferiores a la media.
𝑛 𝑛
𝑛 𝑛
Ahora imaginemos que se tienen 3 valores de y que se pueden modificar arbitrariamente, pero con la
condición de que la suma de los residuos sea 0. Se puede utilizar cualquier cantidad a dos de los tres
valores de y, porque el otro va a estar dado por la fórmula, es decir que tienes dos grados de libertad
En aquellas raras ocasiones cuando se conoce la media poblacional, la formula de la varianza tendrá
N en el denominador, donde N es el número de elementos de la población.
𝑛 2 𝑛
2
𝑦𝑖 − 𝜇 𝑦𝑖 − 𝜇 2
𝜎 = 𝜎=
𝑁 𝑁
𝑖=1 𝑖=1
Estadística y Probabilidad
Estadística y Probabilidad
Una situación real implica el conocer varios parámetros o variables (en el ejemplo anterior el
parámetro es p).
Si éstos no se conocen y tienen que ser estimados a partir de datos experimentales, se está en presencia
de un problema estadístico.
Una ves que dichos parámetros han sido estimados, ellos pueden ser utilizados para deducir el
comportamiento de una población mediante la solución a un problema probabilístico
Estadística y Probabilidad
En resumen:
La Estadística Descriptiva acumula y analiza la masa de datos numéricos provenientes de los resultados
de ciertas actividades o de la observación de fenómenos.
Definiciones y Conceptos
Experimento Aleatorio
Definiciones y Conceptos
Probabilidad de La Place
Cuando se pueda asegurar que se cumple el postulado de indiferencia, es decir que todos los sucesos
elementales o posibles resultados de un experimento son igualmente posibles y mutuamente excluyentes
(no pueden ocurrir dos al mismo tiempo) entonces se define que la probalidad de ocurrencia de un evento
cualquiera (a) se la puede estimar mediante:
Definiciones y Conceptos
Probabilidad de La Place
Se observó que en 9 de cada 50 vehículos que pasan por una cierta esquina, los conductores no
tienen cinturón de seguridad. Si un vigilante de tránsito se para en esa misma esquina en un día
cualquiera ¿Cuál será la probabilidad que detenga un vehículo sin cinturón de seguridad?
Tanto el enfoque clásico (teórico) como el enfoque empírico conducen a valores objetivos de
probabilidad, en el sentido de que los valores de probabilidad indican en el largo plazo la tasa
relativa de ocurrencia del evento.
Definiciones y Conceptos
Ejemplos:
1.- Se lanza una moneda regular (experimento), el Espacio Muestral es Cara y Cruz, es decir Ca y Cr. La
probabilidad de ocurrencia de Cara es igual a la de Cruz y se denota por: P(Ca) = P(Cr) = 1/2.
Definiciones y Conceptos
Probabilidad del Punto Muestral
2.- Se lanzan dos dados. El Espacio Muestral consiste de 36 combinaciones que se muestran abajo.
1,1 1,2 1,3 1,4 1,5 1,6
2,1 2,2 2,3 2,4 2,5, 2,6
3,1 3,2 3,3 3,4 3,5 3,6 Cada uno de los 36 puntos
4,1 4,2 4,3 4,4 4,5 4,6 muestrales tiene la misma
probabilidad de ocurrencia. Por la
5,1 5,2 5,3 5,4 5,5 5,6
simple inspección de la tabla
6,1 6,2 6,3 6,4 6,5 6,6
anterior se tiene que:
P(suma de dos dados sea siete u once) = 6/36 + 2/36 = 2/9 Return
9/5/2018 Jaime Ortega 41
Teoría de Probabilidades
Dos eventos E1 y E2 son mutuamente excluyentes si ambos no pueden ocurrir al mismo tiempo. En
términos de probabilidad esto se expresa por:
Dos eventos E1 y E2 no son mutuamente excluyentes si ambos pueden ocurrir al mismo tiempo. En
términos de probabilidad esto se expresa por:
P(E1 ó E2) = P(E1) + P(E2) - P(E1 y E2)
Ejemplo: Se lanzan dos dados, cual es la probabilidad que la suma sea 7 (E1 ) o al menos uno de los dados
sea 3 (E2 )?
Posibles resultados de E1 (1,6), (2,5), (3,4), (4,3) (5,2), (6,1) P(E1) = 6/36
Posibles resultados de E2 (1,3), (2,3), (3,3), (4,3), (5,3), (6,3), P(E2) =11/36
(3,1), (3,2), (3,4), (3,5), (3,6)
Por lo tanto P(E1 ó E2) = P(E1) + P(E2) - P(E1 y E2) = 6/36 + 11/36 - 2/36 = 15/36
43
9/5/2018 Jaime Ortega
Teoría de Probabilidades
Por lo tanto nos queda: P(E1 ∪ E2) = P(E1) + P(E2) = 1/5 + 1/5 = 2/5
La probabilidad condicional de un evento E1, dado que un evento E2, sucedió se calcula mediante:
Ejemplo: Se lanzan dos dados, dado que al menos un dado es 3, cual es la probabilidad que la suma sea 7?
Ejemplo: en una oficina existen 100 computadoras. Unas son marca Canon(C ) y otras Dell (D).
Además algunas son nuevas (N) y otras usadas (U); según la siguiente tabla:
Ejemplo: dos lanzamientos sucesivos de dos dados son sucesos independientes. La probabilidad que la
suma sea 7: 6/36, es la misma en ambos lanzamientos !
Nota .- Existe una creencia popular llamada "ley del promedio". Según esto, si en el primer lanzamiento la
suma fue 7, la probabilidad que la suma sea 7 en el segundo lanzamiento es menor. Esto implicaría que
los dados tienen algún tipo de memoria !
El número de maneras en las cuales se puede seleccionar r objetos de n distintos, sin tomar en cuenta el
orden de selección
n n!
C r r (n r )!r!
n
La formula de cálculo es:
100 100!
100
Cuantas muestras distintas puede obtener? C 5 5 (100 5)!5!
9/5/2018 Jaime Ortega 48
Teoría de Probabilidades
La definición formal menciona que una variable aleatoria o variable estocástica es una función que
asigna un valor, usualmente numérico, al Espacio Muestral de un experimento aleatorio
Ejemplo 1:
Ejemplo 2:
Distribuciones de Probabilidad
La distribución de probabilidad de una variable aleatoria, es una función que asigna a cada valor
posible de dicha variable aleatoria, una probabilidad de ocurrencia del mencionado valor.
Si una variable aleatoria discreta Y, puede tomar valores y1 , y2 , y3 , ... yn con probabilidades de
ocurrencia p1 , p2 , p3 , ... pn , donde pi ≥ 0, para todo i, entonces tal situación define una
Distribución de Probabilidades Discreta.
La probabilidad que Y tome un valor particular y, se denotará como P(Y = y) o simplemente como P(y).
Ejemplo: Se desea realizar un estudio sobre el número de crías en una camada de algún mamífero. Se
sabe que el número máximo de crías es 3.
P(Y=0) = 0.2
P(Y=1) = 0.3
P(Y=2) = 0.3
P(Y=3) = 0.2
Ejemplo: Se desea realizar un estudio sobre el número de crías en una camada de algún mamífero. Se
sabe que el número máximo de crías es 3.
0.0 𝑦<0
P(Y=0) = 0.2 0.2 0 ≤ 𝑦 < 1
P(Y=1) = 0.3 𝐹 𝑌 = 0.5 1 ≤ 𝑦 < 2
P(Y=2) = 0.3 0.8 2 ≤ 𝑦 < 3
P(Y=3) = 0.2 1.0 𝑦≥3
Ejemplo: Se desea realizar un estudio sobre el número de crías en una camada de algún mamífero. Se
sabe que el número máximo de crías es 3.
0.0 𝑦<0
0.2 0 ≤ 𝑦 < 1
𝐹 𝑌 = 0.5 1 ≤ 𝑦 < 2
0.8 2 ≤ 𝑦 < 3
1.0 𝑦≥3
Supóngase que se repiten n veces un experimento el cual puede ser un éxito, con probabilidad p,
o un fracaso con probabilidad (1-p).
La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2, 3, 4, ...,
n suponiendo que se han realizado n pruebas.
Como hay que considerar todas las maneras posibles de obtener r-éxitos y (n-r) fracasos, el total de
posible combinaciones de éxitos y fracasos es:
n
Cr
9/5/2018 Jaime Ortega 57
Teoría de Probabilidades
Distribución Binomial
Se repite n veces un experimento el cual puede ser un éxito, con probabilidad p, o un fracaso con
probabilidad (1-p).
El número de éxitos será un número entero entre 0 y n.
Considerar todas las maneras posibles de obtener r-éxitos y (n-r) fracasos, el total de combinaciones de
éxitos y fracasos es:
n
Cr
Por lo tanto, la probabilidad de tener r éxitos (Función de probabilidad de la Distribución Binomial )
está dada por:
P(Y r ) P(r ) n C r pr (1 p) nr
n
Media
Si Y es una variable aleatoria discreta que toma valores y1 , y2 , y3 , ... yn con probabilidades de
ocurrencia p1 , p2 , p3 , ... pn , con pi ≥ 0, para todo i, entonces el valor esperado (medio) de Y esta dado
por:
N
E (Y ) yi pi
i 1
r 0
Media
Es importante notar que si una población puede ser descrita por una distribución Binomial, entonces el
valor esperado de la distribución es igual al valor teórico de la media poblacional, es decir:
E (Y ) np
Varianza
Si Y es una variable aleatoria discreta que toma valores y1 , y2 , y3 , ... yn con probabilidades de
ocurrencia p1 , p2 , p3 , ... pn , con pi ≥ 0, para todo i, entonces la varianza de Y está dada por:
varianza(Y ) = E[ (Y - ) 2 ]
N
(r np) nr
np(1 p)
n
2 2 r
Cr p (1 p )
r 0
Varianza
Al igual que en el caso de la media, si una población puede ser descrita por una distribución de
probabilidades, entonces el entonces la Varianza de la distribución es igual a la Varianza poblacional. Es
decir:
N
i
2 2
( y ) pi
i 1
Se consideraron distribuciones discretas donde la variable aleatoria puede tomar solamente un conjunto
discreto de valores. Ahora se analizarán distribuciones continuas donde la variable aleatoria puede tomar
cualquier valor en algún intervalo especifico.
En la sección de Estadística Descriptiva vio la manera en la cual observaciones hechas sobre una
variable continua pueden ser representadas en un histograma. En tanto se hagan más y más
observaciones y el intervalo de clase se haga mas pequeño, el histograma puede aproximarse por una
curva continua llamada curva de frecuencia
40
40
36 35
30
25
23
20
20 17
15
10 11
10 6
5
1
0
11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
Contenido de Sn (%)
20
probabilidad. La altura de la curva de probabilidad 15
17
11
en cualquier punto Y se denota por f(Y) y a esta 10
10
6
5
función se la llama función de densidad de 1
probabilidades o f.d.p. 0
11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
Contenido de Sn (%)
(b) f ( y)dy 1
Observaciones
Observaciones
3.- Cuando la variable aleatoria es
continua, sólo se puede encontrar la
probabilidad de observar un valor en
un cierto rango lo que implica que el
valor de f(Y) NO ES LA
PROBABILIDAD de observar Y. Esto
último se debe al hecho que los
valores posibles de Y no son contables,
no se puede hablar del i-ésimo valor
de Y y por lo tanto p(Yi) no tiene
significado alguno.
200
Frecuencia
xo
f ( y)dy
150
F (Y ) 100
50
0
11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
Contenido de Estaño
Valor Esperado (Media) El valor esperado de una variable aleatoria continua esta dado por:
E (Y ) yf ( y)dy
Varianza (Y ) E[(Y ) 2 ] (Y ) 2 f ( y )dy donde E (Y )
Su función de densidad es simétrica y con forma de campana, lo que favorece su aplicación como
modelo a gran número de variables estadísticas.
1 ( y ) 2
f ( y) e 2 2 con y
(2 )
E (Y ) y Varianza (Y )
Lo anterior indica que los parámetros que caracterizan a la distribución normal, μ y σ2 , son
la esperanza y Varianza de Y, respectivamente.
z = (Y-μ)/σ
De esta manera, la función de densidad estándar se denota por:
z2
g ( z) e
2 dz
En el intervalo [ μ − σ , μ + σ ] se encuentra
comprendida aproximadamente, el 68,26% de la
distribución
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
Para saber el área debajo de la curva entre 0 y 0.45, se ubica la intersección de fila de 0.4 y la columna
0.05, que corresponde al valor 0.1736. Como la curva es simétrica, la tabla también es válida para -
0.45y 0, que también tiene un área de 0.1736.
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
Tablas de la
Distribución
Normal
Estándar
Retorno
Tablas de la
Distribución
Normal
Estándar
Se sabe que los pesos individuales de tornillos de un cierto lote se distribuyen normalmente con media
μ = 2.10 gramos y desviación estándar σ = 0.15 gramos. Qué proporción (probabilidad) de tornillos
pesará más de 2.55 gramos?
Se concluye que solo 91 % de las barras tiene una resistencia mayor a 20 y por tanto el lote no
cumple con las especificaciones del cliente.