Está en la página 1de 22

INGENIERÍA INDUSTRIAL

PROBABILIDAD Y ESTADISTICA

RESUMEN
UNIDAD 1

Profesor: Ana María Velázquez Gonzales


Alumno: Jaime Arturo Ramos Ortega
Fecha: 10/Febrero/2019
UNIDAD I: ESTADISTICA DESCRIPTIVA

Notación sumatoria
Una operación muy común en la estadística es la suma de un grupo de valores, la
que se representa formalmente con el símbolo (sigma) Cada uno de los valores que
se habrán de sumar con xi , i es un subíndice que identifica a x1. x2. …… xn, de tal
manera que
Población y muestra aleatoria.
La población es el conjunto formado por el total de elementos en estudio por el cual
existe un interés y es elegida por el investigador, ésta puede ser finita o infinita, la
finita es aquella en la cual se conocen todos sus elementos. Por ejemplo: los
alumnos que egresaron en una escuela en un año determinado, y la infinita es
aquella en la que no se conocen todos los elementos bajo estudio. Por ejemplo el
n°. de estudiantes que egresaran de una escuela durante su funcionamiento.
La muestra aleatoria es la selección de un conjunto de individuos representativos
de la totalidad del universo objeto de estudio reunidos como una representación
válida y de interés para la investigación de su comportamiento. Así resulta más
económico y práctico estudiar los elementos de una muestra que sea representativa
de la población, que toda la población, puesto que se tiene un ahorro de tiempo y
dinero.
Clasificación y campo de aplicación de la estadística

La estadística es la ciencia que se ocupa de estudiar las diversas formas de


recopilar, organizar, analizar y concluir una serie de datos. Tiene como finalidad,
facilitar la solución de problemas en los cuales necesitamos conocer algunas
características sobre el comportamiento de algún suceso o evento. Características
que nos permiten conocer o mejorar el conocimiento de ese suceso. Además nos
permiten inferir el comportamiento de sucesos iguales o similares sin que estos
ocurran. Esto nos da la posibilidad de tomar decisiones acertadas y a tiempo, así
como realizar proyecciones del comportamiento de algún suceso.

La estadística se compone de tres ramas:


1. estadística descriptiva
Comprende la recopilación, organización y representación de datos, esto lo hace
utilizando diferentes métodos (gráficos y numéricos). Por ejemplo, el índice de
inflación en los países de Latinoamérica durante los últimos cinco años, el nivel de
escolaridad de los empleados de una fábrica, etc.
2. teoría de la probabilidad
Proporciona una base racional para tratar de resolver situaciones influenciadas por
factores aleatorios, fortuitos o al azar. Por ejemplo, la posibilidad de que alguien
gane la lotería, la probabilidad de que salga un número determinado al lanzar un
dado, etc.

3. estadística inferencial
Es la que incluye el análisis e interpretación de los datos que son extraídos de un
grupo mayor, además saca conclusiones de su comportamiento. Por ejemplo: con
base en las estadísticas de inflación registradas en los últimos meses en México se
espera que para el próximo mes de noviembre se vuelva a tener una inflación de un
solo dígito.
Recopilación, organización y representación de datos estadísticos

Recopilación; se refiere a la forma en cómo son obtenidos los datos que servirán
para analizar el problema y pueden ser de dos tipos:
A. Internos: Son aquellos que se localizan dentro de la empresa como son:
sueldos, compras, ventas, estados financieros, contratación de personal,
promociones, etc.
B. Externos. Son aquellos que se localizan fuera de la empresa, y pueden ser
obtenidos por dos fuentes:
1) Primarias: Son los datos que son obtenidos directamente por el investigador,
por medios de: cuestionarios, llamadas telefónicas y observación directa.
2) Secundarias.: Son aquellos datos que fueron obtenidos por otras personas
con anterioridad, y que ya están registrados, por ejemplo: departamentos de
estadística, revistas, bibliotecas, bancos de información.
Organización. En esta etapa los datos que son obtenidos de fuentes primarias son
organizados de acuerdo con ciertas características o cualidades, por ejemplo: sexo,
peso, ingresos, edad, costos altura, religión, nacionalidad, resistencia, producción,
utilidades rendimientos, etc.
Presentación. Después de la organización y tomando en cuenta las características
de los datos se presentan de tres maneras (las más comunes).
a) Mediante enunciados: numerando cada uno de los datos. se recomienda
cuando son pocos datos.
b) Tablas de frecuencia o cuadros estadísticos: son útiles para representar
información con una gran cantidad de datos.
c) Graficas estadísticas: es un medio plástico para representar la información,
son útiles porque permiten captar información en periodos cortos de tiempo,
su inconveniente es que los valores son aproximados y varían de persona a
persona.
La estadística descriptiva, usa los métodos usados para describir conjuntos de
datos se pueden clasificar en dos tipos:
 Métodos gráficos.
 Métodos numéricos.
Los métodos gráficos: permiten la comparación objetiva de las clases o grupos y
a la vez muestran rápidamente el avance o retroceso de una clase respecto a otras.
Las gráficas más comunes son el histograma, polígono de frecuencia y
circulograma.

Los métodos numéricos: son utilizados cuando los métodos gráficos están
limitados debido al tipo de datos y observaciones de la población o muestra que se
esté analizando, están clasificados en:
 Medidas de tendencia central o centralización.
 Medidas de posición.
 Medidas de dispersión o variabilidad.
 Medidas de forma.
Datos no agrupados, medidas de tendencia central y medidas de posición
Datos no agrupados.
Los datos no agrupados es un conjunto de información numérica sin ningún orden
que nos establece una relación clara con lo que se pretende desarrollar a lo largo
de un problema.
Medidas de tendencia central o medidas de centralización (datos no
agrupados).
Son diferentes métodos para localizar el dato central de un conjunto de datos. El
dato alrededor del cual giran todos los demás. Las medidas de centralización más
utilizadas son la medida o promedio, mediana y moda.
Indican valores con respecto a los que los datos parecen agruparse: media,
mediana, moda, media geométrica y media armónica.
1. Media o promedio: para datos no agrupados es igual a la sumatoria de las
observaciones o datos divididos entre n (total de datos).

para calcular la media o promedio poblacional se calcula de igual forma que la media
muestral

2. La mediana (me): de un grupo de observaciones, se define como la


observación que cae en el centro cuando las observaciones, se ordenan en
orden creciente. Si el número de observaciones es par, se escoge como
mediana el valor medio de las dos observaciones centrales.
3. La moda (Mo): es el valor o categoría de la variable que se presenta con
mayor frecuencia. La moda puede no existir, e incluso no ser única en caso
de existir. Por su propia definición, la moda no es única, pues puede haber
dos o más valores de la variable que tengan la misma frecuencia.
4. Media geométrica (g): es la enésima raíz del producto de los números esto
es:

5. Media armónica (H): es el número de elementos entre recíproco de la suma


de los números:
Medidas de posición.
Las medidas de posición (datos no grapados), son métodos que resultan ser más
prácticos para precisar ciertas situaciones en las que se busca describir la variación
o dispersión en un conjunto de datos. Para datos no agrupados se calculan:
Cuartiles

Si se tienen una serie de valores, se localiza mediante las siguientes fórmulas: x1,
x2, x3,........, xn.

Deciles
Si se tienen una serie de valores, se localiza mediante las siguientes fórmulas: X1,
X2, X3,…….Xn .

a. cuando n es par:

b. cuando n es impar:
Percentiles o centiles
Si se tienen una serie de valores , se localiza mediante las siguientes fórmulas:
X1 ,X2 ,X3,........, Xn
Para los percentiles:

Siendo a, el número del percentil.


Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con
el percentil 50 y el tercer cuartil con el percentil 75.

Medidas de dispersión o variabilidad (datos no agrupados).


Son métodos para conocer qué tan separado se encuentran los datos con respecto
a la media equilibrante del grupo: rango, recorrido, varianza, desviación media
absoluta y desviación estándar.
1. rango: es la separación máxima entre los datos
Rango = dato mayor -dato menor = d - d.
2. varianza (s2), desviación estándar (s): son métodos para evitar que la suma de
las desviaciones den cero.

La varianza y la desviación estándar poblacional se calcula como:


3. desviación media absoluta (D.M.A): es un método para evitar que la suma de
las desviaciones den cero.

Datos agrupados
Datos agrupados.
Son aquellos que están organizados en forma de grupos o clases.

Tabla de frecuencia
1. frecuencia: son las veces que se repite un dato característico, se representa
por la letra. f
2. frecuencia relativa: es la razón de la frecuencia individual de cada grupo o clase
entre el total de frecuencia multiplicada por cien para que esté expresada en
porcentaje, esto es: fr

3. frecuencia acumulada (FA): se obtiene sumando la frecuencia de ese intervalo


con la frecuencia de los intervalos anteriores. La frecuencia acumulada del último
intervalo corresponde al número total de datos. Fa
Intervalo de clase: es el conjunto de datos que tienen características semejantes
y consta de dos partes.
i. límite superior (ls): es el número mayor que se localiza a la derecha .de cada
intervalo LS
2. límite inferior (li): es el número menor de cada intervalo y se localiza a la
izquierda en el intervalo de clase. LI
Limites reales de clase:
1. límite real inferior: es igual a la semisuma del límite superior de la clase o grupo
anterior y el límite inferior de la clase o grupo en estudio. LRI
2. límite real superior: es igual a la semisuma del límite superior de la clase del
intervalo en estudio y del límite inferior de la clase contigua. LRS
Anchura o tamaño del intervalo de clase (c): es igual a la diferencia LRS - LRI, o
sea:
c = LRS - LRI
Marca de clase (x): también se le llama punto medio del intervalo de grupo es igual al
límite superior más el límite inferior dividido entre 2.

Agrupamiento de datos:
Para la construcción de una distribución de frecuencia se recomienda:
a) determinar el número de grupos que se van a usar en la construcción de la tabla
de frecuencia. De manera conveniente seleccionar entre 5 a 20 grupos dependiendo
del número de datos u observaciones que se estén utilizando o de otra forma
calcular el número de grupos por la regla de sturgges: n = 1 + 3.3 log(n).
b) determinar el tamaño de los intervalos de clase: para encontrar la amplitud o
tamaño de cada grupo se utiliza.

N es el número de grupos en una tabla de frecuencia y n es el total de datos u


observaciones.

Medidas de tendencia central (datos agrupados).


Mediana

Moda
Medidas de posición (datos agrupados):
Posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad
de individuos: cuartiles, deciles, percentiles,...
Son índices diseñados para revelar la situación de una puntuación con respecto a
un grupo, utilizando a este como marco de referencia.
Las medidas de posición dividen la distribución en partes iguales, sirven para
clasificar a un individuo o elemento dentro de una determinada población o muestra.
Cuando la fracción es la mitad, se trata de la mediana.
Cuartiles: dividen a la distribución en 4 partes iguales. El primer cuartil deja el 25%
de los valores por debajo. El segundo cuartil es igual a la mediana y el tercero deja
el 75%. i Q 3 Q
Los cuartiles se denotan (Qi) y se calculan:
Deciles: dividen a la distribución en 10 partes iguales. El primer decil deja el 10%
de los valores por debajo y el resto por encima. El quinto decil es la mediana. 1 D
5D
Los deciles se denotan (Di) y se calculan:

Percentiles: dividen a la distribución en 100 partes iguales del total. Así, el percentil
24 deja el 24% de los valores por debajo. El percentil 50 es la mediana o el quinto
decil.
Los percentiles se denotan (pi) y se calculan:
Medidas de dispersión o variabilidad (datos agrupados)
Son índices que establecen el grado en que se parecen o se diferencian entre si un
conjunto de datos.
¿Por qué estudiar la dispersión? es posible evaluar la confiabilidad promedio que
se está utilizando. Si los valores se concentran en torno a la media, esta última se
considera representativa de los datos. Por el contrario, una dispersión grande indica
que la media no es confiable.
Medidas que calculan la dispersión
Rango muestral: es la diferencia entre la observación más grande y la menor. Por
ejemplo: el valor más pequeño de colesterol total es 3.8 y el más alto es 8.8.
Por lo tanto el rango muestral: rem=x máximo -x mínimo rem= 8.8- 3.8= 5
Amplitud total o rango: el rango es la medida de dispersión más sencilla. Es la
diferencia entre el valor más alto y el más bajo de un conjunto de datos.
Rango= valor más alto -valor más bajo
Por ejemplo
Consideremos los siguientes grupos de calificaciones en tres cursos diferentes:
A: 6, 6, 6, 6, 6, 6
B: 5, 6, 7, 8, 7,3
C: 2, 3, 4, 7, 9, 11
Los tres grupos poseen la misma media aritmética, pero mientras en el curso a no
hay variaciones, en el curso b (rango=5) y c (rango=9) ha mostrado importantes
variaciones, siendo este último el de mayor variabilidad.
Desviación media absoluta (D.M.A)
Es la suma de los desvíos de todos los valores con respecto a la media aritmética,
en valores absolutos y promediados. Se calcula:
Varianza (S2): es el promedio de las desviaciones cuadráticas con respecto a la
media. Es un índice basado en la idea de que, al elevar al cuadrado las distancias
con respecto a la media antes de hallar su promedio, no suman cero. Además los
cuadrados son siempre positivos.

Si la varianza es poblacional se calcula:


Desviación estándar (s):
La varianza de 106.8 para las edades de los pacientes no está en términos de años,
sino más bien en años al cuadrado
Esto es lo que hace la desviación estándar al calcular la raíz cuadrada de la
varianza. Así se establece con mayor precisión una separación promedio de las
distancias de cada uno de los valores de la variable media.

La desviación estándar poblacional se calcula:


Coeficiente de variación (CV)

El coeficiente de variación se calcula como CV = σ/μ

Las medidas de asimetría, más comunes son:


1) las basadas en el grado de alejamiento que tiene los términos con respecto a
diversas medidas centrales a medida que la distribución se hace asimétrica.
2) las basadas en el sistema de momentos (M3). En lo que se refiere a las primeras,
estas medidas nos indican no sólo el grado de asimetría de la curva sino también la
dirección de la misma. Si su valor es negativo, la asimetría es hacia la izquierda y
si es positiva la asimetría será hacia la derecha. De (1) usaremos el coeficiente
Pearson, como se recordará en una distribución simétrica la media, moda y
mediana, se encuentran en el mismo punto. Si la distribución es asimétrica, el valor
de cada uno de ellos se localiza en diferentes puntos de la distribución.
La asimetría o sesgo de una distribución de frecuencia expresa su deformación
respecto al eje vertical. La asimetría puede ser positiva o derecha (la media es
mediana), o nula (la media es igual a la mediana).
Puesto que en una distribución asimétrica el valor de la moda permanece en lo alto
de la curva y el de la media se mueve hacia los extremos de la distribución.

La asimetría (a) queda cuantificada por el segundo coeficiente de asimetría de


pesaron para la media, el cual se calcula por: asimetría (a) = 3(x − md)/ σ

Para la moda el coeficiente se calcula como: asimetría (a) = (x – mo)/ σ


La asimetría o dirección de la curva de la distribución es a la derecha, indicando que
la mayor parte de los datos están a la derecha de x.

Sesgada a la izquierda. Sesgada a la derecha.


Métodos gráficos
Diagrama de dispersión
La primera forma de describir una distribución bivariable es representar los pares
de valores en el plano cartesiano. El grafico obtenido recibe el nombre de nombre
de puntos o diagrama de dispersión.
Un diagrama de dispersión es una representación gráfica de la relación entre dos
variables muy utilizada en las fases de comprobación de teorías e identificación de
cosas de raíz y en el diseño de soluciones y mantenimiento de resultados obtenidos.
Tres conceptos especialmente destacables son el descubrimiento de las verdaderas
relaciones de causa efecto es la clave de la resolución eficaz de un problema que
las relaciones de causa efecto casi siempre muestran relaciones y que es más fácil
ver la relación en un diagrama de dispersión que en una simple tabla de números.
Los diagramas son los siguientes:
Diagrama de tallo y hojas

Histograma

Ojivas
Polígono de frecuencias

Diagrama de caja y ejes

Diagrama de sectores o circulograma


Bibliografías
Hurtado E., Estadística Descriptiva

Mendenhall, William; Introducción a la probabilidad y estadística; Ed. Cengage


Learning; México.

Gutiérrez Eduardo; Probabilidad y estadística. Aplicaciones a la ingeniería y


ciencias; Ed. Patria; México.

También podría gustarte