Está en la página 1de 46

UNIVERSIDAD PERUANA UNIN - LIMA

FACULTAD DE INGENIERA Y
ARQUITECTURA
ESCUELA DE INGENIERA DE SISTEM
ESTADSTICA GENERAL
Grfica de distribucin
Normal, Media=0, Desv.Est.=1

0.4

0.3
Densidad

0.28

0.2

0.1

0.0
-1.645 -0.4399 0
X
Facilitadores:
Dr. SORIA QUIJAITE JUAN JESS

EMAIL: jesussoria@upeu.edu.pe
EMAIL: prosoria@gmail.com
Tema:
INTRODUCCIN A LA ESTADSTICA
Dr. Soria Quijaite Juan Jess 1
SOFTWARE A TRABAJAR EN EL CURSO

1) SOFTWARE SPSS versin 23


2) SOFTWARE MINITAB versin 16
o 17
3) SOFTWARE INFOSTAT

2
QU ES LA ESTADSTICA?

La estadstica se ocupa de los


mtodos cientficos para :
recolectar , organizar , resumir ,
presentar y analizar datos ; as
como de sacar conclusiones
vlidas y tomar decisiones con
base a este anlisis
Murray R. Spiegel & Larry J.
Stephens
3
USO DE LA ESTADSTICA

No existe actividad humana donde no se


involucre :
Personalmente : comparacin de
alternativas , evaluacin de servicios ,
ingresos vs. Pagos, etc.
Cotidianamente : Censos , ndices de
precios , ajustes de tarifas , frecuencia de
enfermedades, preferencia de candidatos
polticos.
Empresarialmente : control de proceso y
calidad , evaluacin de productividad,
estudios de costos, nivel de satisfaccin de
clientes , proyectos de inversin, etc.
4
IMPORTANCIA DE LA ESTADSTICA

Importancia de la estadstica

De qu sirve tener datos si no son representativos?


Qu pasa si tomo decisiones con informacin incorrecta?
Es bueno suponer informacin para su anlisis?
Hay una forma objetiva de mejorar una situacin o proceso?
Hay una forma clara de reducir riesgos y tener certidumbre ?
Puedo controlar variables sin tener su medicin?

Si podemos observar y recolectar informacin precisa y


relevante , para organizarla de la mejor forma y analizarla de
tal forma que nos permita tener un panorama completo de la
situacin u objeto de estudio estamos entonces haciendo
Estadstica .

5
VENTAJAS DE LA ESTADSTICA

El empleo correcto de la estadstica nos


permite :
Visualizacin de los datos Eliminacin de incertidumbre
Medicin de las variables Integracin de comunicacin
Apoyo en las decisiones Optimizacin de uso de tiempo
Reduccin de riesgos Mejora de la eleccin
Organizacin de Eficacia de manejo de
informacin informacin
Certeza Estmulo enfocado a resultados
Reconocimiento Documentacin de procesos y
de alternativas decisiones
Aceptacin de soluciones Visualizacin y control de
tendencias
Toma de decisiones racional y
objetiva
6
DEFINICIONES BSICAS
Poblacin: Conjunto de elementos que se quiere estudiar.

Habitantes de una ciudad.


Televisores fabricados en una factora.
Alumnos de primero de bachillerato.

Muestra: Cualquier subconjunto de una poblacin. El


nmero de elementos de una muestra se llama tamao.

Variable estadstica : Cada uno de los rasgos o


caractersticas que se quiere estudiar de los elementos de
la poblacin, susceptible o no de medida.
Color del pelo: negro, castao, rubio o pelirrojo
Sexo: hombre o mujer
4 , Miembros asalariados de una familia: 0, 1 , 2 , 3 ,
Alturas de alumnos:178, 169, 172, 183,

7
DEFINICIONES BSICAS

Individuo: Cada uno de los elementos que componen una


poblacin y/o muestra .

Es sinnimo de unidad bsica o ltima del muestreo


Carcter : Propiedad o cualidad que presentan los
elementos de una poblacin que se desea estudiar .

Cualitativo cuando no puede medirse numricamente


Cuantitativo cuando puede medirse numricamente (Variable)

Estadstico : Es una medida descriptiva de una muestra

Ingreso promedio de los trabajadores


Frecuencia de venta de productos

8
TIPOS DE ESTADSTICA

La Estadstica descriptiva o deductiva:

Trata del recuento, ordenacin y clasificacin de


los datos obtenidos de las observaciones:
Construccin de tablas, grficos y clculo de parmetros.

La Estadstica inferencial o inductiva:

Utiliza los resultados de la estadstica


descriptiva y se apoya en el clculo de
probabilidades para la obtencin de
conclusiones sobre una poblacin a partir de los
resultados obtenidos de una muestra.

9
VARIABLES CUALITATIVAS Y CUANTITATIVAS

Escalas
Ordinales Etapas

Cualitativas
(Cualidades ,
Colores
categoras o
atributos) Nominales Lugares
Profesiones


Variables Discretas Nmero de hijos
(Unidades Pginas de un libro
Cuantitati vas completas )

(Aquellas
medibles Edad
numricamente) Continuas Peso
(Cualquier Talla
valor en un Tiempo
rango)
10
TIPOS DE VARIABLES CUALITATIVAS

Dicotmicas: Slo hay dos categora, que son


excluyentes una de la otra
Ejemplo: enfermo-sano, muerto-vivo, mujer-
hombre

Nominal: tiene mas de dos categoras y no hay


orden entre ellas.
Ejemplo: color de los ojos, grupo sanguneo

Ordinal: tiene varias categoras y hay orden


entre ellas.
Ejemplo: grado tumoral, calificacin del riesgo
en
anestesia. 11
TIPOS DE VARIABLES CUANTITATIVAS

Continuas: nmeros infinito no


numerables de elementos. Tiene asociado
el concepto de medida, en unidades a
veces fraccionarias.
Ejemplo: Presin arterial, Edad, peso.

Discretas: nmeros finitos o infinitos


numerables de elementos. Se asocia con
el concepto de conteo.
Ejemplo: N de hijos, N de casos de
tuberculosis por estado.

12
ESCALAS DE MEDICIN DE LAS VARIABLES
ESCALAS DE MEDICIN DE LAS VARIABLES
TALLER 01:
Identifique el tipo de variable de acuerdo a su naturaleza (cuantitativa:
discreta/continua, o cualitativa: nominal/ordinal).
Los niveles de colesterol LDL de los alumnos de maestra de la UPeU medida en una
escala de: bajo, normal, alto, en riesgo...
Situacin ocupacional a la que pertenecen los padres de los alumnos de la Escuela
de Ingeniera de sistemas en un da determinado...........................
Porcentaje de pacientes satisfechos con el servicio de atencin de la enfermera en
un da ...................
Nmero de accidentes registrados en el centro de salud de la UPeU ...
Gnero de los trabajadores de la empresa FIGUERI ....
Nmero de computadoras en los laboratorios de la escuela de ingeniera de
sistemas de la UPeU
Lima............................................................................................................
Nivel de estudios alcanzados de las enfermeras de la facultad de ciencias de la salud
de la UPeU Lima.
Nmero de clientes en el supermercado Plaza
Vea ............................................................
Grado de instruccin de los trabajadores de la UPeU.................
La concentracin de glucosa en sangre en individuos no diabticos, medida en
mg/dl,
PRESENTACIN ESTADSTICA Y REPRESENTACIONES GRFICAS

Son los mtodos empleados para organizar y presentar las


observaciones , con el objeto de mostrar la mxima
informacin con una rpida visualizacin , manejo de esttica
y sencillz operativa . Pueden ser de dos tipos:

Tablas:
Forma sencilla y clara de agrupar la informacin
Pueden ser sencillas o complejas segn la cantidad de datos
Es importante el manejo lgico de la disposicin

Grficos:
Permiten visualizar la informacin y sus relaciones
Es una forma ilustrativa y clara de los datos
Es una forma creativa y artstica de presentacin
15
VARIABLES: REPRESENTACIN TABULAR

VENTAS MENSUALES POR ZONA


Volumen Volmen Volmen
Fecha de Volmen %
Ventas Ventas Ventas Total
Venta Ventas Sur Mensual
Norte Centro Forneo
$19,156.0
Enero $8,691.89 0 $57,793.83 $28,688.78 $114,330.50 18.7%

Febrero $1,617.88 $1,076.03 $19,437.13 $19,321.98 $41,453.02 6.8%

Marzo $1,223.00 $6,677.00 $33,278.32 $20,249.31 $61,427.63 10.1%

Abril $9,645.62 $0.00 $21,343.71 $14,846.76 $45,836.09 7.5%

Mayo $1,051.57 $4,354.00 $19,174.22 $16,886.01 $41,465.80 6.8%

Junio $4,387.45 $0.00 $20,529.59 $22,709.82 $47,626.86 7.8%

Julio $3,362.64 $8,899.00 $26,405.06 $21,065.89 $59,732.59 9.8%

Agosto $0.00 $0.00 $0.00 $0.00 $0.00 0.0%

Septiembre $1,681.32 $1,036.16 $26,598.83 $30,541.29 $59,857.60 9.8%

Octubre $7,132.00 $0.00 $25,738.73 $21,813.00 $54,683.73 9.0%

Noviembre $1,051.57 $2,345.00 $18,477.38 $22,846.24 $44,720.19 7.3%

Diciembre $2,334.00 $6,487.00 $14,802.09 $15,639.72 $39,262.81 6.4%

$42,178.9 $50,030.1 $283,578.8 $234,608.8 $610,396.8


Total 4 9 9 0 2

% por Zona 6.9% 8.2% 46.5% 38.4%

16
VARIABLES CUALITATIVAS: REPRESENTACIN GRFICA

17
VARIABLES CUANTITATIVAS: REPRESENTACIN GRFICA

18
DIFERENTES TIPOS DE MEDIDAS

Las descripciones numricas de


datos son importantes. Dado un
conjunto de nx1observaciones
, x2 ,....., xn :

La estadstica descriptiva nos


ayuda mediante el manejo de
medidas de tendencia central
relativas a la posicin de los datos
y medidas de dispersin
relativas a la variabilidad de los
datos. 19
MEDIDAS DE TENDENCIA CENTRAL

Las medidas descriptivas ms comunes


de tendencia central o posicin son:
la media aritmtica y la mediana

Existen otras medidas de tendencia


central que en ocasiones pueden
resultar de inters tales como : la moda,
los cuartiles, los deciles, los percentiles,
la media armnica, la media geomtrica
y la media ponderada.

20
MEDIA ARITMTICA

La media aritmtica es simplemente el


promedio (tambin llamada media
muestral ya que generalmente se
calcula en relacin a una muestra).
Se calcula de la siguiente forma: si las
observaciones de una muestra de
tamao n son x1, x2,,xn entonces:
n

x 1 x 2 ... x n
x
i 1
i

X
n n

21
CARACTERSTICAS DE LA MEDIA

Ventajas :
Fcil de calcular e interpretar.
En su clculo intervienen todos los
datos disponibles.
Su valor es nico para una serie de
datos.
Es el punto de equilibrio de la
informacin.
Desventajas :
No es representativa con pocos datos
Se ve afectada por el grado de
dispersin
Es poco til con datos muy
heterogneos 22
MEDIANA

La mediana se suele definir como el valor


ms intermedio o central una vez que
los datos han sido ordenados en forma
creciente. Se suele denotar por Me. La
forma ms general de calcular la mediana
es la siguiente:
x n 1 2 si n es impar

Me x
n 2 x ( n 2) 1
si n es par
2

23
CARACTERSTICAS DE LA MEDIANA

Ventajas :
Valor nico que no se ve afectado por los
extremos por ser equidistante de ellos.
Se localiza a la mitad de los datos , dejando el 50
% por arriba y el 50 % por debajo de su valor.
Es menos sensible a las variaciones de los datos.
No se ve afectada por la dispersin de los datos.

Desventajas :
No se emplea para hacer clculos
Utiliza muy poca informacin de los datos
Cuanto ms grande es la serie de datos , ms
complicado se vuelve su determinacin.

24
LA MODA

La moda de un conjunto de
observaciones es el valor que ms se
repite, aquel cuya frecuencia
absoluta es mxima.
Puede ser nica, que haya ms de
una, o que no exista.
Cuando hay ms de una , la
distribucin de los datos se
denomina acorde : bimodal ,
trimodal, polimodal, etc.

25
USO DE: MEDIA, MEDIANA Y MODA

Nos brindan una idea muy clara de la posicin de los


parmetros dentro de una distribucin de datos.

La media tiene el uso ms frecuente y sencillo ,


tales como : talla media del mexicano,
temperatura histrica promedio , etc.
La mediana es representativa en poblaciones
heterogneas , tales como : distribucin de
salarios , peso medio, etc.
La moda literalmente tiene que ver con estar de
moda o lo que ms se lleva , tal como: nmero de
individuos por casa en Mxico, cantidad de
usuarios de ciertos equipos celulares , etc.

26
RELACIN ENTRE: MEDIA, MEDIANA Y MODA

La forma de distribucin de las observaciones puede variar ,


causando desviaciones de estas mediciones centrales , por eso es
conveniente el empleo conjunto de la media y la mediana en una
poblacin o muestra.

La media se usa para distribuciones simtricas que no


tienen sesgo , mientras que la mediana es ms
representativa cuando se tienen datos de distribucin
sesgada.

27
MEDIDAS DE DISPERSIN

Las medidas descriptivas ms


comunes de dispersin son: el
rango, la varianza y la desviacin
estndar .

Existen otras medidas de dispersin


que en ocasiones pueden resultar de
inters tales como : rango semi-
intercuartilar , rango percentilar y
coeficiente de variacin.

28
RANGO

El rango de la muestra es la medida


de variabilidad ms sencilla entre
todas las mencionadas
Como valor se define como la
diferencia entre la observacin ms
grande y la ms pequea :

Indica el ancho, recorrido o amplitud


de valores.
Tiene como sus lmites el valor mayor
r enxla
y el menor xmin de datos.
distribucin
max
29
CARACTERSTICAS DEL RANGO

Ventajas :
Fcil de determinar e interpretar.
Nos indica los lmites de nuestra
informacin.
Nos permite visualizar la amplitud de
dispersin de los valores de forma
sencilla.

Desventajas :
Ignora toda la informacin de la
muestra
No mide el grado de dispersin , solo
su ancho
No nos da una idea detallada de la
informacin de las observaciones.
30
VARIANZA

Es una medida significativa de


la dispersin de las observaciones
alrededor de la media.
Se define como el promedio de
las desviaciones respecto a su
media , elevadas al cuadrado :
n

(x x)
i
2

s
2 i 1
n
31
CARACTERSTICAS DE LA VARIANZA

Ventajas :
Fcil de calcular mediante su frmula.
Indica el grado y forma de dispersin
de los datos con respecto a la media.
Depende de todas las mediciones.

Desventajas :
Es imprctica por ser un trmino
cuadrtico de poco sentido en la
realidad.
Es un nmero muy grande de
referencia matemtica , pero sin valor
concreto y de difcil manejo
comparativo.
32
DESVIACIN ESTNDAR

Es una medida significativa de la


dispersin de las observaciones
alrededor de la media.
Se define como la raz cuadrada del
promedio de las desviaciones respecto
a su media , elevadas al cuadrado ; es
decir la raz cuadrada
n
de la varianza :
(x x)
i
2

i 1
n

33
CARACTERSTICAS DE LA DESVIACIN ESTNDAR

Ventajas :
Fcil de calcular mediante su frmula y
particularmente en hojas de clculo como Excel
que lo hacen de forma automtica.
Indica el grado y forma de dispersin de los
datos con respecto a la media.
Depende de todas las mediciones.
Muy prctica por usar los mismos valores de las
unidades que se analizan.
Un valor grande indica que los datos se alejan
mucho de la media y un valor pequeo indica
que se acercan a la media.

Desventajas :
Si hacemos el clculo manual , es complicado.
34
UTILIDAD DE LAS MEDIDAS DE DISPERSIN

Las medidas centrales solo nos indican el


valor medio alrededor del cual se
agrupan nuestros datos , pero las de
dispersin nos detallan la variacin de las
observaciones en cuanto a forma y
extensin.

Nos muestran claramente la distancia


entre los datos y la media aritmtica,
adems de que dependen de todas las
observaciones.

Son nicas de una serie de datos y por


eso se denominan absolutas , pero
pierden sentido de comparacin , para lo
cual hay que usar el coeficiente 35 de
variacin (desviacin estndar sobre
MEDIDAS DE DISTRIBUCIN

Las medidas de distribucin nos


permiten identificar la forma en que
se separan o aglomeran los valores de
acuerdo a su representacin grfica.
Son : la simetra y la curtosis.

Estas medidas describen la manera


como los datos tienden a reunirse de
acuerdo con la frecuencia con que se
hallen dentro de la informacin.

Su utilidad radica en la posibilidad de


identificar las caractersticas de la
distribucin sin necesidad de generar
el grfico.
36
SIMETRA Y ASIMETRA

Si los valores de la serie de datos


presentan la misma tendencia (forma) a
izquierda y derecha de un valor central
como la media aritmtica, se dice que es
simtrica de lo contrario ser asimtrica.
Para medir el nivel de asimetra se utiliza
el llamado Coeficiente de Asimetra de
Fisher, que viene definido:
n
(1 / n)( ( xi x ) 3

g1 i 1
3
s
37
SIMETRA Y ASIMETRA

Los resultados pueden ser los siguientes:

g1 < 0 (distribucin
asimtrica negativa;
existe mayor
concentracin de valores
a la izquierda de la
media que a su derecha)

g1 = 0 (distribucin
simtrica; existe la
misma concentracin de
valores a la derecha y a
la izquierda de la media)

g1 > 0 (distribucin
asimtrica positiva;
existe mayor 38
CURTOSIS

El Coeficiente de Curtosis
analiza el grado de
concentracin que presentan los
valores alrededor n de la zona
/ n )( i
central de la distribucin.
(1 ( x x ) 4

g2 i 1
4
3
s

Se calcula con la siguiente


frmula :
Los resultados pueden ser :
g2 = 0 (distribucin
39
mesocrtica).
CURTOSIS
Existen 3 tipos de distribuciones segn su
grado de curtosis se observar de la
siguiente forma :

40
TIPOS DE CURTOSIS

Distribucin mesocrtica: presenta un


grado de concentracin medio alrededor
de los valores centrales de la variable (el
mismo que presenta una distribucin
normal).

Distribucin leptocrtica: presenta un


elevado grado de concentracin alrededor
de los valores centrales de la variable.

Distribucin platicrtica: presenta un


reducido grado de concentracin
alrededor de los valores centrales de la
variable.
41
EJEMPLO PRCTICO

Se tiene informacin del consumo


promedio de agua de los huspedes
de un hotel segn la temporada :
CONSUMO($)
MES PROMEDIO
POR HUESPED
ENERO 30
FEBRERO 45
MARZO 50
ABRIL 58
MAYO 65
JUNIO 110
JULIO 100
AGOSTO 120
SEPTIEMBRE 50
OCTUBRE 60
NOVIEMBRE 45
DICIEMBRE 35
TOTAL 768

42
EJEMPLO PRCTICO

Ordenando los datos y con


base a las frmulas y CONSUMO
funciones de la hoja de PROMEDIO
POR
MES
Excel obtenemos los HUESPED
siguientes resultados de las 30 ENERO
medidas centrales y de 35 DICIEMBRE
dispersin :
Media : 64 45 FEBRERO

Mediana : 54 45 NOVIEMBRE

Moda : 45 50 MARZO
50 SEPTIEMBRE
Rango : 30 120 58 ABRIL
Varianza : 809.33 60 OCTUBRE
Desviacin Estndar : 28.45 65 MAYO
Simetra : 0.98 100 JULIO
Curtosis : -0.32 110 JUNIO
120 AGOSTO
768 TOTAL

43
EJEMPLO PRCTICO

Interpretacin :
Cada husped consume $ 64 en promedio por mes.
Los datos NO son simtricos , se desplazan
ligeramente hacia la derecha con un sesgo positivo ,
solo con ver que la mediana es inferior a la media.
Aunque la frmula solo indica un dato de moda,
tenemos dos nmeros que se repiten dos veces : 45
y 50 , por lo que la distribucin es de tipo
bimodal.
El rango de consumo es de 90 unidades , entre el
lmite inferior de 30 y el superior de 120
La desviacin estndar no es grande
comparativamente , lo que indica que los datos
no se alejan tanto de la media.
El valor de simetra g1 > 0 , nos indica una
distribucin asimtrica positiva porque existe
mayor concentracin de valores a la derecha de la
media que a su izquierda.
En cuanto a la curtosis con valor de -0.32 (g2 < 0 )
nos confirma una distribucin platicrtica
44 porque
presenta un
EJEMPLO GRFICO

Desviaci
Rang

Media
Mediana

n
o

Moda

45
Dr. Soria Quijaite Juan Jess 46

También podría gustarte