Está en la página 1de 30

Análisis de Datos

CONCEPTOS BASICOS

 Estadística:
Es la ciencia que se encarga de recolectar, organizar, resumir y
analizar datos para después obtener conclusiones. Se divide en
Estadística Descriptiva y Estadística Inferencial.

 Estadística descriptiva: Inversión en Sector Electricidad por


Tipo de Empresa
Se encarga de la recolección, Empresa
Pública
organización, presentación y 8%

análisis de los datos, con el fin Empresa


Privada
92%
De describir apropiadamente
Las características de este.
CONCEPTOS BASICOS

 Estadística Inferencial:
Se encarga de analizar la información presentada por la
estadística descriptiva mediante técnicas que nos ayuden a
conocer, con determinado grado de confianza, a la población. Lo
que nos permite tomar decisiones.
CONCEPTOS BASICOS
 Población:
Conjunto definido de TODOS los INDIVIDUOS, de donde se observa cierta
característica. Al número de integrantes de la población se llama tamaño de la
población y se representa con la letra N. Las poblaciones pueden ser finitas e
infinitas.
 Muestra:
Subconjunto de una población, que intenta reflejar las características de la
población lo mejor posible. El número de individuos que integran la muestra,
llamado tamaño de la muestra se representa con la letra n.
Muestra n)
Población (N)
CONCEPTOS BASICOS
 Unidad Elemental:
Es el objeto sobre el cual se hace la medición. También se le
denomina unidad de análisis, unidad estadística o elemento. Por
ejemplo estudio de la percepción usuarios sobre la calidad de
atención, la unidad de análisis es cada usuario (cliente).

Dato: Opinión de un
usuario acerca de la
calidad de atención

 Dato:
Es el resultado de medir una característica de una unidad
elemental. Los datos pueden ser cualitativos o cuantitativos ya que
dependerá del tipo de variable.
VARIABLES

Variable es una característica que presenta los elementos de


la población, que puede tomar dos o más valores o
modalidades.
Ejemplos:
• Producción anual de energía eléctrica (Gigawatt)
• Empresas Distribuidoras: Públicas, Privadas.
• Número de productos producidos por hora
• Demanda de energía eléctrica (Miles de MW) .
• Calidad de atención de empresa de servicios
CLASIFICACIÓN DE VARIABLES
Cualitativas:
Son aquellas cuyos resultados posibles no pueden ser
expresados en forma numérica.
. Cualitativas Nominales: Son aquellas cuyas categorías posibles
no tienen por que ser representadas en un orden definido. Por
ejemplo. Tipo de empresas operadoras.
. Cualitativas Ordinales: Son aquellas en cuyas categorías deben
ser representadas en un orden. Por ejemplo. Calidad de
atención de empresa servicios.
Cuantitativas:
Son aquellas cuyos resultados posibles pueden ser expresados
en forma numérica.
CLASIFICACIÓN DE LAS VARIABLES CUANTITATIVAS

Discretas:
Son aquellas que tiene un número finito o infinito numerable de
valores posibles, usualmente se las asocia a procesos de conteo,
donde el valor es un número entero.
Ejemplo: Número de empresas distribuidoras, número de clientes
satisfechos, número de empresas generadoras, etc.
Continuas:
Este tipo de variable puede asumir cualquier valor, entero y/o
decimal.
Ejemplo: Producción anual de energía eléctrica (Gigawatt),
Consumo de energía eléctrica (Watts/hora).
EJERCICIOS DE APLICACIÓN

1.- El gerente de una sucursal de un banco local desea estudiar


los tiempos de espera de los clientes para ser atendidos por el
cajero en el periodo de 12:00 a 13:00, se selecciona una
muestra de 30 clientes. Que tipo de variable es?
2.- Un administrador de una empresa de servicios desea
estimar el número de clientes atendidos entre viernes y
sábado, para lo cual toma una muestra de 200 clientes. Que
tipo de variable es?
3.-Una empresa de producción desea determinar si su producto
estrella mantiene la aceptación, para lo cual se toma una
muestra y se pregunta al público por la aceptación del
producto. Qué tipo de variable es?.
ORGANIZACIÓN DE DATOS REPRESENTACIÓN DE DATOS

Luego de recolectar datos, es necesario resumirlos y presentarlos de


tal forma que se puedan COMPRENDER, ANALIZAR y UTILIZAR. Por
eso se ordenan en cuadros numéricos y luego se representan en
gráficos.
ORGANIZACIÓN DE DATOS CUALITATIVOS
Antes de iniciar la organización de datos se deberá determinar si los
datos son variables cualitativas nominales u ordinales. Si son
nominales se pueden representar en cualquier orden
indistintamente, si son ordinales, entonces se deberán asociar al
algún orden jerárquico. Luego se procede a realizar un proceso de
conteo las frecuencias absolutas (número de veces que se repite cada
respuesta).
En el siguiente cuadro se muestra los informes técnicos elaborados, con los que
se inicia el proceso sancionador a las empresas que incumplieron el
procedimiento en tres aspectos, supervisión de pruebas aleatorias, verificación
del arranque, y verificación del mantenimiento.

Cuadro de Frecuencias

Pruebas Falla de
Año Aleatorias Arranque Mantenimiento
2006 4 23 95
2007 0 15 94
2008 4 18 82
2009 2 20 80
2010 0 12 55
2011 0 17 41
2012 2 20 51
Total 12 125 498
Inicio de Proceso Sancionador por tipo de
Incumplimiento
100
90
80
70
60
50
40
30
20
10
0
2006 2007 2008 2009 2010 2011 2012

Pruebas Alaeatorias Falla de Arranque Mantenimiento

Inicio Proceso Sancionador por Tipo de Incumplimiento


0.02%
19.69%

78.43%

Pruebas Alaeatorias Falla de Arranque Mantenimiento


Variable Cuantitativa contínua

DISTRIBUCIÓN DE FRECUENCIAS POR


INTERVALOS

• Se usa cuando la variable estadística es continua o cuando el rango


de la variable discreta es infinito o tiende a infinito.
• La distribución se obtiene dividiendo el rango en intervalos o clases y
determinando el número de datos que contiene cada intervalo.
• El número de intervalos debe estar de preferencia entre 5 y 20.
HISTOGRAMA, es la representación por medio de barras
rectangulares, siendo la base de cada barra proporcional a la
amplitud, su centro la marca de clase y la altura su frecuencia absoluta
o relativa. En el eje horizontal va la escala de la variable y en el vertical
la escala de la frecuencia.
Consumo de Energía Eléctrica
16000.00

14000.00

12000.00

10000.00

8000.00

6000.00

4000.00

2000.00

0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
POLIGONOS DE FRECUENCIA, es la representación por medio de una
figura polígona cerrada, que se obtiene uniendo con segmentos de
recta los puntos de intersección de las marcas de clase con las
frecuencias.

Consumo de Energía Eléctrica


16000.00

14000.00

12000.00

10000.00

8000.00

6000.00

4000.00

2000.00

0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
PARETO
Si analizamos nuestra tarea diaria y
encontramos que un pequeño número
de actividades son las que producen los
mayores resultados, entonces, se puede
decir que son la clave de nuestra
20% Esfuerzo 80%
actividad. Si se desglosa esas tareas en
Resultados
sus componentes básicos, vamos a
encontrar que unos pequeños ajustes
pueden producir resultados dramáticos.
En cualquier emprendimiento es
clave encontrar esas actividades,
descartar las que solo insumen
tiempo y recurso y aportan en
forma marginal, para liberar
recursos que nos permitan
focalizarnos en ajustar los que si
sirven.
Diagrama de Pareto
Es una representación gráfica que usualmente se utiliza para controles
de calidad y que permite tomar acciones correctivas necesarias.
Ejemplo: Las principales causas de mala atención se han clasificado en
7. El 80% causas es explicado por C y A , e n menor grado G. Plan de
mejora debe atacar en primer lugar a C y A.

Determinación Principales Causas de Mala Atención al


Cliente
80 1.00

70 0.90
0.80
60
0.70
50 0.60
40 0.50

30 0.40
0.30
20
0.20
10 0.10
0 0.00
C A G E B F D
MEDIDAS DESCRIPTIVAS

1. Medidas de Posición:
Son aquellas medidas que tienen una posición específica dentro
de una distribución o un grupo de datos, entre ellas tenemos a las
de tendencia central
Tendencia Central o Promedios: media aritmética, media
geométrica, media armónica, mediana.

2. Medidas de dispersión:
Desviación estándar, rango, coeficiente de variación.
MEDIA ARITMÉTICA
Es la medida de localización más importante, llamada también
promedio de la variable. Es una de las medidas de tendencia
central, conocida como el punto de equilibrio de los datos ó centro
de gravedad.

FORMULAS:
Para calcular la media aritmética se observa como se tiene la
información: si los datos están ó no organizados en tablas de
frecuencias.

 Datos no agrupados: n

Con información muestral x i


X = i 1

n
Xi : valores que toma la variable X
n : número de observaciones
Ejemplo: Los siguientes datos corresponden a volúmenes de venta
soles) de un producto en 9 días.
900, 800, 900, 12100, 800, 700, 1300, 800, 1200
a) calcular la venta promedio.

900 + 800 + 900 + 12100 + 800 + 700 + 1300 + 800 + 1200


9
= 2166

Es decir venta promedio por día del productos es 2166 soles.


CARACTERISTICAS DE LA MEDIA

 Para un grupo de datos es única.

 Para su cálculo se usan todas las observaciones disponibles.

 Su valor se ve afectado por la presencia de valores extremos;


por ello pierde representatividad cuando hay presencia de ellos
entre los datos.

 La suma de los valores observados desviados respecto de su


media es cero.
RELACIONES ENTRE LA MEDIA, LA MEDIANA Y LA
MODA
 Si en una distribución unimodal simetrica se cumple que:
X = me = mo
 Si en una distribución unimodal se cumple que:

X < me < mo
Entonces la distribución será ASIMETRICA NEGATIVA (es decir
tiene un sesgo o cola a la izquierda por la presencia de valores
extremos bajos)

 Si en una distribución unimodal se cumple que:


X > me > mo
Entonces la distribución será ASIMETRICA POSITIVA (es decir
tiene un sesgo o cola a la derecho por la presencia de valores
extremos altos).
MEDIDAS DE DISPERSIÓN O VARIACIÓN

 Es la medida de las diferencias que presentan los datos entre si.

 Para medirla se aprovecha el hecho, de que si los datos son


semejantes entre si, están más cerca a la media aritmética,
entonces se dice que tienen poca variabilidad ó que son
homogéneos.

 Por el contrario si son muy diferentes entre si, estarán muy


dispersos respecto a la media aritmética y se dice de ellos que
son muy variables o que son heterogéneos.

 ES PREFERIBLE SIEMPRE QUE LOS DATOS SEAN HOMOGÉNEOS


MEDIDAS DE DISPERSIÓN O
VARIACIÓN
Las medidas de variabilidad o de dispersión son
aquellas que miden el grado de separación de los
datos con respecto a un valor central.

Las principales medidas de dispersión son:

 EL RANGO (R)
 EL RANGO INTERCUARTILICO (RIQ)
 LA VARIANZA [ V(X) ó S2(X) ]
 LA DESVIACION ESTANDAR [S(X)]
 COEFICIENTE DE VARIACION [ CV(X) ]
EL RANGO (R)
El Rango de variación o recorrido de una serie de datos,
esta representado por la diferencia entre sus valores
máximo y mínimo, resultando ser la medida de
variabilidad más sencilla y menos confiable, ya que
sólo usa dos datos para su cálculo.

R = Xmáx – Xmín

donde:
Xmáx : valor máximo
Xmín : valor mínimo
VARIANZA
La varianza ó variancia es una medida de variabilidad
absoluta, que se expresa en unidades al cuadrado y que
utiliza todos los datos para su cálculo (el cual se basa en las
diferencias entre el valor de las observaciones y su media).
Se defina como el promedio de las desviaciones, elevadas al
cuadrado, de cada uno de los datos con respecto del
promedio (media aritmética)
 
n n

 i
2
Xi  X X 2
2
Calculo: S 
2 i 1
 i 1
X
n n
Xi : i-ésima observación
n : Número de datos
: media aritmética
DESVIACION ESTANDAR (S)
Como la varianza se mide en unidades al cuadrado, por ejemplo
si los datos están expresados en metros, la varianza se medirá
en metros al cuadrado.
Esto trae dificultades para su interpretación real. Es por ello que
en ocasiones se prefiere el uso de la Desviación Estándar,
definida como la raíz cuadrada (positiva) de la varianza:

Desviación Estándar : s s 2

Interpretacion
El valor numérico de la varianza y la desviación estándar
cuantifican el grado de dispersión absoluto de los datos de la
variable en estudio, con respecto a su media aritmétia, la primera
en unidades al cuadrado y la segunda en unidades reales. Por lo
que a mayor variabilidad es mayor varianza.
COEFICIENTE DE VARIACON (CV)
Esta medida de dispersión es muy útil cuando se quiere
comparar el grado de dispersión (homogeneidad o
variabilidad) en dos conjuntos de datos que tienen un
promedio diferente y/o que tienen diferentes unidades
de medida
En general se considera lo siguiente:
Si CV < 25% implica baja dispersión
Si CV > 50% implica Alta dispersión
En otro caso se tiene Dispersión moderada

S S
Cálculo:
CV ( X )  CV ( X )%  (100)
X X
EJEMPLO:
Un administrador debe evaluar a dos empresas, uno de los criterios para tomar
decisiones es el tiempo empleado en hacer el mantenimiento a los postes de
alumbrado público en un distrito determinado.
Promedio Varianza
Empresa A 27 min 4.5 min2
Empresa B 35 min 5 min2

Utilizando la medida de variabilidad adecuada.¿Cuál de las dos empresas es podría


ser candidato a contratar? Justifique
Dado que la unidad de medida es la misma para ambos grupos,
Solución: pero las medias no son iguales, entonces utilizamos el
coeficiente de variación para comparar:
S A
4. 5 SB 5
CVA = = = 0.07856 CVB = = 35 = 0.06388
X A 27 XB

La máquina B tiene una distribución de tiempos menos variable.


TIPIFICACION DE VARIABLES
Tipificar una variable es cambiarla por otra que tenga de media cero y
desviación típica 1. Se utiliza para comparar distribuciones .
Cada valor se tipifica restando la media y dividiendo por la desviación
típica.

xx
z 
Sx

En otras palabras: “Z” es la distancia de cualquier valor de la variable


en estudio a su media expresado en desviaciones estándar

También podría gustarte