Está en la página 1de 37

Entendimiento de los Datos

Dr. Ing. Biom. Elmer A. Fernández


Universidad Católica de Córdoba
Fac. Ingeniería
¿Qué es un dato ?
 Es la unidad de descripción de un echo, la
cual puede ser dinámica o estática.
 Esta constituido por un conjunto ordenado
de atributos y etiquetas que describen un
suceso
 Informática: Dato = instancia a un Objeto.

Datoi=Clientei= {Ingresosi,Deudai}
Atributos
 Los atributos por si mismos no tienen
significado alguno, solo dentro de un
contexto determinado basado en la
descripción de un fenómeno.
 Aportan un mirada parcial del fenómeno
observable y solo tienen sentido formando
parte de un todo dentro del dato
Atributo 1 del cliente “i” = Ingresoi
Atributo 2 del Cliente “i” = Deudai
Datos={Atributos,…}
Id. Cliente Ingresos Deuda Estado
[1,] 3,13 5,24 ok
[2,] 2,90 5,54 ok
[3,] 3,60 5,59 ok ¿Cual es el valor de los atributos del cliente 7?
[4,] 1,76 1,79 Moroso
[5,] 2,75 5,11 ok
[6,] 1,44 2,60 Moroso
[7,] 1,95 2,23 Moroso
[8,] 2,70 4,36 ok
[9,] 2,52 4,35 ok
[10,] 2,45 3,04 Moroso
[11,] 2,50 3,47 ok
[12,] 1,90 3,52 Moroso Atributo 1: Ingresos = 1.95
[13,]
[14,]
0,93
2,54
0,53
3,30
Moroso
ok
Atributo 2: Deuda = 2.23
[15,] 2,12 2,57 Moroso Atributo 3: Estado = Moroso
[16,] 1,00 0,59 Moroso
[17,] 3,99 6,64 ok
[18,] 2,28 2,97 Moroso
[19,] 2,23 3,17 Moroso
[20,] 1,27 0,63 Moroso
Tipos de Atributos
 Nominales: Son aquellos  Ordinales: Son similares
que se distribuyen en a los Nominales, pero en
categorías, las cuales no este caso hay un orden
especifican un orden inherente entre las
determinado. Pueden ser
categorías.
binarias (0 o 1, True o
False) y se denominan  Ej.: riesgo carcinoma
dicotómicas o bien ser cuello útero: 0, I, II, III, IV.
multivaluadas, por ej.  Temperatura: baja,
Tipo de Anemia: media, alta.
microcítica, macrocítica,
normocítrica

¿Qué tipo de atributos o variables tienen los datos de la base de


datos de la canasta de compras?
Tipos de Atributos
Cliente huevos aceite Pañales Vino Leche Manteca Salmon Lechuga
1 1 0 0 1 0 1 1 1
Id. Cliente Ingresos Deuda Estado
2 0 1 0 0 1 [1,] 0
3,13 0
5,24 ok 1
3 0 0 1 0 1 [2,] 2,90
0 5,54
0 ok 0
[3,] 3,60 5,59 ok
4 0 1 1 0 1 [4,] 0
1,76 0
1,79 Moroso 0
5 1 1 0 0 0 [5,] 2,75
1 5,11
0 ok
1
[6,] 1,44 2,60 Moroso
6 1 0 0 1 1 [7,] 1
1,95 1
2,23 Moroso 0
7 0 0 0 0 0 [8,]
[9,]
2,70
0
2,52
4,36
0
4,35
ok
ok
0
8 1 1 1 1 1 [10,] 1
2,45 1
3,04 Moroso 0
[11,] 2,50 3,47 ok
[12,] 1,90 3,52 Moroso
[13,] 0,93 0,53 Moroso
[14,] 2,54 3,30 ok
[15,] 2,12 2,57 Moroso
[16,] 1,00 0,59 Moroso
[17,] 3,99 6,64 ok
[18,] 2,28 2,97 Moroso
[19,] 2,23 3,17 Moroso
[20,] 1,27 0,63 Moroso
Tipos de Atributos
 Numéricos
 Numéricos Discretos: Discretas:
Continuos: Tienen Numero de facturas,
valores continuos cantidad de goles,
(edad, temperatura, etc.
concentraciones, etc.)

1. En general son secuencias ordenadas.


2. Si bien, la digitalización produce valores discretos, estos
pueden a veces interpretarse como continuos para el
problema
Tipo de datos

NUM
ESPESOR Ocup
H. SEXO EDAD Instrucción FUMA Menstrua PESO Talla P. MAX BMI Obeso
TRICEPS .
Clinica

1 21 M 58 3 1 1 #¡NULO! 98.7 183 130.00 29.47 1.00

2 25 M 50 4 2 1 #¡NULO! 96.2 175 100.00 31.41 1.00

4 24 F 46 1 3 2 1 63.5 148 140.00 28.99 1.00

7 50 F 42 4 3 1 1 84.2 162 120.00 32.08 1.00

8 18 F 62 7 2 2 2 64.0 164 100.00 23.80 2.00

9 12 M 68 2 3 2 #¡NULO! 90.0 177 140.00 28.73 1.00


Etiqueta o Evento
 En general cuando se define el problema y el
tipo de dato que brindará información sobre
dicho problema, se define un evento que
podremos asociar con cada uno de los datos
que recolectamos. Este evento forma parte del
Dato, dado que lo identifica y lo sitúa en un
contexto de información determinado.
 Suele ser un String o un valor numérico.

Datoi={Ingresosi,Daudai, Estadoi}
Recolección de datos
 Tareas:  Salida de la etapa:

Ingresar los datos Listar:


listados en los los conjuntos de datos
adquiridos, junto con
requerimientos del sus ubicaciones.
proyecto Los métodos utilizados
La integración de para la adquisición
distintas fuentes los problemas
encontrados junto con
puede ser otra tarea a sus soluciones.
realizar en esta etapa
Recolección de datos :
Alternativas de la fuente de información
 Existencia de los datos  Inexistencia de los
 Una/s Base/s de datos datos
 Tipos de bases de datos
 Diseñar un protocolo
 Selección de los atributos
Selección del número de  Viabilidad
datos  Costos
 Atributo que no existe,
puede arruinar el
 Personal involucrado
proyecto!!!  Atributo que no se
 BD diseñadas con otro mide, se pierde !!!!
propósito (Planificar!!!)
Recolección de datos :
Problemas relacionados
 Datos ⇒ Desempeño del recolector
 Dispersión.
 Personal responsable
 Integración de BD
Descripción de los datos
 Examine las características superficiales
(groseras) de los datos adquiridos y repórtelos
en un informe.
 Incluya:
 Formato
 Cantidad (ej. cantidad de registros y atributos)
 Tipos de atributos.
 Estos datos satisfacen los requerimientos
relevantes del problema?
Exploración de los datos

 Familiarización con los datos y su entorno

 Utilización de herramientas de
visualización, sumarización, reporte, etc.

 Las herramientas estadísticas


Exploración de Datos
 El objetivo aquí es:
 Evaluar la consistencia de atributos
 Familiarizarse con la naturaleza de los datos
 Familiarizarse con el comportamiento de los
mismos
Exploración de Datos
 Sirve para:
 Detectar valores incongruentes y faltantes
 Identificar ruido
 Planificar estrategias de monitorización,
recolección, etc.
Exploración de Datos
 Métodos:
 Analíticos:
 Estadística
 Descriptiva

 Gráficos:
 Histogramas
 Tendencias
 Tortas
 Box-plot, etc.
Id. Cliente Ingresos Deuda Estado
[1,] 3,13 5,24 ok
[2,] 2,90 5,54 ok
[3,] 3,60 5,59 ok
[4,] 1,76 1,79 Moroso
[5,] 2,75 5,11 ok
[6,] 1,44 2,60 Moroso
[7,] 1,95 2,23 Moroso
[8,] 2,70 4,36 ok
[9,] 2,52 4,35 ok
[10,] 2,45 3,04 Moroso
[11,] 2,50 3,47 ok
[12,] 1,90 3,52 Moroso
[13,] 0,93 0,53 Moroso
[14,] 2,54 3,30 ok
[15,] 2,12 2,57 Moroso
[16,] 1,00 0,59 Moroso
[17,] 3,99 6,64 ok
[18,] 2,28 2,97 Moroso
[19,] 2,23 3,17 Moroso
[20,] 1,27 0,63 Moroso
Exploración de Atributos
Paciente Bacteriemia Cultivo
 Tablas de 1 si S.aeurus
2 no Sin crecimiento
contingencia: útil para 3 no No practicado

datos nominales y 4
5
no
no
S.epidermis
S.epidermis

ordinales 6
7
no
no
Sin crecimiento
S.epidermis
8 no Sin crecimiento

Tabla de Contingencia 9 no Sin crecimiento


10 si No practicado
Bacteriemia
11 no Sin crecimiento

Cultivo Si No 12 no S.epidermis
13 no S.aeurus
Sin crecimiento 1 14 si 7 S.epidermis

S.aureus 2 15 si
0 No practicado
16 no No practicado
S.epidermis 1 17 no 5 S.epidermis

Pregunta: Sobre qué columna de la BD de 18 no Sin crecimiento

Ingresos_deuda se puede construir una 19 no Sin crecimiento


20 no Sin crecimiento
tabla de contingencias?
Exploración de Atributos
 Gráficos de Barras: útil para datos
nominales y ordinales

5
Bact-Si
4
Bac-No
3

0
Sin crecimiento S.aureus S.epidermis
Exploración de Atributos
 Tablas de Frecuencias: Para todo tipo de
datos que se pueda dividir en rangos
Transacciones Cantidad % %acum
$ 0-100 40 0% 0%
$ 100-1000 15000 46% 46%
$ 1000-10000 12000 37% 82%
$ 10m-100m 5000 15% 98%
$ 100m - 1M 450 1% 99%
mas 300 1% 100%
total 32790 100%

Construya una tabla de frecuencias para la BD de Ingresos_Deuda


Exploración de Atributos
 Métodos Analíticos de tendencia central:
 Valor medio o promedio:
 NO atributos ordinales o nominales.
 Sensible a valores extremos.
 El valor calculado puede no existir en las
observaciones.

Cual es el valor medio de


N
los Ingresos en la BD de 1
Ingresos_deuda ? x=
N
∑x
i =1
i
Exploración de Atributos

 Métodos Analíticos de tendencia central:


 Mediana:Es la observación central. 50%<
mediana <50%
 Es robusto a valores extremos.
 Método de aplicación: Las observaciones se
ordenan de mayor a menor (o viceversa). En un
número impar la mediana es x(N2) en caso par
es mediana = ½(x(N/2)+x(N/2+1))
Exploración de Atributos
 Métodos Analíticos de tendencia central:
 Moda: Es el valor que aparece con mayor
frecuencia.
 Ej:
3.8,4.3,4.5,4.6,5.0,5.3,5.5,5.5,5.8,5.9,6.0,6.0,
6.1,6.4,6.8,7.1,7.2,8.8
 Mediana= 5.85
 V medio=5.81
 Moda = 5.5 y 6.0 (Bimodal);
Exploración de Atributos :
Usos de la Media, Mediana y Moda
 Determinación de normalidad y determinación
del sesgo de la distribución.

 Misceláneas: estadísticos ajustados (trimmed


statistics)
 Trim_mean
 trim_sd
Exploración de Atributos:
Medidas de Dispersión de Atributos
 Esta es información acerca de cómo
varían las observaciones.
 Rango y cuartiles
 Desvío estándar
 Coeficiente de Variación
 Percentiles
 Proporciones y Porcentajes
 Razones y Tazas
Exploración de Atributos:
Medidas de Dispersión de Atributos
 Rango: Es la diferencia entre el valor
máximo y mínimo.
 + Medidas de TC → encontrar valores
incongruentes (outliers).
 Aporta información para definir los
dispositivos o estrategias de adquisición.
Exploración de Atributos:
Medidas de Dispersión de Atributos
 Desviación Estándar (DE): Es la medida
de dispersión más frecuente.
 Si la distribución es NORMAL, entonces
se puede decir que el 95% (aprox.) de los
valores se encuentran en el intervalo
v_medio ± 2*DE.
N
2
(
∑ ix − x )
i =1
DE =
N −1
Exploración de Atributos:
Medidas de Dispersión de Atributos
 Coeficiente de A B
variación: Este es un
0.94 37.54
índice que mide la
dispersión relativa y suele 0.17 6.98

utilizarse para comparar 0.55 22.18

dos atributos que 0.97 38.83


presenten distinta escala.
0.21 8.58

0.58 23.21

DE 0.17 6.84
CV = 100 *
x 0.31 12.42

0.64 25.56
Exploración de Atributos:
Medidas de Dispersión de Atributos
 Percentil: Es una valor que indica el
porcentaje de una distribución que es
menor o igual a ese valor.
 Percentil[10]=5 ⇒ que el 10% de los valores
es ≤ 5
 ¿A qué es igual el Percentil[50] ?

Cual es el Percentil[20] de la siguiente secuencia de números


0.009, 0.128, 0.440, 0.654, 0.823, 1.215, 1.390, 1.440, 1.565, 2.076
Exploración de Atributos:
Medidas de Dispersión de Atributos
 Cuartil: en una distribución hay 4 cuartiles,
el cuartil 1=Percentil[25]
¿ A que serán igual los cuartiles 2 y 3?
 ¿ Cómo se calculan ?

Cual es el Cuartil 1 de la siguiente secuencia de números


0.009, 0.128, 0.440, 0.654, 0.823, 1.215, 1.390, 1.440, 1.565, 2.076
Exploración de Atributos:
Medidas para datos nominales
 Proporciones y
Porcentajes:

a
Proporción = Cual es la
a+b proporción de
mujeres en el
aula ?
a
Porcentaje = 100 *
a+b
Exploración de Atributos:
Medidas para datos nominales
 Razón y Tasas

a
Razón = Cual es la razón
b de mujeres en el
aula ?

a
Tasa = * base
a+b
Exploración de Atributos
 Gráficos de Caja (Box-Plot): Se utiliza
cuando se quiere ilustrar ciertas
ubicaciones en la distribución de los
valores.
Exploración de Atributos
 Histogramas: Se utilizan para ver la
distribución de frecuencias del atributo. En
el eje X tenemos el valor (o intervalo) que
toma el atributo y en el eje Y la frecuencia
o cantidad de veces que aparece dicho
valor
Histograma

60

50
Frecuencia

40

30

20

10

0
15

31

46

62

77

92

08

23

38

54

69

85

.
..
5 0
46

92

38

84

30

76

23

69

15

61

07

53

or
.1 2
38

76

15

53

92

30

69

07

46

84

23

61

ay
m
0

4
.3

.4

.6

.7

.9

.0

.2

.3

.5

.6

.8

y
24

28

32

36

40

44

49

53

57

61

65

69

Cla se
Exploración de Atributos
 Gráficos de Dispersión y temporales: Los
gráficos de dispersión se utilizan para comparar
dos atributos entre sí. Visualizando si existe
alguna tendencia entre ellos.

190
185
180
175
170
T a lla

165
160
155
150
145
140
30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 110.0
Peso
Verificación de Calidad e Integridad
de los Datos
 Tarea:  Salida de esta etapa:
Examine la calidad de los
datos, abordando Liste los posibles
preguntas tales como: problemas de calidad
 Se cubren todas las y proponga
situaciones requeridas?
 Contienen errores?
soluciones.
 Cuan comunes y de que Las soluciones
tipo son?
 Hay valores faltantes ?
propuestas dependen
 Si los hay, como los fuertemente tanto de
representaremos? Como y los tipos de datos
cuando ocurren?
como del negocio.

También podría gustarte