Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Familiarizacion de Datos
Familiarizacion de Datos
Datoi=Clientei= {Ingresosi,Deudai}
Atributos
Los atributos por si mismos no tienen
significado alguno, solo dentro de un
contexto determinado basado en la
descripción de un fenómeno.
Aportan un mirada parcial del fenómeno
observable y solo tienen sentido formando
parte de un todo dentro del dato
Atributo 1 del cliente “i” = Ingresoi
Atributo 2 del Cliente “i” = Deudai
Datos={Atributos,…}
Id. Cliente Ingresos Deuda Estado
[1,] 3,13 5,24 ok
[2,] 2,90 5,54 ok
[3,] 3,60 5,59 ok ¿Cual es el valor de los atributos del cliente 7?
[4,] 1,76 1,79 Moroso
[5,] 2,75 5,11 ok
[6,] 1,44 2,60 Moroso
[7,] 1,95 2,23 Moroso
[8,] 2,70 4,36 ok
[9,] 2,52 4,35 ok
[10,] 2,45 3,04 Moroso
[11,] 2,50 3,47 ok
[12,] 1,90 3,52 Moroso Atributo 1: Ingresos = 1.95
[13,]
[14,]
0,93
2,54
0,53
3,30
Moroso
ok
Atributo 2: Deuda = 2.23
[15,] 2,12 2,57 Moroso Atributo 3: Estado = Moroso
[16,] 1,00 0,59 Moroso
[17,] 3,99 6,64 ok
[18,] 2,28 2,97 Moroso
[19,] 2,23 3,17 Moroso
[20,] 1,27 0,63 Moroso
Tipos de Atributos
Nominales: Son aquellos Ordinales: Son similares
que se distribuyen en a los Nominales, pero en
categorías, las cuales no este caso hay un orden
especifican un orden inherente entre las
determinado. Pueden ser
categorías.
binarias (0 o 1, True o
False) y se denominan Ej.: riesgo carcinoma
dicotómicas o bien ser cuello útero: 0, I, II, III, IV.
multivaluadas, por ej. Temperatura: baja,
Tipo de Anemia: media, alta.
microcítica, macrocítica,
normocítrica
NUM
ESPESOR Ocup
H. SEXO EDAD Instrucción FUMA Menstrua PESO Talla P. MAX BMI Obeso
TRICEPS .
Clinica
Datoi={Ingresosi,Daudai, Estadoi}
Recolección de datos
Tareas: Salida de la etapa:
Utilización de herramientas de
visualización, sumarización, reporte, etc.
Gráficos:
Histogramas
Tendencias
Tortas
Box-plot, etc.
Id. Cliente Ingresos Deuda Estado
[1,] 3,13 5,24 ok
[2,] 2,90 5,54 ok
[3,] 3,60 5,59 ok
[4,] 1,76 1,79 Moroso
[5,] 2,75 5,11 ok
[6,] 1,44 2,60 Moroso
[7,] 1,95 2,23 Moroso
[8,] 2,70 4,36 ok
[9,] 2,52 4,35 ok
[10,] 2,45 3,04 Moroso
[11,] 2,50 3,47 ok
[12,] 1,90 3,52 Moroso
[13,] 0,93 0,53 Moroso
[14,] 2,54 3,30 ok
[15,] 2,12 2,57 Moroso
[16,] 1,00 0,59 Moroso
[17,] 3,99 6,64 ok
[18,] 2,28 2,97 Moroso
[19,] 2,23 3,17 Moroso
[20,] 1,27 0,63 Moroso
Exploración de Atributos
Paciente Bacteriemia Cultivo
Tablas de 1 si S.aeurus
2 no Sin crecimiento
contingencia: útil para 3 no No practicado
datos nominales y 4
5
no
no
S.epidermis
S.epidermis
ordinales 6
7
no
no
Sin crecimiento
S.epidermis
8 no Sin crecimiento
Cultivo Si No 12 no S.epidermis
13 no S.aeurus
Sin crecimiento 1 14 si 7 S.epidermis
S.aureus 2 15 si
0 No practicado
16 no No practicado
S.epidermis 1 17 no 5 S.epidermis
5
Bact-Si
4
Bac-No
3
0
Sin crecimiento S.aureus S.epidermis
Exploración de Atributos
Tablas de Frecuencias: Para todo tipo de
datos que se pueda dividir en rangos
Transacciones Cantidad % %acum
$ 0-100 40 0% 0%
$ 100-1000 15000 46% 46%
$ 1000-10000 12000 37% 82%
$ 10m-100m 5000 15% 98%
$ 100m - 1M 450 1% 99%
mas 300 1% 100%
total 32790 100%
0.58 23.21
DE 0.17 6.84
CV = 100 *
x 0.31 12.42
0.64 25.56
Exploración de Atributos:
Medidas de Dispersión de Atributos
Percentil: Es una valor que indica el
porcentaje de una distribución que es
menor o igual a ese valor.
Percentil[10]=5 ⇒ que el 10% de los valores
es ≤ 5
¿A qué es igual el Percentil[50] ?
a
Proporción = Cual es la
a+b proporción de
mujeres en el
aula ?
a
Porcentaje = 100 *
a+b
Exploración de Atributos:
Medidas para datos nominales
Razón y Tasas
a
Razón = Cual es la razón
b de mujeres en el
aula ?
a
Tasa = * base
a+b
Exploración de Atributos
Gráficos de Caja (Box-Plot): Se utiliza
cuando se quiere ilustrar ciertas
ubicaciones en la distribución de los
valores.
Exploración de Atributos
Histogramas: Se utilizan para ver la
distribución de frecuencias del atributo. En
el eje X tenemos el valor (o intervalo) que
toma el atributo y en el eje Y la frecuencia
o cantidad de veces que aparece dicho
valor
Histograma
60
50
Frecuencia
40
30
20
10
0
15
31
46
62
77
92
08
23
38
54
69
85
.
..
5 0
46
92
38
84
30
76
23
69
15
61
07
53
or
.1 2
38
76
15
53
92
30
69
07
46
84
23
61
ay
m
0
4
.3
.4
.6
.7
.9
.0
.2
.3
.5
.6
.8
y
24
28
32
36
40
44
49
53
57
61
65
69
Cla se
Exploración de Atributos
Gráficos de Dispersión y temporales: Los
gráficos de dispersión se utilizan para comparar
dos atributos entre sí. Visualizando si existe
alguna tendencia entre ellos.
190
185
180
175
170
T a lla
165
160
155
150
145
140
30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 110.0
Peso
Verificación de Calidad e Integridad
de los Datos
Tarea: Salida de esta etapa:
Examine la calidad de los
datos, abordando Liste los posibles
preguntas tales como: problemas de calidad
Se cubren todas las y proponga
situaciones requeridas?
Contienen errores?
soluciones.
Cuan comunes y de que Las soluciones
tipo son?
Hay valores faltantes ?
propuestas dependen
Si los hay, como los fuertemente tanto de
representaremos? Como y los tipos de datos
cuando ocurren?
como del negocio.