Está en la página 1de 2

[MÚSICA] Bienvenidos al nuevo video de nuestro curso de Minería de datos.

 
En este video hablaremos sobre la forma en que representaremos objetos del mundo real 
en nuestras bases de datos. 
El objetivo principal de este video es entender cómo representamos objetos en el 
computador para permitir después 
la aplicación de algoritmos de clasificación automática.
Reproduce el video desde ::27 y sigue la transcripción0:27
En general, cuando queremos desarrollar algoritmos automáticos que analizan datos, 
tenemos que ver cómo ingresar esos datos en un computador.
Reproduce el video desde ::35 y sigue la transcripción0:35
Es necesarios entonces definir una forma estructurada para representar objetos 
del mundo real y así ser capaces de ingresarlos en un algoritmo computacional. 
Por ejemplo, ¿cómo puede un computador entender una imagen de un animal 
o resultados de exámenes médicos o un cliente que realiza compras?
Reproduce el video desde ::57 y sigue la transcripción0:57
Supongamos que queremos construir una base de datos de los clientes que visitan 
nuestras tiendas. 
Una forma posible de presentar a los clientes en el computador,
Reproduce el video desde :1:8 y sigue la transcripción1:08
es un vector de valores que describen al cliente con variables propias y coherentes 
del contexto. 
Por ejemplo, total de la compra, profesión, ubicación de la tienda, 
género, etcétera.
Reproduce el video desde :1:21 y sigue la transcripción1:21
Además de la representación a través de un vector 
en contextos en que nos interesa realizar clasificación automática, también 
necesitaremos conocer la clase de nuestros clientes en el historial de compras. 
Típicamente la clase se agrega como una nueva columna, 
indicando el valor de la clase a la cual nuestro objeto pertenece. 
En este ejemplo, nuestro cliente pertenece a la clase preferencial. 
Notar que las clases posibles deben estar previamente definidas.
Reproduce el video desde :1:50 y sigue la transcripción1:50
El vector que representa entonces a nuestros datos, 
tendrá típicamente un identificador que corresponde a un valor 
único en la base de datos y en general no es parte del análisis propiamente tal.
Reproduce el video desde :2:1 y sigue la transcripción2:01
Una lista de atributos o también llamados variables, descriptores o features. 
Y finalmente un valor que corresponde a la clase a la cual pertenece el objeto.
Reproduce el video desde :2:12 y sigue la transcripción2:12
Notar que pueden haber casos de nuestra base de datos donde la clase del objeto no 
es conocida.
Reproduce el video desde :2:18 y sigue la transcripción2:18
Justamente para esos casos es que necesitaremos de la ayuda de algoritmos 
de clasificación automática para predecir el valor de la clase de esos objetos.
Reproduce el video desde :2:31 y sigue la transcripción2:31
En general, tenemos muchos objetos en nuestros datos. 
Típicamente los objetos corresponden a las filas de la base de datos. 
Por ejemplo, en el caso de los clientes, si tenemos 1200 
clientes significa que tendríamos 1200 filas en nuestra base de datos.
Reproduce el video desde :2:49 y sigue la transcripción2:49
Otro ejemplo de representación de objetos son las imágenes. 
Lo que típicamente se hace es representar la imagen 
como un vector que contiene los pixeles de la imagen. 
Existen también formas de calcular variables sobre las imágenes. 
Por ejemplo histogramas de color o características de forma.
Reproduce el video desde :3:11 y sigue la transcripción3:11
Supongamos que queremos clasificar un dígito contenido en una imagen,
Reproduce el video desde :3:15 y sigue la transcripción3:15
podemos representar la imagen como un vector de pixeles, de tal forma que el 
clasificador sea capaz de reconocer a qué número corresponde la imagen.
Reproduce el video desde :3:26 y sigue la transcripción3:26
Recordemos el ejemplo de clasificación mencionado en el video anterior, 
sobre exámenes médicos de pacientes que pueden o no tener diabetes.
Reproduce el video desde :3:38 y sigue la transcripción3:38
Una forma natural de representar los exámenes en el computador es a través de 
un vector que contiene todos los descriptores del resultado del examen,
Reproduce el video desde :3:47 y sigue la transcripción3:47
además de las características del paciente.
Reproduce el video desde :3:50 y sigue la transcripción3:50
Una vez que podemos confirmar si el paciente tiene o no diabetes, 
tendremos una columna al final de cada fila indicando la clase del paciente. 
En este caso, diabetes positiva o negativa.
Reproduce el video desde :4:3 y sigue la transcripción4:03
En este video, vimos cómo representar distintos tipos de objetos 
dentro de una base de datos, de tal forma de poder usar 
esta representación como input para los algoritmos de clasificación automática. 
[AUDIO_ EN_ BLANCO]

También podría gustarte