Vinho Verde
Minera de datos Proyecto final
104499, Andrea Fernndez 107686, Ernesto Ulloa 100645, Alfredo Hernndez
1. Introduccin
En la industria de enologa y viticultura, los procesos de evaluacin de calidad y certificacin son fundamentales para la categorizacin de los vinos, la estratificacin de las marcas y la determinacin de los precios de mercado. Actualmente, la valoracin de los productos es llevada a cabo por expertos humanos, al final del proceso de produccin. La automatizacin de las evaluaciones beneficiara la industria pues podra incorporarlas en cualquier etapa de la elaboracin: Se reduciran tiempos y costos de evaluacin, tiempos de toma de decisin, se asegurara la certificacin y en general, permitira producir mejores vinos. Adems, se puede ayudar al mercadeo dirigido, aplicando tcnicas similares al modelado de preferencias del consumidor.
2
09 de mayo de 2011
Vinho Verde es una empresa vincola situada al noroeste de Portugal. Esta empresa se preocupa constantemente por la calidad de sus productos y est comprometida con hacer crecer la industria. Vinho Verde recolect informacin fisicoqumica sobre sus dos variedades ms comunes (blanco y tinto) entre mayo de 2004 y febrero de 2007. Cabe mencionar que nicamente utiliz muestras evaluadas por la entidad oficial de certificacin. Como ambas variedades son notablemente distintas, se separ la informacin en dos conjuntos: El primero, para vinos blancos, contiene 4898 muestras, y el segundo, para tintos, 1599. El objetivo de Vinho Verde es obtener un modelo para determinar la calidad del producto en una escala que va del 0 (baja calidad) al 10 (muy alta calidad) a partir de los datos fisicoqumicos.
3
09 de mayo de 2011
2. Datos de entrada
Descripcin Contamos con dos conjuntos de datos: Uno para la clasificacin de vino blanco (4898 entradas), y otro para aqulla de vino tinto (1599 entradas). Ambos conjuntos tienen los mismos atributos. Cada conjunto tiene once (11) atributos continuos de entrada, y uno de salida (la calidad, entre 0 y 10): Acidez fija (g(cido tartrico)/dm3) Acidez voltil (g(cido actico)/dm3) cido ctrico (g/dm3) Azcar residual (g/dm3) Cloruros (g(cloruro de sodio)/dm3) Dixido de azufre libre (mg/dm3) Dixido de azufre total (mg/dm3) Densidad (g/cm3) pH Sulfatos (g(sulfato de potaso)/dm3) Alcohol (% volumen) Calidad (escala del 0 al 10) Cada atributo de entrada representa una caracterstica fsica qumica de la muestra. stos son fcilmente obtenibles y estn alineados al sentido del gusto.
4
09 de mayo de 2011
Perfil de los datos Conjunto Vino blanco Estadsticos bsicos
09 de mayo de 2011
Histogramas
1. Acidez fija 3) tartrico)/dm Acidez voltil 3) actico)/dm cido ctrico (g/dm3) Azcar residual (g/dm3) Cloruros sodio)/dm3) Dixido de (mg/dm3) Dixido de (mg/dm3) (g(cloruro de (g(cido 2. (g(cido
3. 1 2 3 4 4. 5.
6.
azufre
libre
7.
azufre
total
8. 9.
Densidad (g/cm3) pH de
10. Sulfatos (g(sulfato 3) potaso)/dm 9 10 11 12 11. Alcohol (% volumen)
12. Calidad (escala del 0 al 10)
09 de mayo de 2011
Conjunto Vino tinto Estadsticos bsicos
09 de mayo de 2011
Histogramas
1. Acidez fija 3) tartrico)/dm Acidez voltil 3) actico)/dm cido ctrico (g/dm3) Azcar residual (g/dm3) Cloruros sodio)/dm3) Dixido de (mg/dm3) Dixido de (mg/dm3) (g(cloruro de (g(cido 2. (g(cido
3. 1 2 3 4 4. 5.
6.
azufre
libre
7.
azufre
total
8. 9.
Densidad (g/cm3) pH de
10. Sulfatos (g(sulfato 3) potaso)/dm 9 10 11 12 11. Alcohol (% volumen)
12. Calidad (escala del 0 al 10)
09 de mayo de 2011