Binning data o bucketing es una tcnica de pre-procesamiento de datos utilizada
para reducir los efectos de los errores menores de observacin. Los valores de datos originales que caen en un pequeo intervalo dado, un bin, se sustituyen por un valor representativo de ese intervalo, a menudo el valor central. Es una forma de cuantificacin. Binning Data de datos estadsticos es una forma de agrupar un nmero de valores ms o menos contina en un nmero ms pequeo de "contenedores". Por ejemplo, si usted tiene datos sobre un grupo de personas, es posible que desee organizar sus edades en un menor nmero de intervalos de edad. Tambin se puede utilizar en las estadsticas multi-variantes, y realizar binning data en varias dimensiones a la vez. En el contexto de procesamiento de imgenes, binning es el procedimiento de combinar un grupo de pxeles en un nico pxel. Como tal, en binning 2x2, una matriz de 4 pxeles se convierte en un solo pxel ms grande, reducir el nmero total de pxeles. Esta agregacin, lo que reduce el nmero de datos (con una prdida de informacin), facilita el anlisis. Por ejemplo, al agrupar los datos tambin se puede reducir el impacto del ruido al leer una imagen procesada (a costa de una resolucin ms baja). Binning o discretizacin es el proceso de transformacin de variables numricas en contrapartes categricas. Un ejemplo es que los valores de bin para Edad en categoras tales como 20-39, 40-59 y 60-79. Las variables numricas se suelen discretizar en los mtodos de modelado basado en tablas de frecuencia (por ejemplo, rboles de decisin). Por otra parte, con el binning puede mejorar la precisin de los modelos predictivos mediante la reduccin del ruido o no linealidad. Por ltimo, binning te permite una fcil identificacin de los valores atpicos, invlidos y de valores perdidos de variables numricas. Existen 2 tipos de Binning: Mtodos de agrupacin sin supervisin: transforman las variables numricas en contrapartes categricas, pero no utilizan la informacin de destino (clase). Igualdad de ancho (Equal Width) e Igualdad de frecuencia (Equal Frequency) son dos mtodos de agrupacin no supervisadas.
Mtodos de agrupacin supervisadas transforman las variables numricas en
contrapartes categricas y se refieren a la informacin de destino (clase) al seleccionar los puntos de corte de discretizacin. Basada en Entropa (Entropybased) binning es un ejemplo de un mtodo de intervalos supervisada.