Está en la página 1de 2

Binning Data

Garcia Benitez Oscar Alejandro


11310145
Tarea de Investigacion

Binning data o bucketing es una tcnica de pre-procesamiento de datos utilizada


para reducir los efectos de los errores menores de observacin. Los valores de
datos originales que caen en un pequeo intervalo dado, un bin, se sustituyen por
un valor representativo de ese intervalo, a menudo el valor central. Es una forma
de cuantificacin.
Binning Data de datos estadsticos es una forma de agrupar un nmero de valores
ms o menos contina en un nmero ms pequeo de "contenedores". Por
ejemplo, si usted tiene datos sobre un grupo de personas, es posible que desee
organizar sus edades en un menor nmero de intervalos de edad. Tambin se
puede utilizar en las estadsticas multi-variantes, y realizar binning data en varias
dimensiones a la vez.
En el contexto de procesamiento de imgenes, binning es el procedimiento de
combinar un grupo de pxeles en un nico pxel. Como tal, en binning 2x2, una
matriz de 4 pxeles se convierte en un solo pxel ms grande, reducir el nmero
total de pxeles.
Esta agregacin, lo que reduce el nmero de datos (con una prdida de
informacin), facilita el anlisis. Por ejemplo, al agrupar los datos tambin se
puede reducir el impacto del ruido al leer una imagen procesada (a costa de una
resolucin ms baja).
Binning o discretizacin es el proceso de transformacin de variables numricas
en contrapartes categricas. Un ejemplo es que los valores de bin para Edad en
categoras tales como 20-39, 40-59 y 60-79. Las variables numricas se suelen
discretizar en los mtodos de modelado basado en tablas de frecuencia (por
ejemplo, rboles de decisin). Por otra parte, con el binning puede mejorar la
precisin de los modelos predictivos mediante la reduccin del ruido o no
linealidad. Por ltimo, binning te permite una fcil identificacin de los valores
atpicos, invlidos y de valores perdidos de variables numricas.
Existen 2 tipos de Binning:
Mtodos de agrupacin sin supervisin: transforman las variables numricas en
contrapartes categricas, pero no utilizan la informacin de destino
(clase). Igualdad de ancho (Equal Width) e Igualdad de frecuencia (Equal
Frequency) son dos mtodos de agrupacin no supervisadas.

Mtodos de agrupacin supervisadas transforman las variables numricas en


contrapartes categricas y se refieren a la informacin de destino (clase) al
seleccionar los puntos de corte de discretizacin. Basada en Entropa (Entropybased) binning es un ejemplo de un mtodo de intervalos supervisada.

También podría gustarte