Estadistica Practica para R PDF

www.allitebooks.
com
Estadística práctica para Científicos
de Datos
50 Conceptos Esenciales
Peter Bruce y Andrew Bruce

www.allitebooks.com
Estadística práctica para Científicos de Datos
Por Peter Bruce y Andrew Bruce
Copyright © 2017 Peter Bruce y Andrew Bruce. Todos los derechos
reservaron. Imprimido en los Estados Unidos de América..
Publicado por O'Reilly Medios de comunicación, Inc., 1005
Gravenstein Norte de Carretera, Sebastopol, CA 95472.
O'Reilly libros puede ser adquirido para educativo, negocio, o ventas uso
promocional. Las ediciones on-line son también disponibles para más títulos
(http://oreilly.com/safari). Para más información, contacto nuestro
departamento/de ventas institucional corporativo: 800- 998-9938 o
corporate@oreilly.com .
Editor: Shannon Cutt
Editor de producción: Kristen
Brown Copyeditor: Rachel
Monaghan Proofreader: Eliahu
Sussman Indexer: Ellen Troutman-
Zaig Diseñador de Interior: David
Futato Diseñador de Cubierta:
Ilustrador de Montgomery de la
Karen: Rebecca Demarest
Mayo 2017: Primera Edición

www.allitebooks.com
Historia de revisión para la Primera Edición
2017-05-09: Primera Liberación
Ve http://oreilly.com/catalog/errata.csp?isbn=9781491952962 para detalles

de liberación.
El O'Reilly logotipo es una marca registrada de O'Reilly Medios de
comunicación, Inc. Estadística Práctica para Científicos de Datos, la imagen de
cubierta, y vestido de comercio relacionado es marcas de O'Reilly Medios de
comunicación, Inc.
Mientras el editor y los autores han utilizado esfuerzos de fe buena para asegurar
que la información y las instrucciones contuvieron en este trabajo es cuidadoso,
el editor y los autores disclaim toda responsabilidad para errores u omisiones,
incluyendo sin responsabilidad de limitación para los daños que resultan de el
uso de o reliance en este trabajo. Uso de la información y las instrucciones
contuvieron en este trabajo es en vuestro riesgo propio. Si cualesquier muestras
de código u otra tecnología este trabajo contiene o describe es subject a licencias
de código abierto o los derechos de propiedad intelectual de otros, es vuestra
responsabilidad de asegurar que vuestro uso del mismo complies con tales
licencias y/o derechos..
978-1-491-95296-2
[M]
www.allitebooks.com
Dedicación
Nos gustaría dedicar este libro a las memorias de nuestro G de Victor de los
padres. Bruce y Nancy C. Bruce, quién cultivó una pasión para matemáticas y
ciencia; y a nuestros mentores tempranos John W. Tukey Y Julian Simon, y
nuestro lifelong amigo Geoff Watson, quién ayudó inspirarnos para perseguir
una carrera en estadísticas.
www.allitebooks.com
Prefacio
Este libro está apuntado en el científico de dato con alguna familiaridad con el
R lenguaje de programación, y con algún previo (quizás spotty o efímero)
exposición a estadística. Ambos de nosotros vinieron al mundo de ciencia de
datos de el mundo de estadísticas, así que tenemos algún agradecimiento de la
contribución que la estadística puede hacer a el arte de ciencia de datos. Al
mismo tiempo, somos bien conscientes de las limitaciones de instrucción de
estadística tradicional: la estadística como disciplina es un siglo y un medio
viejo, y la mayoría de estadística textbooks y los cursos son laden con el
momento e inercia de un océano liner.
Dos objetivos underlie este libro:
Para poner fuera, en digestible, navegable, y fácilmente referenced forma,
conceptos claves de estadísticas que es pertinente a ciencia de dato.
Para explicar qué conceptos son importantes y útiles de una perspectiva de

ciencia del dato, los cuales son menos tan, y por qué.
www.allitebooks.com
Qué para Esperar
PLAZOS CLAVES
Ciencia de dato es una fusión de disciplinas múltiples, incluyendo estadística, informática, tecnología de
información, y ámbito-campos concretos. Como resultado, varios plazos diferentes podrían soler
referencia un concepto dado. Plazos claves y su synonyms será destacado durante el libro en un sidebar
como este.
www.allitebooks.com
Las convenciones Utilizaron en Este Libro
El siguiente typographical las convenciones están utilizadas en este libro:
Italic
Indica plazos nuevos, URLs, direcciones de correo electrónico, filenames, y
extensiones de archivo.
Ancho constante
Utilizado para listados de programa, así como dentro de párrafos para
referir para programar elementos como variables o nombres de función,
bases de datos, tipos de dato, variables de entorno, declaraciones, y palabras
clave.
Negrita de ancho constante
Órdenes de espectáculos u otro texto que tendría que ser escrito
literalmente por el usuario.
Ancho constante italic
Texto de espectáculos que tendría que ser reemplazado con usuario-
suministró valores o por los valores determinaron por contexto.
CO
Este elemento signifies un consejo o NS
sugerencia.. EJ
O
NOTA
Este elemento signifies una nota
general.
AVISO
Este elemento indica un aviso o amonestación.
www.allitebooks.com
Utilizando Ejemplos de Código
Supplemental Material (ejemplos de código, ejercicios, etc.) es disponible para
descarga en https://github.com/andrewgbruce/statistics-for-data-scientists.
Este libro es aquí para ayudar consigues vuestro trabajo hecho. En general, si
código de ejemplo está ofrecido con este libro, puedes utilizar él en vuestros
programas y documentación. No necesitas para contactarnos para permiso a no
ser que estás reproduciendo una porción significativa de el código. Por
ejemplo, escribiendo un programa que usos varios chunks de código de este
libro no requiere permiso. Vendiendo o distribuyendo un CD- ROM de los
ejemplos de O'Reilly libros requiere permiso. Contestando una cuestión por
citar este libro y citando código de ejemplo no requiere permiso. Incorporando
una cantidad significativa de código de ejemplo de este libro a la
documentación de vuestro producto requiere permiso.
Apreciamos, pero no requiere , atribución. Una atribución normalmente incluye
el título, autor, editor, e ISBN. Por ejemplo: “Estadística Práctica para
Científicos de Datos por Peter Bruce y Andrew Bruce (O'Reilly). Copyright
2017 Peter Bruce y Andrew Bruce, 978-1-491-95296-2.”
Si sientes vuestro uso de caídas de ejemplos del código fuera de uso justo o el
permiso dado encima, siente libre de contactarnos en permissions@oreilly.com.
www.allitebooks.com
El safari® Reserva
On-line NOTA
El safari Reserva On-line es un encima-reclamar biblioteca digital que entrega
contenido experto en ambos libro y forma de vídeo de los autores principales
del mundo en tecnología y negocio..
Profesionales de tecnología, desarrolladores de software, diseñadores de web, y
profesionales empresariales y creativos Safari de uso Reserva On-line como su
recurso primario para búsqueda, el problema que soluciona, aprendizaje, y
formación de certificación.
El safari Reserva ofertas On-line una gama de planes y tasando para
empresa, gobierno, educación, e individual.
Los miembros tienen acceso a miles de libros, entrenando vídeos, y
prepublication manuscritos en uno plenamente searchable la base de datos de
editoras gusta O'Reilly Medios de comunicación, Prentice Profesional de Sala,
Addison-Wesley Profesional, Prensa de Microsoft, Sams, Que, Peachpit Prensa,
Prensa Focal, Cisco Prensa, John Wiley & Hijos, Syngress, Morgan Kaufmann,
IBM Redbooks, Packt, Adobe Prensa, FT Prensa, Apress, Manning, Jinetes
Nuevos, McGraw-Cerro, Jones & Bartlett, Tecnología de Curso, y centenares
más. Para más información aproximadamente el safari Reserva On-line,
complacer visitarnos on-line.
www.allitebooks.com
Cómo para Contactarnos
Complacer comentarios de dirección y cuestiones respecto de este libro a el
editor: O'Reilly Medios de comunicación, Inc.
1005 Gravenstein la carretera Del
norte Sebastopol, CA 95472
800-998-9938 (en los Estados Unidos o
Canadá) 707-829-0515 (internacional o
local).
707-829-0104 (fax)
Tenemos una página web para este libro, donde listamos errata, ejemplos, y
cualquier información adicional. Puedes acceder esta página en
http://bit.ly/practicalstats_for_datascientists.
Para comentar o preguntar cuestiones técnicas sobre este libro, envía email a
bookquestions@oreilly.com.
Para más información sobre nuestros libros, cursos, conferencias, y noticiosos, ver
nuestro sitio web en http://www.oreilly.com.
Nos encuentro encima Facebook: http://facebook.com/oreilly
Nos sigo encima Twitter: http://twitter.com/oreillymedia
Nos miro encima YouTube/Youtube: http://www.youtube.com/oreillymedia
Acknowledgments
Los autores reconocen las muchas personas quién ayudó marca esto reserva una
realidad.
Gerhard Pilcher, CEO de el dato minero Búsqueda Grande firme, vio borradores
tempranos de el libro y nos di correcciones detalladas y útiles y comentarios.
Así mismo, Anya McGuirk y Wei Xiao, estadísticos en SAS, y Jay Hilfiger,
autor de O'Reilly del socio, retroalimentación útil proporcionada en borradores
iniciales de el libro.
En O'Reilly, Shannon Cutt ha shepherded nos a través del proceso de publicación
con bueno aclamar y la cantidad correcta de prodding, mientras Kristen Brown
smoothly tomó nuestro libro a través de la fase de producción. Rachel Monaghan
y Eliahu Sussman corrigió y mejoró nuestra escritura con cuidado y paciencia,
mientras Ellen Troutman-Zaig preparó el índice. También damos las gracias a
Marie Beaugureau, quién inició nuestro proyecto en O'Reilly, así como Ben
Bengfort, O'Reilly autor y statistics.com instructor, quién nos introduje a
O'Reilly..
Nosotros, y este libro, también ha beneficiado de las muchas conversaciones Peter
ha tenido sobre los años con Galit Shmueli, coautor en otros proyectos de libro.
Finalmente, nos gustaría a especialmente dar las gracias a Elizabeth Bruce y
Deborah Donnell, cuya paciencia y el soporte hicieron este esfuerzo posible.
Capítulo 1. Análisis de Dato
exploratorio
Como disciplina, la estadística mayoritariamente ha desarrollado antiguamente

siglo. Teoría de probabilidad — la fundación matemática para estadísticas —
estuvo desarrollada en el 17.º a 19.os siglos basó encima trabajo por Thomas
Bayes, Pierre-Simon Laplace, y Carl Gauss. En contraste a la naturaleza
puramente teórica de probabilidad, la estadística es una ciencia aplicada
preocupado con análisis y modeling de datos. La estadística moderna como
disciplina científica rigurosa localiza sus raíces atrás al tardíos 1800s y Francis
Galton y Karl Pearson. R. Un. Fisher, en el siglo XX temprano, era un pionero
principal de estadística moderna, introduciendo ideas claves de diseño
experimental y máximo likelihood valoración. Estos y muchos otros conceptos
estadísticos viven en gran parte en los recesos de ciencia de datos. El objetivo
principal de este libro es para ayudar illuminate estos conceptos y aclarar su
importancia — o carencia del mismo
— En el contexto de ciencia de datos y dato grande.
Este foco de capítulo en el primer paso en cualquier proyecto de ciencia del
dato: explorando el dato. Análisis de dato exploratorio, o EDA , es una área
comparativamente nueva de estadísticas. La estadística clásica centró casi
exclusivamente encima inferencia, un conjunto a veces complejo de
procedimientos para dibujar las conclusiones sobre poblaciones grandes
basaron en muestras pequeñas. En 1962, John W. Tukey (Figura 1-1) pidió un
reformation de estadísticas en su papel seminal “El Futuro de Análisis de
Datos” [Tukey-1962]. Proponga una disciplina científica nueva análisis de
dato llamado que inferencia estadística incluida como justo un componente.
Tukey Forjó enlaces a la ingeniería y comunidades de informática ( acuñe los
plazos mordieron, cortos para dígito binario, y software ), y su original tenets es
suprisingly duradero y parte de forma de la fundación para ciencia de datos. El
campo de análisis de dato exploratorio estuvo establecido con Tukey 1977
libro ahora clásico Análisis de Dato Exploratorio [Tukey-1977].
Figura 1-1. John Tukey, el estadístico eminente cuyas ideas desarrollaron encima hace 50 años formar
la fundación de ciencia de datos.
Con el preparado availablility de computar poder y software de análisis de dato

expresivo, análisis de dato exploratorio ha evolucionado bien allende su alcance
original. Los conductores claves de esta disciplina han sido el desarrollo rápido
de tecnología nueva, acceso a más y dato más grande, y el uso más grande de
análisis cuantitativo en una variedad de disciplinas. David Donoho, profesor de
estadísticas en Stanford Universidad y anterior undergraduate estudiante de
Tukey es, authored un artículo excelente basado en su presentación en el Tukey
Centennial taller en Princeton, New Jersey [Donoho-2015]. Donoho Localiza
la génesis de ciencia de datos atrás a Tukey trabajo pionero en análisis de
datos.
Elementos de Dato Estructurado
El dato proviene muchas fuentes: medidas de sensor, acontecimientos, texto,
imágenes, y vídeos. El Internet de Cosas (IoT) es spewing fuera de corrientes
de información. Mucho de este dato es unstructured: las imágenes son una
colección de píxeles con cada píxel que contiene RGB (rojo, verde, azul)
información de color. Los textos son secuencias de palabras y nonword
caracteres, a menudo organizados por secciones, incisos, y tan encima.
Clickstreams Es secuencias de acciones por un usuario que interacciona con
una aplicación o página web. De hecho, un reto importante de ciencia de datos
es a arnés este torrente de dato crudo a actionable información. Para aplicar los
conceptos estadísticos cubrieron en este libro, unstructured el dato crudo tiene
que ser procesado y manipulado a una forma estructurada — cuando pueda
emerger de una base de datos relacional — o ser recogido para un estudio.
PLAZOS CLAVES PARA TIPOS de DATOS
Continuo
Dato que puede apechugar con cualquier valor en un intervalo.
Synonyms
Intervalo, flotador, numérico
Discreto
Dato que puede apechugar con valores de entero único, como cuentas.
Synonyms
Entero, cuenta
Categórico
Dato que puede apechugar con sólo un conjunto concreto de los valores que representan un
conjunto de categorías posibles.
Synonyms
enums, enumerado, factores, nominales, polychotomous
Binario
Un caso especial de dato categórico con justo dos categorías de valores (0/1, ciertos/falsos).
Synonyms
Dicotómico, lógico, indicador, booleano
Ordinal
Dato categórico que tiene un explícito ordenando.
Synonyms
Factor ordenado
Hay dos tipos básicos de dato estructurado: numérico y categórico. El dato

numérico entra dos formas: continuo, como velocidad del viento o duración
de tiempo, y discretos , como la cuenta de la ocurrencia de un acontecimiento.
El dato categórico toma sólo un conjunto fijo de valores, como un tipo de
pantalla de televisión (plasma, LCD, DIRIGIDO, etc.) o un nombre estatal
(Alabama, Alaska, etc.). El dato binario es un caso especial importante de dato
categórico que apechuga con sólo uno de dos valores, como 0/1, sí/ningún, o
ciertos/falsos. Otro tipo útil de dato categórico es dato ordinal en qué las
categorías están ordenadas; un ejemplo de este es un índice numérico (1, 2, 3,
4, o 5)..
Por qué molestamos con una taxonomía de tipos de datos? Resulta que para los
propósitos de análisis de datos y modeling predictivo, el tipo de dato es
importante de ayudar determinar el tipo de exhibición visual, análisis de dato, o
modelo estadístico. De hecho, software de ciencia del dato, como R y Pitón,
utiliza estos tipos de dato para mejorar rendimiento computacional. Más
importante, el tipo de dato para una variable determina qué el software
manejará computaciones para aquella variable.
Ingenieros de software y programadores de base de datos se pueden preguntar por
qué incluso necesitamos la idea de dato categórico y ordinal para analytics.
Después de todo, las categorías son meramente una colección de texto (o
numérico) valores, y la base de datos subyacente automáticamente maneja la
representación interna. Aun así, identificación explícita de datos como
categóricos, tan distintos de texto, ofrece algunas ventajas:
Sabiendo que el dato es categórico puede actuar como señala decir software
cómo procedimientos estadísticos, como producir un gráfico o cabiendo un
modelo, tener que behave. En particular, el dato ordinal puede ser
representado como un ordenado.Factor en R y Pitón, preservando un
usuario-especificó ordenar en gráficos, mesas, y modelos..
El almacenamiento y la indexación pueden ser optimizados (cuando en una

base de datos relacional).
Los valores posibles una variable categórica dada puede tomar está aplicado
en el software (como un enum).
El tercer “beneficio” puede dirigir a unintended o comportamiento inesperado:

el default comportamiento de funciones de importación de los datos en R (p. ej.,
leídos.csv) Es a automáticamente convertir una columna de texto a un factor.
Operaciones subsiguientes en aquella columna
Supone que el único allowable los valores para aquella columna son los
originalmente importados, y asignando un valor de texto nuevo introducirá un
aviso y producir un NA (valor desaparecido).
IDEAS CLAVES
El dato es típicamente clasificado en software por tipo.
Tipos de dato incluyen continuos, discretos, categóricos (cuál incluye binario), y ordinal. El
dato que escribe en actos de software como señalar a el software encima cómo para
procesar el dato.
Lectura más lejana
Tipos de dato pueden ser confundir, desde los tipos pueden overlap, y la
taxonomía en un software puede diferir de aquel en otro. El R-el sitio web
Preceptoral cubre la taxonomía para R.
Las bases de datos son más detalladas en su clasificación de tipos de datos,

incorporando consideraciones de niveles de precisión, fijos- o campos de
longitud variable, y más; ver el W3guía de Escuelas para SQL.
Dato rectangular
El marco típico de referencia para un análisis en ciencia de datos es un objeto
de dato rectangular, como un spreadsheet o mesa de base de datos.
PLAZOS CLAVES PARA DATO RECTANGULAR
Marco de dato
Dato rectangular (como un spreadsheet) es la estructura de dato básica para estadístico y
la máquina que aprende modelos.
Característica
Una columna en la mesa es generalmente referido a como característica.
Synonyms
Atributo, entrada, predictor, variable
Resultado
Muchos proyectos de ciencia del dato implican pronosticar un resultado — a menudo un
sí/ningún resultado (en Mesa 1- 1, es subasta “ era competitivo o no”). Las características son a
veces utilizadas para pronosticar el resultado en un experimento o estudio..
Synonyms
Variable dependiente, respuesta, objetivo, producción
Registros
Una fila en la mesa es generalmente referido a como récord.
Synonyms
Caso, ejemplo, caso, observación, patrón, muestra
El dato rectangular es esencialmente una matriz bidimensional con las filas

que indican registros (casos) y las columnas que indican características
(variables). El dato no siempre inicio en esta forma: unstructured dato (p.
ej., texto) tiene que ser procesado y manipulado de modo que pueda ser
representado como puesto de características en el dato rectangular (ve
“Elementos de Dato Estructurado”). El dato en bases de datos relacionales
tiene que ser extraído y puesto a una mesa sola para la mayoría de análisis de
dato y tareas de modeling.
En Mesa 1-1, hay una mezcla de dato medido o contado (p. ej., duración y
precio), y dato categórico (p. ej., categoría y moneda). Cuando mencionado más
temprano, una forma especial de variable categórica es un binario (sí/ningún o
0/1) variable, visto en el rightmost columna en Mesa 1-1 — una variable de
indicador que muestra si un
La subasta era competitiva o no.
Mesa 1-1. Un formato de dato típico

Categoría Moneda sellerRating Duración endDay Precio OpenPrice Competitivo
cercano
Juego/de Película/de EE.UU. 3249 5 Mon 0.01 0.01 0

la música
Juego/de Película/de EE.UU. 3249 5 Mon 0.01 0.01 0

la música
Automotive EE.UU. 3115 7 Tue 0.01 0.01 0

Marcos de dato y Índices
Mesas de base de datos tradicional tienen uno o más las columnas designaron
como un índice. Esto puede vastly mejorar la eficacia de consultas de SQL
seguro. En Pitón, con el pandas biblioteca, la estructura de dato rectangular
básica es un DataFrame objeto. Por default, un índice de entero automático
está creado para un DataFrame basó en el orden de las filas. En pandas, es
también posible de poner multilevel/índices jerárquicos para mejorar la eficacia
de operaciones seguras.
En R , la estructura de dato rectangular básica es un dato .Objeto de marco. Un
dato.El marco también tiene un índice de entero implícito basado en el orden
de fila. Mientras una llave hecha de encargo puede ser creada a través de la
fila.Atributo de nombres, el nativo R dato.El marco no apoya usuario-
especificado o multilevel índices. Para vencer esta deficiencia, dos paquetes
nuevos están obteniendo uso extendido: dato.Mesa y dplyr . Ambos soporte
multilevel índices y ofrecer significativo speedups en laborable con un
dato.Marco.
DIFERENCIAS de TERMINOLOGÍA
La terminología para dato rectangular puede ser confundir. Estadísticos y científicos de dato
utilizan plazos diferentes para la misma cosa. Para un estadístico, predictor las variables están
utilizadas en un modelo para pronosticar una respuesta o variable dependiente. Para un
científico de dato, las características suelen pronosticar un objetivo. Uno synonym
particularmente está confundiendo: científicos de ordenador utilizarán la muestra de plazo para
una fila sola; una muestra a un estadístico significa una colección de filas..
Nonrectangular Estructuras de dato
Hay otras estructuras de dato además dato rectangular.
Dato de serie del tiempo graba medidas sucesivas de la misma variable. Es
el material crudo para estadístico forecasting métodos, y es también un
componente clave de el dato producido por dispositivos — el Internet de
Cosas..
Estructuras de dato espacial, los cuales están utilizados en mapeo y ubicación
analytics, es más complejo y diverso que estructuras de dato rectangular. En la
representación de objeto, el foco de el dato es un objeto (p. ej., una casa) y
sus coordenadas espaciales. La vista de campo, por contraste, foco en unidades
pequeñas de espaciales y el valor de un pertinente métrico (píxel brightness,
por ejemplo)..
Graph (O red) estructuras de dato suelen representa físico, social, y relaciones
abstractas. Por ejemplo, un graph de una red social, como Facebook o
Linkedin, puede representar conexiones entre personas en la red. Distribución
hubs conectó por las carreteras son un ejemplo de una red física.
Graph Las estructuras son útiles para tipos seguros de problemas, como
optimización de red y recommender sistemas.
Cada cual de estos tipos de dato tiene su metodología especializada en ciencia
de datos. El foco de este libro es en dato rectangular, el bloque de edificio
fundamental de modeling predictivo.
GRAPHS EN ESTADÍSTICAS
En informática y tecnología de información, el plazo graph típicamente refiere a una
representación de las conexiones entre entidades, y a la estructura de dato subyacente. En
estadísticas, graph suele refiere a una variedad de parcelas y visualizaciones , no justo de
conexiones entre entidades, y el plazo aplica justo a la visualización, no a la estructura de dato.
IDEAS CLAVES
La estructura de dato básica en ciencia de datos es una matriz rectangular en qué filas son
registros y columnas es variables (características).
La terminología puede ser confundir; hay una variedad de synonyms surgiendo de las disciplinas
diferentes que contribuye a ciencia de dato (estadística, informática, y tecnología de información).
Lectura más lejana
Documentación en marcos de datos en
R Documentación en marcos de datos
en Pitón
Estimaciones de Ubicación
Variables con medidos o dato de cuenta podría tener miles de valores distintos.
Un paso básico en explorar vuestro dato está consiguiendo un “valor típico” para
cada característica (variable): una estimación de donde la mayoría de el dato está
localizado (i.e., su tendencia central).
PLAZOS CLAVES PARA ESTIMACIONES DE UBICACIÓN
Malo
La suma de todos los valores dividió por el número de valores.
Synonyms
Mediano
Weighted Malo
La suma de todos los valores cronometra un peso dividido por la suma de los pesos.
Synonyms
weighted Media
Median
El valor tal aquello un-medio de las mentiras de dato encima y abajo..
Synonyms
50.º percentile
Weighted median
El valor tal aquello un-medio de la suma de las mentiras de pesos encima y bajo el dato
ordenado.
Trimmed Malo
La media de todos los valores después de caer un número fijo de valores extremos.
Synonyms
Truncado malo
Robusto
No sensible a valores extremos.
Synonyms
Resistente
Outlier
Un dato valora aquello es muy diferente de la mayoría del dato.
Synonyms
Valor extremo
Al principio mirada, summarizing el dato podría parecer bastante trivial: justo

tomar el malo de el dato (ve “Malo”). De hecho, mientras el malo es fácil de
computar y expedient para utilizar, pueda no siempre ser la medida mejor para
un valor central. Por esta razón, los estadísticos han desarrollado y promovió
varias estimaciones alternativas al malos.
METRICS Y ESTIMACIONES
Los estadísticos a menudo utilizan las estimaciones de plazo para valores calcularon de el
dato a mano, para dibujar una distinción entre qué vemos de el dato, y el estado cierto o
exacto teórico de asuntos. Científicos de dato y los analistas empresariales son más
probablemente para referir a tales valores como métricos. La diferencia refleja la aproximación
de estadísticas versus ciencia de dato: contabilidad para mentiras de incertidumbre en el fondo
de la disciplina de estadísticas, mientras que el negocio concreto o los objetivos
organizativos son el foco de ciencia de datos. De ahí, estimación de estadísticos, y medida de
científicos del dato.
Malo
La estimación más básica de ubicación es el malo, o valor mediano. El malo es
la suma de todos los valores dividió por el número de valores. Considerar el
conjunto siguiente de números: {3 5 1 2}. El malo es (3 + 5 + 1 + 2) / 4 = 11 / 4
= 2.75. Encontrarás el símbolo (Pronunciado “x-barra”) para representar el
malo de una muestra de una población. La fórmula para computar el malo para
un conjunto de n valores Es:
NOTA
N (O n ) refiere a el número total de registros u observaciones. En estadísticas está capitalizado
si está refiriendo a una población, y lowercase si refiere a una muestra de una población. En
ciencia de datos, aquella distinción no es vital así que lo puedes ver ambas maneras.
Una variación de el malo es un trimmed malo, el cual calculas por caer un

número fijo de ordenó valores en cada fin y entonces tomando una media de
los valores restantes. Representando el ordenó valores por
Dónde Es el valor más pequeño y El más grande, la fórmula para
computar el trimmed malo con Valores más pequeños y más grandes
omitieron es:
Un trimmed malo elimina la influencia de valores extremos. Por ejemplo, en

internacional buceando las puntuaciones superiores e inferiores de cinco jueces
están caídas, y la puntuación final es la media de los tres jueces restantes
[Wikipedia-2016].
Esto lo hace difícil para un juez solo para manipular la puntuación, quizás para
favorecer su país contestant. Trimmed Significa es ampliamente utilizado, y en
muchos casos, es preferible de utilizar en vez del normal malo: ve “Median y
Estimaciones Robustas” para discusión más lejana.
Otro tipo de malo es un weighted malo, el cual calculas por multiplicar cada
valor de dato Por un peso Y dividiendo su suma por la suma de los
pesos. La fórmula para un weighted malo es:
Hay dos motivaciones principales para utilizar un weighted malo:

Algunos valores son intrínsecamente más variables que otros, y altamente
las observaciones variables están dadas un peso más bajo . Por ejemplo,
si estamos tomando la media de sensores múltiples y uno de los
sensores es menos cuidadoso, entonces podemos downweight el dato de
aquel sensor.
El dato recogido no igualmente representar los grupos diferentes que estamos

interesar en medir. Por ejemplo, debido a la manera un experimento on-
line estuvo conducido, no podemos tener un conjunto de datos que con
exactitud refleja todos los grupos en la base de usuario. Para corregir que,
podemos dar un peso más alto a los valores de los grupos que era
underrepresented.
www.allitebooks.com
Median Y Estimaciones Robustas
El median es el número medio en una lista ordenada del dato. Si hay un
incluso número de valores de datos, el valor medio es uno aquello no es de
hecho en el conjunto de dato, sino la media de los dos valores que divide el
dato ordenado a mitades superiores y más bajas. Comparado al malo, el cual
utiliza todas las observaciones, el median depende sólo en los valores en el
centro de el dato ordenado. Mientras esto podría parecer para ser una
desventaja, desde el malo es mucho más sensible a el dato, hay muchos casos
en qué el median es un mejor métrico para ubicación. Dejado es dice
queremos mirada en ingresos de casa típica en barrios alrededor Washington de
Lago en Seattle. En comparar el barrio de Medina a el Windermere barrio,
utilizando el malo produciría resultados muy diferentes porque vidas de Gates
del Bill en Medina. Si utilizamos el median, no importe Bill qué rico Gates es
la posición — de la observación media quedará igual..
Para las mismas razones que uno utiliza un weighted malo, es también posible
de computar un weighted median. Cuando con el median, primero ordenamos el
dato, a pesar de que cada valor de dato tiene un peso asociado. En vez de el
número medio, el weighted median es un valor tal que la suma de los pesos es
igual para las mitades más bajas y superiores de la lista ordenada. Como el
median, el weighted median es robusto a outliers..
Outliers
El median está referido a como estimación robusta de ubicación desde entonces
no es influido por outliers (casos extremos) que podría sesgar los resultados. Un
outlier es cualquier valor que es muy distante de los otros valores en un
conjunto de dato. La definición exacta de un outlier es un poco subjetivo, a
pesar de que las convenciones seguras están utilizadas en varios resúmenes de
dato y parcelas (ve “Percentiles y Boxplots” ). Siendo un outlier en él no hace
un inválido de valor del dato o erróneo (cuando en el ejemplo anterior con Bill
Gates). Todavía, outliers es a menudo el resultado de errores de datos como
mezclar dato de unidades diferentes (kilómetros versus metros) o lecturas malas
de un sensor.
Cuándo outliers es el resultado de dato malo, el malo resultará en una estimación
pobre de ubicación, mientras el median será todavía ser válido. De todas formas,
outliers tendría que ser identificado y es normalmente digno de investigación
más lejana.
DETECCIÓN de ANOMALÍA
En contraste a análisis de dato típico, donde outliers es a veces informativo y a veces un
estorbo, en detección de anomalía los puntos de interés son el outliers, y la masa más
grande de datos sirve principalmente para definir el “normal” contra qué anomalías están
medidas.
El median no es la estimación robusta única de ubicación. De hecho, un

trimmed malo es ampliamente utilizado para evitar la influencia de outliers. Por
ejemplo, trimming el inferior y superior 10% (una elección común) de el dato
proporcionará protección contra outliers en todo pero los conjuntos de dato
más pequeños. El trimmed significa puede ser pensado de como compromise
entre el median y el malo: es robusto a valores extremos en el dato, pero
utiliza más dato para calcular la estimación para ubicación.
OTRO ROBUSTO METRICS PARA UBICACIÓN
Los estadísticos han desarrollado un plethora de otros estimadores para ubicación, principalmente
con el objetivo de en desarrollo un estimador más robusto que el malo y también más eficaz
(i.e., mejor capaz de vislumbrar diferencias de ubicación pequeña entre conjuntos de datos).
Mientras estos métodos son potencialmente útiles para conjuntos de dato pequeño, no son
probablemente para proporcionar beneficio añadido para grande o incluso moderadamente sized
conjuntos de dato.
Ejemplo: Estimaciones de Ubicación de Población y Índices de
Asesinato
Mesa 1-2 espectáculos el primeras pocas filas en el dato ponen contener
población y índices de asesinato (en unidades de asesinatos por 100,000
personas por año) para cada estado.
Mesa 1-2. Unas cuantas filas

del dato.Estado de marco de
población y índice de
asesinato por estatales
Estatal Población Índice de
asesinato
1 Alabama 4,779,736 5.7
2 Alaska 710,231 5.6
3 Arizona 6,392,017 4.7
4 Arkansas 2,915,918 5.6
5 California 37,253,956 4.4
6 Colorado 5,029,196 2.8
7 Connecticut 3,574,097 2.4
8 Delaware 897,934 5.8
Computar el malo, trimmed malo, y median para la población que utiliza R:
> Estatal <- leído.csv(Usuarios="/de archivo/andrewbruce1/estado/de libro.csv")

> Malo(estado[["Población"]])
[1] 6162876
> Malo(estado[["Población"]], trim=0.1)
[1] 4783697
> median(Estado[["Población"]])
[1] 4436370
El malo es más grande que el trimmed malo, el cual es más grande que el
median.
Esto es porque el trimmed malo excluye el más grande y más pequeño cinco
estados (trim=0.1 gotas 10% de cada fin). Si queremos computar el índice de
asesinato mediano para el país, necesitamos utilizar un weighted malos o median
a cuenta para poblaciones diferentes en los estados. Desde entonces base R no
tiene una función para weighted median, necesitamos instalar un paquete como
matrixStats:
> weighted.Malo(estado[["Asesinato.Índice"]],
w=estado[["Población"]]) [1] 4.445834
> Biblioteca("matrixStats")
> weightedMedian(Estado[["Asesinato.Índice"]],
w=estado[["Población"]]) [1] 4.4
En este caso, el weighted malo y median es sobre el mismo.
IDEAS CLAVES
El básico métrico para la ubicación es el malo, pero pueda ser sensible a valores extremos
(outlier). Otro metrics (median, trimmed malo) es más robusto.

Lectura más lejana
Michael Levine (Universidad de Purdue) ha posted algunos deslizamientos
útiles en cálculos básicos para medidas de ubicación..
John Tukey 1977 Dato Exploratorio clásico Análisis (Pearson) es todavía

ampliamente leído.
Estimaciones de Variabilidad
La ubicación es justo una dimensión en summarizing una característica. Una
segunda dimensión, variabilidad, también referido a tan dispersión, medidas si
los valores de dato son estrechamente clustered o extendidos fuera. En el fondo
de variabilidad de mentiras de las estadísticas: midiéndolo , reduciéndolo ,
distinguiendo aleatorio de variabilidad real, identificando las varias fuentes de
variabilidad real, y haciendo decisiones en la presencia de él..
PLAZOS CLAVES PARA VARIAB ILITY METRICS
Desviaciones
La diferencia entre el observó valores y la estimación de ubicación.
Synonyms
Errores, residuals
Varianza
La suma de cuadró desviaciones de el malos divididos por n – 1 dónde n es el número de
valores de datos.
Synonyms
Malo-cuadrado-error
Desviación estándar
La raíz cuadrada de la varianza.
Synonyms
l2-norma, norma euclidiana
Desviación absoluta mala

El malo del valor absoluto de las desviaciones del malos.
Synonyms
l1-norma, norma de Manhattan
Median Desviación absoluta del median

El median del valor absoluto de las desviaciones del median.
Gama
La diferencia entre el más grande y el valor más pequeño en un conjunto de dato.
Estadística de orden
Metrics Basó en los valores de dato ordenaron de más pequeños a más grandes.
Synonyms
Rangos
Percentile
El valor tal aquel P el porcentaje de los valores apechuga con este valor o menos y (100–P) por
ciento apechugar con este valor o más..
Synonyms
quantile
Interquartile Gama
La diferencia entre el 75.º percentile y el 25.º percentile.
Synonyms
IQR
Tan hay maneras diferentes para medir ubicación (malo, median, etc.) hay
también maneras diferentes para medir variabilidad.
Desviación estándar y Relacionó Estimaciones
El más ampliamente utilizó las estimaciones de variación están basadas en las
diferencias, o desviaciones , entre la estimación de ubicación y el dato
observado. Para un conjunto de datos {1, 4, 4}, el malos es 3 y el median es 4.
Las desviaciones de el malos es las diferencias: 1 – 3 = –2, 4 – 3 = 1 , 4 – 3 = 1.
Estas desviaciones nos dicen cómo dispersadas el dato es alrededor de el valor
central.
Una manera para medir la variabilidad es para estimar un valor típico para estas
desviaciones. Averaging Las desviaciones ellos no nos diría mucho — el offset
de desviaciones negativo el positivo unos. De hecho, la suma de las
desviaciones de el malos es precisamente cero. En cambio, una aproximación
sencilla es para tomar la media de los valores absolutos de las desviaciones
del malos. En el ejemplo de preceder, el valor absoluto de las desviaciones es
{2 1 1} y su media es (2 + 1 + 1) / 3 = 1.33. Esto es sabido como la desviación
absoluta mala y está computado con la fórmula:
Dónde Es la muestra mala.

El mejor-las estimaciones sabidas para variabilidad son la varianza y la
desviación estándar, los cuales están basados encima cuadró desviaciones. La
varianza es una media de el cuadró desviaciones, y la desviación estándar es
la raíz cuadrada de la varianza.
La desviación estándar es mucho más fácil de interpretar que la varianza desde

entonces es en la misma escala como el dato original. Todavía, con su más
complicado y menos fórmula intuitiva, pueda parecer extraño que la desviación
estándar está preferida en estadísticas sobre la desviación absoluta mala. Debe
su preeminencia a teoría estadística: matemáticamente, trabajando con cuadró
los valores es mucho más convenientes
Que valores absolutos, especialmente para modelos estadísticos.
GRADOS DE LIBERTAD, Y N O N – 1 ?
En libros de estadísticas, hay siempre alguna discusión de por qué hemos n – 1 en el denominador en
la fórmula de varianza, en vez de n, dirigiendo a el concepto de grados de libertad . Esta distinción
no es importante desde n es generalmente bastante grande que lo no hará mucha diferencia si divides
por n o n – 1. Pero en caso estás interesado, aquí es la historia. Está basado en la premisa que te
quiere estimaciones de marca sobre una población, basado en una muestra.
Si utilizas el denominador intuitivo de n en la fórmula de varianza, tú underestimate el valor cierto de la
varianza y la desviación estándar en la población. Esto está referido a como estimación predispuesta.
Aun así, si divides por n – 1 en vez de n , la desviación estándar deviene un unbiased estimación.
A plenamente explicar por qué utilizando n las ventajas a una estimación predispuesta implica la idea de
grados de libertad, el cual tiene en cuenta el número de constreñimientos en computar una estimación.
En este caso, hay n – 1 grados de la libertad desde entonces allí es un constreñimiento: la desviación
estándar depende de calcular la muestra mala. Para muchos problemas, científicos de dato no necesitan
para preocuparse sobre grados de libertad, pero hay casos donde el concepto es importante (ve
“Escoger K”).
Tampoco la varianza, la desviación estándar, ni la desviación absoluta mala es

robusta a outliers y valores extremos (ve “Median y Estimaciones Robustas”
para una discusión de estimaciones robustas para ubicación). La varianza y la
desviación estándar son especialmente sensible a outliers desde entonces están
basados en el cuadró desviaciones.
Una estimación robusta de variabilidad es el median desviación absoluta de el
median
O LOCO:
Dónde m es el median. Como el median, el LOCO no es influido por valores

extremos. Es también posible de computar un trimmed la desviación estándar
análoga a el trimmed malo (ve “Malo”).
NOTA
La varianza, la desviación estándar, desviación absoluta mala, y median desviación absoluta de
el median no es estimaciones equivalentes, incluso en el caso donde el dato proviene una
distribución normal. De hecho, la desviación estándar es siempre más grande que la desviación
absoluta mala, el cual él es más grande que el median desviación absoluta. A veces, el median la
desviación absoluta está multiplicada por un constante scaling factor ( pasa para salir a 1.4826)
para poner LOCO en la misma escala como la desviación estándar en el caso de una
distribución normal.
Las estimaciones Basaron en Percentiles
Una aproximación diferente a estimar la dispersión está basada encima mirando
en el spread de el dato ordenado. La estadística basó encima ordenada (ranked)
el dato está referido a tan estadística de orden. La medida más básica es la gama
: la diferencia entre el número más grande y más pequeño. El mínimo y el máximo
los valora es útil de saber, y útil en identificar outliers, pero la gama es
extremadamente sensible a outliers y no muy útil como medida general de
dispersión en el dato.
Para evitar la sensibilidad a outliers, podemos mirar en la gama de el dato
después de caer valores de cada fin. Formalmente, estos tipos de estimaciones
están basados en diferencias entre percentiles. En un conjunto de dato, el Pth
percentile es un valor tal que al menos P el porcentaje de los valores apechuga
con este valor o menos y al menos (100 – P) el porcentaje de los valores
apechuga con este valor o más. Por ejemplo, para encontrar el 80.º percentile,
clase el dato. Entonces, empezando con el valor más pequeño, procede 80 por
ciento de la manera a el valor más grande. Nota que el median es la misma
cosa como el 50.º percentile. El percentile es esencialmente igual como
quantile, con quantiles indexed por fracciones (así que el .8 quantile es igual
como el 80.º percentile).
Una medida común de variabilidad es la diferencia entre el 25.º percentile y el
75.º percentile, llamó el interquartile gama (o IQR). Aquí es un ejemplo
sencillo: 3,1,5,3,6,7,2,9. Ordenamos estos para conseguir 1,2,3,3,5,6,7,9. El 25.º
percentile es en 2.5, y el 75.º percentile es en 6.5, así que el interquartile la
gama es
6.5 – 2.5 = 4. El software puede haber ligeramente difiriendo aproximaciones
que cosecha respuestas diferentes (ve la nota siguiente); típicamente, estas
diferencias son más pequeñas.
Para dato muy grande conjuntos, calculando exactos percentiles puede ser
computacionalmente muy caro desde entonces requiere ordenar todos los
valores de dato. Aprendizaje de máquina y uso de software estadístico algoritmos
especiales, como [Zhang-Wang-2007], para conseguir un aproximado percentile
que puede ser calculado muy deprisa y es guaranteed para tener una exactitud
segura.
PERCENTILE: DEFINICIÓN PRECISA
Si tenemos un incluso número de datos (n es incluso), entonces el percentile es ambiguo
bajo la definición de preceder. De hecho, podríamos apechugar con cualquier valor entre
la estadística de orden y
Dónde j satisface:
Formalmente, el percentile es el weighted media:
Para algún peso w entre 0 y 1. El software estadístico ha ligeramente difiriendo

aproximaciones a escoger w. De hecho, el R función quantile ofrece nueve alternativas
diferentes para computar el quantile. Excepto conjuntos de dato pequeño, no normalmente
necesitas preocupar sobre la manera precisa un percentile está calculado.
Ejemplo: Estimaciones de Variabilidad de Población Estatal
Mesa 1-3 espectáculos el primeras pocas filas en el dato ponen contener
población y índices de asesinato para cada estado.
Mesa 1-3. Unas cuantas filas

del dato.Estado de marco de
población y índice de
asesinato por estatales
Estatal Población Índice de
asesinato
1 Alabama 4,779,736 5.7
2 Alaska 710,231 5.6
3 Arizona 6,392,017 4.7
4 Arkansas 2,915,918 5.6
5 California 37,253,956 4.4
6 Colorado 5,029,196 2.8
7 Connecticut 3,574,097 2.4
8 Delaware 897,934 5.8
Utilizando R está construido-en funciones para la desviación estándar, interquartile

gama (IQR), y el median desviación de absolución de el median (LOCO),
podemos computar estimaciones de variabilidad para el dato de población estatal:
> sd(Estado[["Población"]])
[1] 6848235
> IQR(Estado[["Población"]])
[1] 4847308
> Loco(estado[["Población"]]
) [1] 3849870
La desviación estándar es casi dos veces tan grande como el LOCO (en R, por
default, la escala de el LOCO está ajustado para ser en la misma escala como
el malo). Esto no está sorprendiendo desde la desviación estándar es sensible a
outliers..
IDEAS CLAVES
La varianza y la desviación estándar son el más extendido y routinely informó estadística de
variabilidad..
Ambos son sensibles a outliers.
Más robusto metrics incluir malo y median desviaciones absolutas de el malos y percentiles
(quantiles).
Lectura más lejana
1. El recurso de estadística on-line de David Lane tiene una sección en
percentiles.
2. Kevin Davenport tiene un correo útil en desviaciones de el median,

y sus propiedades robustas en R-Blogueros.
Explorando la Distribución de Dato
Cada cual de las estimaciones hemos cubierto sumas arriba del dato en un
número solo para describir la ubicación o variabilidad de el dato. Es también útil
de explorar cómo el dato está distribuido en general.
PLAZOS CLAVES PARA EXPLORAR EL DISTRIB UTION
Boxplot
Una parcela introducida por Tukey como manera rápida para visualizar la distribución de datos.
Synonyms
Caja y whiskers parcela
Mesa de frecuencia
Una cuenta de la cuenta de dato numérico valora que caída a un conjunto de intervalos (cubos).
Histograma
Una parcela de la mesa de frecuencia con los cubos en el x-axiales y la cuenta (o proporción)
en el y- axial.
Parcela de densidad
Una versión suavizada del histograma, a menudo basado en un kernal estimación de densidad.
Percentiles Y Boxplots
En “las estimaciones Basaron en Percentiles”, exploramos cómo percentiles
puede soler medir el spread de el dato. Percentiles Es también valioso a
summarize la distribución entera. Es común de informar el quartiles (25.º, 50.º, y
75.º percentiles) y el deciles (el 10.º, 20.º, …, 90.º percentiles). Percentiles Es
especialmente valioso a summarize las colas (la gama exterior) de la
distribución.
La cultura popular ha acuñado el plazo un-percenters para referir a las
personas en la parte superior 99.º percentile de riqueza..
Mesa 1-4 exhibiciones algún percentiles de el índice de asesinato por estatal.
En R, esto sería producido por el quantile función:
quantile(Estado[["Asesinato.Índice"]], p=c(.05, .25, .5, .75, .95))

5% 25% 50% 75% 95%
1.600 2.425 4.000 5.550 6.510
Mesa 1-4. Percentiles

De índice de
asesinato por estatal
5% 25% 50% 75% 95%
1.60 2.42 4.00 5.55 6.51
El median es 4 asesinatos por 100,000 personas, a pesar de que hay bastante un

poco de variabilidad: el 5.º percentile es sólo 1.6 y el 95.º percentile es 6.51.
Boxplots, introducido por Tukey [Tukey-1977], está basado en percentiles y dar
una manera rápida de visualizar la distribución de datos. Figura 1-2 espectáculos
un boxplot de la población por estatal producido por R:
boxplot(Estado[["Población"]]/1000000, ylab="Población (millones)")

Figura 1-2. Boxplot De poblaciones estatales
El superior y el fondo de la caja es el 75.º y 25.º percentiles, respectivamente. El

median está mostrado por la línea horizontal en la caja. El dashed líneas,
referidos a tan whiskers, extiende de el superior e inferior de indicar la gama
para el bulk del dato. Hay muchas variaciones de un boxplot; ve, por ejemplo, la
documentación para el R función boxplot [R-base-2015]. Por default, el R la
función extiende el whiskers a el punto más lejano allende la caja, exceptúa que no
vaya más allá 1.5 tiempo el IQR (otro software puede utilizar una regla diferente).
Cualquier dato exterior de el whiskers es plotted puntos tan solos.
Mesa de frecuencia e Histogramas.
Una mesa de frecuencia de una variable divide arriba de la gama variable a
igualmente espació segmentos, y nos digo cuánta caída de valores en cada
segmento. Mesa 1-5 espectáculos una mesa de frecuencia de la población por
estatal computado en R:
Roturas <- seq(de =min(estado[["Población"]]),

A =max(estado[["Población"]]),
longitud=11) pop_freq <- corte(estado[["Población"]],
roturas=de roturas,
Correcto=CIERTO, incluye.Más bajo = CIERTO)
Mesa(pop_freq)
Mesa 1-5. Una mesa de frecuencia de población por

estatal
BinNumber BinRange Cuent Estados
a
1 563,626– 24 WY,VT,ND,AK,SD,DE,MT,RI,NH,ME,HOLA,ID,NE,WV,NM,NV,UT,KS,
4,232,658 Un
2 4,232,659– 14 KY,LA,SC,AL,CO,MN,WI,MD,MO,TN,AZ,EN,MA,WA
7,901,691
3 7,901,692– 6 VA,NJ,NC,GA,MI,OH
11,570,724
4 11,570,725– 2 PA,IL
15,239,757
5 15,239,758– 1 FL
18,908,790
6 18,908,791– 1 NY
22,577,823
7 22,577,824– 1 TX
26,246,856
8 26,246,857– 0
29,915,889
9 29,915,890– 0
33,584,922
10 33,584,923– 1 CA
37,253,956
www.allitebooks.com
El estado menos populoso es Wyoming , con 563,626 personas (2010 Censo) y
la mayoría de populoso es California, con 37,253,956 personas. Esto nos doy
una gama de 37,253,956 – 563,626 = 36,690,330, el cual tenemos que dividir
arriba a cubos de medida igual — dejados es dice 10 cubos. Con 10 medida
igual cubos, cada cubo tendrá un ancho de 3,669,033, así que el primer cubo
abarcará de 563,626 a 4,232,658. Por contraste, el cubo superior, 33,584,923 a
37,253,956, ha sólo uno estatal: California. Los dos cubos inmediatamente abajo
California es vacía, hasta que logramos Texas. Es importante de incluir los
cubos vacíos; el hecho que no hay ningún valor en aquellos cubos es
información útil . También pueda ser útil a experimento con medidas de cubo
diferente. Si son demasiado grandes, las características importantes de la
distribución pueden ser ocultadas. Él son demasiado pequeños, el resultado es
demasiado granular y la capacidad de ver los cuadros más grandes está perdido.
NOTA
Ambas mesas de frecuencia y percentiles summarize el dato por crear cubos. En general,
quartiles y deciles tendrá la misma cuenta en cada cubo (cubos de cuenta igual), pero las
medidas de cubo serán diferentes. La mesa de frecuencia, por contraste, tendrá cuentas
diferentes en los cubos (cubos de medida igual).
Figura 1-3. Histograma de poblaciones estatales
Un histograma es una manera de visualizar una mesa de frecuencia, con

cubos en el x-axiales y cuenta de dato en el y-axial. Para crear un histograma
que corresponde para Someter 1-5 en R, uso el hist función con el
argumento de roturas:
hist(Estado[["Población"]], roturas=de roturas)
El histograma está mostrado en Figura 1-3. En general, los histogramas son

plotted tal aquello:
Los cubos vacíos están incluidos en
el graph. Los cubos son ancho igual .
Número de cubos (o, equivalently, medida de cubo) es hasta el usuario.
Las barras son contiguas — no espectáculos espaciales vacíos entre barras,

a no ser que hay un cubo vacío.
MOMENTOS ESTADÍSTICOS
En teoría estadística, la ubicación y la variabilidad están referidas a como el primer y segundos
momentos de una distribución. El tercio y cuartos momentos se apellidan skewness y kurtosis .
Skewness Refiere a si el dato está sesgado a valores más grandes o más pequeños y kurtosis
indica la propensión del dato para tener valores extremos. Generalmente, metrics no es utilizado
para medir skewness y kurtosis; en cambio, estos están descubiertos a través de exhibiciones
visuales como Figuras 1-2 y 1-3 .
Estimaciones de densidad
Relacionado a el histograma es una parcela de densidad , el cual muestra la
distribución de valores de datos como línea continua. Una parcela de densidad
puede ser pensada de como histograma suavizado, a pesar de que es típicamente
computado directamente de el dato a través de un kernal estimación de
densidad (ve [Duong-2001] para a escaso preceptoral). Figura 1-4 exhibiciones
una estimación de densidad superposed en un histograma. En R, puedes
computar una estimación de densidad que utiliza la función de densidad:
hist(Estado[["Asesinato.Índice"]], freq=FALSO)
líneas(densidad(estado[["Asesinato.Índice"]]), lwd=3,
col="azul")
Una distinción clave de el histograma plotted en Figura 1-3 es la escala de el y-

axial: una parcela de densidad corresponde a plotting el histograma como
proporción más que cuentas ( especificas esto en R utilizando el argumento
freq=FALSO).
VALORACIÓN de DENSIDAD
Valoración de densidad es un tema rico con una historia larga en literatura estadística. De
hecho, encima 20 R los paquetes han sido publicados que funciones de oferta para valoración
de densidad. [Deng-Wickham-2011] da un comprehesive revisión de R paquetes, con una
recomendación particular para CENIZA o KernSmooth . Para muchos problemas de ciencia del
dato, hay ninguna necesidad de preocuparse sobre los varios tipos de estimaciones de
densidad; basta para utilizar las funciones de base.
Figura 1-4. Densidad de índices de asesinato estatal
IDEAS CLAVES
Una frecuencia de parcelas de histograma de frecuencia cuentas en el y-valores axiales y variables
en el x-axiales; da un sentido de la distribución del dato en una mirada.
Una mesa de frecuencia es una versión tabular de la frecuencia cuenta encontrada en un

histograma.
Un boxplot — con el superior y fondo de la caja en el 75.º y 25.º percentiles, respectivamente

— también da un sentido rápido de la distribución del dato; es a menudo utilizado en lado-por-
exhibiciones de lado para comparar distribuciones.
Una parcela de densidad es una versión suavizada de un histograma; requiere una función para
estimar una parcela basada en el dato (las estimaciones múltiples son posibles, naturalmente)..
Lectura más lejana
Un SUNY Oswego el profesor proporciona un paso-por-guía de paso a crear
un boxplot.
Valoración de densidad en R está cubierto en Henry Deng y Hadley Wickham

papel de el mismo nombre.
R-Los blogueros tiene un correo útil en histogramas en R , incluyendo

customization elementos, como binning (roturas)
R-Los blogueros también tiene correo similar en boxplots en R.

Explorando Dato Binario y Categórico
Para dato categórico, porcentajes o proporciones sencillos dicen la historia del
dato.
PLAZOS CLAVES PARA EXPLORAR DATO CATEGÓRICO
Modo
El más generalmente ocurriendo categoría o valor en un conjunto de dato.
Valor esperado
Cuándo las categorías pueden ser asociadas con un valor numérico, esto da un valor mediano
basado en la probabilidad de una categoría de ocurrencia..
Gráficos de barra
La frecuencia o proporción para cada categoría plotted como barras.
Gráficos de pastel
La frecuencia o proporción para cada categoría plotted como wedges en un pastel.
Consiguiendo un resumen de una variable binaria o una variable categórica

con unas cuantas categorías es un asunto bastante fácil: nosotros justo figura
fuera de la proporción de 1s, o de las categorías importantes. Por ejemplo,
Mesa 1-6 espectáculos el porcentaje de retrasó vuelos por la causa de retraso
en Dallas/Fort aeropuerto de Valor desde entonces 2010. Los retrasos son
categorized tan debiéndose a factores bajo control cargador, control de tráfico
del aire (ATC) retrasos de sistema, tiempo, seguridad, o un tardío inbound
aeronave.
Mesa 1-6. Porcentaje de

retrasos por causa en Dallas-
Fort aeropuerto de Valor
Cargador ATC Seguridad de Tiempo Inbound
23.02 30.40 4.03 0.12 42.43
Gráficos de barra son una herramienta visual común para mostrar una variable
categórica sola, a menudo visto en la prensa popular. Las categorías están
listadas en el x-axiales, y frecuencias o proporciones en el y-axiales. Figura 1-
5 espectáculos los retrasos de aeropuerto por año por causa para Dallas/Fort
Valor, y está producido con el R función barplot:
barplot(Cuando.Matriz(dfw)/6, cex.Axial=.5)
Figura 1-5. Retrasos de aerolínea de parcela de barra en DFW por causa
Nota que un gráfico de barra se parece a un histograma; en un gráfico de barra el

x-axial representa categorías diferentes de una variable de factor, mientras en un
histograma el x-axial representa valores de una variable sola en una escala
numérica. En un histograma, las barras son típicamente mostradas tocando cada
otro, con los vacíos que indican valores que no ocurrió
En el dato. En un gráfico de barra, las barras están mostradas separadas de uno
otro.
Gráficos de pastel son un alternativos a gráficos de barra, a pesar de que
estadísticos y visualización de dato expertos generalmente eschew gráficos de
pastel cuando menos visually informativos (ve [Pocos-2007]).
DATO NUMÉRICO COMO DATO CATEGÓRICO
En “Mesa de Frecuencia e Histogramas” , mirábamos en mesas de frecuencia basaron encima
binning el dato. Esto implícitamente convierte el dato numérico a un factor ordenado. En este
sentido, histogramas y gráficos de barra son similares, exceptúa que las categorías en el x-
axiales en el gráfico de barra no es ordenado.
Convirtiendo el dato numérico a dato categórico es un paso importante y ampliamente utilizado
en análisis de datos desde entonces reduce la complejidad (y medida) del dato. Estas ayudas en
el descubrimiento de relaciones entre características, particularmente en las etapas iniciales de un
análisis.
Modo
El modo es el valor — o valores en caso de un lazo — que aparece más a
menudo en el dato. Por ejemplo, el modo de la causa de retraso en Dallas/Fort
aeropuerto de Valor es “Inbound.” Cuando otro ejemplo, en más partes de los
Estados Unidos, el modo para preferencia religiosa sería cristiano. El modo es un
resumen sencillo statistic para dato categórico, y es generalmente no utilizado
para dato numérico.
Valor esperado
Un tipo especial de dato categórico es dato en qué las categorías representan o
puede ser mapped a valores discretos en la misma escala. Un marketer para
una tecnología de nube nueva, por ejemplo, ofrece dos niveles de servicio, uno
tasado en $300/mes y otro en $50/mes. El marketer las ofertas libres webinars
para generar ventajas, y las figuras firmes que 5% de el attendees firmará
arriba para el $300 servicio, 15% para el $50 servicio, y 80% no firmará arriba
para cualquier cosa. Este dato puede ser summed arriba, para propósitos
financieros, en un valor “esperado solo,” el cual es una forma de weighted
malo en qué los pesos son probabilidades .
El valor esperado está calculado como sigue:
1. Multiplicar cada resultado por su probabilidad de ocurrir..
2. Suma estos valores.
En el ejemplo de servicio de la nube, el valor esperado de un webinar attendee

es así
$22.50 por mes, calculó como sigue:
El valor esperado es realmente una forma de weighted malo: añade las ideas de
probabilidad y expectativas futuras pesos, a menudo basados en juicio subjetivo.
El valor esperado es un concepto fundamental en tasación empresarial y
capital budgeting — por ejemplo, el valor esperado de cinco años de beneficios
de una adquisición nueva, o los ahorros de coste esperados de software de
administración paciente nuevo en una clínica.
IDEAS CLAVES
El dato categórico es típicamente summed arriba en proporciones, y puede ser visualizado en un
gráfico de barra.
Las categorías podrían representar cosas distintas (manzanas y naranjas, macho y hembra), niveles
de una variable de factor (abajo, medio, y alto), o dato numérico aquello ha sido binned.
El valor esperado es la suma de los valores cronometra su probabilidad de ocurrencia, a

menudo utilizado a suma arriba factor niveles variables.
Lectura más lejana
Ningún curso de estadística es completo sin una lección en misleading graphs,
el cual a menudo implica gráficos de barra y gráficos de pastel.
Correlación
Análisis de dato exploratorio en muchos proyectos de modeling (si en ciencia de
datos o en búsqueda) implica examinar correlación entre predictors, y entre
predictors y una variable de objetivo. Variables X y Y (cada cual con dato
medido) está dicho para ser positivamente correlativo si valores altos de X va
con valores altos de Y, y valores bajos de X va con valores bajos de Y. Si
valores altos de X va con valores bajos de Y, y viceversa, las variables son
negativamente correlativas.
PLAZOS CLAVES PARA CORRELACIÓN
Coeficiente de correlación
Un métrico que medidas la extensión a qué variables numéricas está asociada con uno otro
(gamas de –1 a +1)..
Matriz de correlación
Una mesa donde las variables están mostradas en ambas filas y columnas, y los valores de
célula son las correlaciones entre las variables.
Scatterplot
Una parcela en qué el x-axial es el valor de uno variable, y el y-axial el valor de otro.
Considera estos dos variables, perfectamente correlativos en el sentido que cada

cual va de bajo a alto:.
v1: {1, 2, 3}
v2: {4, 5, 6}
La suma de vector de productos es 4 + 10 + 18 = 32. Ahora probar shuffling uno

de ellos y recalculating — la suma de vector de los productos nunca serán más
altos que 32. Así que esta suma de productos podría ser utilizada como métrico;
aquello es, la suma observada de 32 podría ser comparado a mucho aleatorio
shufflings (de hecho, esta idea relaciona a un.
resampling-Estimación basada: ve “Prueba de Permutación”). Los valores
produjeron por este métricos, aun así, no es que significativo, exceptúa por
referencia a el resampling distribución.
Más útil es una variante estandarizada: el coeficiente de correlación, el cual da
una estimación de la correlación entre dos variables que siempre mentiras en
el mismo
Escala. Para computar Pearson coeficiente de correlación, multiplicamos
desviaciones de el malos para variables 1 cronometra aquellos para variables 2,
y dividir por el producto de las desviaciones estándares:
Nota que dividimos por n – 1 en vez de n; ve “Grados de Libertad, y n o n –

1?” Para más detalles. El coeficiente de correlación siempre mentiras entre +1
(correlación positiva perfecta) y –1 (correlación negativa perfecta); 0 indica
ninguna correlación.
Las variables pueden tener una asociación que no es lineal, en qué caso el
coeficiente de correlación no puede ser un útil métrico. La relación entre índices
de impuesto y los ingresos levantaron es un ejemplo: cuando aumento de índices
del impuesto de 0, los ingresos levantaron también aumentos. Aun así, una vez
índices de impuesto logran un nivel alto y aproximación 100%, aumentos de
evitación del impuesto e ingresos de impuesto de hecho disminuciones.
Mesa 1-7, llamó una matriz de correlación, muestra la correlación entre los
regresos diarios para stocks de telecomunicación de julio 2012 a través de junio
2015. De la mesa, puedes ver que Verizon (VZ) y ATT (T) tiene la correlación
más alta.
Nivel Tres (LVLT), el cual es una compañía de infraestructura , tiene la
correlación más baja. Nota la diagonal de 1s (la correlación de un stock con
él es 1), y la redundancia de la información encima y bajo la diagonal..
Mesa 1-7. Correlación entre

telecomunicación regresos
accionarios
T CTL FTR VZ LVLT
T 1.000 0.475 0.328 0.678 0.279
CTL 0.475 1.000 0.420 0.417 0.287
FTR 0.328 0.420 1.000 0.287 0.260

VZ 0.678 0.417 0.287 1.000 0.242
LVLT 0.279 0.287 0.260 0.242 1.000
Una mesa de correlaciones gusta Mesa 1-7 es generalmente plotted a visually

muestra la relación entre variables múltiples. Figura 1-6 espectáculos la
correlación entre los regresos diarios para intercambio importante comerciaron
fondos (ETFs). En R, fácilmente podemos crear este utilizando el paquete
corrplot:
etfs <- sp500_px[fila.Nombres(sp500_px)>"2012-07-01",

sp500_sym[sp500_sym$sector=="etf",
esymbol']] biblioteca(corrplot)
corrplot(cor(etfs), método = "ellipse")
El ETFs para &el S P 500 (ESPÍA) y el Índice de Dow Jones (DIA) tiene una
correlación alta. Similary, el QQQ y el XLK, compuso mayoritariamente de
compañías de tecnología, es postively correlativo. Defensivo ETFs, como aquel
oro de seguir precios (GLD), precios de aceite (USO), o volatilidad de mercado
(VXX) tiende para ser negativamente correlativo con el otro ETFs. La
orientación de el ellipse indica si dos variables son positivamente correlativas
(ellipse es apuntado correcto) o negativamente correlativo (ellipse es apuntado
izquierdo). El sombreando y ancho de el ellipse indicar la fuerza de la
asociación: más delgado y más oscuro ellipses corresponder a relaciones más
fuertes.
Como la desviación mala y estándar, el coeficiente de correlación es sensible a
outliers en el dato. Paquetes de software ofrecen alternativas robustas a el
coeficiente de correlación clásico. Por ejemplo, el R función cor tiene un trim
el argumento similar a aquello para computar un trimmed malo (ve [R-base-
2015]).
Figura 1-6. Correlación entre ETF regresos
OTRAS ESTIMACIONES de CORRELACIÓN
Estadísticos haber mucho tiempo hace propuso otros tipos de coeficientes de correlación, como
Spearman rho o Kendall tau. Estos son coeficientes de correlación basó en el rango del
dato. Desde entonces trabajan con rangos más que valores, estas estimaciones son robustas a
outliers y puede manejar tipos seguros de nonlinearities. Aun así, científicos de dato
generalmente se pueden aferrar a Pearson coeficiente de correlación, y sus alternativas
robustas, para análisis exploratorio. La apelación de rango- basó las estimaciones es
mayoritariamente para conjuntos de dato más pequeño y pruebas de hipótesis concreta.
Scatterplots
La manera estándar de visualizar la relación entre dos dato medido las variables
es con un scatterplot. El x-axial representa uno variable, el y-axial otro, y cada
punto en el graph es un registro. Ve Figura 1-7 para una parcela entre los
regresos diarios para ATT y Verizon. Esto está producido en R con la orden:
Parcela(telecomunicación$T, telecomunicación$VZ, xlab="T", ylab="VZ")
Los regresos tienen una relación positiva fuerte: encima más días, ambos stocks
remontan o bajar en tándem. hay muy pocos días donde uno accionario baja
significativamente mientras el otro stock remonta (y viceversa)..
Figura 1-7. Scatterplot Entre regresos para ATT y Verizon
IDEAS CLAVES PARA CORRELACIÓN

El coeficiente de correlación mide la extensión a qué dos variables está asociada con uno
otro.
Cuándo valores altos de v1 va con valores altos de v2, v1 y v2 es positivamente asoció.
Cuándo valores altos de v1 está asociado con valores bajos de v2, v1 y v2 es negativamente asoció.
El coeficiente de correlación es un estandarizado métrico de modo que él siempre gamas de
–1 (correlación negativa perfecta) a +1 (correlación positiva perfecta).
Un coeficiente de correlación de 0 indica ninguna correlación, pero ser consciente que los
arreglos aleatorios de datos producirán ambos valores positivos y negativos para el coeficiente
de correlación justo por casualidad..
Lectura más lejana
Estadística, 4.º ed., por David Freedman, Robert Pisani, y Roger Purves (W. W.
Norton, 2007), tiene una discusión excelente de correlación..
Explorando Dos o Más Variables
Estimadores familiares como malos y mirada de varianza en variables un a la
vez (univariate análisis). Análisis de correlación (ve “Correlación”) es un
método importante que compara dos variables (bivariate análisis). En esta
sección miramos en parcelas y estimaciones adicionales, y en más de dos
variables (multivariate análisis).
PLAZOS CLAVES PARA EXPLORAR DOS O MÁS VARIAB

LES
Mesas de contingencia
Una cuenta de cuentas entre dos o variables más categóricas.
Hexagonal binning
Una parcela de dos variables numéricas con los registros binned a hexágonos.
Parcelas de contorno
Una parcela que muestra la densidad de dos variables numéricas como un mapa topográfico.
Parcelas de violín
Similar a un boxplot pero mostrando la estimación de densidad.
Como univariate análisis, bivariate el análisis implica ambas estadística de
resumen de la informática y produciendo exhibiciones visuales. El tipo
apropiado de bivariate o multivariate el análisis depende de la naturaleza de
el dato: numérico versus categórico.
Hexagonal Binning y Contornos (Plotting Numéricos versus Dato
Numérico)
Scatterplots Es bien cuándo hay un número relativamente pequeño de valores
de datos. La parcela de regresos accionarios en Figura 1-7 implica sólo
aproximadamente 750 puntos. Para conjuntos de datos con centenares de miles
o millones de registros, un scatterplot será demasiado denso, así que
necesitamos una manera diferente de visualizar la relación. Para ilustrar,
considerar el dato pone kc_impuesto , el cual contiene el impuesto-evaluó
valores para propiedades residenciales en Condado de Rey, Washington. Para
foco en la parte principal del dato, desnudamos fuera muy caros y muy
pequeños o las residencias grandes que utilizan la función de subconjunto:
kc_Impuesto0 <- subconjunto(kc_impuesto, TaxAssessedValue < 750000 &

SqFtTotLiving>100 & SqFtTotLiving<3500)
nrow(kc_Impue
sto0) [1]
432733
Figura 1-8 es un hexágono binning parcela de la relación entre los pies

cuadrados acabados versus el impuesto-valor evaluado para casas en Condado de
Rey. Más que plotting puntos, el cual aparecería como nube oscura monolítica,
agrupamos los registros a cubos hexagonales y plotted los hexágonos con un
color que indica el número de registros en aquel cubo. En este gráfico, la relación
positiva entre impuesto y pies cuadrados-el valor evaluado es claro. Una
característica interesante es la pista de una segunda nube por encima de la nube
principal, indicando casas que tiene las mismas imágenes cuadradas como aquellos
en general nube, pero un impuesto más alto-valor evaluado.
Figura 1-8 estuvo generado por el potente R paquete ggplot2, desarrollado por
Hadley Wickham [ggplot2]. ggplot2 es uno de varias bibliotecas de software
nuevas para adelantados análisis visual exploratorio de datos; ve “Visualizar
Variables Múltiples”.
ggplot(kc_Impuesto0, (aes(x=SqFtTotLiving,
y=TaxAssessedValue))) + stat_binhex(blanco="de color") +
Tema_bw() +
La escala_llena_gradiente(blanco="bajo", alto="negro")
+ laboratorios(x="Acabó Pies Cuadrados", y="Grava Valor
Evaluado")
Figura 1-8. Hexagonal binning para impuesto-valor evaluado versus acabó pies cuadrados
Figura 1-9 contornos de usos overlaid en un scatterplot para visualizar la

relación entre dos variables numéricas. Los contornos son esencialmente un mapa
topográfico a dos variables; cada banda de contorno representa una densidad
concreta de puntos, aumentando tan uno se acerca una “cumbre.” Esta parcela
muestra una historia similar cuando Figura 1-8: hay un norte de cumbre
“secundario” de la cumbre principal. Este gráfico era también creó utilizar
ggplot2 con el construido-en geom_densidad2d función.
ggplot(kc_Impuesto0, aes(SqFtTotLiving,
TaxAssessedValue)) + tema_bw() +
geom_Punto( alfa=0.1) +
geom_densidad2d(blanco="de color") +
Laboratorios(x="Acabó Pies Cuadrados", y="Grava Valor Evaluado")
Figura 1-9. Parcela de contorno para impuesto-valor evaluado versus acabó pies cuadrados
Otros tipos de gráficos suelen espectáculo la relación entre dos variables

numéricas, incluyendo mapas de calor. Mapas de calor, hexagonales binning, y
parcelas de contorno todo da una representación visual de una densidad
bidimensional. De este modo, son equivalentes naturales a histogramas y
parcelas de densidad.
Dos Variables Categóricas
Una manera útil a summarize dos variables categóricas es una contingencia
somete — una mesa de cuentas por categoría. Mesa 1-8 espectáculos la mesa
de contingencia entre el grado de un préstamo personal y el resultado de aquel
préstamo. Esto está tomado de los datos proporcionados por Dejar Club, un
dirigente en el peer-a-peer dejando negocio. El grado va de Un (alto) a G
(bajo). El resultado es tampoco pagado fuera, corriente, tarde, o cobró fuera (el
equilibrio de el préstamo no es esperado para ser recogido). Esta mesa
muestra la cuenta y porcentajes de fila. Alto-préstamos de grado tienen un muy
abajo cargo/tardío-fuera porcentaje cuando comparado con préstamos de grado
bajo. Mesas de contingencia pueden mirar en cuentas justas, o también incluir
columna y porcentajes totales. Mesas de pivote en Excel es quizás la
herramienta más común utilizó para crear mesas de contingencia. En R, el
CrossTable función en el descr mesas de contingencia de productos de
paquete, y el código siguiente solió crea Mesa 1-8:
Biblioteca(descr)
x_Tabulador <- CrossTable(lc_préstamos$grado, lc_préstamos$estado,
prop.c=FALSO, prop.chisq=FALSO, prop.t=FALSO)
Mesa 1-8. Mesa de contingencia de grado

de préstamo y estado
Grado Plenamen Actual Tard Cobrado Total
te pagó e fuera
Un 20715 52058 494 1588 74855
0.277 0.695 0.007 0.021 0.161
B 31782 97601 2149 5384 136916
0.232 0.713 0.016 0.039 0.294
C 23773 92444 2895 6163 125275
0.190 0.738 0.023 0.049 0.269
D 14036 55287 2421 5131 76875
0.183 0.719 0.031 0.067 0.165
E 6089 25344 1421 2898 35752
0.170 0.709 0.040 0.081 0.077

F 2376 8675 621 1556 13228
0.180 0.656 0.047 0.118 0.028
G 655 2042 206 419 3322
0.197 0.615 0.062 0.126 0.007
Total 99426 333451 10207 23139 466223

Dato categórico y Numérico
Boxplots (Ve “Percentiles y Boxplots” ) es una manera sencilla a visually
comparar las distribuciones de una variable numérica agrupada según una
variable categórica. Por ejemplo, podríamos querer comparar cómo el
porcentaje de retrasos de vuelo varía a través de aerolíneas. Figura 1-10
espectáculos el porcentaje de vuelos en un mes que estuvo retrasado dónde el
retraso era dentro del control del transportista.
boxplot(pct_Aerolínea ~ de retraso, aerolínea=de dato_stats, ylim=c(0, 50))

Figura 1-10. Boxplot De porcentaje de retrasos de aerolínea por cargadores
Alaska destaca cuando habiendo el fewest retrasos, mientras el americano

tiene el más retrasos: el más bajo quartile para americano es más alto que
el superior quartile para Alaska.
Una parcela de violín, introducido por [Hintze-Nelson-1998], es un trucaje a
el boxplot y parcelas la estimación de densidad con la densidad en el y-axial. La
densidad es mirrored y flipped encima y la forma resultante está rellenada,
creando una imagen que se parece a un violín. La ventaja de una parcela de
violín es que pueda mostrar matices en la distribución que no es perceptible en
un boxplot. Por otro lado, el boxplot más claramente muestra el outliers en el
dato. En ggplot2, la función geom_violín
Puede soler crear una parcela de violín como sigue:.
ggplot(Aerolínea=de dato_stats, aes(aerolínea,

pct_retraso_cargador)) + ylim(0, 50) +
geom_Violín() +
Laboratorios(x="", y="Diariamente % de Retrasó Vuelos")
La parcela correspondiente está mostrada en Figura 1-11. La parcela de violín

muestra una concentración en la distribución cero cercano para Alaska, y a una
extensión menor, Delta. Este fenómeno no es tan obvio en el boxplot. Puedes
combinar una parcela de violín con un boxplot por añadir geom_boxplot a la
parcela (a pesar de que esto es más cuándo los colores están utilizados).
Figura 1-11. Combinación de boxplot y parcela de violín de porcentaje de retrasos de aerolínea por
cargadores
Visualizando Variables Múltiples
Los tipos de gráficos utilizaron para comparar dos variables — scatterplots,
hexagonales binning, y boxplots — es fácilmente extendido a más variables a
través de la idea de condicionar . Cuando un ejemplo, mirada atrás en Figura 1-
8, el cual mostró la relación entre casas' pies cuadrados acabados e impuesto-
evaluó valores. Observamos que allí aparece para ser un grupo de casas que
tiene impuesto más alto-valor evaluado por pie cuadrado. Buceando más
profundo, Figura 1-12 cuentas para el efecto de ubicación por plotting el dato
para un conjunto de códigos de cremallera. Ahora el cuadro es mucho más claro:
impuesto-el valor evaluado es mucho más alto en algunos códigos de cremallera
(98112, 98105) que en otros (98108, 98057). Esta disparidad da el aumento a
los grupos observó en Figura 1-8.
Creamos Figura 1-12 utilizando ggplot2 y la idea de facetas , o una variable de
condicionante (en este caso código de cremallera):
ggplot(Subconjunto(kc_impuesto0, ZipCode %en% c(98188, 98105,

98108, 98126)), aes(x=SqFtTotLiving, y=TaxAssessedValue))
+
stat_binhex(Blanco="de color") +
tema_bw() +
La escala_llena_gradiente( blanco="bajo", alto="azul") +
laboratorios(x="Acabó Pies Cuadrados", y="Grava Valor
Evaluado") + la faceta_envuelve("ZipCode")
Figura 1-12. Impuesto-valor evaluado versus acabó pies cuadrados por código de cremallera
El concepto de condicionar las variables en un sistema de gráfico estuvo

iniciada con gráfico de Enrejado, desarrollado por Rick Becker, Bill Cleveland,
y otros en Laboratorios de Campana [Enrejado-Gráficos]. Esta idea ha
propogated a varios sistemas de gráfico modernos, como el enrejado
([enrejado]) y ggplot2 paquetes en R y el Seaborn ([seaborne]) y Bokeh
([bokeh]) módulos en Pitón. Condicionando las variables son también integrales a
plataformas de inteligencia empresarial como Tableau y Spotfire. Con el
advenimiento de poder de informática vasta, plataformas de visualización moderna
han movido bien allende los principios humildes de análisis de dato exploratorio.
Aun así, herramientas y conceptos claves desarrollaron sobre los años todavía
forman una fundación para estos sistemas.
IDEAS
CLAVES
Hexagonal binning y parcelas de contorno son herramientas útiles que permiso examen gráfico de
dos variables numéricas a la vez, sin anonadarse por cantidades enormes de datos..
Mesas de contingencia son la herramienta estándar para mirar en las cuentas de dos
variables categóricas. Boxplots Y parcelas de violín te dejan a parcela una variable numérica
contra una variable categórica.

Lectura más lejana
Ciencia de Dato moderno con R , por Benjamin Baumer, Daniel
Kaplan, y Nicholas Horton (CRC Prensa, 2017), tiene una
presentación excelente de “una gramática para gráficos” (el “gg” en
ggplot).
Ggplot2: Gráfico Elegante para Análisis de Datos, por Hadley

Wickham, es un recurso excelente de el creador de ggplot2 (Salmer,
2009).
Josef Fruehwald tiene una web-basado preceptoral en ggplot2.

Resumen
Con el desarrollo de análisis de dato exploratorio (EDA), iniciado por John
Tukey, la estadística puesta una fundación que era un precursor a el campo de
ciencia de datos. La idea clave de EDA es que el primer y paso más
importante en cualquier proyecto basado en los datos es para mirar en el
dato. Por summarizing y visualizando el dato, puedes obtener intuición valiosa
y entendiendo de el proyecto.
Este capítulo ha revisado conceptos variando de sencillos metrics, como
estimaciones de ubicación y variabilidad, a exhibiciones visuales ricas para
explorar las relaciones entre variables múltiples, cuando en Figura 1-12. El
conjunto diverso de las herramientas y las técnicas que son desarrollados por la
comunidad de código abierto, combinado con la expresividad de el R y lenguas
de Pitón, ha creado un plethora de maneras de explorar y analizar dato. El
análisis exploratorio tendría que ser un cornerstone de cualquier proyecto de
ciencia del dato.
Capítulo 2. Dato y
Distribuciones de Muestreo
Un error popular aguanta que la era de dato grande significa el fin de una
necesidad para muestreo. De hecho, la proliferación de los datos de pertinencia y
calidad variables refuerza la necesidad para muestreo como herramienta para
trabajar efficiently con una variedad de datos y para minimizar sesgo. Incluso en
un proyecto de dato grande, los modelos predictivos son típicamente
desarrollados y pilotados con muestras. Las muestras son también utilizadas en
pruebas de varias clases (p. ej., tasando, tratamientos de web).
Figura 2-1 espectáculos un esquemáticos que underpins los conceptos en este
capítulo. El lado izquierdo representa una población que, en estadísticas, está
supuesto para seguir un subyacente pero distribución desconocida. La cosa única
disponible es el dato de muestra y su distribución empírica, mostrado en el
righthand lado. Para conseguir de el lado izquierdo a el righthand lado, un
procedimiento de muestreo está utilizado (representado por dashed flechas).
La estadística tradicional centró mucho en el lado izquierdo, utilizando la
teoría basada en suposiciones fuertes sobre la población. La estadística moderna
ha movido a el righthand lado, donde tales suposiciones no son necesitadas.
Figura 2-1. Población versus muestra
En general, científicos de dato necesitan no preocuparse sobre la naturaleza

teórica de el lado izquierdo, y en cambio tendría que centrar en los
procedimientos de muestreo y el dato a mano. Hay algunos excepciones
notables. A veces el dato está generado de un proceso físico que puede ser
modeled. El ejemplo más sencillo es flipping una moneda: esto sigue una
distribución binomial. Cualquier real-vida situación binomial (compra o no
compra , fraude o ningún fraude, clic o no clic) puede ser modeled
eficazmente por una moneda (con probabilidad modificada de aterrizar
cabezas, naturalmente). En estos casos, podemos obtener idea adicional por
utilizar nuestro entendiendo de la población.
Muestra y Muestreo aleatorios Sesgo
Una muestra es un subconjunto de datos de un conjunto de dato más grande;
los estadísticos llaman este dato más grande puesto la población. Una
población en las estadísticas no es la misma cosa cuando en biología — es un
grande, definido pero a veces teórico o imaginario, puesto de datos.
PLAZOS CLAVES PARA MUESTREO ALEATORIO
Muestra
Un subconjunto de un conjunto de dato más grande.
Población
El conjunto de dato más grande o idea de un conjunto de dato.
N (n)
La medida de la población (muestra).
Muestreo aleatorio
Dibujando elementos a una muestra al azar.
Muestreo estratificado
Dividiendo la población a estratos y aleatoriamente muestreo de cada estratos.
Muestra aleatoria sencilla

La muestra que resultados de muestreo aleatorio sin estratificar la población.
Sesgo de muestra
Una muestra que misrepresents la población.
El muestreo aleatorio es un proceso en qué cada miembro disponible del ser de

población sampled tiene una posibilidad igual de ser escogido para la muestra en
cada sorteo.
La muestra que los resultados se apellida una muestra aleatoria sencilla. El
muestreo puede ser hecho con sustitución , en qué observaciones están puestas
atrás en la población después de cada sorteo para posible futuro reselection. O
pueda ser hecho sin sustitución, en qué observaciones de caso, una vez
seleccionados, es inutilizable para sorteos futuros.
Calidad de dato a menudo asuntos más de cantidad de datos cuándo haciendo una
estimación o un modelo basado en una muestra. Calidad de dato en ciencia de
datos implica completeness, consistencia de formato, cleanliness, y exactitud de
puntos de dato individual.
La estadística añade la idea de representatividad .
El ejemplo clásico es el Literario Digiere encuesta de 1936 aquello pronosticó
una victoria de Al Landon en contra Franklin Roosevelt. El Literario Digiere,
un principal periodical de el día, encuestó su base de suscriptor entera, más
listas adicionales de individual, un total de encima 10 millones, y pronosticó una
victoria de derrumbe para Landon. George Gallup, fundador de el Gallup
Encuesta, conducido biweekly encuestas de justos 2,000, y con exactitud
pronosticó un Roosevelt victoria. La diferencia pone en la selección de aquellos
encuestado.
El Literario Digerir optado para cantidad, pagando poca atención al método de
selección. Acabaron encuestar aquellos con relativamente alto estado
socioeconómico (sus suscriptores propios, plus quienes, por virtud de poseer
lujos como teléfonos y automóviles, aparecidos en marketers' listas). El resultado
era sesgo de muestra ; aquello es, la muestra era diferente en algún significativo
nonrandom manera de la población más grande esté significado para
representar. El plazo nonrandom es importante
— Difícilmente cualquier muestra, incluyendo muestras aleatorias, será
exactamente representativo de la población. Sesgo de muestra ocurre cuándo la
diferencia es significativa, y puede ser esperado para continuar para otras
muestras dibujadas en la misma manera como el primero.
SELF-SESGO de MUESTREO de la SELECCIÓN
Las revisiones de restaurantes, hoteles, cafeterías, y tan encima que te leídos en sitios de
medios de comunicación sociales como Yelp es prone para predisponer porque las personas que
les entregan no es aleatoriamente seleccionó; bastante, ellos ellos ha tomado la iniciativa para
escribir. Estas ventajas a self-la selección predispone — las personas motivaron para escribir
las revisiones pueden ser quienes tuvo experiencias pobres, puede tener una asociación con
el establecimiento, o sencillamente puede ser un tipo diferente de persona de quienes no
escriben revisiones. Nota que mientras self-muestras de selección pueden ser unreliable
indicadores del estado cierto de asuntos, pueden ser más fiables en sencillamente comparando
un establecimiento a un similar un; el mismo self-sesgo de selección podría aplicar a cada cual.
Sesgo
El sesgo estadístico refiere a medida o errores de muestreo que es sistemático y
producido por la medida o proceso de muestreo. Una distinción importante
tendría que ser hecha entre errores debido a posibilidad aleatoria, y errores debido
a sesgo.
Considerar el proceso físico de un tiroteo de pistola en un objetivo. No pegue el
centro absoluto de el objetivo cada vez, o incluso mucho en absoluto. Un
unbiased el proceso producirá error, pero es aleatorio y no tiende fuertemente
en cualquier dirección (ve Figura 2-2). Los resultados mostrados en Figura 2-3
espectáculo un proceso predispuesto — allí es todavía error aleatorio en ambos
el x y y dirección, pero hay también un sesgo. Los tiros tienden para caer en el
superior-cuadrante correcto.
Figura 2-2. Scatterplot De tiros de una pistola con objetivo cierto

Figura 2-3. Scatterplot De tiros de una pistola con objetivo predispuesto
El sesgo entra formas diferentes, y puede ser observable o invisible. Cuándo un

resultado sugiere sesgo (p. ej., por referencia a un benchmark o valores
reales), es a menudo un indicador que un estadístico o modelo de aprendizaje
de la máquina ha sido misspecified, o una variable importante dejó fuera.
Selección aleatoria
Para evitar el problema de muestra predispone aquello dirigió el Literario
Digiere para pronosticar Landon encima Roosevelt, George Gallup (mostrado
en Figura 2-4) optó para más métodos escogidos científicamente para conseguir
una muestra que era representativo de el votante de EE.UU.. hay ahora una
variedad de métodos para conseguir representatividad, pero en el fondo de
todo de ellos mentiras muestreo aleatorio.
Figura 2-4. George Gallup, catapultado a fama por el Literario Digiere es “fracaso de dato” grande
El muestreo aleatorio no es siempre fácil. La definición apropiada de una

población accesible es clave. Supone queremos generar un perfil representativo
de los clientes y nosotros necesitan conducir una encuesta de cliente piloto. Las
necesidades de encuesta para ser representativos pero es el trabajo intensivo.
Primero necesitamos definir quién un cliente es. Podríamos seleccionar todos
registros de cliente donde cantidad de compra > 0. Incluimos todos los
clientes pasados? Incluimos reembolsos? Compras de prueba interna?
Resellers? Ambos agente de enunciar y cliente?
Luego necesitamos especificar un procedimiento de muestreo. Pueda ser
“seleccionar 100 clientes al azar.” Dónde un muestreo de un flujo está
implicado (p. ej., transacciones de cliente de tiempo real o visitantes de web),
cronometrando las consideraciones pueden ser importantes (p. ej., un visitante de
web en 10 a.m. en un weekday puede ser diferente de un visitante de web en 10
p.m. en un fin de semana).
En muestreo estratificado, la población está dividida arriba a estratos , y las
muestras aleatorias están tomadas de cada estrato. Político pollsters podría buscar
para aprender las preferencias electorales de blancos, negros, e hispanos. Una
muestra aleatoria sencilla
www.allitebooks.com
Tomado de la población cedería demasiado pocos negros e hispanos, así
que aquellos estratos podrían ser overweighted en muestreo estratificado para
ceder medidas de muestra equivalente.
Medida versus Calidad: Cuando Hace Asunto de Medida?
En la era de dato grande, a veces está sorprendiendo que más pequeño es mejor.
El tiempo y el esfuerzo gastados en el muestreo aleatorio no sólo reduce sesgo,
pero también dejar atención más grande a exploración de dato y calidad de dato.
Por ejemplo, perdiendo dato y outliers puede contener información útil. Pueda
ser prohibitively caro de seguir abajo perdiendo valores o evaluar outliers en
millones de registros, pero haciendo tan en una muestra de varios registros de
millar puede ser factible. Dato plotting e inspección manual bog abajo si hay
demasiado dato.
Tan cuando es las cantidades masivas de datos necesitaron?
El escenario clásico para el valor de dato grande es cuándo el dato no es sólo
grande, pero escaso también. Considerar las consultas de búsqueda recibieron
por Google, donde las columnas son plazos , las filas son consultas de
búsqueda individual , y valores de célula son cualesquiera 0 o 1, dependiendo
de si una consulta contiene un plazo. El objetivo es para determinar la
búsqueda más pronosticada destino para una consulta dada. hay encima
150,000 palabras en la lengua inglesa, y procesos de Google encima 1 billones
de consultas por año. Esto cede una matriz enorme, la mayoría vasta de de quién
entradas es “0.”
Esto es un problema de dato grande cierto — sólo cuándo tales cantidades
enormes de datos están acumuladas puede resultados de búsqueda eficaz ser
regresados para más consultas. Y el más dato acumula, el mejor los resultados.
Para la búsqueda popular denomina esto no es tal problema — el dato eficaz
puede ser encontrado bastante deprisa para el handful de extremadamente temas
populares trending en un tiempo particular. El valor real de mentiras de
tecnología de búsqueda modernas en la capacidad de regresar resultados
detallados y útiles para una variedad enorme de consultas de búsqueda,
incluyendo los que ocurren sólo con una frecuencia, dice, de uno en un millón.
Considerar la frase de búsqueda “Ricky Ricardo y Poco Capote de Equitación
Rojo.” En los días tempranos de el internet, esta consulta probablemente
habría regresado resulta encima Ricky Ricardo el dirigente de banda, el
espectáculo televisivo me Encanta Lucy en qué protagonice, y la historia de los
niños Poco Capote de Equitación Rojo. Más tarde, ahora que los billones de
consultas de búsqueda han sido acumulados, esta consulta de búsqueda regresa
el exacto me Encanta Lucy episodio en qué Ricky narra, en moda dramática, la
Poca Equitación Roja historia de Capote a su hijo de niño en una mezcla de
cómic de inglés y español..
Mantiene en importar que el número de real pertinente graba — unos en qué
esto
Consulta de búsqueda exacta, o algo muy similar, aparece (junto con
información en qué personas de enlace finalmente clicked encima) — podría
necesitar sólo ser en los miles para ser eficaces. Aun así, muchos billones de
puntos de datos están necesitados para obtener estos registros pertinentes (y
muestreo aleatorio, naturalmente, no ayudará ).
Ve también “Mucho tiempo-Tailed Distribuciones”.
La muestra Significa versus la población Mala
El símbolo (Pronunciado x-barra) suele representar el malo de una muestra
de una población, mientras que Suele representar el malo de una población.
Por qué marca la distinción? La información sobre muestras está observada, y la
información sobre poblaciones grandes es a menudo inferido de muestras más
pequeñas. A Estadísticos les gustan mantener las dos cosas separar en la
simbología.
IDEAS CLAVES
Incluso en la era de dato grande, el muestreo aleatorio queda una flecha importante en la
científica de dato es tiembla.
El sesgo ocurre cuándo las medidas o las observaciones son sistemáticamente en error porque
no son representativos de la población llena.
Calidad de dato es a menudo más importante que cantidad de dato, y el muestreo aleatorio puede
reducir sesgo y facilitar mejora de calidad que sería prohibitively caro.
Lectura más lejana
Una revisión útil de procedimientos de muestreo puede ser encontrada en
Ronald Fricker Métodos “de Muestreo del capítulo para Web y Encuestas
de Email,” encontrados en el Manual de Salvia de Métodos de Búsqueda
On-line. Este capítulo incluye una revisión de las modificaciones a
muestreo aleatorio que es a menudo utilizado para razones prácticas de
costados o viabilidad..
La historia de el Literario Digiere fracaso de encuesta puede ser encontrado

en el sitio web de Siglo Capital.
Sesgo de selección
A paraphrase Yogi Berra, “Si no sabes qué estás buscando, mirada bastante duro
y lo encontrarás .”
Sesgo de selección refiere a la práctica de selectively escogiendo dato —
conscientemente o unconsciously — en una manera que aquello dirige a una
conclusión que es misleading o efímero..
PLAZOS CLAVES
Sesgo
Error sistemático.
Dato snooping
Caza extensa a través de datos en búsqueda de algo interesante.
Efecto de búsqueda vasta

Sesgo o nonreproducibility resultando de modeling de dato repetido, o dato de modeling
con números grandes de predictor variables.
Si especificas una hipótesis y conducir un experimento bien diseñado para

probarlo, puedes tener confianza alta en la conclusión. Tal es a menudo no el
caso, aun así. A menudo, una miradas en dato disponible e intenta vislumbrar
patrones. Pero es el patrón de verdad, o justo el producto de datos snooping —
aquello es, caza extensa a través del dato hasta que algo interesante emerge? Hay un
refrán entre estadísticos: “Si torturas el dato mucho tiempo bastante, tarde o
temprano confiese .”
La diferencia entre un fenómeno que verificas cuándo pruebas una hipótesis que
utiliza un experimento, versus un fenómeno que descubres por perusing dato
disponible, puede ser illuminated con el siguiendo experimento pensado.
Imagina que alguien te dices pueda dedo una moneda y tenerlo cabezas de tierra
en el próximos 10 tosses. Le desafías (el equivalente de un experimento), y
procede a toss lo 10 tiempo, todo aterrizando cabezas. Claramente adscribes
algunos talento especial a su — la probabilidad que 10 moneda tosses aterrizará
las cabezas justo por casualidad es 1 en 1,000.
Ahora imaginar que el announcer en un estadio de deportes pregunta las 20,000
personas en attendance cada cual a toss una moneda 10 tiempo, e informe a un
usher si consiguen 10 cabezas
En una fila. La posibilidad que alguien en el estadio conseguirá 10 cabezas es
extremadamente alto (más de 99% — es 1 minus la probabilidad que nadie
consigue 10 cabezas ).
Claramente, seleccionando, después del hecho, la persona (o personas) quién
consigue 10 cabezas en el estadio no indica tienen cualquier talento especial —
es suerte más probable .
Revisión repetida desde entonces de conjuntos de dato grande es una
proposición de valor clave en ciencia de datos, sesgo de selección es algo para
preocuparse aproximadamente. Una forma de sesgo de selección de la
preocupación particular a científicas de dato es qué John Mayor (fundador de
Búsqueda Grande, un dato respetado asesoría minera) llama el efecto de búsqueda
vasto. Si tú repetidamente modelos diferentes corridos y preguntar cuestiones
diferentes con un conjunto de dato grande, estás atado para encontrar algo
interesante. Es el resultado encontraste verdaderamente algo interesante, o es la
posibilidad outlier?
Podemos guardia contra este por utilizar un holdout conjunto, y a veces más de
uno holdout conjunto, en contra cuál para validar rendimiento. Grande también
defiende el uso de qué llama objetivo shuffling (una prueba de permutación, en
esencia) para probar la validez de asociaciones predictivas que un dato el modelo
minero sugiere.
Formas típicas de sesgo de selección en estadísticas, además de el efecto de
búsqueda vasto, incluye nonrandom muestreo (ve sesgo de muestreo), dato que
elige cereza, selección de intervalos de tiempo que acentúa un partiular efecto
estadístico, y parando un experimento cuándo los resultados miran “interesar.”
Regresión al Malo
Regresión al malo refiere a un fenómeno que implica medidas sucesivas en una
variable dada: las observaciones extremas tienden a seguir por más centrales unos.
Sujetando foco especial y significando a el valor extremo puede dirigir a una
forma de sesgo de selección.
Seguidores de deportes son familiares con el “rookie de el año, sophomore
fenómeno” de recesión. Entre los atletas quiénes empiezan su carrera en una
estación dada (el rookie clase), hay siempre uno quién actúa mejor que todo el
resto. Generalmente, este “rookie de el año” no también en su segundo año. Por
qué no?
En casi todos los deportes importantes, al menos aquellos jugados con una
pelota o puck, hay dos elementos que juego una función en rendimiento global:
Suerte de
habilidad
Regresión a el malo es una consecuencia de una forma particular de sesgo de

selección. Cuándo seleccionamos el rookie con el rendimiento mejor, la
habilidad y la suerte buena probablemente están contribuyendo. En su estación
próxima, la habilidad todavía será allí pero, en más casos, la suerte no, así que su
rendimiento lo declinará — regress. El fenómeno era primero identificado por
Francis Galton en 1886 [Galton-1886], quién escribió de él en conexión con
tendencias genéticas; por ejemplo, los niños de extremadamente los hombres
altos tienden no para ser tan altos como su padre (ve Figura 2-5).
Figura 2-5. Galton estudio que identificó el fenómeno de regresión al malo
AVISO
Regresión a el malo, significando para “volver,” es distinto de el método de modeling estadístico
de regresión lineal, en qué una relación lineal está estimada entre predictor variables y una
variable de resultado.
IDEAS CLAVES
Especificando una hipótesis, entonces recogiendo el dato que sigue aleatorización y
principios de muestreo aleatorio, asegura en contra sesgo.
Todas otras formas de análisis de datos corrido el riesgo de predispone resultar del análisis de
colección/del dato
Proceso (repetido corriendo de modelos en los datos mineros, dato snooping en búsqueda, y
después-el-selección de hecho de acontecimientos interesantes).
Lectura más lejana
Christopher J. Pannucci Y Edwin G. Wilkins' El artículo que “Identifica y
Evitando Sesgo en Búsqueda” en (sorprendentemente) Plástico y
Reconstructive Cirugía (agosto 2010) tiene una revisión excelente de varios
tipos de predisponer aquello puede introducir a búsqueda, incluyendo sesgo
de selección.
Michael Harris artículo “Fooled por Randomness A través de Sesgo de

Selección” proporciona una revisión interesante de consideraciones de
sesgo de la selección en stock el mercado que comercia esquemas, de la
perspectiva de comerciantes..
Distribución de muestreo de un Statistic
La distribución de muestreo del plazo de un statistic refiere a la distribución de
alguna muestra statistic, encima muchas muestras dibujados de la misma
población. Mucho de la estadística clásica está preocupada con hacer inferencias
de (pequeños) muestras a (muy grandes) poblaciones.
PLAZOS CLAVES
Muestra statistic
Un métrico calculado para una muestra de los datos dibujados de una población más grande.
Distribución de dato
La distribución de frecuencia de valores individuales en un conjunto de dato.
Distribución de muestreo
La distribución de frecuencia de una muestra statistic encima muchas muestras o resamples.
Teorema de límite central

La tendencia de la distribución de muestreo para apechugar con una forma normal cuando
aumentos de medida de la muestra.
Error estándar
La variabilidad (desviación estándar) de una muestra statistic encima muchas muestras (no
para ser confundidos con desviación estándar, el cual, por él, refiere a variabilidad de
valores de dato individual).
Típicamente, una muestra está dibujada con el objetivo de medir algo (con una
muestra statistic) o modeling algo (con un estadístico o modelo de aprendizaje
de la máquina).
Desde nuestra estimación o el modelo está basado en una muestra, pueda ser en
error; pueda ser diferente si éramos para dibujar una muestra diferente. Somos
por tanto interesados en cómo diferentes lo podría ser — una preocupación clave
es variabilidad de muestreo . Si tuvimos mucho dato, podríamos dibujar
muestras adicionales y observar la distribución de una muestra statistic
directamente. Típicamente, calcularemos nuestra estimación o el modelo que
utiliza tanto dato cuando es fácilmente disponible, así que la opción de dibujar
muestras adicionales de la población no es fácilmente disponible.
AVISO
Es importante de distinguir entre la distribución de los puntos de dato individuales, sabidos
como la distribución de dato, y la distribución de una muestra statistic, sabido como la
distribución de muestreo.
La distribución de una muestra statistic como el malo probablemente puede ser
más regular y campana-shaped que la distribución de el dato él. El más grande
la muestra que el statistic está basado encima, el más esto es cierto. También, el
más grande la muestra, el más estrecho la distribución de la muestra statistic.
Esto está ilustrado en un ejemplo que utiliza ingresos anuales para solicitantes
de préstamo a Dejar Club (ve “Un Ejemplo Pequeño: Pronosticando Préstamo
Default” para una descripción de el dato). Toma tres muestras de este dato:
una muestra de 1,000 valores, una muestra de 1,000 significa de 5 valores, y
una muestra de 1,000 significa de 20 valores.
Entonces parcela un histograma de cada muestra para producir Figura 2-6.
Figura 2-6. Histograma de ingresos anuales de 1,000 solicitantes de préstamo (superiores), entonces
1000 significa de n=5 solicitantes (medios), y n=20 (inferiores)
El histograma de los valores de dato individuales es en términos generales

extendido fuera y sesgado hacia valores más altos cuando es para ser esperado
con dato de ingresos. Los histogramas del medio de 5 y 20 es cada vez más
compacto y más campana-shaped. Aquí es el R código para generar estos
histogramas, utilizando el paquete de visualización ggplot2.
Biblioteca(ggplot2)
# Tomar una muestra aleatoria sencilla
samp_Dato <- datos.Marco(muestra=de ingresos(ingresos_de préstamos, 1000),
Tipo='dato_dist')
# toma una muestra de medios de 5 valores
samp_malos_05 <- datos.Marco(
Ingresos = tapply(muestra(ingresos_de préstamos, 1000*5),
rep(1:1000, rep(5, 1000)), DIVERTIDO=malo),
El tipo = soyean_de_5')
# Tomar una muestra de medios de 20 valores
samp_Malo_20 <- datos.Marco(
Ingresos = tapply(muestra(ingresos_de préstamos, 1000*20),
rep(1:1000, rep(20, 1000)), DIVERTIDO=malo),
El tipo = soyean_de_20')
# Atar el dato.Marcos y convertir tipo a unos ingresos
de factor <- rbind(samp_dato, samp_malo_05,
samp_malo_20) ingresos$factor = de tipo(ingresos$tipo,
Niveles=c('dato_dist', soyean_de_5',
soyean_de_20'), etiquetas=c('Dato', soyean de
5', soyean de 20'))
# Parcela los histogramas
ggplot(Ingresos, aes(x=ingresos)) +
geom_histograma(cubos=40) + verja_de
faceta(tipo ~ .)
Teorema de Límite central
Este fenómeno está denominado el teorema de límite central . Dice que el significa
dibujado de las muestras múltiples se parecerán a la campana familiar-shaped
curva normal (ve “Distribución Normal”), incluso si la población de fuente no es
normalmente distribuido, proporcionado que la medida de muestra es bastante
grande y la salida de el dato de la normalidad no es demasiado grande. El
teorema de límite central deja fórmulas de aproximación normal como el t-
distribución para ser utilizada en calcular distribuciones de muestreo para
inferencia — que es, intervalos de confianza y pruebas de hipótesis.
El teorema de límite central recibe mucha atención en textos de estadística
tradicional porque él underlies la maquinaria de pruebas de hipótesis e intervalos
de confianza, el cual ellos consume a medias el espacio en tales textos.
Científicos de dato tendrían que ser conscientes de esta función, pero, desde
pruebas de hipótesis formal e intervalos de confianza juegan una función pequeña
en ciencia de datos, y el bootstrap es disponible de todas formas, el teorema de
límite central no es tan central en la práctica de ciencia de datos.
Error estándar
El error estándar es un solo métrico que sumas arriba de la variabilidad en la
distribución de muestreo para un statistic. El error estándar puede ser estimado
utilizando un statistic basó en la desviación estándar s de los valores de muestra,
y la medida de muestra n:
Cuando los aumentos de medida de la muestra, las disminuciones de error
estándares, correspondiendo a qué estuvo observado en Figura 2-6. La relación
entre muestra y error estándares la medida es a veces referida a como el
cuadrado-raíz de n regla: para reducir el error estándar por un factor de 2, la
medida de muestra tiene que ser aumentada por un factor de 4..
La validez de la fórmula de error estándar surge de el teorema de límite central
(ve “Teorema de Límite Central”). De hecho, no necesitas para confiar en el
teorema de límite central para entender error estándar. Considerar la aproximación
siguiente para medir error estándar:
1. Recoger un número de marca muestras nuevas de la población.
2. Para cada muestra nueva, calcular el statistic (p. ej., malo).
3. Calcular la desviación estándar de la estadística computada en paso 2;

uso esto como vuestra estimación de error estándar.
En práctica, esta aproximación de recoger muestras nuevas para estimar el error

estándar es típicamente no factible (y statistically muy despilfarro).
Afortunadamente, resulta que no es necesario de dibujar marca muestras
nuevas; en cambio, puedes utilizar bootstrap resamples (ve “El Bootstrap”). En
estadística moderna, el bootstrap ha devenido la manera estándar a para estimar
error estándar. Pueda ser utilizado para virtualmente cualquier statistic y no
confía en el teorema de límite central u otras suposiciones distribucionales.
DESVIACIÓN ESTÁNDAR VERSUS ERROR ESTÁNDAR
No confunde desviación estándar (cuál mide la variabilidad de puntos de dato individual) con
error estándar (cuál mide la variabilidad de una muestra métrica).
IDEAS CLAVES
La distribución de frecuencia de una muestra statistic nos digo cómo aquel métrico resultaría de
manera diferente de muestra a muestra..
Esta distribución de muestreo puede ser estimada vía el bootstrap, o vía fórmulas que confía en el
teorema de límite central.
Un clave métrico que sumas arriba de la variabilidad de una muestra statistic es su error estándar.
Lectura más lejana
El recurso multimedia on-line de David Lane en las estadísticas tiene un
simulacro útil que te dejas para seleccionar una muestra statistic, una medida de
muestra y número de iteraciones y visualizar un histograma de la distribución
de frecuencia resultante.
El Bootstrap
Uno manera fácil y eficaz para estimar la distribución de muestreo de un
statistic, o de parámetros de modelo, es para dibujar muestras adicionales, con
sustitución, de la muestra él y recalculate el statistic o modelo para cada
resample. Este procedimiento se apellida el bootstrap, y no necesariamente
implique cualesquier suposiciones sobre el dato o la muestra statistic siendo
normalmente distribuyó.
PLAZOS CLAVES
Bootstrap Muestra
Una muestra tomada con sustitución de un conjunto de dato observado.
Resampling
El proceso de tomar repitió muestras de dato observado; incluye ambos bootstrap y permutación
(shuffling) procedimientos.
Conceptualmente, puedes imaginar el bootstrap cuando replicating los miles de

muestra originales o millones de tiempo de modo que tienes una población
hipotética que encarna todo el conocimiento de vuestra muestra original (es
justo más grande). Puedes entonces muestras de sorteo de esta población
hipotética para el propósito de estimar una distribución de muestreo. Ve Figura
2-7.
Figura 2-7. La idea del bootstrap

En práctica, no es necesario a de hecho replicate la muestra un número enorme de
tiempo. Sencillamente reemplazamos cada observación después de cada sorteo; aquello
es, nosotros muestra con sustitución. De este modo eficazmente creamos una
población infinita en qué la probabilidad de un elemento que es dibujado queda sin
cambios de dibujar para dibujar. El algoritmo para un bootstrap resampling de el
malo es como sigue, para una muestra de medida n:
1. Sorteo un valor de muestra, registro, reemplazarlo.
2. Repite n tiempo.
3. Récord el malo de el n resampled valores.
4. Repite pasos 1–3 R tiempo.
5. Uso el R resultados a:
a. Calcular su desviación estándar (esto estima la muestra
significa error estándar).
b. Producto un histograma o boxplot..
c. Encontrar un intervalo de confianza.
R, el número de iteraciones de el bootstrap, está puesto un poco arbitrariamente.

El más iteraciones tú , el más cuidadoso la estimación de el error estándar, o el
intervalo de confianza. El resultado de este procedimiento es un bootstrap
conjunto de estadística de muestra o parámetros de modelo estimado, el cual te
entonces puede examinar para ver qué variable son.
El R bota de paquete combina estos pasos en uno funcionan. Por ejemplo, el
siguiente aplica el bootstrap a los ingresos de las personas que sacan préstamos:
Biblioteca(bota)
stat_Divertido <- función(x, idx) median(x[idx])
Bota_obj <- bota(ingresos_de préstamos, R = 1000, statistic=stat_diversión)
La función stat_la diversión computa el median para una muestra dada

especificada por el índice idx. El resultado es como sigue:.
Bootstrap Estadística :
Sesgo original std. Error
t1* 62000 -70.5595 209.1515
La estimación original de el median es $62,000. El bootstrap la distribución

indica que la estimación tiene un sesgo de aproximadamente –$70 y un error
estándar de $209..
El bootstrap puede ser utilizado con multivariate dato, donde las filas son
sampled como unidades (ve Figura 2-8). Un modelo entonces podría ser corrido
en el bootstrapped dato, por ejemplo, para estimar la estabilidad (variabilidad)
de parámetros de modelo, o para mejorar poder predictivo. Con clasificación y
árboles de regresión (decisión llamada también árboles), corriendo árboles
múltiples en bootstrap muestras y entonces averaging sus predicciones (o, con
clasificación, tomando un voto de mayoría) generalmente actúa mejor que
utilizando un árbol solo. Este proceso se apellida bagging (corto para
“bootstrap agregando”: ve “Bagging y el Bosque Aleatorio”).
Figura 2-8. Multivariate bootstrap Muestreo
El repetido resampling de el bootstrap es conceptualmente sencillo, y Julian

Simon, un economista y demógrafo, publicó un compendium de resampling
ejemplos, incluyendo el bootstrap, en su 1969 texto Métodos de Búsqueda Básica
en
Ciencia social (Casa Aleatoria). Aun así, es también computacionalmente
intensivo, y no fue una opción factible antes de la disponibilidad extendida de
computar poder. La técnica obtuvo su nombre y sacó con la publicación de
varios artículos de revista y un libro por Stanford estadístico Bradley Efron en el
tardío 1970s y temprano 1980s. Sea particularmente popular entre investigadores
quiénes utilizan estadística pero no es estadísticos, y para uso con metrics o
modelos donde las aproximaciones matemáticas no son fácilmente disponibles.
La distribución de muestreo de el malo ha sido bien establecido desde entonces
1908; la distribución de muestreo de muchos otro metrics ha no. El bootstrap
puede ser utilizado para determinación de medida de la muestra; experimento con
valores diferentes para n para ver cómo la distribución de muestreo está
afectada.
El bootstrap conoció con escepticismo considerable cuándo sea primero
introdujo; tenga la aura a muchos de girar oro de paja. Este escepticismo
stemmed de un malentendido de el bootstrap propósito.
AVISO
El bootstrap no compensa para una medida de muestra pequeña; no crea dato nuevo, ni rellene
agujeros en un dato de existir conjunto. Meramente nos informo aproximadamente cómo
muchas muestras adicionales behave cuándo dibujados de una población como nuestra muestra
original.
Resampling versus Bootstrapping
A veces el plazo resampling está utilizado synonymously con el plazo
bootstrapping, tan justo perfiló. Más a menudo, el plazo resampling también
incluye procedimientos de permutación (ve “Prueba de Permutación”), donde
las muestras múltiples están combinadas y el muestreo puede ser hecho sin
sustitución. De todas formas, el plazo bootstrap siempre implica muestreo con
sustitución de un conjunto de dato observado.
IDEAS CLAVES
El bootstrap (muestreo con sustitución de un conjunto de dato) es una herramienta potente
para evaluar la variabilidad de una muestra statistic.
El bootstrap puede ser aplicado en moda similar en una variedad ancha de circunstancias,
sin estudio extenso de aproximaciones matemáticas a distribuciones de muestreo.
También nos dejo para estimar distribuciones de muestreo para estadísticas donde ninguna
aproximación matemática ha sido desarrollada.
Cuándo aplicado a modelos predictivos, agregando múltiples bootstrap predicciones de muestra

(bagging) outperforms el uso de un modelo solo.
Lectura más lejana
Una Introducción al Bootstrap por Bradley Efron y Robert Tibshirani
(Chapman Sala, 1993) era el primer libro-tratamiento de longitud de el
bootstrap. Es todavía ampliamente leído.
El retrospectivo en el bootstrap en el mayo 2003 asunto de Ciencia

Estadística, (vol. 18, núm. 2), habla (entre otros antecedentes, en la
prehistoria de “Peter Sala”) la primera publicación de Julian Simon de el
bootstrap en 1969.
Ver Una Introducción a Aprendizaje Estadístico por Gareth James et al.

(Salmer, 2013) para secciones en el bootstrap y, en particular, bagging.
Intervalos de confianza
Mesas de frecuencia, histogramas, boxplots, y los errores estándares son todas
maneras de entender el error potencial en una estimación de muestra. Intervalos
de confianza son otro .
PLAZOS CLAVES
Nivel de confianza
El porcentaje de intervalos de confianza, construidos en la misma manera de la misma
población, esperado para contener el statistic de interés..
Intervalo endpoints
El superior y fondo del intervalo de confianza.
Hay una aversión humana natural a incertidumbre; personas (especialmente

expertos) dice, “no sé ” lejos demasiado raramente. Analistas y directores,
mientras reconociendo incertidumbre, empero colocar fe indebida en una
estimación cuándo está presentado como número solo (una estimación de
punto). Presentando una estimación no como número solo pero como la gama es
una manera a counteract esta tendencia. Intervalos de confianza esto en una
manera grounded en principios de muestreo estadístico.
Intervalos de confianza siempre venidos con un nivel de cobertura, expresado
como (alto) porcentaje, dice 90% o 95%. Una manera para pensar de un 90%
intervalo de confianza es como sigue: es el intervalo que encierra el central
90% de el bootstrap distribución de muestreo de una muestra statistic (ve “El
Bootstrap”). Más generalmente, un x% intervalo de confianza alrededor de una
estimación de muestra tiene que, en mediano, contiene estimaciones de muestra
similar x% de el tiempo (cuándo un procedimiento de muestreo similar está
seguido).
Dado una muestra de medida n, y una muestra statistic de interés, el algoritmo
para un bootstrap intervalo de confianza es como sigue:.
1. Sorteo una muestra aleatoria de medida n con sustitución de el
dato (un resample).
2. Récord el statistic de interés para el resample.
3. Repite pasos 1–2 muchos (R) tiempo.

4. Para un x% intervalo de confianza, trim [(1 – [x/100]) / 2]% de el R
resample Resultados de cualquier fin de la distribución.
5. El trim los puntos son el endpoints de un x% bootstrap intervalo de

confianza.
Figura 2-9 espectáculos una una 90% confianza intervalo para los ingresos
anuales malos de solicitantes de préstamo, basados en una muestra de 20 para
qué el malo era $57,573.
Figura 2-9. Bootstrap Intervalo de confianza para los ingresos anuales de solicitantes de préstamo,
basados en una muestra de 20
El bootstrap es una herramienta general que puede soler generar intervalos de

confianza para la mayoría de estadística, o parámetros de modelo. Estadístico
textbooks y software, con raíces en sobre un medios-siglo de computerless
análisis estadístico, también intervalos de confianza de la referencia generaron
por fórmulas, especialmente el t-distribución (ve “Estudiantil t-Distribución”).
NOTA
Naturalmente, qué somos realmente interesados en cuándo tenemos un resultado de
muestra es “qué es la probabilidad que las mentiras de valor ciertas dentro de un intervalo
seguro?” Esto no es realmente la cuestión que unas respuestas de intervalo de la confianza,
pero acaba ser qué la mayoría de personas interpretan la respuesta..
La cuestión de probabilidad asociada con unos inicios de intervalo de la confianza fuera con
la frase “Dada un procedimiento de muestreo y una población, qué es la probabilidad que…”
para entrar la dirección opuesta, “Dado un resultado de muestra, qué es la probabilidad que
(algo es cierto sobre la población),” implica cálculos más complejos y más profundos
imponderables.
El porcentaje asociado con el intervalo de confianza está denominado el nivel
de confianza . El más alto el nivel de confianza, el más ancho el intervalo.
También, el más pequeño la muestra, el más ancho el intervalo (i.e., la más
incertidumbre). Ambos sentido de marca: el más seguro quieres ser, y el
menos dato tienes, el más ancho te tiene que hacer el intervalo de confianza
para ser suficientemente asegurado de capturar el valor cierto.
NOTA
Para un científico de dato, un intervalo de confianza es una herramienta para conseguir una idea
de cómo variable un resultado de muestra podría ser. Científicos de dato utilizarían esta
información no para publicar un papel erudito o entregar un resultado a una agencia reguladora
(como el investigador puede), pero más probablemente para comunicar el error potencial en una
estimación, y, quizás, aprender si una muestra más grande está necesitada.
IDEAS CLAVES
Intervalos de confianza son la manera típica a estimaciones presentes como una
gama de intervalo. El más dato tienes, la menos variable una estimación de
muestra será .
El más bajo el nivel de confianza puedes tolerar, el más estrecho el intervalo de confianza será
. El bootstrap es una manera eficaz de construir intervalos de confianza.

Lectura más lejana
Para un bootstrap aproximación a intervalos de confianza, ve Estadística
Introductoria y Analytics: Un Resampling Perspectiva por Peter Bruce
(Wiley, 2014) o Estadística por Robin Cerradura y cuatro otra Cerradura
miembros familiares (Wiley, 2012).
Ingenieros, quiénes tienen una necesidad de entender la precisión de sus

medidas, intervalos de confianza del uso quizás más de más disciplinas, y
Estadística de Ingeniería Moderna por Tom Ryan (Wiley, 2007) habla
intervalos de confianza. También revisa una herramienta que es tan útil y
consigue menos atención: intervalos de predicción (intervalos alrededor de
un valor solo, cuando opposed a un malo u otro resumen statistic).
Distribución normal
La campana-shaped la distribución normal es icónica en estadística tradicional.1
El hecho que las distribuciones de estadística de muestra son a menudo
normalmente shaped lo ha hecho una herramienta potente en el desarrollo de
fórmulas matemáticas que aproximados aquellas distribuciones.
PLAZOS CLAVES
Error
La diferencia entre un punto de dato y un valor pronosticado o mediano.
Estandariza
Restar el malo y dividir por la desviación estándar.
z-Puntuación
El resultado de estandarizar un punto de dato individual.
Estándar normal
Una distribución normal con malo = 0 y desviación estándar = 1.
QQ-Parcela
Una parcela para visualizar qué cercano una distribución de muestra es a una distribución
normal.
En una distribución normal (Figura 2-10), 68% de las mentiras de dato dentro
uno desviación estándar de el malo, y 95% mentiras dentro dos desviaciones
estándares.
AVISO
Es un error común que la distribución normal se apellida que porque la mayoría de dato sigue
una distribución normal — que es, es la cosa normal . La mayoría de las variables utilizó en un
proyecto de ciencia de dato típico — de hecho dato más crudo globalmente — no es
normalmente distribuyó: ve “Mucho tiempo- Tailed Distribuciones”. La utilidad de la distribución
normal deriva de el hecho que mucha estadística es normalmente distribuida en su distribución
de muestreo. Aun así, las suposiciones de normalidad son generalmente un último recurso,
utilizados cuándo distribuciones de probabilidad empírica, o bootstrap distribuciones, no es
disponible.
Figura 2-10. Curva normal
NOTA
La distribución normal es también referida a como distribución Gaussiana después de que Carl
Friedrich Gauss, un prodigous matemático alemán del tardío 18.º y siglo XIX temprano. Otro
nombre anteriormente utilizado para la distribución normal era la “distribución” de error .
Statistically Hablando, un error es la diferencia entre un valor real y una estimación estadística
como la muestra mala.
Por ejemplo, la desviación estándar (ve “Estimaciones de Variabilidad” ) está basado en los
errores de el malos del dato. El desarrollo de Gauss de la distribución normal provino su
estudio de los errores de medidas astronómicas que estuvo encontrado para ser normalmente
distribuyó.
Estándar Normal y QQ-Parcelas
Una distribución normal estándar es una en qué las unidades en el x-axiales
está expresado en plazos de desviaciones estándares fuera de el malos. Para
comparar dato a una distribución normal estándar, restas el malo entonces
dividir por la desviación estándar; esto es normalización llamada también o
estandarización (ve “Estandarización (Normalización, Z-Puntuaciones)”). Nota
que “la estandarización” en este sentido es no relacionada a base de datos
estandarización récord (conversión a un formato común). El valor
transformado está denominado un z-puntuación, y la distribución normal es a
veces llamó el z-distribución.
Un QQ-la parcela suele visually determinar qué cercano una muestra es a la
distribución normal. El QQ-la parcela ordena el z-puntuaciones de bajos a alto,
y parcelas cada valor z-puntuación en el y-axial; el x-axial es el
correspondiente quantile de una distribución normal para el rango de aquel
valor. Desde el dato está normalizado, las unidades corresponden a el número
de desviaciones estándares fuera de el dato de el malo. Si los puntos
aproximadamente caída en la línea diagonal, entonces la distribución de muestra
puede ser considerada cercano a normal. Figura 2-11 espectáculos un QQ-
Parcela para una muestra de 100 valores aleatoriamente generados de una
distribución normal; cuando esperado, los puntos estrechamente siguen la
línea. Esta figura puede ser producida en R con el qqnorm función:
Norma_samp <- rnorm(100)

qqnorm(norma_samp)
abline(un=0, b=1,
col='gris')
Figura 2-11. QQ-Parcela de una muestra de 100 valores dibujados de una distribución normal
AVISO
Convirtiendo dato a z -puntuaciones (i.e., estandarizando o normalizando el dato) no hace el
dato normalmente distribuyó. Justo pone el dato en la misma escala como la distribución
normal estándar, a menudo para propósitos de comparación.
IDEAS CLAVES
La distribución normal era esencial a el desarrollo histórico de estadísticas, cuando él permitted
aproximación matemática de incertidumbre y variabilidad..
Mientras el dato crudo es típicamente no normalmente distribuido, los errores a menudo son,
cuando es medias y totales en muestras grandes.
Para convertir dato a z -puntuaciones, restas el malo del dato y dividir por la desviación
estándar; entonces puedes comparar el dato a una distribución normal.
Mucho tiempo-Tailed Distribuciones
A pesar de la importancia de la distribución normal históricamente en
estadísticas, y en contraste a lo que el nombre sugeriría , el dato es generalmente
no normalmente distribuyó.
PLAZOS CLAVES PARA LARGOS-COLA DISTRIB

UTION
Col
a La porción estrecha larga de una distribución de frecuencia, donde relativamente los valores
extremos ocurren en frecuencia baja.
Torci
do Dónde una cola de una distribución es más larga que
el otro.
Mientras la distribución normal es a menudo apropiada y útil con respetar a la
distribución de errores y estadística de muestra, típicamente no caracteriza la
distribución de dato crudo. A veces, la distribución es altamente sesgada
(asimétrico), como con dato de ingresos, o la distribución puede ser discreta,
cuando con dato binomial. Ambos symmetric y las distribuciones asimétricas
pueden tener colas largas. Las colas de una distribución corresponden a los
valores extremos (pequeños y grandes). Colas largas, y guarding en contra les,
es ampliamente reconocido en trabajo práctico. Nassim Taleb Ha propuesto la
teoría de cisne negra, el cual pronostica que anamolous acontecimientos, como
un accidente de mercado de valores, es mucho más probablemente para
ocurrir que sería pronosticado por la distribución normal.
Un ejemplo bueno para ilustrar el largo-tailed la naturaleza de datos es regresos
accionarios. Figura 2-12 espectáculos el QQ-Parcela para los regresos
accionarios diarios para Netflix (NFLX). Esto está generado en R por:
nflx <- sp500_px[,'NFLX']

nflx <- diff(Registro(nflx[nflx>0]))
qqnorm(nflx)
abline(Un=0, b=1, col='gris')
Figura 2-12. QQ-Parcela de los regresos para NFLX
En contraste para Representar 2-11, los puntos son lejos bajo la línea para
valores bajos y lejos por encima de la línea para valores altos. Esto significa
que somos mucho más probablemente para observar valores extremos que
sería esperado si el dato tuvo una distribución normal. Figura 2-12 espectáculos
otros fenómenos comunes: los puntos son cercanos a la línea para el dato dentro
uno desviación estándar de el malo. Tukey Refiere a este fenómeno como los
datos que son “normales en el medio,” pero teniendo mucho más colas (ve
[Tukey-1987]).
NOTA
Hay mucha literatura estadística sobre la tarea de caber distribuciones estadísticas a dato
observado. Beware Un excesivamente dato-centric aproximación a este trabajo, el cual es
tanto arte cuando ciencia. El dato es variable, y a menudo compatible, en su cara, con más de
una forma y tipo de distribución. Es típicamente el caso que el ámbito y el conocimiento
estadístico tienen que ser traídos para aguantar para determinar qué tipo de distribución es
apropiado a modelo una situación dada. Por ejemplo, podríamos tener dato en el nivel de
tráfico de internet en un servidor encima muchos consecutivos 5-segundos periodos. Es útil de
saber que la distribución mejor a acontecimientos “de modelo por periodo de tiempo” es el
Poisson (ve “Poisson Distribuciones”).
IDEAS CLAVES PARA LARGOS-COLA DISTRIB UTION

La mayoría de dato no es normalmente distribuyó.
Suponiendo una distribución normal puede dirigir a underestimation de acontecimientos

extremos (“cisnes negros”).
Lectura más lejana
El Cisne Negro, 2.º ed., por Nassim Taleb (Casa Aleatoria, 2010).
Manual de Distribuciones Estadísticas con Aplicaciones , 2.º ed., por

K. Krishnamoorthy (CRC Prensa, 2016)
Estudiantil t-Distribución
El t-la distribución es un normalmente shaped distribución, pero un poco más
grueso y más largo en las colas. Está utilizado extensamente en describir
distribuciones de estadística de muestra. Las distribuciones de muestra
significa es típicamente shaped como un t-distribución, y hay una familia de t-
distribuciones que difiere depender de qué grande la muestra es. El más grande
la muestra, el más normalmente shaped el t-la distribución deviene.
PLAZOS CLAVES PARA ESTUDIANTILES T-DISTRIB UTION
n
Medida de muestra.
Grados de libertad
Un parámetro que deja el t-distribución para ajustar a medidas de muestra diferente, estadística, y
número de grupos..
El t-la distribución es Estudiante llamada a menudo t porque esté publicado en

1908 en Biometrika por W. S. Gossett Bajo el Estudiante “de nombre.” Gossett
empresario, el Guinness cervecería, no quiso competidores para saber que utilice
métodos estadísticos, así que insistió que Gossett no utilizar su nombre en el
artículo.
Gossett Quiso contestar la cuestión “Qué es la distribución de muestreo de el
malo de una muestra, dibujado de una población más grande?” Empiece fuera
con un resampling el experimento que — dibuja muestras aleatorias de 4 de un
dato puesto de 3,000 medidas de delincuentes' altura y a la izquierda-longitudes
de dedo medio. (Este siendo la era de eugenesias, había mucho interés en datos
en delincuentes, y en descubrir correlaciones entre tendencias criminales y
atributos físicos o psicológicos.) Él plotted el estandarizó resultados (el z-
puntuaciones) en el x-axiales y la frecuencia en el y-axial. Por separado, haya
derivado una función, ahora sabido como Estudiantil t, y quepa esta función
sobre los resultados de muestra, plotting la comparación (ve Figura 2-13).
Figura 2-13. Gossett resampling resultados de experimento y cabidos t-curva (de su 1908 Biometrika
papel)
Un número de estadística diferente puede ser comparado, después de que

estandarización, a el t- distribución, para estimar intervalos de confianza en
ligeros de variación de muestreo.
Considerar una muestra de medida n para qué la muestra mala Ha sido
calculado. Si s es la muestra desviación estándar, un 90% intervalo de
confianza alrededor de la muestra significa está dado por:
Dónde Es el valor de el t-statistic, con ( n – 1) grados de libertad

(ve “Grados de Libertad”), aquellas “chuletas fuera” 5% de el t-distribución
en cualquier fin. El t-la distribución ha sido utilizada como referencia para la
distribución de una muestra mala, la diferencia entre dos muestra significa,
parámetros de regresión, y otra estadística.
Tuvo computar el poder sido ampliamente disponible en 1908, la estadística sin
duda habría confiado mucho más fuertemente encima computacionalmente
intensivo resampling métodos de el inicio. Ordenadores faltos, los estadísticos
giraron a matemática y funciones como el t-distribución para aproximar
distribuciones de muestreo. Poder de ordenador habilitó práctico resampling
experimentos en el 1980s, pero por entonces, uso de el t- la distribución y las
distribuciones similares habían devenido profundamente embedded en textbooks
Y software.
El t-la exactitud de la distribución en describir el comportamiento de una muestra
statistic requiere que la distribución de aquel statistic para aquella muestra ser
shaped como una distribución normal. Resulta que estadística de muestra es a
menudo normalmente distribuido, incluso cuándo el dato de población subyacente
no es (un hecho qué dirigido a aplicación extendida de el t-distribución). Este
fenómeno está denominado el teorema de límite central (ve “Teorema de Límite
Central”).
NOTA
Qué necesidad de científicos del dato para saber sobre el t-distribución y el teorema de límite
central? No una parcela entera. Estas distribuciones están utilizadas en inferencia estadística
clásica, pero no es tan central a los propósitos de ciencia de datos. Comprensivo y
cuantificando la incertidumbre y la variación son importantes a científicos de dato, pero
empíricos bootstrap el muestreo puede contestar más cuestiones aproximadamente error de
muestreo. Aun así, científicos de dato routinely encuentro t-estadísticas en producción de
software estadístico y procedimientos estadísticos en R, por ejemplo en Un-B pruebas y
regresiones, así que la familiaridad con su propósito es útil.
IDEAS CLAVES
El t-la distribución es de hecho una familia de las distribuciones que se parecen a la distribución
normal, pero con colas más gruesas.
Es ampliamente utilizado como base de referencia para la distribución de muestra significa,

differerences entre dos muestra significa, parámetros de regresión, y más..
Lectura más lejana
El original Gossett papel en Biometrica de 1908 es disponible como PDF.
Un tratamiento estándar de el t-la distribución puede ser encontrada en el

recurso on-line de David Lane.
Distribución binomial
PLAZOS CLAVES PARA B INOMIAL DISTRIB UTION
Prueba
Un acontecimiento con un resultado discreto (p. ej., un dedo de moneda).
Éxito
El resultado de interés para una prueba.
Synonyms
“1” (como opposed a “0”)
Binomial
Teniendo dos resultados.
Synonyms
Sí/ningún, 0/1, binario
Prueba binomial
Una prueba con dos resultados.
Synonym
Bernoulli prueba
Distribución de número de éxitos en x pruebas.
Synonym
Bernoulli distribución
Sí/ningún (binomial) mentira de resultados en el fondo de analytics desde

entonces son a menudo la culminación de una decisión u otro proceso;
compra/no compra , clic/ no clic, sobrevive/dado, y tan encima. Central a
entender la distribución binomial es la idea de un conjunto de pruebas, cada
prueba habiendo dos resultados posibles con probabilidades definitivas.
Por ejemplo, flipping una moneda 10 tiempo es un experimento binomial
con 10 pruebas, cada prueba habiendo dos resultados posibles (cabezas o
colas); ve Figura 2-14. Tal sí/ningún o 0/1 resultados están denominados
resultados binarios , y necesitan no tener 50/50 probabilidades. Cualesquier
probabilidades que suma a 1.0 es posible. Es convencional en estadísticas para
denominar el “1” resultado el resultado de éxito; es también práctica común para
asignar “1” a el resultado más raro. Uso de el éxito de plazo no implica
Aquello el resultado es deseable o beneficioso, pero tiende para indicar el
resultado de interés. Por ejemplo, préstamo defaults o las transacciones
fraudulentas son relativamente uncommon acontecimientos que podemos ser
interesados en pronosticar, así que están denominados “1s” o “éxitos.”.
Figura 2-14. El lado de colas de un níquel de búfalo
La distribución binomial es la distribución de frecuencia de el número de

éxitos
(x) En un número dado de pruebas (n) con probabilidad especificada (p) de
éxito en cada prueba. Hay una familia de distribuciones binomials,
dependiendo de los valores de x , n, y p . La distribución binomial contestaría
a una cuestión le gusta:
Si la probabilidad de un clic que convierte a una venta es 0.02, qué es la
probabilidad de observar 0 ventas en 200 clics?
El R función dbinom calcula probabilidades binomials. Por ejemplo:.
dbinom(x=2, n=5, p=0.1)
Regresaría 0.0729, la probabilidad de observar exactamente x = 2 éxitos en n = 5

pruebas, donde la probabilidad del éxito para cada prueba es p = 0.1.
A menudo estamos interesar en determinar la probabilidad de x o menos éxitos
en n
Pruebas. En este caso, utilizamos la función pbinom:
pbinom(2, 5, 0.1)
Esto regresaría 0.9914, la probabilidad de observar dos o menos éxitos en cinco

pruebas, donde la probabilidad del éxito para cada prueba es 0.1.
El malo de una distribución binomial es ; También puedes pensar de este
tan el número esperado de éxitos en n pruebas, para probabilidad de éxito = p.
La varianza es . Con un grande bastante número de pruebas.

(Particularmente cuándo p es cercano a 0.50), la distribución binomial es
virtualmente indistinguishable de la distribución normal. De hecho, calculando
probabilidades binomials con medidas de muestra grande computacionalmente
está reclamando, y procedimientos más estadísticos utilizan la distribución normal,
con malo y varianza, cuando una aproximación.
IDEAS CLAVES
Los resultados binomials son importantes a modelo, desde entonces representan, entre otras cosas,
decisiones fundamentales (compra o no compra , clic o no clic, sobrevive o dado, etc.).
Una prueba binomial es un experimento con dos resultados posibles: uno con probabilidad p y el
otro con probabilidad 1 – p.
Con grande n, y proporcionado p no es demasiado cercano a 0 o 1, la distribución binomial

puede ser aproximada por la distribución normal.
Lectura más lejana
Leído sobre el “quincunx”, un pinball-gustar dispositivo de simulacro para
ilustrar la distribución binomial.
La distribución binomial es una grapa de estadística introductoria, y todos

textos de estadística introductorios tendrán un capítulo o dos encima lo.
Poisson Y Relacionó Distribuciones
Muchos procesa acontecimientos de producto aleatoriamente en unos visitantes
de índice globales — dados que llegan en un sitio web, los coches que llegan en
un peaje plaza (los acontecimientos extendidos con el tiempo), imperfecciones
en un metro cuadrado de tejido, o typos por 100 líneas de código (los
acontecimientos extendidos sobre espaciales).
PLAZOS CLAVES PARA POISSON Y RELACIONADOS

DISTRIB UTIONS
Lambda
El índice (por unidad de tiempo o espacial) en qué acontecimientos ocurren.
Poisson Distribución
La distribución de frecuencia del número de acontecimientos en sampled unidades de tiempo o
espacial.
Distribución exponencial
La distribución de frecuencia del tiempo o distancia de un acontecimiento al acontecimiento
próximo.
Weibull Distribución
Una versión generalizada del exponencial, en qué el índice de acontecimiento está dejado para
cambiar con el tiempo.
Poisson Distribuciones
De dato previo podemos estimar el número mediano de acontecimientos por
unidad de tiempo o espacio, pero también podríamos querer saber qué
diferentes esto podría ser de una unidad de cronometrar/espacial a otro. El
Poisson la distribución nos digo la distribución de acontecimientos por unidad
de tiempo o espacio cuándo nosotros muestra muchos tales unidades. Es útil
cuándo dirigiendo queuing cuestiones como “Cuánta capacidad necesitamos
ser 95% seguro de plenamente procesando el tráfico de internet que llega en un
servidor en cualquier 5- segundo periodo?”
El parámetro clave en un Poisson la distribución es , o lambda. Esto es el
número malo de acontecimientos que ocurre en un intervalo especificado de
tiempo o espacial. La varianza para un Poisson la distribución es también .
Una técnica común es para generar números aleatorios de un Poisson distribución
cuando parte de un queuing simulacro. El rpois función en R esto, tomando
sólo dos argumentos — la cantidad de números aleatorios buscó, y lambda:.
rpois(100, lambda = 2)
Este código generará 100 números aleatorios de un Poisson distribución con

= 2. Por ejemplo, si incoming servicio de cliente llama mediano 2 por minuto,
este código simulará 100 minutos, regresando el número de llamadas en cada de
aquellos 100 minutos.
Distribución exponencial
Utilizando el mismo parámetro Aquello utilizamos en el Poisson
distribución, podemos también modelo la distribución de el tiempo entre
acontecimientos: tiempo entre visitas a un sitio web o entre los coches que
llegan en un peaje plaza. Es también utilizado en ingeniería a tiempo de modelo
a fracaso, y en administración de proceso a modelo, por ejemplo, el tiempo
requerido por llamada de servicio. El R código para generar los números
aleatorios de una distribución exponencial toma dos argumentos, n (la cantidad
de números para ser generados), y índice , el número de acontecimientos por
periodo de tiempo. Por ejemplo:.
rexp(n = 100, índice = .2)
Este código generaría 100 números aleatorios de una distribución exponencial

donde el número malo de los acontecimientos por periodo de tiempo es 2. Así
que lo podrías utilizar para simular 100 intervalos, en minutos, entre llamadas
de servicio, donde el índice mediano de incoming las llamadas es 0.2 por
minuto.
Una suposición clave en cualquier estudio de simulacro para cualquier el
Poisson o la distribución exponencial es que el índice, , constante de restos
sobre el ser de periodo consideró. Esto es raramente razonable en un sentido
global; por ejemplo, el tráfico en carreteras o redes de dato varía por tiempo de
día y día de semana. Aun así, los periodos de tiempo, o áreas de espaciales,
normalmente puede ser dividido a segmentos que es suficientemente
homogeneous de modo que el análisis o el simulacro dentro de aquellos
periodos es válidos.
Estimando el Índice de Fracaso
En muchas aplicaciones, el índice de acontecimiento, , es sabido o puede ser
estimado de dato previo. Aun así, para acontecimientos raros, esto no es
necesariamente tan. Fracaso de motor de la aeronave, por ejemplo, es
suficientemente raro (afortunadamente) que, para un tipo de motor dado, puede
haber poco dato en qué para basar una estimación de tiempo entre fracasos. Sin
datos en absoluto, hay poca base en qué para estimar un índice de
acontecimiento. Aun así, puedes hacer algunas suposiciones: si ningún
acontecimiento ha sido visto después de que 20 horas, puedes ser bastante
seguro que el índice no es 1 por hora. Vía simulacro, o cálculo directo de
probabilidades, puedes evaluar índices de acontecimiento hipotéticos diferentes
y valores de umbral de la estimación bajo qué el índice es muy improbables de
caer. Si hay algún dato pero no bastante para proporcionar una estimación
precisa, fiable de el índice, una bondad-de-prueba cabida (ve “Chi-Prueba
Cuadrada”) puede ser aplicado a varios índices para determinar qué bien
cupieron el dato observado.
Weibul Distribución
En muchos casos, el índice de acontecimiento no queda constante con el
tiempo. Si el periodo encima cuál cambia es mucho más que el intervalo típico
entre acontecimientos, no hay ningún problema; tú justo subdivide el análisis a
los segmentos donde los índices son relativamente constantes, cuando
mencionados antes de que. Si, aun así, los cambios de índice del acontecimiento
sobre el tiempo de el intervalo, el exponencial (o Poisson) las distribuciones
son ya no útiles. Esto probablemente puede ser el caso en fracaso mecánico —
el riesgo de fracaso aumenta tan el tiempo pasa de largo. El Weibull la
distribución es una extensión de la distribución exponencial, en qué el índice de
acontecimiento está dejado para cambiar, cuando especificado por un parámetro
de forma, . Si > 1, la probabilidad de unos aumentos de acontecimiento con
el tiempo, si < 1, él disminuciones. Porque el Weibull la distribución está
utilizada con tiempo-a- análisis de fracaso en vez de índice de acontecimiento,
el segundo parámetro está expresado en plazos de vida característica, más que
en plazos del índice de acontecimientos por intervalo. El símbolo utilizó es ,
la letra griega eta. Es también llamó el parámetro de escala.
Con el Weibull, la tarea de valoración ahora incluye valoración de ambos
parámetros, Y . El software suele modelo el dato y ceder una
estimación de el que cabe mejor Weibull distribución.
El R código para generar números aleatorios de un Weibull la distribución toma
tres argumentos, n (la cantidad de números para ser generados), forma, y escala
. Por ejemplo, el código siguiente generaría 100 números aleatorios (lifetimes) de
un Weibull distribución con forma de 1.5 y vida característica de 5,000:.
rweibull(100,1.5,5000)
IDEAS CLAVES
Para acontecimientos que ocurre en un índice constante, el número de acontecimientos por la
unidad de tiempo o espacio puede ser modeled como Poisson distribución.
En este escenario, puedes también modelo el tiempo o distancia entre un acontecimiento y el

próximo como una distribución exponencial.
Un acontecimiento de cambiar índice con el tiempo (p. ej., una probabilidad creciente de fracaso
de dispositivo) puede ser modeled con el Weibull distribución.
Lectura más lejana
Estadística de Ingeniería moderna por Tom Ryan (Wiley, 2007) tiene un
capítulo dedicó a las distribuciones de probabilidad utilizaron en
aplicaciones de ingeniería.
Leído una ingeniería-perspectiva basada en el uso de el Weibull distribución

(principalmente de una perspectiva de ingeniería) aquí y aquí.
Resumen
En la era de dato grande, los principios de muestreo aleatorio quedan
importantes cuándo las estimaciones cuidadosas están necesitadas. La selección
aleatoria de datos puede reducir sesgo y ceder un conjunto de dato de calidad
más alto que resultaría de justo utilizando el dato oportunamente disponible.
Conocimiento de varios muestreo y el dato que genera las distribuciones nos
dejo para cuantificar errores potenciales en una estimación que se podría deber a
variación aleatoria. Al mismo tiempo, el bootstrap (muestreo con sustitución
de un conjunto de dato observado) es un atractivo “una medida cabe todo”
método para determinar error posible en estimaciones de muestra.
1 La curva de campana es icónica pero quizás overrated. George W. Cobb, el Monte Holyoke el estadístico
notado para su contribución a la filosofía de enseñar estadística introductoria, argumentado en un
noviembre 2015 editorial en el Estadístico americano que el “curso introductorio estándar, el cual pone
la distribución normal en su centro, hubo outlived la utilidad de su centrality.”
Capítulo 3. Importancia y
Experimentos estadísticos Testaje
El diseño de experimentos es un cornerstone de la práctica de estadísticas,

con aplicaciones en virtualmente todas las áreas de búsqueda. El objetivo es
para diseñar un experimento para confirmar o rehusar una hipótesis.
Científicos de dato están frente a la necesidad de conducir continual
experimentos, particularmente considerando interfaz de usuario y marketing de
producto. Este capítulo revisa diseño experimental tradicional y habla algunos
retos comunes en ciencia de datos. También cubre algunos oft-citó conceptos en
inferencia estadística y explica su significado y pertinencia (o carencia de
pertinencia) a ciencia de dato.
Siempre que ves referencias a importancia estadística, t-pruebas, o p-valores,
es típicamente en el contexto de la tubería de inferencia estadística “clásica”
(ve Figura 3-1). Estos inicios de proceso con una hipótesis (“fármaco Un es
mejor que el existiendo fármaco estándar,” “precio Un es más provechoso que el
precio de existir B”). Un experimento ( pueda ser un Un/B prueba) está diseñado
para probar la hipótesis —
Diseñado de tal manera que, hopefully, entregará resultados concluyentes. El
dato está recogido y analizado, y entonces una conclusión está dibujada. La
inferencia de plazo refleja la intención para aplicar los resultados de experimento,
los cuales implican un conjunto limitado de datos, a un proceso más grande o
población..
Figura 3-1. La tubería de inferencia estadística clásica

Un/B Testaje
Un Un/B la prueba es un experimento con dos grupos para establecer cuál de
dos tratamientos, productos, procedimientos, o el gusta es superior. A menudo
uno de los dos tratamientos es el estándar existiendo tratamiento, o ningún
tratamiento. Si un estándar (o ningún) el tratamiento está utilizado, se apellida el
control. Una hipótesis típica es que el tratamiento es mejor que control.
PLAZOS CLAVES PARA Un/B TESTAJE
Tratamiento
Algo (fármaco, precio, titular de web) al cual un tema está expuesto.
Grupo de tratamiento
Un grupo de los temas expuestos a un tratamiento concreto.
Grupo de control
Un grupo de los temas expuestos a ningún (o estándares) tratamiento.
Aleatorización
El proceso de aleatoriamente asignando temas a tratamientos.
Temas
Los elementos (visitantes de web, pacientes, etc.) aquello está expuesto a tratamientos.
Prueba statistic
El métrico utilizado para medir el efecto del tratamiento.
Un/B las pruebas son comunes en diseño web y marketing, desde los resultados
son tan fácilmente midió. Algunos ejemplos de Un/B el testaje incluye:
Testaje dos tratamientos de tierra para determinar cuál produce germinación
de semilla mejor
Testaje dos terapias para determinar cuál suprime cáncer más eficazmente
Probando dos precios para determinar cuál cede beneficio más neto
Testaje dos titulares de web para determinar cuál produce más clics
(Figura 3-2)
Testaje dos anuncios de web para determinar cuál genera más conversiones
Figura 3-2. Marketers Continuamente prueba una presentación de web contra otro
Un apropiado Un/B la prueba tiene somete que puede ser asignado a un

tratamiento u otro. El tema podría ser una persona , una semilla de planta, un
visitante de web; la llave es que el tema está expuesto a el tratamiento.
Idealmente, los temas son randomized (asignados aleatoriamente) a
tratamientos. De este modo, sabes que cualquier diferencia entre los grupos de
tratamiento se debe a uno de dos cosas:
El efecto de los tratamientos diferentes
Suerte de el sorteo en qué temas está asignado a qué tratamientos (i.e., la

asignación aleatoria puede haber resultado en el naturalmente temas que
actúan mejores siendo concentrados en Un o B).
También necesitas parar atención a la prueba statistic o métrico utilizas para

comparar agrupar Un para agrupar B. Quizás el más común métrico en ciencia de
datos es una variable binaria : clic o no-clic, compra o no compra , fraude o
ningún fraude, y tan encima. Aquellos resultados serían summed arriba en una
2×2 mesa. Mesa 3-1 es una 2×2 mesa para una prueba de precio real.
Mesa 3-1. 2×2 mesa

para ecommerce
resultados de
experimento
El resultado Tasa Un Precio B
Conversión 200 182
Ninguna conversión 23,539

22,406
Si el métrico es una variable continua (cantidad de compra, beneficio, etc.), o una

cuenta (p. ej., días en hospital, las páginas visitadas) el resultado podría ser
mostrado de manera diferente. Si uno era interesó no en conversión, pero en
ingresos por vista de página, los resultados de la prueba de precio en Mesa 3-1
podría parecer esto en típico default producción de software:
Página/de ingresos-vista con tasar Un: malo = 3.87, SD =
51.10 página/de Ingresos-vista con precio B: malo = 4.11,
SD = 62.98
“SD” Refiere a la desviación estándar de los valores dentro de cada grupo.
AVISO
Justo porque el software estadístico que — incluye R — genera producción por default no
significa que toda la producción es útil o pertinente. Puedes ver que el precediendo las
desviaciones estándares no son que útiles; en su cara sugieren que los valores numerosos
podrían ser negativos, cuándo los ingresos negativos no es factibles. Este dato consta de un
conjunto pequeño de relativamente valores altos (vistas de página con conversiones) y un
número enorme de 0-valores (vistas de página sin conversión). Es difícil a suma arriba de la
variabilidad de tal dato con un número solo, aunque la desviación absoluta mala de el malo
(7.68 para Un y 8.15 para B) es más razonable que la desviación estándar.
Por qué Tener un Grupo de Control?
Por qué no skip el grupo de control y justo corrido un experimento que aplica el
tratamiento de interesar a único un grupo, y comparar el resultado a experiencia
previa?
Sin un grupo de control, no hay ninguna garantía que “otras cosas son iguales”
y que cualquier diferencia es realmente debido a el tratamiento (o a
posibilidad). Cuándo tienes un grupo de control, es subject a las mismas
condiciones (excepto el tratamiento de interés) como el grupo de tratamiento. Si
sencillamente haces una comparación a “baseline” o experiencia previa, otros
factores, además el tratamiento, podría diferir.
CEGANDO EN ESTUDIOS
Un estudio ciego es uno en qué los temas son inconscientes de si están consiguiendo
tratamiento Un o tratamiento B. Concienciación de recibir un tratamiento particular puede
afectar respuesta. Un estudio ciego doble es uno en qué los detectives y facilitators (p. ej.,
doctores y enfermeros en un estudio médico) es inconsciente cuál somete está consiguiendo qué
tratamiento. Cegador no es posible cuándo la naturaleza del tratamiento es transparente — por
ejemplo, terapia cognitiva de un ordenador versus un psicólogo.
El uso de Un/B el testaje en ciencia de datos es típicamente en un contexto de

web. Los tratamientos podrían ser el diseño de una página web, el precio de un
producto, el wording de un titular, o algunos otro elemento. Algunos pensaron
está requerido para preservar los principios de aleatorización. Típicamente el
tema en el experimento es el visitante de web, y los resultados estamos
interesar en medir es clics, compras, duración de visita, el número de páginas
visitó, si una página particular está visitada, y el gustar. En un estándar Un/B
experimento, necesitas decidir encima uno métrico antes de tiempo..
Comportamiento múltiple metrics podría ser recogido y ser de interés, pero si el
experimento está esperado para dirigir a una decisión entre tratamiento Un y
tratamiento B, un solo métrico, o prueba statistic, necesidades de ser
establecidas por adelantado. Seleccionando una prueba statistic después del
experimento está conducido abre la puerta a sesgo de investigador.
Por qué Justo Un/B? Por qué No C, D…?
Un/B las pruebas son populares en el marketing y ecommerce mundos, pero
dista mucho de el tipo único de experimento estadístico. Los tratamientos
adicionales pueden ser incluidos.
Los temas podrían tener repitió las medidas tomadas. Pruebas farmacéuticas
donde los temas son escasos, caros, y adquirió con el tiempo es a veces
diseñado con oportunidades múltiples para parar el experimento y lograr una
conclusión.
Diseños experimentales estadísticos tradicionales centra encima contestando una
cuestión estática sobre la eficacia de especificó tratamientos. Científicos de dato
son menos interesados en la cuestión:
Es la diferencia entre tasar Un y precio B statistically significativo? Que
en la cuestión:
Qué, fuera de precios posibles múltiples, es más?
Para este, un tipo relativamente nuevo de diseño experimental está utilizado: el
multi-bandido de brazo (ve “Multi-Algoritmo de Bandido del Brazo”).
CONSIGUIENDO PERMISO
En búsqueda científica y médica que implica temas humanos, es típicamente necesario de
conseguir su permiso, así como obtiene la aprobación de un tablero de revisión institucional.
Experimentos en empresariales aquello está hecho como parte de operaciones actuales casi nunca
esto. En más casos (p. ej., tasando experimentos, o experimentos sobre qué titular para mostrar o
qué oferta tendrían que ser hechos), esta práctica es ampliamente aceptó. Facebook, aun así,
corrió afoul de esta aceptación general en 2014 cuándo él experimented con el tono emocional
en usuarios' newsfeeds. Facebook utilizó sentiment análisis para clasificar newsfeed correos
como positivos o negativos, entonces alteró el equilibrio/negativo positivo en qué muestre
usuarios. Algunos aleatoriamente seleccionaron los usuarios experimentaron correos más
positivos, mientras otros experimentaron correos más negativos. Facebook encontró que los
usuarios quién experimentó un más positivo newsfeed era más probablemente a correo
positivamente ellos, y viceversa. La magnitud del efecto era pequeña, aun así, y Facebook
afrontó mucha crítica para conducir el experimento sin usuarios' conocimiento. Algunos usuarios
speculated aquel Facebook podría haber empujado algunos extremadamente deprimieron
usuarios sobre el borde, si conseguían la versión negativa de su alimentar.
IDEAS CLAVES
Los temas están asignados a dos (o más) agrupa aquello está tratado exactamente
igualmente, exceptúa que el tratamiento debajo el estudio difiere de uno a otro..
Idealmente, los temas están asignados aleatoriamente a los grupos.

Para Lectura más Lejana
Comparaciones de dos grupos (Un/B pruebas) es una grapa de estadística
tradicional, y justo sobre cualquier texto de estadística introductorio tendrá
cobertura extensa de principios de diseño y procedimientos de inferencia.
Para una discusión que sitios Un/B pruebas en más de un contexto de
ciencia del dato y usos resampling, ve Estadística Introductoria y Analytics:
Un Resampling Perspectiva por Peter Bruce (Wiley, 2014).
Para testaje de web, los aspectos logísticos de probar puede ser tan
desafiante como el estadístico unos. Un sitio bueno a inicio es el Google
Analytics sección de ayuda en Experimentos.
Beware El consejo encontrado en el ubiquitous guías a Un/B probando que

ves en la web, como estas palabras en uno tal guía: “Espera para
aproximadamente 1,000 visitantes totales y marca seguro te corrido la
prueba para una semana.” Tales reglas generales del pulgar no es
statistically significativo; ve “Poder y Medida de Muestra” para más
detalle.
Pruebas de hipótesis
Pruebas de hipótesis, importancia llamada también pruebas, es ubiquitous en el
análisis estadístico tradicional de búsqueda publicada. Su propósito es para
ayudar aprendes si la posibilidad aleatoria podría ser responsable para un efecto
observado.
PLAZOS CLAVES
Null Hipótesis
La hipótesis que la posibilidad es para culpar.
Hipótesis alternativa
Contrapunto al null (qué esperas probar).
Uno-prueba de manera
Prueba de hipótesis que resultados de posibilidad de las cuentas sólo en una dirección.
Prueba de dos maneras

Prueba de hipótesis que resultados de posibilidad de las cuentas en dos direcciones.
Un Un/B prueba (ve “Un/B Testaje”) es típicamente construido con una hipótesis
en mente. Por ejemplo, la hipótesis podría ser aquel precio B produce beneficio
más alto. Por qué necesitamos una hipótesis? Por qué no mirada justa en el
resultado de el experimento e ir con whichever el tratamiento mejor?
Las mentiras de respuesta en la tendencia de la mente humana a underestimate
el alcance de comportamiento aleatorio natural. Una manifestación de este es
el fracaso de anticipar acontecimientos extremos, o tan-cisnes “negros
llamados” (ve “Mucho tiempo-Tailed Distribuciones”). Otra manifestación es la
tendencia a misinterpret acontecimientos aleatorios cuando habiendo patrones
de alguna importancia. Testaje de hipótesis estadística estuvo inventado como
manera de proteger investigadores de ser fooled por posibilidad aleatoria.
MISINTERPRETING RANDOMNESS
Puedes observar la tendencia humana a underestimate randomness en este experimento. Preguntar
varios amigos para inventar una serie de 50 dedos de moneda: les tiene escribir abajo una serie de
aleatorio Hs y Ts. Entonces preguntarles a de hecho dedo una moneda 50 tiempo y escribir abajo los
resultados. Les tiene puesto los resultados de dedo de moneda reales en una pila, y el hecho-arriba de
resultados en otro. Es fácil de decir qué resultados son reales: el real unos tendrán carreras más largas
de Hs o Ts. En un conjunto de 50 moneda real dedos, es en absoluto inusual de ver cinco o seis Hs o
Ts en una fila. Aun así, cuándo la mayoría de nosotros está inventando dedos de moneda aleatoria y
nosotros han conseguido tres o cuatro Hs en una fila, prpers decimos aquello, para la serie para mirar
aleatoria, tuvimos cambio mejor a T..
El otro lado de esta moneda, así que para hablar, es que cuándo vemos el reales-equivalente
mundial de seis Hs en una fila (p. ej., cuándo un titular outperforms otro por 10%), estamos inclinar
para atribuirlo a algo real, no posibilidad justa.
En un correctamente diseñó Un/B prueba, recoges dato en tratamientos Un y B

de tal manera que cualquier diferencia observada entre Un y B se tiene que
deber a tampoco:
Posibilidad aleatoria en asignación de
temas Una diferencia cierta entre Un y
B.
Una prueba de hipótesis estadística es análisis más lejano de un Un/B prueba,

o cualquier randomized experimento, para evaluar si la posibilidad aleatoria es
una explicación razonable para la diferencia observada entre grupos Un y B..
El Nul Hipótesis
Pruebas de hipótesis utilizan la lógica siguiente: “Dado la tendencia humana para
reaccionar a inusual pero comportamiento aleatorio e interpretarlo tan algo
significativo y real, en nuestros experimentos requeriremos prueba que la
diferencia entre grupos es más extrema que qué posibilidad puede razonablemente
producto.” Esto implica un baseline suposición que los tratamientos son
equivalentes, y cualquier diferencia entre los grupos se debe a posibilidad. Este
baseline la suposición está denominada el null hipótesis. Nuestra esperanza es
entonces que podemos, de hecho, probar el null injusticia de hipótesis, y
espectáculo que los resultados para grupos Un y B es más diferente que qué
posibilidad podría producir.
Una manera para hacer este es vía un resampling procedimiento de
permutación, en qué nosotros shuffle juntos los resultados de grupos Un y B y
entonces repetidamente trato fuera de el dato en grupos de medidas similares,
entonces observar qué a menudo conseguimos una diferencia como extremos
como la diferencia observada. Ve “Resampling” para más detalle.
Hipótesis alternativa
Pruebas de hipótesis por su naturaleza implican no justo un null hipótesis, pero
también un offsetting hipótesis alternativa. Aquí es algunos ejemplos:
Null = “Ninguna diferencia entre el medio de agrupar Un y grupo
B,” alternativa = “Un es diferente de B” (podría ser más grande o
más pequeño)
Null = “Un B,” alternativa = “B > Un”
Null = “B No es X% más grande que Un,” alternativa = “B es X% más

grande que Un”
Tomado junto, el null y cuenta de mosto de hipótesis alternativa para todas las
posibilidades. La naturaleza de el null la hipótesis determina la estructura de la
prueba de hipótesis.
Uno-Manera, Hipótesis de Dos Maneras Prueba
A menudo, en un Un/B prueba, estás probando una opción nueva (dice B), contra
un establecido default opción (Un) y la presunción es que engancharás con el
default opción a no ser que la opción nueva se prueba definitivamente mejor. En
tal caso, quieres una prueba de hipótesis para proteger tú de ser fooled por
casualidad en la dirección que favorece B. No te preocupas aproximadamente
siendo fooled por casualidad en la otra dirección, porque serías enganchar con
Un a no ser que B prueba definitivamente mejor. Así que quieres una hipótesis
alternativa direccional (B es mejor que Un). En tal caso, utilizas un un-manera
(o un-cola) prueba de hipótesis. Esto significa que resultados de posibilidad
extrema en únicos una dirección de dirección cuenta hacia el p-valor.
Si quieres una prueba de hipótesis para proteger tú de ser fooled por
casualidad en cualquier dirección, la hipótesis alternativa es bidireccional (Un
es diferente de B; podría ser más grande o más pequeño). En tal caso, utilizas
un dos-manera (o dos-cola) hipótesis. Esto significa que resultados de
posibilidad extrema en cualquier cuenta de dirección hacia el p- valor.
Una hipótesis de una colas la prueba a menudo cabe la naturaleza de Un/B la
decisión que hace, en qué una decisión está requerida y una opción es
típicamente asignada “default” estado a no ser que el otro prueba mejor.
Software, aun así, incluyendo R, típicamente proporciona una prueba de dos
colas en su default producción, y muchos estadísticos optan para el más
conservadores prueba de dos colas justo para evitar argumento. Uno-cola versus
dos-la cola es un tema de confundir , y no que pertinente para ciencia de
datos, donde la precisión de p-cálculos de valor no es terriblemente
importantes.
IDEAS CLAVES
Un null la hipótesis es un lógico construye encarnar la idea que nada de particular ha pasado, y
cualquier efecto observas se debe a posibilidad aleatoria.
La prueba de hipótesis supone que el null la hipótesis es cierta, crea un “null modelo” (un modelo
de probabilidad), y pruebas si el efecto observas es un resultado razonable de aquel modelo.
Lectura más lejana
El paseo del Borracho por Leonard Mlodinow (Libros de Vendimia,
2008) es una encuesta legible de las maneras en qué “randomness
gobierna nuestras vidas.”
David Freedman, Robert Pisani, y Roger Purves Estadística de texto de

estadística clásica, 4.º ed. (W. W. Norton, 2007) tiene excelente
nonmathematical tratamientos de la mayoría de temas de estadística,
incluyendo testaje de hipótesis.
Estadística introductoria y Analytics: Un Resampling Perspectiva por

Peter Bruce (Wiley, 2014) desarrolla hipótesis probando los conceptos que
utilizan resampling.
Resampling
Resampling En las estadísticas significa a repetidamente valores de muestra de
dato observado, con un objetivo general de evaluar variabilidad aleatoria en un
statistic. También pueda soler evaluar y mejorar la exactitud de algunos
modelos que aprenden máquina (p. ej., las predicciones de modelos de árbol de
la decisión construyeron en múltiples bootstrapped conjuntos de dato pueden ser
averaged en un proceso sabido como bagging: ve “Bagging y el Bosque
Aleatorio”).
Hay dos tipos principales de resampling procedimientos: el bootstrap y
pruebas de permutación. El bootstrap suele evaluar la fiabilidad de una
estimación; esté hablado en el capítulo anterior (ve “El Bootstrap”). Pruebas
de permutación suelen hipótesis de prueba, típicamente implicando dos o más
grupos, y hablamos aquellos en esta sección.
PLAZOS CLAVES
Prueba de permutación
El procedimiento de combinar dos o más las muestras juntas, y aleatoriamente (o exhaustively)
reallocating las observaciones a resamples.
Synonyms
Prueba de aleatorización, prueba de permutación aleatoria, prueba exacta.
Con o sin sustitución

En muestreo, si o no un elemento está regresado a la muestra antes del sorteo próximo.
En un procedimiento de permutación, dos o más las muestras están implicadas,
típicamente los grupos en un Un/B u otra prueba de hipótesis. Permute Significa
para cambiar el orden de un conjunto de valores. El primer paso en una prueba
de permutación de una hipótesis es para combinar los resultados de grupos Un
y B (y, si utilizados, C, D, …) juntos. Esto es el lógico embodiment de el null
hipótesis que los tratamientos al cual los grupos estuvieron expuestos no difiere .
Entonces probamos aquella hipótesis por aleatoriamente dibujando grupos de este
conjunto combinado, y viendo cuánto difieren de uno otro. El procedimiento de
permutación es como sigue:.
1. Combinar los resultados de los grupos diferentes en un conjunto de
dato solo.
2. Shuffle El dato combinado, entonces aleatoriamente sorteo (sin

reemplazar) un resample de la misma medida cuando agrupa Un.
3. De el dato restante, aleatoriamente sorteo (sin reemplazar) un resample

de la misma medida cuando grupo B.
4. Hacer igual para grupos C, D, y tan encima.
5. Cualquier statistic o la estimación estuvo calculada para las

muestras originales (p. ej., diferencia en proporciones de grupo),
calcularlo ahora para el resamples, y récord; esto constituye una
iteración de permutación.
6. Repetir los pasos anteriores R tiempo para ceder una distribución de

permutación de la prueba statistic.
Ahora volver a la diferencia observada entre grupos y compararlo a el

conjunto de permuted diferencias. Si las mentiras de diferencia observadas bien
dentro del conjunto de permuted diferencias, entonces no hemos probado
cualquier cosa — la diferencia observada es dentro de la gama de qué
posibilidad podría producir. Aun así, si las mentiras de diferencia observadas
exteriores la mayoría de la distribución de permutación, entonces concluimos
que la posibilidad no es responsable. En plazos técnicos, la diferencia es
statistically significativo. (Ve “Importancia Estadística y P-Valores” .)
Ejemplo: Web Stickiness
Una compañía que vende un relativamente alto-servicio de valor quiere probar
cuál de dos presentaciones de web hace un mejor vendiendo trabajo. Debido a
el valor alto de el ser de servicio vendió, las ventas son infrecuentes y el ciclo
de ventas es largo; tome demasiado mucho tiempo para acumular bastantes
ventas para saber qué presentación es superior. Así que la compañía decide
medir los resultados con un proxy variable, utilizando la página de interior
detallada que describe el servicio.
CONSEJO
Un proxy la variable es una aquellas posiciones en para la variable cierta de interés, los cuales
pueden ser inutilizables, demasiado costosos, o demasiado que consumen tiempo para medir. En
búsqueda de clima, por ejemplo, el contenido de oxígeno de núcleos de hielo antiguo está
utilizado como proxy para temperatura. Es útil de tener al menos algún dato en la variable
cierta de interés, así que la fuerza de su asociación con el proxy puede ser evaluado.
Uno potencial proxy la variable para nuestra compañía es el número de clics en la

página de aterrizaje detallada. Un mejor uno es cuánto tiempo personas gastar en
la página. Es razonable de creer que una presentación de web (página) que la
atención de personas de controles más largo dirigirá a más ventas. De ahí,
nuestro métrico es tiempo de sesión mediana, comparando página Un a página B.
Debido a que esto es un interior , página de propósito especial, no recibe un
número enorme de visitantes. También notar aquel Google Analytics, el cual es
cómo nosotros mide tiempo de sesión, no puede medir tiempo de sesión para
la última sesión unas visitas de persona. En vez de eliminar que sesión de el
dato, aun así, GA graba él como cero, así que el dato requiere procesamiento
adicional para sacar aquellas sesiones. El resultado es un total de 36 sesiones
para las dos presentaciones diferentes, 21 para página Un y 15 para página B.
Utilizando ggplot, podemos visually comparar la sesión cronometra utilizar
lado-por-lado boxplots:
ggplot(Tiempo_de sesión, aes(x=Página,

y=Tiempo)) + geom_boxplot()
El boxplot, mostrado en Figura 3-3, indica que página B dirige a sesiones más
largas que página Un. El medio para cada grupo puede ser computado como
sigue:.
Malo_un <- malo(tiempo_de sesión[tiempo_de sesión['Página']=='Página
Un', 'Tiempo']) significa_b <- malo(tiempo_de sesión[tiempo_de
sesión['Página']=='Página B', 'Tiempo']) significa_b - malo_un
[1] 21.4
Página B tiene la sesión cronometra más grande, en mediano, por 21.4 segundos
versus página Un. La cuestión es si esta diferencia es dentro de la gama de qué
posibilidad aleatoria podría producir, o, alternativamente, es statistically
significativo. Una manera para contestar esto es para aplicar una prueba de
permutación — combina toda la sesión cronometra junta, entonces
repetidamente shuffle y dividirles a grupos de 21 (recuerda que n = 21 para
página
A) Y 15 (n = 15 para B).
Para aplicar una prueba de permutación, necesitamos una función a aleatoriamente
asignar el 36 tiempo de sesión a un grupo de 21 (página Un) y un grupo de 15
(página B):
perm_Divertido <- función(x, n1, n2)

{
n <- n1 + n2
idx_b <- Muestra(1:n, n1)
idx_un <- setdiff(1:n,
idx_b)
Malo_diff <- malo(x[idx_b]) -
malo(x[idx_un]) regreso(malo_diff)
}
Figura 3-3. Tiempo de sesión para páginas web Un y B
Estos trabajos de función por muestreo sin sustitución n2 índices y asignándoles

a el B grupo; el restante n1 índices están asignados para agrupar Un. La
diferencia entre el dos medio está regresada. Llamando esta función R = 1,000
tiempo y especificando n2 = 15 y n1 = 21 ventajas a una distribución de las
diferencias en la sesión cronometra que puede ser plotted como histograma.
perm_diffs <- rep(0, 1000)

para(i en 1:1000)
perm_diffs[i] = perm_Diversión(tiempo_de sesión[,'Tiempo'], 21, 15)
hist(perm_diffs, xlab= ession diferencias de tiempo (en
segundos)') abline(v = malos_b - malos_un)
El histograma, mostrado en Figura 3-4 espectáculos que diferencia mala de las

permutaciones aleatorias a menudo supera la diferencia observada en tiempo de
sesión (la línea vertical). Esto sugiere que el oberved diferencia en tiempo de
sesión entre página Un y página B es bien dentro de la gama de variación de
posibilidad, así no es statistically significativo.
Figura 3-4. Distribución de frecuencia para diferencias de tiempo de la sesión entre páginas Un y
B
Exhaustivo y Bootstrap Prueba de Permutación
Además de el precediendo aleatorio shuffling procedimiento, también llamó
una prueba de permutación aleatoria o una prueba de aleatorización, hay
dos variantes de la prueba de permutación:
Una prueba de permutación exhaustiva
Un bootstrap prueba de permutación
En una prueba de permutación exhaustiva, en vez de justo aleatoriamente

shuffling y dividiendo el dato, de hecho representamos fuera todas las maneras
posibles pueda ser dividido. Esto es práctico sólo para relativamente medidas
de muestra pequeña. Con un número grande de repetido shufflings, los resultados
de prueba de permutación aleatorios aproximan aquellos de la prueba de
permutación exhaustiva, y acercárseles en el límite. Pruebas de permutación
exhaustiva son también a veces pruebas exactas llamadas, debido a su
propiedad estadística de garantizar que el null el modelo no probará tan
“significativo” más de el nivel de alfa de la prueba (ve “Importancia
Estadística y P-Valores” ).
En un bootstrap prueba de permutación, los sorteos perfilaron en pasos 2 y 3 de
la prueba de permutación aleatoria está hecha con sustitución en vez de sin
sustitución. De este modo el resampling modelos de procedimiento no justo el
elemento aleatorio en la asignación de tratamiento para someter, pero también
el elemento aleatorio en la selección de temas de una población. Ambos
procedimientos están encontrados en estadísticas, y la distinción entre ellos es
un poco convoluted y no de consecuencia en la práctica de ciencia de datos.
Pruebas de permutación: La Línea Inferior para Ciencia de Datos
Pruebas de permutación son procedimientos heurísticos útiles para explorar la
función de variación aleatoria. Son relativamente fáciles a código, interpreta y
explicar, y ofrecen un desvío útil alrededor de el formalismo y “determinismo
falso” de fórmula-estadística basada.
Una virtud de resampling, en contraste a aproximaciones de fórmula, es que
viene mucho más cercano a una “una medida cabe todos” se acercan a
inferencia. El dato puede ser numérico o binario. Medidas de muestra pueden
ser igual o diferentes. Suposiciones aproximadamente dato normalmente
distribuido no es necesitado.
IDEAS CLAVES
En una prueba de permutación, las muestras múltiples están combinadas, entonces shuffled.
El shuffled los valores son entonces divididos a resamples, y el statistic del interés está
calculado. Este proceso es entonces repetido, y el resampled statistic está tabulado.
Comparando el valor observado del statistic a el resampled la distribución te dejas para juzgar si
una diferencia observada entre muestras podría ocurrir por casualidad..
Para Lectura más Lejana
Pruebas de aleatorización, 4.º ed., por Eugene Edgington y Patrick Onghena
(Chapman Sala, 2007), pero no consigue demasiado dibujado a el matorral
de nonrandom muestreo.
Estadística introductoria y Analytics: Un Resampling Perspectiva por Peter

Bruce (Wiley, 2015).
Importancia estadística y P-Valores
La importancia estadística es qué medida de estadísticos si un experimento (o
incluso un estudio de existir dato) cede un resultado más extremo que qué
posibilidad podría producir. Si el resultado es allende el reino de variación de
posibilidad, está dicho para ser statistically significativo.
PLAZOS CLAVES
P-Valor
Dado un modelo de posibilidad que encarna el null hipótesis, el p-el valor es la probabilidad de
obtener resultados como inusuales o extremo como el observó resultados.
Alfa
El umbral de probabilidad de “unusualness” que resultados de posibilidad tienen que superar,
para resultados reales para ser considerados statistically significativos.
Tipo 1 error
Mistakenly Concluyendo un efecto es real (cuándo se debe a posibilidad).
Tipo 2 error
Mistakenly Concluyendo un efecto se debe a posibilidad (cuándo es real).
Considera en Mesa 3-2 los resultados de la prueba de web mostrada más

temprano.
Mesa 3-2. 2×2 mesa

para ecommerce
resultados de
experimento
El resultado Tasa Un Precio B
Conversión 200 182
Ninguna conversión 23539

22406
Precio Un convierte casi 5% mejor que precio B (0.8425% versus 0.8057% — una
diferencia de 0.0368 puntos de porcentaje), bastante grandes para ser
significativos en un negocio de volumen alto. Hemos encima 45,000 puntos de
dato aquí, y está tentando para considerar esto como “dato grande,” no
requiriendo pruebas de importancia estadística (necesitado principalmente a
cuenta para variabilidad de muestreo en muestras pequeñas). Aun así, el
Índices de conversión son tan abajo (menos de 1%) que los valores
significativos reales — las conversiones — son sólo en el 100s, y la medida de
muestra necesitó es realmente determinado por estas conversiones. Podemos
probar si la diferencia en conversiones entre precios Un y B es dentro de la
gama de variación de posibilidad, utilizando un resampling procedimiento. Por
“variación de posibilidad,” significamos la variación aleatoria producida por un
modelo de probabilidad que encarna el null hipótesis que no hay ninguna
diferencia entre los índices (ve “El Null Hipótesis”). El procedimiento de
permutación siguiente pregunta “si los dos precios comparten el mismo índice
de conversión, podría variación de posibilidad produce una diferencia como
grande cuando 5%?”
1. Crear una urna con todos resultados de muestra: esto representa el
índice de conversión compartido supuesto de 382 unos y 45,945 ceros
= 0.008246 = 0.8246%.
2. Shuffle Y sorteo fuera de un resample de medida 23,739 (mismo n

cuando tasa Un), y grabar cuántos 1s.
3. Récord el número de 1s en el restante 22,588 (mismo n cuando precio

B).
4. Récord la diferencia en proporción 1s.
5. Repite pasos 2–4.
6. Qué a menudo era la diferencia >= 0.0368?
Reusing La función perm_la diversión definida en “Ejemplo: Web Stickiness”,

podemos crear un histograma de aleatoriamente permuted diferencias en índice
de conversión:
obs_pct_diff <- 100*(200/23739 - 182/22588)

conversión <- c(rep(0, 45945), rep(1, 382))
perm_diffs <- rep(0, 1000)
Para(i en 1:1000)
perm_diffs[i] = 100*perm_diversión(conversión, 23739, 22588
) hist(perm_diffs, xlab= ession diferencias de tiempo (en
segundos)') abline(v = obs_pct_diff)
Ver el histograma de 1,000 resampled resultados en Figura 3-5: cuando pasa, en

este caso la diferencia observada de 0.0368% es bien dentro de la gama de
variación de posibilidad.
Figura 3-5. Distribución de frecuencia para la diferencia en índices de conversión entre páginas Un y
B
P-Valor
Sencillamente mirando en el graph no es una manera muy precisa para medir
importancia estadística, tan de más el interés es el p-valor. Esto es la frecuencia
con qué el modelo de posibilidad produce un resultado más extremo que el
resultado observado. Podemos estimar un p-valor de nuestra prueba de
permutación por tomar la proporción de tiempo que la prueba de permutación
produce una diferencia igual a o más grande que la diferencia observada:
Malo(perm_diffs > obs_pct_diff)

[1] 0.308
El p-el valor es 0.308, el cual significa que esperaríamos conseguir el

mismo resultado por posibilidad aleatoria encima 30% de el tiempo.
En este caso, no necesitamos para utilizar una prueba de permutación para
conseguir un p-valor. Desde entonces tenemos una distribución binomial,
podemos aproximar el p-valora utilizar la distribución normal. En R código,
nosotros este utilizando la función prop.Prueba :
> prop.Prueba(x=c(200,182), n=c(23739,22588), alternativo="más grande")
Prueba de 2 muestras para igualdad de proporciones con dato de
corrección de la continuidad: c(200, 182) fuera de c (23739, 22588)

X-cuadró = 0.14893, df = 1, p-valor = 0.3498
hipótesis alternativa: más grande
95 confianza de porcentaje intervalo:
-0.001057439 1.000000000
Estimaciones de muestra:
prop 1 prop 2
0.008424955 0.008057376
El argumento x es el número de éxitos para cada grupo y el argumento n es el

número de pruebas. La aproximación normal cede un p-valor de 0.3498, el cual
es cercano al p-valorar obtenido de la prueba de permutación.
Alfa
Los estadísticos arrugan la frente en la práctica de dejarlo a la discreción para
determinar del investigador si un resultado es “demasiado inusual” de pasar por
casualidad. Bastante, un umbral está especificado por adelantado, cuando en
“más extremo que 5% de la posibilidad (null hipótesis) resultados”; este umbral
es sabido cuando alfa. Niveles de alfa típica son 5% y 1%. Cualquier nivel
escogido es una decisión arbitraria — hay nada sobre el proceso que
garantizará decisiones correctas x% de el tiempo. Esto es porque la cuestión
de probabilidad que es contestado no es “qué es la probabilidad que esto pasó
por casualidad?” Sino “dado un modelo de posibilidad, qué es la probabilidad
de un resultado este extremo?” Entonces deducimos backward sobre el
appropriateness de el modelo de posibilidad, pero que el juicio no lleva una
probabilidad. Este punto ha sido el tema de mucha confusión.
Valor del p-valor

La controversia considerable ha rodeado el uso de el p-valor en años recientes.
Una revista de psicología ha ido tan lejos tan para “prohibir” el uso de p-valores
en entregó papeles en las tierras que decisiones de publicación basaron sólo en
el p- el valor resultaba en la publicación de búsqueda pobre. Demasiados
investigadores, sólo dimly conscientes de qué un p-valorar realmente medio,
raíz alrededor en el dato y entre hipótesis posibles diferentes para probar, hasta
que encuentran una combinación que cosechas un significativos p-valor y, de
ahí, un papel propio para publicación.
El problema real es que las personas quieren más significando de el p-el valor que
él contiene. Aquí es qué nos gustaría el p-valorar para transportar:
La probabilidad que el resultado se debe a posibilidad.
Esperamos para un valor bajo, así que podemos concluir que hemos probado
algo. Esto es cuántos editores de revista interpretaba el p-valor. Pero aquí es lo
que el p- valorar de hecho representa:
La probabilidad que, dado un modelo de posibilidad, resultados como
extremos como el observó los resultados podrían ocurrir.
La diferencia es sutil, pero real. Un significativo p-el valor no te lleva bastante
tan lejos a lo largo de la carretera a “prueba” cuando parece para prometer. La
fundación lógica para la conclusión “statistically significativo” es un poco más
débil cuándo el significado real
Del p-el valor está entendido.
En Marcha 2016, la Asociación Estadística americana, después de que mucha
deliberación interna, reveló la extensión de entender mal sobre p-valores cuándo
emita un cautionary declaración con respecto a su uso.
El ASA declaración acentuado seis principios para investigadores y editores de
revista:
1. P-Los valores pueden indicar qué incompatibles el dato es con un
modelo estadístico especificado.
2. P-Los valores no miden la probabilidad que la hipótesis estudiada es

cierta, o la probabilidad que el dato estuvo producido por
posibilidad aleatoria sólo.
3. Conclusiones científicas y empresariales o decisiones de política

no tendrían que ser basadas sólo encima si un p-el valor pasa un
umbral concreto.
4. La inferencia apropiada requiere llena informando y transparencia..
5. Un p-valor, o importancia estadística, no mide la medida de un

efecto o la importancia de un resultado.
6. Por él, un p-el valor no proporciona una medida buena de

evidencia con respecto a un modelo o hipótesis..
Tipo 1 y Tipo 2 Errores
En evaluar importancia estadística, dos tipos de error son posibles:
Tipo 1 error, en qué tú mistakenly concluir un efecto es real, cuándo es
realmente justo debido a posibilidad.
Tipo 2 error, en qué tú mistakenly concluir que un efecto no es real (i.e.,

debido a posibilidad), cuándo realmente es real
De hecho, un Tipo 2 error no es tanto un error como juicio que la medida de

muestra es demasiado pequeña de detectar el efecto. Cuándo un p-el valor cae
corto de importancia estadística (p. ej., supera 5%), qué somos realmente el
refrán es “efectúa no probado.” Pueda ser que una muestra más grande cedería
un más pequeño p-valor.
La función básica de pruebas de importancia (hipótesis llamada también
pruebas) es para proteger en contra siendo fooled por posibilidad aleatoria; por
ello son típicamente estructurados para minimizar Tipo 1 errores.
Ciencia de dato y P-Valores
El trabajo que científicos de dato hacen es típicamente no destinado para
publicación en revistas científicas, así que el debate sobre el valor de un p-el
valor es un poco académico. Para un científico de dato, un p-el valor es un útil
métrico en situaciones donde quieres saber si un modelo resulta aquello aparece
interesar y útil es dentro de la gama de variabilidad de posibilidad normal.
Como herramienta de decisión en un experimento, un p- el valor no tendría que
ser considerado controlando, pero meramente otro punto de la información que
aguanta en una decisión. Por ejemplo, p-los valores son a veces utilizados
como entradas intermedias en algún estadísticos o la máquina que aprende
modelos — una noche de característica ser incluido en o excluido de un modelo
que depende de su p-valor.
IDEAS CLAVES
Pruebas de importancia suelen determinar si un efecto observado es dentro de la gama de
variación de posibilidad para un null modelo de hipótesis.
El p-el valor es la probabilidad que resultados como extremos como el observó los resultados
podrían ocurrir, dados un null modelo de hipótesis.
El valor de alfa es el umbral de “unusualness” en un null modelo de posibilidad de la hipótesis.
Testaje de importancia ha sido mucho más pertinente para formal informando de búsqueda que
para ciencia de datos (pero ha sido apagándose recientemente, incluso para el anterior).
Lectura más lejana
Stephen Stigler, “Fisher y el 5% Nivel,” Chance vol. 21, núm. 4 (2008):
12. Este artículo es comentario a escaso encima Ronald Fisher 1925 libro
Métodos Estadísticos para Trabajadores de Búsqueda, y su énfasis en el
5% nivel de importancia..
Ve también “Pruebas de Hipótesis” y la lectura más lejana mencionaron

allí.
t-Pruebas
Hay tipos numerosos de pruebas de importancia, dependiendo de si el dato
comprende dato de cuenta o dato medido, cuántos las muestras allí son, y qué
está siendo midió. Un muy común uno es el t-prueba, nombrado después de
Estudiantil t- distribución, originalmente desarrollado por W. S. Gossett Para
aproximar la distribución de una muestra sola mala (ve “Estudiantil t-
Distribución”).
PLAZOS CLAVES
Prueba statistic
Un métrico para la diferencia o efecto de interés.
t-statistic
Una versión estandarizada de la prueba statistic.
t-Distribución
Una distribución de referencia (en este caso derivado de el null hipótesis), al cual el observado t-
statistic puede ser comparado.
Todas pruebas de importancia requieren que especificas una prueba statistic para
medir el efecto estás interesado en, y ayuda determinas si aquello mentiras de
efecto observado dentro de la gama de variación de posibilidad normal. En un
resampling prueba (ve la discusión de permutación en “Prueba de
Permutación”), la escala de el dato no importa . Creas la referencia (null
hipótesis) distribución de el dato él, y utilizar la prueba statistic cuando es.
En el 1920s y 30s, cuándo testaje de hipótesis estadística era desarrollado, no
sea factible a aleatoriamente shuffle miles de dato de tiempo para hacer un
resampling prueba. Los estadísticos encontraron que una aproximación buena a
la permutación (shuffled) la distribución era el t-prueba, basado en Gossett t-
distribución. Está utilizado para el muy común comparación de dos muestras
— Un/B la prueba — en qué el dato es numérica. Pero en orden para el t-
distribución para ser utilizada sin considerar a escala, una forma estandarizada
de la prueba statistic tiene que ser utilizado.
Un texto de estadística clásico al llegar a este punto muestra varias fórmulas
que incorpora Gossett distribución y demostrar cómo para estandarizar vuestro
dato para compararlo a el estándar t-distribución. Estas fórmulas no son
mostradas aquí porque todo
Software estadístico, así como R y Pitón, incluye manda aquello encarna la
fórmula. En R, la función es t.Prueba:
> t.Prueba(Página ~ de Tiempo, tiempo=de sesión_del dato, alternativa='menos' )
Welch Dos Muestra t-dato
de prueba: Tiempo por Página

t = -1.0983, df = 27.693, p-valor = 0.1408
Hipótesis alternativa: la diferencia cierta en medios es menos de 0.
95 confianza de porcentaje intervalo:
-Inf 19.59674
Estimaciones de muestra:
Malo en Página de grupo Un malo en Página
de grupo B 126.3333 162.0000
La hipótesis alternativa es que los tiempos de sesión significan para página Un es

menos de para página B. Esto es bastante cercano a la prueba de permutación
p-valor de 0.124 (ve “Ejemplo: Web Stickiness”).
En un resampling modo, estructuramos la solución para reflejar el dato
observado y la hipótesis para ser probada, no preocupándose aproximadamente si
el dato es numérico o binario, medidas de muestra están equilibradas o no,
varianzas de muestra, o una variedad de otros factores. En el mundo de fórmula,
muchas variaciones se presentan, y pueden ser bewildering. Necesidad de
estadísticos a navigate que mundial y aprender su mapa, pero científicos de dato
no — son típicamente no en el negocio de sudar los detalles de pruebas de
hipótesis e intervalos de confianza la manera un investigador que prepara un
papel para presentación puede.
IDEAS CLAVES
Antes del advenimiento de ordenadores, resampling las pruebas no fueron prácticas y los
estadísticos utilizaron distribuciones de referencia estándar.
Una prueba statistic entonces podría ser estandarizado y comparado a la distribución
de referencia. Uno tal ampliamente utilizó estandarizado statistic es el t-statistic.

Lectura más lejana
Cualquier texto de estadística introductorio tendrá ilustraciones de el t-
statistic y sus usos; dos bueno unos son Estadística , 4.º ed., por David
Freedman, Robert Pisani, y Roger Purves (W. W. Norton, 2007) y La
Práctica Básica de Estadísticas por David S. Moore (Palgrave Macmillan,
2010).
Para un tratamiento de ambos el t-prueba y resampling procedimientos en

paralelo, ve Estadística Introductoria y Analytics: Un Resampling
Perspectiva por Peter Bruce (Wiley, 2014) o Estadística por Robin
Cerradura y cuatro otra Cerradura miembros familiares (Wiley, 2012).
Testaje múltiple
Cuando hemos mencionado anteriormente, hay un refrán en estadísticas:
“tortura el dato mucho tiempo bastante, y confiese .” Esto significa que si
miras en el dato a través de bastantes perspectivas diferentes, y preguntar
bastantes cuestiones, puedes casi invariablemente encontrar un statistically
efecto significativo.
PLAZOS CLAVES
Tipo 1 error
Mistakenly Concluyendo que un efecto es statistically significativo.
Índice de descubrimiento falso

A través de pruebas múltiples, el índice de hacer un Tipo 1 error.
Ajustamiento de p-valores
Contabilidad para hacer pruebas múltiples en el mismo dato.
Overfitting
Cabiendo el ruido.
Por ejemplo, si tienes 20 predictor variables y una variable de resultado, todo

aleatoriamente generado, el odds es bastante bien que al menos uno predictor
(falsamente) resulta para ser statistically significativo si tú una serie de 20
pruebas de importancia en la alfa = 0.05 nivel. Tan anteriormente hablado, esto
se apellida un Tipo 1 error. Puedes calcular esta probabilidad por primer
hallazgo la probabilidad que todo correctamente probará nonsignificant en el
0.05 nivel. La probabilidad que uno correctamente prueba nonsignificant es
0.95, así que la probabilidad que todo 20 correctamente prueba nonsignificant
es 0.95 × 0.95 × 0.95 … o 0.95 20 = 0.36.1 La probabilidad que al menos uno
predictor (falsamente) prueba significativo es el lado de dedo de esta
probabilidad, o 1 – (probabilidad que todo será nonsignificant) = 0.64.
Este asunto está relacionado a el problema de overfitting en los datos mineros,
o “cabiendo el modelo a el ruido.” El más variables añades, o el más modelos
corres, el más grande la probabilidad que algo emergerá tan “significativo” justo
por casualidad..
En supervisó aprender tareas, un holdout conjunto donde los modelos están
evaluados en datos que el modelo no ha visto antes de que mitiga este riesgo. En
estadístico y la máquina que aprende tareas no implicando un labeled holdout
conjunto, el riesgo de lograr conclusiones
Basado en el ruido estadístico persiste.
En estadísticas, hay algunos procedimientos pretendió tratar este problema en
circunstancias muy concretas. Por ejemplo, si estás comparando los resultados a
través de tratamiento múltiple te agrupas podría preguntar cuestiones múltiples.
Tan, para tratamientos Un–C, podrías preguntar:
Es Un diferente de
B? Es B diferente de
C? Es Un diferente
de C?.
O, en una prueba clínica, podrías querer mirada en resultados de una terapia en

etapas múltiples. En cada caso, estás preguntando cuestiones múltiples, y con
cada cuestión, estás aumentando la posibilidad de ser fooled por casualidad.
Procedimientos de ajustamiento en estadísticas pueden compensar para este por
poner la barra para importancia estadística más stringently que sea puesto para
una prueba de hipótesis sola. Estos procedimientos de ajustamiento típicamente
implican “dividir arriba de la alfa” según el número de pruebas. Estos resultados
en una alfa más pequeña (i.e., un más stringent barra para importancia
estadística) para cada prueba. Uno tal procedimiento, el Bonferroni ajustamiento,
sencillamente divide la alfa por el número de observaciones n.
Aun así, el problema de comparaciones múltiples va allende estos altamente
estructuró casos y está relacionado a el fenómeno de dato repetido “dredging”
aquello da aumento a el refrán sobre torturador el dato. Puesto otra manera, dado
suficientemente dato complejo, si has no fundar algo interesante, sencillamente
no has mirado mucho tiempo y bastante duro. Más dato es disponible ahora que
nunca antes, y el número de artículos de revista publicó casi plegado entre
2002 y 2010. Esto da aumento a muchas oportunidades de encontrar algo
interesando en el dato, incluyendo asuntos de multiplicidad como:.
Comprobando para múltiple pairwise diferencias a través de grupos
Mirando en resultados de subgrupo múltiple (“ encontramos no efecto de

tratamiento significativo en general, pero encontramos un efecto para
unmarried las mujeres más jóvenes que 30”)
Probando muchos modelos estadísticos

Incluyendo muchas variables en modelos
Preguntando un número de cuestiones diferentes (i.e., resultados posibles

diferentes)
ÍNDICE de DESCUBRIMIENTO FALSO
El plazo índice de descubrimiento falso era originalmente utilizado para describir el índice en
qué un conjunto dado de pruebas de hipótesis falsamente identificarían un efecto significativo.
Devenga particularmente útil con el advenimiento de búsqueda genómica, en qué números
masivos de pruebas estadísticas podrían ser conducidos tan parte de un gen sequencing
proyecto. En estos casos, el plazo aplica al protocolo de testaje, y un descubrimiento falso “solo”
refiere a el resultado de una prueba de hipótesis (p. ej., entre dos muestras). Los
investigadores buscaron para poner los parámetros del proceso de testaje para controlar el
índice de descubrimiento falso en un nivel especificado. El plazo también ha sido utilizado en el
dato comunidad minera en un contexto de clasificación, en qué un descubrimiento falso es un
mislabeling de un registro solo — en particular el mislabeling de 0s cuando 1s (ve Capítulo 5 y
“El Problema de Clase Raro”).
Para una variedad de razones, incluyendo especialmente este asunto general de

“multiplicidad,” más la búsqueda no necesariamente significa búsqueda mejor.
Por ejemplo, la compañía farmacéutica Bayer encontrado en 2011 que cuándo
pruebe a replicate 67 estudios científicos, pueda plenamente replicate sólo 14 de
ellos. Casi dos-los tercios no podrían ser replicated en absoluto..
De todas formas, los procedimientos de ajustamiento para altamente definidos y las
pruebas estadísticas estructuradas son demasiado concretas e inflexible para ser
de uso general a científicos de dato. La línea inferior para científicos de datos
encima la multiplicidad es:
Para modeling predictivo, el riesgo de conseguir un illusory modelo cuya
eficacia aparente es en gran parte un producto de la posibilidad aleatoria
está mitigada por cruz- validación (ve “Cross-Validación”), y uso de un
holdout muestra.
Para otros procedimientos sin un labeled holdout puestos para comprobar el

modelo, tienes que confiar encima:
Concienciación que el más te consulta y manipular el dato, el más grande la
función que la posibilidad podría jugar; y
Resampling Y simulacro heuristics para proporcionar

posibilidad aleatoria benchmarks contra qué observó los
resultados pueden ser comparados.
IDEAS CLAVES
Multiplicidad en un estudio de búsqueda o dato proyecto minero (comparaciones múltiples, muchas
variables, muchos modelos, etc.) aumenta el riesgo de concluir que algo es significativo justo por
casualidad..
Para las situaciones que implican comparaciones estadísticas múltiples (i.e., pruebas múltiples de
importancia) hay
Procedimientos de ajustamiento estadístico.
En un dato situación minera, uso de un holdout muestra con labeled variables de resultado pueden
ayudar evitar misleading resultados.
Lectura más lejana
1. Para a escaso exposition de un procedimiento (Dunnett es) para ajustar
para comparaciones múltiples, ve el texto de estadística on-line de
David Lane.
2. Megan Goldman ofrece un tratamiento ligeramente más largo de

el Bonferroni procedimiento de ajustamiento.
3. Para un en-tratamiento de profundidad de más flexible procedimientos

estadísticos para ajustar p-valores, ve Resampling-Testaje Múltiple
Basado por Peter Westfall y Stanley Young (Wiley, 1993).
4. Para una discusión de datos partitioning y el uso de holdout

muestras en modeling predictivo, ve el dato Minero para
Empresarial Analytics, Capítulo 2, por Galit Shmueli, Peter Bruce, y
Nitin Patel (Wiley, 2016).
Grados de Libertad
En la documentación y encuadres a muchos pruebas estadísticas, verás
referencia a “grados de libertad.” El concepto está aplicado a la estadística
calculada de dato de muestra, y refiere a el número de valores libres de variar.
Por ejemplo, si sabes el malo para una muestra de 10 valores, y también
sabes 9 de los valores, también sabes el 10.º valor. Sólo 9 es libre de variar..
PLAZOS CLAVES
n O medida de muestra
El número de observaciones (también llamó filas o registros ) en el dato.
d.f.
Grados de libertad.
El número de los grados de libertad es una entrada a muchos pruebas

estadísticas. Por ejemplo, los grados de libertad es el nombre dados a el n – 1
denominador visto en los cálculos para varianza y desviación estándar. Por qué
importe? Cuándo utilizas una muestra para estimar la varianza para una
población, acabarás con una estimación que es ligeramente predispuesto
abajo si utilizas n en el denominador. Si utilizas n – 1 en el denominador, la
estimación será libre de aquel sesgo.
Una participación grande de un curso de estadística tradicional o el texto está
consumido por varias pruebas estándares de hipótesis (t-prueba, F-prueba, etc.).
Cuándo estadística de muestra está estandarizada para uso en fórmulas
estadísticas tradicionales, los grados de libertad es parte del cálculo de
estandarización para asegurar que vuestro dato estandarizado empareja la
distribución de referencia apropiada (t-distribución, F-distribución, etc.).
Es importante para ciencia de datos? No realmente, al menos en el contexto de
testaje de importancia. Para una cosa, las pruebas estadísticas formales están
utilizadas sólo sobriamente en ciencia de datos. Para otro, la medida de dato es
normalmente bastante grande que lo raramente hace una diferencia real para
un científico de dato si, por ejemplo, el denominador ha n o n – 1.
Hay un contexto, aun así, en qué es pertinente: el uso de factored variables en
regresión (incluyendo logistic regresión). Algoritmos de regresión choke si
exactamente redundandos predictor las variables son presentes. Esto más
generalmente ocurre
Cuándo factoring variables categóricas a indicadores binarios (dummies).
Considera día de semana. A pesar de que hay siete días de la semana, hay sólo
seis grados de libertad en especificar día de semana. Por ejemplo, una vez sabes
que día de la semana no es lunes a través de sábado, lo sabes tiene que ser
domingo. Inclusión de el Mon–Sentó los indicadores así significa que también
incluyendo el domingo causaría la regresión para fallar, debido a un
multicollinearity error.
IDEAS CLAVES
El número de grados de libertad (d.f.) Forma parte del cálculo para estandarizar estadística de
prueba así que pueden ser comparados a distribuciones de referencia (t-distribución, F-
distribución, etc.).
El concepto de grados de mentiras de libertad detrás del factoring de variables categóricas a n

– 1 indicador o dummy variables cuándo haciendo una regresión (para evitar
multicollinearity).
Lectura más lejana
Hay varias web tutorials en grados de libertad.
ANOVA
Supone que, en vez de un Un/B prueba, tuvimos una comparación de grupos
múltiples, decir Un-B-C-D, cada cual con dato numérico. El procedimiento
estadístico que pruebas para un statistically la diferencia significativa entre los
grupos se apellida análisis de varianza , o ANOVA .
PLAZOS CLAVES PARA ANOVA
Pairwise Comparación
Una prueba de hipótesis (p. ej., de medios) entre dos grupos entre grupos múltiples.
Omnibus Prueba
Una prueba de hipótesis sola de la varianza global entre grupo múltiple significa.
Descomposición de varianza
Separación de componentes. Contribuyendo a un valor individual (p. ej., de la media global, de
un tratamiento malo, y de un error residual).
F-statistic
Un estandarizado statistic aquello mide la extensión a qué diferencias entre grupo
significa supera qué podría ser esperado en un modelo de posibilidad.
SS
“Suma de plazas,” refiriendo a desviaciones de algún valor mediano.
Mesa 3-3 espectáculos el stickiness de cuatro páginas web, en los números de

segundos gastaron en la página. Las cuatro páginas son aleatoriamente
cambiadas fuera de modo que cada visitante de web recibe uno al azar. Hay
un total de cinco visitantes para cada página, y, en Mesa 3-3, cada columna es
un conjunto independiente de datos. El primer espectador para página 1 tiene
ninguna conexión a el primer espectador para página 2. Nota que en una
prueba de web así, podemos no plenamente implementar el clásico randomized
diseño de muestreo en qué cada visitante está seleccionado al azar de alguna
población enorme. Tenemos que tomar los visitantes cuando vienen. Los
visitantes sistemáticamente pueden diferir dependiendo de tiempo de día, tiempo
de semana, estación de el año, condiciones de su internet, qué dispositivo
están utilizando, y tan encima. Estos factores tendrían que ser considerados
como sesgo potencial cuándo los resultados de experimento están revisados.
Mesa 3-3. Stickiness (En segundos)

para cuatro páginas web
Página Página Página Página
1 2 3 4
164 178 175 155
172 191 193 166
177 182 171 164
156 185 163 170
195 177 176 168
Mediano 172 185 176 162
Media 173.75
magnífica
Ahora, tenemos un conundrum (ve Figura 3-6). Cuándo comparábamos justo

dos grupos, sea un asunto sencillo ; nosotros meramente mirados en la
diferencia entre el medio de cada grupo. Con cuatro medio, hay seis
comparaciones posibles entre grupos:
Página 1 comparado a página 2

Figura 3-6. Boxplots De los cuatro grupos muestran diferencias considerables entre ellos
El más tal pairwise comparaciones hacemos, el más grandes el potencial para ser
fooled por posibilidad aleatoria (ve “Testaje Múltiple”). En vez de preocuparse
aproximadamente todas las comparaciones diferentes entre páginas individuales
podríamos posiblemente marca, podemos hacer un solos globales omnibus
prueba que direcciones la cuestión, “Podría todo las páginas tienen el mismo
subyacentes stickiness, y las diferencias entre ellos se deberse la manera
aleatoria en qué un conjunto común de tiempo de sesión consiguió destinado
entre las cuatro páginas?”
El procedimiento utilizó para probar esto es ANOVA. La base para él puede ser
vista en el siguiente resampling procedimiento (especificado aquí para el Un-B-
C-D prueba de página web stickiness):
1. Combinar todo el dato junto en una caja sola
2. Shuffle Y sorteo fuera cuatro resamples de cinco valora cada cual
3. Récord el malo de cada de los cuatro grupos
4. Récord la varianza entre el cuatro grupo significa
5. Repite pasos 2–4 muchas veces (dice 1,000)
Qué proporción de el tiempo el resampled la varianza supera la varianza

observada? Esto es el p-valor.
Este tipo de prueba de permutación es un poco más implicado que el tipo
utilizado en “Prueba de Permutación”. Afortunadamente, el aovp función
en el lmPerm el paquete computa una prueba de permutación para este
caso:
> Biblioteca(lmPerm)
> Resumen(aovp(Página ~ de Tiempo, dato=cuatro_sesiones))
[1] "Encuadres: único SS "
Componente 1 :
Df R Suma Sq R Significa Sq Iter
Pr(Prob) Página 3 831.4 277.13
3104 0.09278 .
Residuals 16 1618.4 101.15
---
Signif. Códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El p-valor, dado por Pr(Prob), es 0.09278. La columna Iter lista el número de

las iteraciones tomadas en la prueba de permutación. Las otras columnas
corresponden a un tradicionales ANOVA mesa y está descrito luego.
F-Statistic
Justo como el t-la prueba puede ser utilizada en vez de una prueba de
permutación para comparar el malo de dos grupos, hay una prueba estadística
para ANOVA basado en el F-statistic. El
F-statistic Está basado en la proporción de la varianza a través de grupo
significa (i.e., el efecto de tratamiento) a la varianza debido a error residual. El
más alto esta proporción, el más statistically significativo el resultado. Si el dato
sigue una distribución normal, entonces la teoría estadística dicta que el statistic
tendría que tener una distribución segura. Basado en este, es posible de computar
un p-valor.
En R, podemos computar un ANOVA la mesa que utiliza el aov función:
> Resumen(aov(Página ~ de Tiempo,

dato=cuatro_sesiones)) Df Suma Sq
Significa Sq F valor Pr(>F)
Página 3 831.4 277.1 2.74 0.0776 .
Residuals 16 1618.4 101.2
---
Signif. Códigos: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
Df Es “grados de libertad,” Suma Sq es “suma de plazas,” Malos Sq es

“plazas malas” (cortos para malos-cuadró desviaciones), y F el valor es el F-
statistic. Para la media magnífica, la suma de plazas es la salida de la media
magnífica de 0, cuadrado, cronometra 20 (el número de observaciones). Los
grados de la libertad para la media magnífica es 1, por definición. Para el
tratamiento significa, los grados de libertad es 3 (una vez tres valores están
puestos, y entonces la media magnífica está puesta, el otro tratamiento significa
no puede variar). Suma de las plazas para el tratamiento significa es la suma de
cuadró las salidas entre el tratamiento significa y la media magnífica. Para el
residuals, los grados de libertad es 20 (todas las observaciones pueden variar),
y SS es la suma de diferencia cuadrada entre las observaciones individuales y
el tratamiento significa. Plazas malas (SEÑORA) es la suma de plazas dividió
por los grados de libertad. El F-statistic es
SEÑORA(tratamiento)/SEÑORA(error). El F el valor así depende sólo en esta
proporción, y puede ser comparado a un estándar F distribución para
determinar si las diferencias entre tratamiento significa es más grande que sería
esperado en variación de posibilidad aleatoria.
DESCOMPOSICIÓN DE VARIANZA
Observó los valores en un conjunto de dato pueden ser consideró sumas de componentes
diferentes. Para cualquier valor de dato observado dentro de un conjunto de dato, lo podemos
romper abajo a la media magnífica, el efecto de tratamiento, y el error residual. Llamamos esto
una “descomposición de varianza.”.
1. Inicio con media magnífica (173.75 para página web stickiness dato).
2. Añade efecto de tratamiento, el cual podría ser negativo (página web variable =
independiente)..
3. Añade error residual, el cual podría ser negativo.
Así, la descomposición de la varianza para el superior-valor izquierdo en el Un-B-C-D mesa de

prueba es como sigue:.
1. Inicio con media magnífica: 173.75
2. Añade tratamiento (grupo) efecto: –1.75 (172 – 173.75).
3. Añade residual: –8 (164 – 172).
4. Equals: 164.
Dos-Manera ANOVA
El Un-B-C-D prueba justo descrita es un “un-manera” ANOVA, en qué tenemos
un factor (grupo) aquello está variando. Podríamos tener un segundo factor
implicó — decir, “fin de semana versus weekday” — con los datos recogieron en
cada combinación (grupo Un fin de semana, grupo Un weekday, grupo B fin de
semana, etc.). Esto sería un “dos -manera ANOVA,” y manejaríamos él en
moda similar a el-manera ANOVA por identificar el “efecto de interacción.”
Después de identificar el efecto mediano magnífico, y el efecto de tratamiento,
entonces separamos el fin de semana y el weekday observaciones para cada
grupo, y encontrar la diferencia entre las medias para aquellos subconjuntos y la
media de tratamiento.
Puedes ver que ANOVA, entonces dos-manera ANOVA, es los primeros pasos
en la carretera hacia un modelo estadístico lleno, como regresión y logistic
regresión, en qué factores múltiples y sus efectos pueden ser modeled (ve
Capítulo 4).
IDEAS CLAVES
ANOVA Es un estadístico proecdure para analizar los resultados de un experimento con grupos
múltiples.
Es la extensión de procedimientos similares para el Un/B prueba, utilizado para evaluar si

la variación global entre grupos es dentro de la gama de variación de posibilidad.
Un resultado útil de un ANOVA es la identificación de componentes de varianza asoció con

tratamientos de grupo, efectos de interacción, y errores.
Lectura más lejana
1. Estadística introductoria: Un Resampling Perspectiva por Peter
Bruce (Wiley, 2014) tiene un capítulo en ANOVA.
2. Introducción para Diseñar y Análisis de Experimentos por George

Cobb (Wiley, 2008) es un tratamiento comprensible y legible de su
tema.
Chi-Prueba cuadrada
La web que prueba a menudo va allende Un/B testaje y prueba tratamientos
múltiples inmediatamente. El chi-la prueba cuadrada está utilizada con dato
de cuenta para probar qué bien cabe algunos distribución esperada. El uso más
común de el chi-cuadrado statistic en la práctica estadística es con
Mesas de contingencia, para evaluar si el null hipótesis de la independencia
entre variables es razonable.
El chi-la prueba cuadrada era originalmente desarrollada por Karl Pearson en
1900. El plazo “chi” proviene el greek letra Utilizado por Pearson en el
artículo.
PLAZOS CLAVES
Chi-Cuadrado statistic
Una medida de la extensión a qué algún dato observado departs de expectativa.
Expectativa o esperó
Cómo esperaríamos el dato para resultar debajo alguna suposición, típicamente el null hipótesis.
d.f.
Grados de libertad.
NOTA
Filas “de medio por columnas” — una 2×3 mesa tiene dos filas y tres
columnas.
Chi-Prueba cuadrada: Un Resampling Aproximación
Supone estás probando tres titulares diferentes — Un, B, y C — y te corridos les
cada cual encima 1,000 visitantes, con los resultados mostrados en Mesa 3-4.
Mesa 3-4. La web que prueba

resultados de tres titulares
diferentes
Titular Un Titular B Titular C
Clic 14 8 12
No-clic 986 992 988
Los titulares ciertamente aparecen para diferir. Titular Unos regresos casi dos
veces el índice de clic de B. Los números reales son pequeños, aun así. Un
resampling el procedimiento puede probar si los índices de clic difieren a una
extensión más grande que la posibilidad podría causar. Para esta prueba,
necesitamos tener la “distribución” esperada de clics, y, en este caso, aquello
sería bajo el null suposición de hipótesis que todo tres titulares comparten el
mismo índice de clic, para un índice de clic global de 34/3,000. Bajo esta
suposición, nuestra mesa de contingencia parecería Mesa 3-5.
Mesa 3-5. Esperado si todo tres

titulares tienen el mismo índice de
clic (null hipótesis)
Clic 11.33 11.33 11.33
No-clic 988.67 988.67 988.67
El Pearson residual está definido cuando:

R Mide la extensión al cual las cuentas reales difieren de estos esperó cuentas (ve
Mesa 3-6).
Mesa 3-6. Pearson residuals

Clic 0.792 -0.990 0.198
No-clic -0.085 0.106 -0.021
El chi-cuadrado statistic está definido como la suma del cuadrado Pearson

residuals:
Dónde r y c es el número de filas y columnas, respectivamente. El chi-cuadrado

statistic para este ejemplo es 1.666. Es que más de razonablemente podría
ocurrir en un modelo de posibilidad?
Podemos probar con este resampling algoritmo:
1. Constituir una caja con 34 unos (clics) y 2,966 ceros (ningún clic).
2. Shuffle, toma tres muestras separadas de 1,000, y contar los clics

en cada.
3. Encontrar el cuadró diferencias entre el shuffled cuentas y el

esperó cuentas, y suma les.
4. Repite pasos 2 y 3, dice, 1,000 tiempo.
5. Qué a menudo hace el resampled suma de cuadró las desviaciones

superan el observados? Aquello es el p-valor.
La función chisq.La prueba puede soler computar un resampled chi-

cuadrado statistic. Para el dato de clic, el chi-la prueba cuadrada es:
> chisq.Prueba(clics, simula.p.El valor=CIERTO)
Pearson's Chi-Prueba cuadrada con simulado p-valor (basado encima 2000
replicates) dato: clics

X-cuadró = 1.6659, df = NA, p-valor = 0.4853
La prueba muestra que este resultado fácilmente podría haber sido obtenido por
randomness.
Chi-Prueba cuadrada: Teoría Estadística
La teoría estadística asintótica muestra que la distribución de el chi-cuadró statistic
puede ser aproximado por un chi-distribución cuadrada. El estándar apropiado
chi- la distribución cuadrada está determinada por los grados de libertad (ve
“Grados de Libertad”). Para una mesa de contingencia, los grados de libertad
están relacionados a el número de filas (r) y columnas (s) como sigue:.
El chi-la distribución cuadrada es típicamente sesgada, con una cola larga a la

derecha; ve Figura 3-7 para la distribución con 1, 2, 5, y 10 grados de libertad.
El más lejano fuera en el chi-distribución cuadrada el observado statistic es, el
más bajo el p-valor.
La función chisq.La prueba puede soler computar el p-valora utilizar el chi-
distribución cuadrada como referencia:
> chisq.Prueba(clics, simula.p.El valor=FALSO)
Pearson Chi-dato de prueba
cuadrada: clics
X-cuadró = 1.6659, df = 2, p-valor = 0.4348
El p-el valor es un poco menos de el resampling p-valor: esto es porque el chi- la

distribución cuadrada es sólo una aproximación de la distribución real de el
statistic.
Figura 3-7. Chi-Distribución cuadrada con varios grados de libertad (probabilidad en y-axial, valor de
chi- cuadrado statistic en x-axial)
Fisher Prueba Exacta
El chi-la distribución cuadrada es una aproximación buena de el shuffled
resampling la prueba justo descrita, exceptuar cuándo las cuentas son
extremadamente abajo (dígitos solos, especialmente cinco o menos). En tales
casos, el resampling el procedimiento cederá más cuidadoso p-valores. De
hecho, software más estadístico tiene un procedimiento a de hecho enumerar
todo el posible rearrangements (permutaciones) que puede ocurrir, tabular sus
frecuencias, y determinar exactamente qué extremo el resultado observado es.
Esto se apellida Fisher prueba exacta después del estadístico grande R. Un.
Fisher. R Código para Fisher la prueba exacta es sencilla en su forma básica:
> fisher.Prueba(clics)
Fisher Prueba Exacta para dato de
Dato de la Cuenta: clics

p-Valor = 0.4824
Hipótesis alternativa: dos.sided
El p-el valor es muy cercano al p-valor de 0.4853 obtuvo utilizar el resampling

método.
Dónde algunas cuentas son muy abajo pero otros son bastante alto (p. ej., el
denominador en un índice de conversión), pueda ser necesario de hacer un
shuffled prueba de permutación en vez de una prueba exacta llena, debido a la
dificultad de calcular todas las permutaciones posibles. El precediendo R la
función tiene varios argumentos que control si para utilizar esta aproximación
(simula.p.El valor=CIERTO o FALSO ), cuántos las iteraciones tendrían
que ser utilizadas ( B=...), y un constreñimiento computacional
(workspace=...) Que límites cálculos qué lejanos para el resultado exacto
tendrían que ir.
DETECTANDO FRAUDE CIENTÍFICO

Un ejemplo interesante está proporcionado por Tufts investigador Universitario Thereza Imanishi-Kari,
quién estuvo acusado en 1991 de fabricating dato en su búsqueda. Congresista John Dingell devino
implicado, y el caso finalmente dirigido a la dimisión de su colega, David Baltimore, de la
presidencia de Rockefeller Universidad.
Imanishi-Kari era finalmente exonerado después de un largo procediendo. Aun así, un elemento en el
caso descansado en evidencia estadística con respecto a la distribución esperada de dígitos en su dato de
laboratorio, donde cada observación tuvo muchos dígitos. Los detectives centraron en los dígitos de
interior, el cual sería esperado para seguir una distribución aleatoria uniforme. Aquello es, ocurrirían
aleatoriamente, con cada dígito habiendo probabilidad igual de ocurrir (el dígito de ventaja podría ser
predominantemente un valor, y los dígitos finales podrían ser afectados por redondear). Mesa 3-7 listas las
frecuencias de dígitos de interior de el dato real en el caso.
Mesa 3-7. Dígito
central en dato de
laboratorio
Dígit Frecuencia
o
0 14
1 71
2 7
3 65
4 23
5 19
6 12
7 45
8 53
9 6
La distribución de los 315 dígitos, mostrados en Figura 3-8 ciertamente mira nonrandom:
Los detectives calcularon la salida de expectativa (31.5 — aquello es qué a menudo cada dígito
ocurriría en una distribución estrictamente uniforme) y utilizó un chi-prueba cuadrada (un resampling el
procedimiento igualmente podría haber sido utilizado) para mostrar que la distribución real era bien
allende la gama de variación de posibilidad normal.
Figura 3-8. Histograma de frecuencia para Imanishi-dato de
laboratorio del Kari
Pertinencia para Ciencia de Datos
La mayoría de usos estándares de el chi-prueba cuadrada, o Fisher prueba
exacta, no es terriblemente pertinente para ciencia de datos. En más
experimentos, si Un-B o Un-B-C…, el objetivo no es sencillamente para
establecer importancia estadística, sino a arive en el tratamiento mejor. Para
este propósito, multi-bandidos armados (ve “Multi-Algoritmo de Bandido del
Brazo”) ofrece una solución más completa.
Una ciencia de dato aplicación de el chi-prueba cuadrada, especialmente
Fisher versión exacta, es en determinar medidas de muestra apropiada para
experimentos de web. Estos experimentos a menudo tienen clic muy bajo índices
y, a pesar de miles de exposiciones, índices de cuenta podrían ser demasiado
pequeños de ceder conclusiones definitivas en un experimento. En tales casos,
Fisher prueba exacta, el chi-prueba cuadrada, y otras pruebas pueden ser útiles
como componente de poder y medida de muestra cálculos (ve “Poder y Medida
de Muestra”).
Chi-Las pruebas cuadradas están utilizadas ampliamente en búsqueda por
detectives en búsqueda de el esquivo statistically significativo p-valorar aquello
dejará publicación. Chi-Pruebas cuadradas, o similares resampling simulacros,
está utilizado en aplicaciones de ciencia de los datos más como filtrar para
determinar si un efecto o la característica es dignos de consideración más lejana
que como prueba formal de importancia. Por ejemplo, están utilizados en
mapeo y estadística espaciales para determinar si el dato espacial conforma a un
especificado null distribución (p. ej., es los delitos concentraron en una área
segura a un grado más grande que la posibilidad aleatoria dejarían ?). También
pueden ser utilizados en selección de característica automatizada en aprendizaje
de máquina, para evaluar clase prevalence a través de características e identificar
características donde el prevalence de una clase segura es inusualmente alto o
abajo, en una manera que no es compatible con variación aleatoria.
IDEAS CLAVES
Un procedimiento común en estadísticas es para probar si cuentas de dato observado son
compatibles con una suposición de independencia (p. ej., propensión para comprar un
elemento particular es independiente de género)..
El chi-la distribución cuadrada es la distribución de referencia (cuál encarna la suposición de

independencia) al cual el observó calculado chi-cuadrado statistic tiene que ser comparado.
Lectura más lejana
R. Un. Fisher Té “de Cata de Señora famoso” ejemplo desde el principio de
el siglo XX queda una ilustración sencilla y eficaz de su prueba exacta. Té
“de Cata de Señora de Google,” y encontrarás un número de bueno
writeups.
Stat La caminata ofrece un bueno preceptoral en el chi-prueba cuadrada.

Multi-Algoritmo de Bandido del brazo
Multi-Bandidos de brazo ofrecen una aproximación a testaje, especialmente
testaje de web, aquello deja optimización explícita y decisión más rápida que hace
que la aproximación estadística tradicional a diseñar experimentos.
PLAZOS CLAVES
Multi-Bandido de brazo
Un slot machine imaginario con armas múltiples para el cliente para escoger de, cada cual con
diferente payoffs, aquí tomado para ser una analogía para un multitreatment experimento.
Brazo
Un tratamiento en un experimento (p. ej., “titular Un en una prueba de web”).
Gana
El equivalente experimental de un ganar en el slot machine (p. ej., “clics de cliente en el
enlace”).
Un tradicional Un/B la prueba implica el dato recogido en un experimento,
según un diseño especificado, para contestar una cuestión concreta como, “el
cual es mejor, tratamiento Un o tratamiento B?” La presunción es que una vez
conseguimos una respuesta a aquella cuestión, el experimenting es encima y
procedemos para actuar en los resultados.
Probablemente puedes percibir varias dificultades con aquella aproximación.
Primero, nuestra respuesta puede ser inconclusive: “efectúa no probado.” En otras
palabras,, los resultados de el experimento pueden sugerir un efecto, pero si hay
un efecto, no tenemos un grandes bastante muestra para probarlo (a la
satisfacción de los estándares estadísticos tradicionales). Qué decisión
tomamos? Segundo, podríamos querer empezar aprovechando resultados que
entrados con anterioridad a la conclusión de el experimento. Tercio, podríamos
querer el correctos de cambiar nuestras mentes o para probar algo diferente
basado en dato adicional que entra después del experimento es encima. La
aproximación tradicional a experimentos y pruebas de hipótesis fechas de el
1920s, y es bastante inflexible. El advenimiento de poder de ordenador y el
software ha habilitado más potentes aproximaciones flexibles. Además, ciencia
de dato (y empresarial en general) no es tan preocupado sobre importancia
estadística, pero más preocupado con optimizar resultados y esfuerzo globales.
Algoritmos de bandido, los cuales son muy populares en testaje de web, dejarte
para probar
Tratamientos múltiples inmediatamente y lograr las conclusiones más rápidas
que diseños estadísticos tradicionales. Toman su nombre de slot machine
utilizó en juego, también denominó un-bandidos armados (desde entonces
están configurados de tal manera que extraen dinero de el gambler en un
flujo firme). Si imaginas un slot machine con más de uno arma, cada brazo
que paga en un índice diferente, tendrías un multi-bandido armado, el cual es
el nombre lleno para este algoritmo.
Vuestro objetivo es para ganar tanto dinero como posible, y más
específicamente, para identificar y resolver en el brazo ganador más pronto
más que más tardío. El reto es que no sabes en qué índice las armas te pagan
sólo saber los resultados de estirar el brazo. Supone cada cual “gana” es para
la misma cantidad, ningún asunto qué brazo. Qué difiere es la probabilidad de un
ganar. Supone más allá que te inicialmente probar cada brazo 50 tiempo y
conseguir los resultados siguientes:
Brazo Un: 10 gana fuera
de 50 Brazo B: 2 gana
fuera de 50 Brazo C: 4
gana fuera de 50.
Uno la aproximación extrema es para decir, “Parece brazo Un es un ganador —

dejado es deja probar las otras armas y palo con Un.” Esto toma ventaja llena de
la información de la prueba inicial. Si Un es verdaderamente superior,
conseguimos el beneficio de aquel tempranos encima. Por otro lado, si B o C
es verdaderamente mejor, perdemos cualquier oportunidad de descubrir aquello.
Otra aproximación extrema es para decir, “Esto todo mira para ser dentro del
reino de la posibilidad — dejada es mantiene estirar les todo igualmente.” Esto
da oportunidad máxima para alterna a Un para los mostrar. Aun así, en el proceso,
estamos desplegando qué parecer para ser tratamientos inferiores. Cuánto tiempo
permitimos aquello? Algoritmos de bandido toman una aproximación híbrida:
empezamos estirar Un más a menudo, para aprovechar su superioridad aparente,
pero no abandonamos B y C. Justo les estiramos menos a menudo. Si Un continúa
a outperform, continuamos cambiar recursos
(Atracciones) fuera de B y C y estirar Un más a menudo. Si, por otro lado, C
inicios para hacer mejor, y Unos inicios para hacer peores, podemos cambiar
atracciones de Un atrás a C. Si uno de ellos resulta para ser superior a Un y
esto estuvo escondido en la prueba inicial debido a posibilidad, ahora tiene una
oportunidad de emerger con testaje más lejano.
Ahora pensar de aplicar este a testaje de web. En vez de armas de slot machine
múltiple, podrías tener ofertas múltiples, titulares, colores, y tan encima, siendo
probados en un
Sitio web. Clientes cualquier clic (un “ganar” para el mercader) o no clic.
Inicialmente, las ofertas están mostradas aleatoriamente e igualmente. Si, aun así,
un inicios de oferta a outperform el otros, pueda ser mostrado (“estirado”) más a
menudo. Pero qué tiene que los parámetros de el algoritmo que modifica los
índices de atracción ser? Qué “índices de atracción” tienen que cambiamos a, y
cuándo tener que cambiamos?
Aquí es uno algoritmo sencillo, el epsilon-algoritmo codicioso para un Un/B
prueba:
1. Generar un número aleatorio entre 0 y 1..
2. Si las mentiras de número entre 0 y epsilon (dónde epsilon es un

número entre 0 y 1, típicamente bastante pequeño), dedo una
moneda justa (50/50 probabilidad), y:
a. Si la moneda es cabezas , el espectáculo ofrece Un.
b. Si la moneda es colas , oferta de espectáculo B.
3. Si el número es ≥ epsilon, espectáculo whichever la oferta ha tenido

el índice de respuesta más alto para datar.
Epsilon Es el parámetro solo que gobierna este algoritmo. Si epsilon es 1,

acabamos con un estándares sencillos Un/B experimento (asignación aleatoria
entre Un y B para cada subject). Si epsilon es 0, acabamos con un algoritmo
puramente codicioso — busca no experimentación más lejana, sencillamente
asignando temas (visitantes de web) a el tratamiento que actúa mejor.
Un algoritmo más sofisticado el muestreo de usos “Thompson.” Estas muestras
“de procedimiento” (estira un brazo de bandido) en cada etapa a maximize la
probabilidad de escoger el brazo mejor. Naturalmente no sabes cuál es el brazo
mejor — aquello es el problema entero ! — Pero cuando observas el payoff
con cada sorteo sucesivo, obtienes más información. El muestreo de Thompson
utiliza una aproximación bayesiana: algunos la distribución previa de
recompensas está supuesta inicialmente, utilizando qué se apellida una
distribución de beta (esto es un mecanismo común para especificar
información previa en un problema bayesiano). Cuando la información acumula
de cada sorteo, esta información puede ser actualizada, dejando la selección del
sorteo próximo para ser mejor optimizado según lo que escogiendo el brazo
correcto.
Algoritmos de bandido pueden efficiently mango 3+ tratamientos y movimiento
hacia optimal selección de el “mejor.” Para procedimientos de testaje
estadísticos tradicionales, el
Complejidad de la decisión que hace para 3+ tratamientos lejos outstrips que de el
tradicionales Un/B prueba, y la ventaja de algoritmos de bandido es mucho más
grande.
IDEAS CLAVES
Tradicional Un/B pruebas envision un proceso de muestreo aleatorio, los cuales pueden dirigir a
exposición excesiva a el tratamiento inferior.
Multi-Bandidos de brazo, en contraste, alterar el proceso de muestreo para incorporar la información

aprendida durante el experimento y reducir la frecuencia del tratamiento inferior.
También facilitan tratamiento eficaz de más de dos tratamientos.
Hay algoritmos diferentes para cambiar probabilidad de muestreo fuera de el tratamiento

inferior(s) y a el (presumed) superior un.
Lectura más lejana
Un tratamiento corto excelente de multi-algoritmos de bandido del brazo
está encontrado en Algoritmos de Bandido, por John Myles White
(O'Reilly, 2012). Blanco incluye código de Pitón, así como los resultados
de simulacros para evaluar el rendimiento de bandidos..
Para más (un poco técnico) información aproximadamente Thompson

muestreo, ve “Análisis de Thompson Muestreo para el Multi-Problema de
Bandido armado” por Shipra Agrawal y Navin Goyal.
Power y Medida de Muestra
Si te corrido una prueba de web, cómo decides cuánto tiempo tenga que correr
(i.e., cuántos las impresiones por tratamiento están necesitadas)? A pesar de qué
te puede leer en muchas guías a testaje de web en la web, hay no guiaje general
bueno — depende, principalmente, en la frecuencia con qué el objetivo deseado
está lograda.
PLAZOS CLAVES
Medida de efecto
La medida mínima del efecto que esperas ser capaz de detectar en una prueba estadística,
como “una 20% mejora en índices de clic”.
Power
La probabilidad de detectar una medida de efecto dada con una medida de muestra dada.
Nivel de importancia
El nivel de importancia estadístico en qué la prueba será conducido.
Uno da un paso en los cálculos estadísticos para medida de muestra es para

preguntar “ una prueba de hipótesis de hecho revela una diferencia entre
tratamientos Un y B?” El resultado de una hipótesis prueba — el p-el valor —
depende de lo que la diferencia real es entre tratamiento Un y tratamiento B.
También depende de la suerte de el dibujar — quién consigue seleccionado para
los grupos en el experimento. Pero hace sentido que el más grande la diferencia
real entre tratamientos Un y B, el más grandes la probabilidad que nuestro
experimento lo revelará; y el más pequeño la diferencia, el más dato será
necesitado para detectarlo. Para distinguir entre un .350 hitter en béisbol, y un
.200 hitter, no que muchos en-los murciélagos están necesitados. Para distinguir
entre un .300 hitter y un.
.280 hitter, un bueno muchos más en-los murciélagos serán necesitados.
Power es la probabilidad de detectar una medida de efecto especificada con
características de muestra especificada (medida y variabilidad). Por ejemplo,
podríamos decir (hipotéticamente) que la probabilidad de distinguir entre un .330
hitter y un .200 hitter en 25 en-los murciélagos es 0.75. La medida de efecto
aquí es una diferencia de .130. Y “detectando” significa que una prueba de
hipótesis rehusará el null hipótesis de “ninguna diferencia” y concluir hay un
efecto real. Así que el experimento de 25 en-murciélagos (n = 25) para dos
hitters, con una medida de efecto de 0.130, tiene (hipotético) poder de 0.75 o
75%..
Puedes ver que hay varias partes emotivas aquí, y es fácil de conseguir
enredado arriba con las suposiciones estadísticas numerosas y fórmulas que será
necesitado (para especificar variabilidad de muestra, medida de efecto, medida
de muestra, alfa-nivel para la prueba de hipótesis, etc., y para calcular poder).
De hecho, hay especial-propósito software estadístico para calcular poder. La
mayoría de científicos de dato no necesitarán pasar por todos los pasos
formales necesitaron informar poder, por ejemplo, en un papel publicado.
Aun así, pueden afrontar ocasiones donde quieren recoger algún dato para un
Un/B prueba, y coleccionismo o procesando el dato implica algún coste. En
aquel caso, sabiendo aproximadamente cuánto dato para recoger puede ayudar
evitar la situación donde recoges dato en algún esfuerzo, y el resultado acaba
ser inconclusive. Aquí es una aproximación alternativa bastante intuitiva:
1. Inicio con algún dato hipotético que representa vuestra suposición
mejor sobre el dato que resultará (quizás basado en dato previo) —
por ejemplo, una caja con 20 unos y 80 ceros para representar un
.200 hitter, o una caja con algunas observaciones de “cronometrar
gastado encima sitio web.”
2. Crear una segunda muestra sencillamente por añadir la medida de

efecto deseada a la primera muestra — por ejemplo, una segunda
caja con 33 unos y 67 ceros, o una segunda caja con 25 segundos
añadió a cada tiempo “inicial gastó encima sitio web.”
3. Sorteo un bootstrap muestra de medida n de cada caja.
4. Conducta una permutación (o fórmula-basado) prueba de hipótesis

en el dos bootstrap muestras y récord si la diferencia entre ellos es
statistically significativo.
5. Repetir el precediendo dos pasos muchas veces y determinar qué a

menudo la diferencia era significativa — aquello es el poder estimado .
Medida de muestra
El uso más común de cálculos de poder es para estimar qué grande una muestra
necesitarás .
Por ejemplo, supone estás mirando en clic-a través de índices (clics como
porcentaje de exposiciones), y probando un anuncio nuevo contra un anuncio
de existir. Cuántos clics necesitas acumular en el estudio? Si eres sólo
interesado en resultados que espectáculo una diferencia enorme (dice una 50%
diferencia), una muestra relativamente pequeña podría hacer el truco. Si, por
otro lado, incluso una diferencia menor sería de interés, entonces una mucha
muestra más grande está necesitada. Una aproximación estándar es para
establecer una política que un anuncio nuevo tiene que hacer mejor que un
anuncio de existir por algún porcentaje, dice 10%; otherwise, el anuncio de
existir quedará en sitio. Este objetivo, la “medida de efecto,” entonces
conduce la medida de muestra.
Por ejemplo, supone clic actual-a través de los índices son aproximadamente
1.1%, y estás buscando un 10% impulso a 1.21%. Así que tenemos dos cajas,
caja Un con 1.1% unos (dice 110 unos y 9,890 ceros), y caja B con 1.21%
unos (dice 121 unos y 9,879 ceros). Para starters, dejado es prueba 300 sorteos
de cada caja (esto sería gustar 300 “impresiones” para cada anuncio). Suponer
nuestro primer sorteo cede el siguiente:
Caja Un: 3
unos Boxean
B: 5 unos
Enseguida podemos ver que cualquier prueba de hipótesis revelaría esta

diferencia (5 versus 3) para ser bien dentro de la gama de variación de
posibilidad. Esta combinación de medida de muestra (n = 300 en cada grupo) y
medida de efecto (10% diferencia) es demasiado pequeño para cualquier
prueba de hipótesis a reliably muestra una diferencia.
Así que podemos probar aumentar la medida de muestra (dejado es prueba 2,000
impresiones), y requerir una mejora más grande (30% en vez de 10%)..
Por ejemplo, supone clic actual-a través de los índices son todavía 1.1%, pero
ahora estamos buscando un 50% impulso a 1.65%. Así que tenemos dos cajas:
caja Un quieto con 1.1% unos (dice 110 unos y 9,890 ceros), y caja B con 1.65%
unos (dice 165 unos y 9,868 ceros). Ahora probaremos 2,000 sorteos de cada
caja. Suponer nuestro primer sorteo cede el siguiente:
Caja Un: 19 unos
Caja B: 34 unos
Una prueba de importancia en esta diferencia (34–19) lo muestra registros

quietos cuando “no significativos” (aun así mucho más cercanos a importancia
que la diferencia más temprana de 5–3). Para calcular poder, necesitaríamos
repetir el procedimiento anterior muchas veces, o utilizar software estadístico
que puede calcular poder, pero nuestro sorteo inicial sugiere a nosotros que
incluso detectando una 50% mejora requerirá varias impresiones de anuncio del
millar.
En resumen, para calcular poder o medida de muestra requerida, hay cuatro partes
emotivas:
Medida de muestra
Medida de efecto quieres detectar
Nivel de importancia (alfa) en qué la prueba será Poder
conducido
Especificar cualquier tres de ellos, y el cuarto puede ser calculado. Más

generalmente, querrías calcular medida de muestra, así que tienes que
especificar el otro tres. Aquí es R código para una prueba que implica dos
proporciones, donde ambas muestras son la misma medida (esto utiliza el pwr
paquete):
pwr.2p.Prueba(h = ..., n = ..., sig.Nivel = ..., poder =
) h= medida de efecto (como proporción)

n = Medida de muestra
sig.Nivel = el nivel de importancia (alfa) en qué la prueba será poder de poder =
conducido (probabilidad de detectar la medida de efecto)
IDEAS CLAVES
Descubriendo qué grande una medida de muestra necesitas requiere pensar adelante a la prueba
estadística planeas conducir.
Tienes que especificar la medida mínima del efecto que te quiere detectar.
También tienes que especificar la probabilidad requerida de detectar que medida de
efecto (poder). Finalmente, tienes que especificar el nivel de importancia (alfa) en qué la
prueba será conducida.

Lectura más lejana
1. Determinación de Medida de la muestra y Poder , por Tom Ryan
(Wiley, 2013), es una revisión comprensible y legible de este tema.
2. Steve Simon, un asesor estadístico, ha escrito un muy

comprometiendo correo de estilo narrativo en el tema.
Resumen
Los principios de aleatorización de diseño — experimental de temas a dos o más
los grupos que reciben los tratamientos diferentes — nos dejan para dibujar
conclusiones válidas aproximadamente qué bien el trabajo de tratamientos. Es
más para incluir un tratamiento de control de “hacer ningún cambio.” El tema de
hipótesis de inferencia estadística — formal testaje, p-valores, t-pruebas, y
mucho más a lo largo de estas líneas — ocupa mucho tiempo y espacio en un
curso de estadística tradicional o texto, y la formalidad es mayoritariamente
unneeded de una perspectiva de ciencia del dato. Aun así, queda importante de
reconocer la función que la variación aleatoria puede jugar en fooling el cerebro
humano.
Intuitivo resampling procedimientos (permutación y bootstrap) deja científicos
de dato a gauge la extensión a qué variación de posibilidad puede jugar una
función en su análisis de dato.
1 La regla de multiplicación declara que la probabilidad de n acontecimientos independientes todo pasando

es el producto de las probabilidades individuales. Por ejemplo, si te y yo cada dedo una moneda una vez, la
probabilidad que vuestra moneda y mi moneda ambas cabezas de tierra es 0.5 × 0.5 = 0.25.
Capítulo 4. Regresión y Predicción
Quizás el objetivo más común en estadísticas es para contestar la cuestión: Es la

variable X (o más probablemente, ) Asoció con un variable Y, y, si
tan, qué es la relación y puede lo utilizamos para pronosticar Y?
En ninguna parte es el nexus entre estadísticas y ciencia de dato más fuertes que
en el reino de predicción — específicamente la predicción de un resultado
(objetivo) la variable basada en los valores de otro “predictor” variables. Otra
conexión importante es en el área de detección de anomalía, donde
diagnósticos de regresión originalmente pretendidos para análisis de datos y
mejorando el modelo de regresión puede soler detectar registros inusuales. Los
antecedentes de correlación y fecha de regresión lineal atrás sobre un siglo.
Regresión Lineal sencilla
Modelos de regresión lineales sencillos la relación entre la magnitud de uno
variable y que de un segundo — por ejemplo, cuando X aumentos, Y también
aumentos. O cuando X aumentos, Y disminuciones.1 Correlación es otra
manera de medir cómo dos variables están relacionadas: ver la Correlación
“de sección”. La diferencia es que mientras la correlación mide la fuerza de una
asociación entre dos variables, la regresión cuantifica la naturaleza de la
relación.
PLAZOS CLAVES PARA REGRESIÓN LINEAL

SENCILLA
Respuesta
La variable estamos intentando pronosticar.
Synonyms
Variable dependiente, Y-variable, objetivo, resultado
Variable independiente
El variable utilizado para pronosticar la respuesta.
Synonyms
Variable independiente, X-variable, característica, atributo
Récord
El vector de predictor y valores de resultado para un individual concreto o
caso..
Synonyms
Fila, caso, caso, ejemplo
Intercepta .
El interceptar de la regresión tacha — aquello es, el valor pronosticado

cuando
,
Synonyms
Coeficiente de regresión
La pendiente de la línea de regresión.
Synonyms
Pendiente, , , estimaciones de parámetro, pesos
Cupo valores
Las estimaciones obtuvieron de la línea de regresión.

Synonyms
Pronosticó valores
Residuals
La diferencia entre el observó valores y el cupo valores.
Synonyms
Errores
Menos plazas
El método de caber una regresión por minimizar la suma de cuadrado residuals.
Synonyms
Normal menos plazas
La Ecuación de Regresión
Estimaciones de regresión lineales sencillas exactamente cuánto Y cambiará
cuándo X cambios por una cantidad segura. Con el coeficiente de correlación,
las variables X y Y es interchangable. Con regresión, estamos intentando
pronosticar el Y variable de X utilizando una relación lineal (i.e., una línea):
Leímos esto como “Y equals b1 tiempo X, más un constante b0.” El símbolo

es
sabido como el interceptar (o constante), y el símbolo Cuando la
pendiente para X. Ambos aparecen en R producción como coeficientes, aun
así en general utilizar el coeficiente de plazo es a menudo reservado para .
El Y la variable es sabida como la respuesta o variable dependiente desde
entonces depende de X. La X variable es sabida como el predictor o
variable independiente. La comunidad de aprendizaje de la máquina tiende
para utilizar otros plazos, llamando Y el objetivo y X un vector de
característica.
Considerar el scatterplot en Figura 4-1 mostrando el número de años un
trabajador estuvo expuesto a polvo de algodón (Exposición ) versus una
medida de capacidad de pulmón (PEFR o “cumbre expiratory índice de flujo”).
Cómo es PEFR relacionado a Exposición ? Es duro de decir justo basado en el
cuadro.
Figura 4-1. Exposición de algodón versus capacidad de pulmón
La regresión lineal sencilla intenta encontrar la “línea” mejor para pronosticar la

respuesta PEFR
Como función del predictor Exposición variable.
El lm función en R puede soler cabido una regresión lineal.

Modelo <- lm(PEFR ~ Exposición, pulmón=de dato)
lm Estándares para el modelo lineal y el ~ símbolo denota que PEFR está

pronosticado por
Exposición.
Imprimiendo el objeto de modelo produce la producción siguiente:
Llamada:
lm(Fórmula = PEFR ~ Exposición, pulmón = de dato)
Coeficientes:
(Intercepta) Exposición
424.583 -4.185
El interceptar, o , es 424.583 y puede ser interpretado como el pronosticado

PEFR para un trabajador con cero exposición de años. El coeficiente de regresión,
o , puede ser interpretado como sigue: para cada año adicional que un
trabajador está expuesto a polvo de algodón, el trabajador PEFR la medida está
reducida por –4.185.
La línea de regresión de este modelo está mostrada en Figura 4-2.
Figura 4-2. Pendiente e interceptar para la regresión cabida al dato de pulmón

Cupo Valores y Residuals
Los conceptos importantes en análisis de regresión son el cupo valores y
residuals . En general, el dato no cae exactamente en una línea, así que la
ecuación de regresión tendría que incluir un plazo de error explícito :
El cupo valores, también referidos a como el pronosticó valores, es

típicamente denotado por (Y-Sombrero). Estos están dados por:
La notación. Y Indica que los coeficientes están estimados versus sabidos.

NOTACIÓN de SOMBRERO: ESTIMACIONES VERSUS
VALORES SABIDOS
La “notación” de sombrero suele diferenciar entre estimaciones y valores sabidos. Así que el
símbolo
(“b-Sombrero”) es una estimación del parámetro desconocido . Por qué hacer los
estadísticos diferencian entre la estimación y el valor cierto? La estimación tiene
incertidumbre, mientras que el valor cierto está fijado.2
Computamos el residuals Por restar el pronosticó valores de el dato original:
En R, podemos obtener el cupo valores y residuals utilizando las funciones

pronostican
Y residuals :
Cabido <-
pronosticar(modelo) resid
<- residuals(modelo)
Figura 4-3 ilustra el residuals de la línea de regresión cabida a el dato de

pulmón. El residuals es la longitud de el vertical dashed líneas de el dato a la
línea.
Figura 4-3. Residuals De una línea de regresión (nota el diferente y-escala axial de Figura 4-2, por ello
la pendiente aparentemente diferente)
Menos Plazas
Cómo es el modelo cabido a el dato? Cuando hay una relación clara, podrías
imaginar caber la línea a mano. En práctica, la línea de regresión es la estimación
que minimiza la suma de valores residuales cuadrados, también llamó la suma
residual de plazas o RSS :
Las estimaciones Y Es los valores que minimiza RSS.

El método de minimizar la suma de el cuadrado residuals está denominado
menos cuadra regresión, o normal menos plazas (OLS) regresión. Es a menudo
atribuido a Carl Friedrich Gauss, el alemán mathmetician, pero era primero
publicado por el francés mathmetician Adrien-Marie Legendre en 1805. Menos
cuadra ventajas de regresión a una fórmula sencilla para computar los
coeficientes:
Históricamente, la comodidad computacional es una razona para el uso
extendido de menos plazas en regresión. Con el advenimiento de dato grande, la
velocidad computacional es todavía un factor importante. Menos plazas, como el
malos (ve “Median y Estimaciones Robustas”), es sensible a outliers, a pesar de
que esto tiende para ser un signicant problema sólo en pequeño o moderado-sized
problemas. Ve “Outliers” para una discusión de outliers en regresión.
TERMINOLOGÍA de REGRESIÓN
Cuándo los analistas y los investigadores utilizan la regresión de plazo por él, típicamente están
refiriendo a regresión lineal; el foco es normalmente en en desarrollo un modelo lineal para
explicar la relación entre predictor variables y una variable de resultado numérica. En su sentido
estadístico formal, la regresión también incluye nonlinear modelos que cosecha una relación
funcional entre predictors y variables de resultado. En la comunidad de aprendizaje de la
máquina, el plazo es también ocasionalmente utilizó loosely para referir a el uso de cualquier
modelo predictivo que productos un resultado numérico pronosticado (estando en distinción de
métodos de clasificación que pronostica un resultado binario o categórico)..
Predicción versus Explicación (Profiling)
Históricamente, un uso primario de regresión era a illuminate una relación
lineal supuesta entre predictor variables y una variable de resultado. El objetivo
ha sido para entender una relación y explicarlo utilizando el dato que la regresión
estuvo cabida a. En este caso, el foco primario es en la pendiente estimada de
la ecuación de regresión, . Los economistas quieren saber la relación entre el
consumidor que gasta y crecimiento de PIB. Oficiales de salud pública podrían
querer entender si una campaña de información pública es eficaz en promover
prácticas de sexo seguro. En tales casos, el foco no es encima pronosticando
casos individuales, sino encima entendiendo la relación global.
Con el advenimiento de dato grande, la regresión es ampliamente utilizada para
formar un modelo para pronosticar resultados individuales para dato nuevo, más
que explicar dato a mano (i.e., un modelo predictivo). En este caso, los
elementos principales de interés son el cupo valores
. En marketing, la regresión puede soler pronosticar el cambio en ingresos en
respuesta a la medida de una campaña de anuncio. Regresión de uso de las
universidades para pronosticar alumnado' GPA basó en su SENTÓ puntuaciones.
Un modelo de regresión que acceso el dato bien está instalado tal que cambios en
X ventaja a cambios en Y. Aun así, por él, la ecuación de regresión no prueba la
dirección de causation. Conclusiones sobre causation tiene que provenir un
contexto más ancho de comprensivo sobre la relación. Por ejemplo, una
ecuación de regresión podría mostrar una relación definitiva entre número de clics
en un anuncio de web y número de conversiones. Es nuestro conocimiento de
el proceso de marketing, no la ecuación de regresión, aquello nos dirijo a la
conclusión que clics en la ventaja de anuncio a ventas, y no viceversa..
IDEAS CLAVES
Los modelos de ecuación de la regresión la relación entre una variable de respuesta Y y un
predictor variable X como línea.
Unas cosechas de modelo de la regresión cupieron valores y residuals — predicciones de la

respuesta y los errores de las predicciones.
Modelos de regresión son típicamente cabidos por el método de menos
plazas. La regresión está utilizada ambos para predicción y explicación..

Lectura más lejana
Para un en-tratamiento de profundidad de predicción versus explicación, ve Galit
Shmueli artículo “para Explicar o para Pronosticar”.
Regresión Lineal múltiple
Cuando hay múltiple predictors, la ecuación es sencillamente extendida para
acomodarles:
En vez de una línea, ahora tenemos un modelo lineal — la relación entre cada
coeficiente y su variable (característica) es lineal.
PLAZOS CLAVES PARA REGRESIÓN LINEAL MÚLTIPLE
La raíz significa error cuadrado

La raíz cuadrada del error cuadrado mediano de la regresión (esto es el más ampliamente
utilizado métrico de comparar modelos de regresión).
Synonyms
RMSE
Error estándar residual

Igual como la raíz significa error cuadrado, pero ajustado para grados de libertad.
Synonyms
RSE
R-Cuadró
La proporción de la varianza explicada por el modelo, de 0 a 1.
Synonyms
Coeficiente de determinación,
t-statistic
El coeficiente para un predictor, dividido por el error estándar del coeficiente, dando un métrico
de comparar la importancia de variables en el modelo.
Weighted Regresión
Regresión con los registros habiendo pesos diferentes.
Todo de los otros conceptos en regresión lineal sencilla, como caber por menos
plazas y la definición de cupo valores y residuals, extiende a el encuadre de
regresión lineal múltiple. Por ejemplo, el cupo los valores están dados por:
Ejemplo: Dato de Alojamiento de Condado de King
Un ejemplo de utilizar la regresión es en estimar el valor de casas. Condado
assessors tiene que estimar el valor de una casa para los propósitos de evaluar
impuestos. Consumidores de inmueble y los profesionales consultan sitios web
populares como Zillow para constatar un precio justo. Aquí es unas cuantas
filas de albergar dato de Condado de Rey (Seattle), Washington, de el dato
de casa.Marco:
Cabeza(casa[, c("AdjSalePrice", "SqFtTotLiving", "SqFtLot", "Baños",

"Dormitorios", "BldgGrade")])
Fuente: marco de dato local [6 x 6]
AdjSalePrice SqFtTotLiving SqFtLot Dormitorios de baños BldgGrade

(dbl) (int) (int) (dbl) (int) (int)
1 300805 2400 9373 3.00 6 7
2 1076162 3764 20156 3.75 4 10
3 761805 2060 26036 1.75 4 8
4 442065 3200 8618 3.75 5 7
5 297065 1720 8620 1.75 4 7
6 411781 930 1012 1.50 2 8
El objetivo es para pronosticar el precio de ventas de las otras variables. El lm

maneja el caso de regresión múltiple sencillamente por incluir más plazos en el
righthand lado de la ecuación; el argumento na.Acción=na.Omite causa el
modelo para caer registros que tiene perder valores:
Casa_lm <- lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Dormitorios

+ de Baños + BldgGrade,
Casa=de dato, na.Acción=na.Omite)
Imprimiendo casa_lm el objeto produce la producción siguiente:
Casa_lm
Llamada:
lm(Fórmula = AdjSalePrice ~ SqFtTotLiving + SqFtLot + Dormitorios
+ de Baños + BldgGrade, casa = de dato, na.Acción = na.Omite)
Coeficientes:
(Intercepta SqFtTotLiving SqFtLot Baños
)
-5.219e+05 2.288e+02 -6.051e-02 -1.944e+04
Dormitorios BldgGrade
-4.778e+04 1.061e+05
La interpretación de los coeficientes es tan con regresión lineal sencilla: el

Valor pronosticado Cambios por el coeficiente Para cada cambio de unidad
en Suponiendo todo las otras variables, Para , queda igual. Por
ejemplo, añadiendo un extra acabó el pie cuadrado a una casa aumenta el valor
estimado por aproximadamente $229; añadiendo 1,000 acabó los pies cuadrados
implica el valor aumentará por
$228,800.
Evaluando el Modelo
El rendimiento más importante métrico de una perspectiva de ciencia del dato es
raíz significa error cuadrado, o RMSE . RMSE Es la raíz cuadrada de el error
cuadrado mediano en el pronosticado Valores:
Esto mide la exactitud global de el modelo, y es una base para compararlo a

otros modelos (incluyendo los modelos caben utilizar la máquina que aprende
técnicas). Similar a RMSE es el error estándar residual, o RSE . En este caso
hemos p predictors, y el RSE está dado por:
La diferencia única es que el denominador es los grados de libertad, cuando

opposed para numerar de registros (ve “Grados de Libertad”). En práctica, para
regresión lineal, la diferencia entre RMSE y RSE es muy pequeño,
particularmente para aplicaciones de dato grande.
La función de resumen en R computa RSE así como otro metrics para
un modelo de regresión:
Resumen(casa_lm)
Llamada:
+ de Baños + BldgGrade, casa = de dato, na.Acción = na.Omite)
Residuals:
Min 1Q Median 3Q Max
-1199508 -118879 -20982 87414 9472982
Coeficientes:
Estimación Std. Error t valor Pr(>|t|)
(Intercepta) -5.219e+05 1.565e+04 -33.349 < 2e-16 ***
SqFtTotLiving 2.288e+02 3.898e+00 58.699 < 2e-16 ***
SqFtLot -6.051e-02 6.118e-02 -0.989 0.323
Baños -1.944e+04 3.625e+03 -5.362 8.32e-08 ***
Dormitorios -4.778e+04 2.489e+03 -19.194 < 2e-16 ***
BldgGrade 1.061e+05 2.396e+03 44.287 < 2e-16 ***
---
Signif. Códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Error estándar residual: 261200 encima 22683 grados de

Múltiplo de libertad R-cuadró: 0.5407,
Ajustado R-cuadró: 0.5406
F-statistic: 5340 encima 5 y 22683 DF, p-valor: < 2.2e-16
Otro útil métrico que verás en producción de software es el coeficiente de

determinación , también llamó el R-cuadrado statistic o . R-Cuadró gamas
de 0 a 1 y mide la proporción de variación en el dato que es accounted para en
el modelo. Es útil principalmente en usos explicativos de regresión donde
quieres evaluar qué bien el modelo cabe el dato. La fórmula para Es:
El denominador es proporcional a la varianza de Y . La producción de R

también informa un ajustado R-cuadrado, el cual ajusta para los grados de
libertad; raramente es esto significativamente diferente en regresión múltiple.
Junto con el estimó coeficientes, R informa el error estándar de los coeficientes
(SE) y un t-statistic:
El t-statistic — y su imagen de espejo, el p-el valor — mide la extensión al cual
un coeficiente es “statistically significativo” — aquello es, fuera de la gama de
qué una posibilidad aleatoria arreglo de predictor y variable de objetivo podría
producir. El más alto el t-statistic (y el más bajo el p-valor), el más significativo
el predictor. Desde entonces la parsimonia es una característica de modelo
valiosa , es útil de tener una herramienta así para guiar elección de variables
para incluir tan predictors (ve “Selección de Modelo y Stepwise Regresión”).
AVISO
Además de el t-statistic, R y otros paquetes a menudo informarán un p-valor (Pr(>|t|) en
el R producción) y F-statistic . Científicos de dato no generalmente consiguen demasiado
implicados con la interpretación de esta estadística, ni con el asunto de importancia estadística.
Científicos de dato principalmente foco en el t-statistic como guía útil para si para incluir un
predictor en un modelo o no. Alto t-estadísticas (cuáles van con p-los valores cercanos 0) indica
un predictor tendría que ser retenido en un modelo, mientras muy abajo t-las estadísticas indican
un predictor podría ser caído. Ve “P-Valor” para más discusión.
Cross-Validación
Regresión estadística clásica metrics (R2, F-estadísticas, y p-valores) es todo
“en- muestra” metrics — están aplicados a el mismo dato que solió cabido el
modelo. Intuitively, puedes ver que haga mucho sentido para poner aparte
algunos de el dato original, no utilizarlo para caber el modelo, y entonces aplicar
el modelo a el conjunto- aparte (holdout) dato para ver qué bien hace.
Normalmente, utilizarías una mayoría de el dato para caber el modelo, y
utilizar una porción más pequeña para probar el modelo.
Esta idea de “fuera-de-validación” de muestra no es nueva, pero no realmente
tome el control hasta conjuntos de dato más grande devenía más prevalent; con
un conjunto de dato pequeño, los analistas típicamente quieren utilizar todo el
dato y caber el modelo posible mejor.
Utilizando un holdout muestra, aun así, te dejas subject a alguna incertidumbre que
surge sencillamente de variabilidad en el pequeño holdout muestra. Qué
diferente la valoración ser si seleccionaste un diferente holdout muestra?
Cross-la validación extiende la idea de un holdout muestra a múltiple secuencial
holdout muestras. El algoritmo para básico k-cruz de pliegue-la validación es
como sigue:.
1. Pone aparte 1/k de el dato como holdout muestra.
2. Tren el modelo en el dato restante.
3. Aplica (puntuación) el modelo a el 1/k holdout, y valoración de

modelo necesitada récord metrics.
4. Restaurar el primer 1/k de el dato, y puesto aparte el próximo 1/k

(excluyendo cualesquier registros que consiguió elegido el primer
tiempo).
5. Repite pasos 2 y 3..
6. Repite hasta cada registro ha sido utilizado en el holdout porción.
7. Mediano u otherwise combinar la valoración de modelo metrics.
La división de el dato a la muestra de formación y el holdout la muestra es

también llamó un pliegue.
Selección de modelo y Stepwise Regresión
En algunos problemas, muchas variables podrían ser utilizadas como predictors
en una regresión. Por ejemplo, para pronosticar valor de casa, variables
adicionales como la medida de sótano o el año construyeron podría ser
utilizado. En R, estos son fáciles de añadir a la ecuación de regresión:
La casa_llena <- lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot +

Dormitorios + de Baños + BldgGrade + PropertyType +
NbrLivingUnits + SqFtFinBasement + YrBuilt +
YrRenovated + NewConstruction,
Añadiendo más variables, aun así, no necesariamente significa tenemos un

modelo mejor. Los estadísticos utilizan el principio de Occam navaja para
guiar la elección de un modelo: todas las cosas que son iguales, un modelo más
sencillo tendría que ser utilizado en preferencia a un modelo más
complicado.
Incluyendo las variables adicionales siempre reduce RMSE y aumentos. . De
ahí, estos no son apropiados de ayudar guiar la elección de modelo. En el
1970s, Hirotugu Akaike, el estadístico japonés eminente, deveoped un métrico
llamado AIC (Akaike Criterios de Información) aquello penaliza añadir plazos a
un modelo. En el caso de regresión, AIC tiene la forma:.
AIC = 2P + n registro(RSS/n)
Dónde p es el número de variables y n es el número de registros. El objetivo es

para encontrar el modelo que minimiza AIC; modelos con k variables más extras
están penalizadas por 2k.
AIC, BIC Y MALVAS CP
La fórmula para AIC puede parecer un poco misterioso, pero de hecho está basado en
resultados asintóticos en teoría de información. Hay varias variantes a AIC:
AICc: Una versión de AIC corregido para medidas de muestra pequeña.
BIC O criterios de información bayesiana: similar a AIC con una pena más fuerte para
incluir variables adicionales a el modelo.
Malvas Cp: Una variante de AIC desarrollado por Colin Malvas.
Científicos de dato generalmente no necesitan para preocuparse sobre las diferencias entre
estos en-muestra metrics o la teoría subyacente detrás les.
Cómo encontramos el modelo que minimiza AIC? Uno se acerca es para buscar a
través de todos los modelos posibles, llamados toda regresión de subconjunto.
Esto es computacionalmente caro y no es factible para problemas con dato
grande y muchas variables. Una alternativa atractiva es para utilizar stepwise
regresión, el cual sucesivamente añade y cae predictors para encontrar un
modelo que baja AIC. El paquete de MASA por Venebles y Ripley ofrece un
stepwise función de regresión llamó stepAIC:
Biblioteca(MASA)
Paso <- stepAIC(la casa_llena,
dirección="tanto") paso
Llamada:
lm(Fórmula = AdjSalePrice ~ SqFtTotLiving + Dormitorios + de Baños +
BldgGrade + PropertyType + SqFtFinBasement + YrBuilt, casa = de
dato0, na.Acción = na.Omite)
Coeficientes:
(Intercepta) SqFtTotLiving
6227632.22 186.50
Dormitorios de baños
44721.72 -49807.18
BldgGrade PropertyTypeSingle Familia
139179.23 23328.69
PropertyTypeTownhouse SqFtFinBasement
92216.25 9.04
YrBuilt
-3592.47
La función escogió un modelo en qué varias variables estuvo caído de

La casa_llena: SqFtLot, NbrLivingUnits, YrRenovated, y NewConstruction .
Más sencillo todavía es adelante selección y backward selección. En adelante

selección,
Empiezas sin predictors y añadirles uno-por-un, en cada paso que añade el
predictor aquello tiene la contribución más grande a , parando cuándo la
contribución es ya no statistically significativo. En backward selección, o
backward eliminación, empiezas con el modelo lleno y sacar predictors
aquello no es statistically significativo hasta que quedas con un modelo en qué
todo predictors es statistically significativo.
La regresión penalizada es similar en espíritu a AIC. En vez de
explícitamente buscando a través de un conjunto discreto de modelos, la
ecuación que cabe modelo incorpora un constreñimiento que penaliza el modelo
para demasiadas variables (parámetros). Más que eliminar predictor variables
enteramente — tan con stepwise, adelante, y backward selección — la
regresión penalizada aplica la pena por reducir coeficientes, en algunos casos
para acercarse cero. Métodos de regresión penalizados comunes son ridge
regresión y lasso regresión.
Stepwise La regresión y toda regresión de subconjunto son en-métodos de
muestra para evaluar y modelos de tonada. Esto significa la selección de modelo
es posiblemente subject a overfitting y no puede actuar también cuándo
aplicado a dato nuevo. Uno aproximación común para evitar esto es para utilizar
cruz-validación para validar los modelos. En regresión lineal, overfitting es
típicamente no un asunto importante, debido a el sencillo (lineal) la estructura
global impuesta en el dato. Para tipos más sofisticados de modelos,
particularmente procedimientos iterativos que responde a estructura de dato
local, cruz- la validación es una herramienta muy importante ; ve “Cross-
Validación” para detalles.
Weighted Regresión
Weighted La regresión está utilizada por estadísticos para una variedad de
propósitos; en particular, es importante para análisis de encuestas complejas.
Científicos de dato pueden encontrar weighted la regresión útil en dos casos:
Inverse-Ponderación de varianza cuándo las observaciones diferentes han
sido medidas con precisión diferente.
Análisis de datos en una forma agregada tal que la variable de peso codifica
cuántas observaciones originales cada fila en el dato agregado representa.
Por ejemplo, con el dato de alojamiento, las ventas más viejas son menos
fiables que ventas más recientes. Utilizando el DocumentDate para determinar el
año de la venta, podemos computar un Peso como el número de años desde
entonces 2005 (el principio de el dato).
Biblioteca(lubridate)
Casa$año = de Año(casa$DocumentDate)
casa$casa = de Peso$Año - 2005
Podemos computar un weighted regresión con el lm la función que utiliza el peso

Argumento.
Casa_wt <- lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Dormitorios

+ de Baños + BldgGrade,
Casa=de dato, Peso=de peso)
ronda(cbind(casa_lm=casa_lm$coeficientes,
Casa_wt=casa_wt$coeficientes), dígitos=3)
Casa_lm casa_wt
(Intercepta) -521924.722 -584265.244
SqFtTotLiving 228.832 245.017
SqFtLot -0.061 -0.292
Baños -19438.099 -26079.171
Dormitorios -47781.153 -53625.404
BldgGrade 106117.210 115259.026
El coefficents en el weighted la regresión es ligeramente diferente de la

regresión original.
IDEAS
CLAVES
Modelos de regresión lineales múltiples la relación entre una variable de respuesta Y y
predictor
múltiplo. .
Variables
El más importante metrics para evaluar un modelo es raíz significa error cuadrado (RMSE)
y R- cuadrado (R2).
El error estándar de los coeficientes puede soler medir la fiabilidad de la contribución de una
variable a un modelo.
Stepwise La regresión es una manera a automáticamente determinar qué variables tendrían que
ser incluidas en el modelo.
Weighted La regresión suele da registros seguros más o menos peso en caber la ecuación.
La predicción que Utiliza Regresión
El propósito primario de la regresión en ciencia de datos es predicción. Esto es útil
de mantener en mente, desde entonces regresión, siendo un viejo y método
estadístico establecido, viene con equipaje que es más pertinente a su función de
modeling explicativa tradicional que a predicción..
PLAZOS CLAVES PARA la PREDICCIÓN que UTILIZA REGRESIÓN
Intervalo de predicción
Un intervalo de incertidumbre alrededor de un valor pronosticado individual.
Extrapolación
Extensión de un modelo allende la gama del dato utilizó para caberlo.
Los Peligros de Extrapolación
Modelos de regresión no tendrían que soler extrapolar allende la gama de el
dato. El modelo es válido sólo para predictor los valores para qué el dato tiene
valores suficientes (incluso en el caso que el dato suficiente es disponible,
podría haber otros problemas: ve “Probar las Suposiciones: Diagnósticos de
Regresión”). Cuando un caso extremo, supone modelo_lm suele pronosticar
el valor de un 5,000-cuadrado- pies parcela vacía. En tal caso, todo el
predictors relacionó a el edificio tendría un valor de 0 y la ecuación de
regresión cedería una predicción absurda de – 521,900 + 5,000 × –.0605 = –
$522,202. Por qué hizo este pasar? El dato contiene paquetes únicos con los
edificios — allí son ningún registro que corresponde a tierra vacante.
Consiguientemente, el modelo tiene ninguna información para decirlo cómo para
pronosticar el precio de ventas para tierra vacante.
Confianza e Intervalos de Predicción
Mucho de las estadísticas implica entender y midiendo variabilidad
(incertidumbre). El t-estadísticas y p-los valores informaron en producción de
regresión trata esto en una manera formal, el cual es a veces útil para selección
variable (ve “Evaluar el Modelo”). Más útil metrics es intervalos de confianza,
los cuales son intervalos de incertidumbre colocados alrededor coeficientes de
regresión y predicciones. Una manera fácil de entender esto es vía el bootstrap
(ve “El Bootstrap” para más detalles sobre el generales bootstrap
procedimiento). La regresión más común intervalos de confianza encontraron en
producción de software es aquellas para parámetros de regresión (coeficientes).
Aquí es un bootstrap algoritmo para generar intervalos de confianza para
parámetros de regresión (coeficientes) para un dato puesto con P predictors y
n registros (filas):
1. Considerar cada fila (incluyendo variable de resultado) como ticket
“solo” y colocar todo el n ticket en una caja.
2. Sorteo un ticket al azar, registro los valores, y reemplazar él en la caja.
3. Repite paso 2 n tiempo; ahora tienes un bootstrap resample.
4. Cabido una regresión a el bootstrap muestra, y grabar el estimó

coeficientes.
5. Repite pasos 2 a través de 4, dice, 1,000 tiempo.
6. Ahora tienes 1,000 bootstrap valores para cada coeficiente;

encontrar el apropiado percentiles para cada un (p. ej., 5.º y 95.º
para un 90% intervalo de confianza).
Puedes utilizar la función de Bota en R para generar real bootstrap intervalos

de confianza para los coeficientes, o sencillamente puedes utilizar la fórmula-
basó intervalos que es un rutinario R producción. El significado conceptual y la
interpretación son igual, y no de importancia central a científicos de dato,
porque se preocupan los coeficientes de regresión. Del interés más grande a
científicos de dato es intervalos alrededor pronosticado y valores ( ). La
incertidumbre alrededor Proviene dos fuentes:
Incertidumbre aproximadamente lo que el pertinente predictor variables y
sus coeficientes
Es (ve el precediendo bootstrap algoritmo) el
error Adicional inherente en puntos de dato
individual
El error de punto de dato individual puede ser pensado de como sigue: incluso si
supimos para seguros lo que la ecuación de regresión era (p. ej., si tuvimos un
número enorme de registros de caber él), los valores de resultado reales para un
conjunto dado de predictor los valores variarán .
Por ejemplo, muchos alberga — cada cual con 8 habitaciones, un 6,500 pie
cuadrado parcela, 3 baños, y un sótano — podría tener valores diferentes.
Podemos modelo este error individual con el residuals de el cupo valores. El
bootstrap algoritmo para modeling tanto el error de modelo de la regresión y el
error de punto de dato individual mirarían como sigue:.
1. Tomar un bootstrap muestra de el dato (deletreado fuera en el
detalle más grande más temprano).
2. Cabido la regresión, y pronosticar el valor nuevo.
3. Tomar un solo residual al azar de la acceso de regresión original,

añadirlo a el valor pronosticado, y grabar el resultado.
4. Repite pasos 1 a través de 3, dice, 1,000 tiempo.
5. Encontrar el 2.5th y el 97.5th percentiles de los resultados.

INTERVALO de PREDICCIÓN O INTERVALO de
CONFIANZA?
Un intervalo de predicción pertains a incertidumbre alrededor de un valor solo, mientras un
intervalo de confianza pertains a un malo u otro statistic calculó de valores múltiples. Así, un
intervalo de predicción típicamente será mucho más ancho que un intervalo de confianza para
el mismo valor. Nosotros modelo este error de valor individual en el bootstrap modelo por
seleccionar un individual residual a tack encima al valor pronosticado. Cuál tiene que utilizas?
Aquello depende de el contexto y el propósito del análisis, pero, en general, científicos de dato
están interesados en predicciones individuales concretas, así que un intervalo de predicción sería
más apropiado. Utilizando un intervalo de confianza cuándo tendrías que ser utilizar un intervalo
de predicción mucho underestimate la incertidumbre en un valor pronosticado dado.
IDEAS CLAVES
Extrapolación allende la gama del dato puede dirigir a error.
Intervalos de confianza cuantifican incertidumbre alrededor coeficientes de
regresión. Intervalos de predicción cuantifican incertidumbre en predicciones
individuales.
La mayoría de software, R incluido, producirá predicción e intervalos de confianza en default o

producción especificada, utilizando fórmulas.
El bootstrap también puede ser utilizado; la interpretación y la idea son igual.

Variables de factor en Regresión
Variables de factor, también variables categóricas denominadas, apechugar con
un número limitado de valores discretos. Por ejemplo, un propósito de préstamo
puede ser consolidación de deuda “,” “boda,” “coche,” y tan encima. El binario
(sí/ningún) variable, también llamó una variable de indicador, es un caso
especial de una variable de factor. La regresión requiere entradas numéricas, así
que necesidad de variables del factor para ser recoded para utilizar en el modelo.
La aproximación más común es para convertir una variable a un conjunto de
binario dummy variables.
PLAZOS CLAVES PARA FACTOR VARIAB LES
Dummy Variables
Binario 0–1 variables derivaron por recoding dato de factor para uso en regresión y otros
modelos.
Codificación de referencia
El tipo más común de la codificación utilizada por estadísticos, en cuál nivela de un factor está
utilizado como la referencia y otros factores están comparados a aquel nivel.
Synonyms
Codificación de tratamiento
Uno caliente encoder

Un tipo común de la codificación utilizada en la comunidad de aprendizaje de la máquina en qué
todos niveles de factores está retenida. Mientras útil para la máquina segura que aprende
algoritmos, esta aproximación no es apropiada para regresión lineal múltiple.
Codificación de desviación
Un tipo de codificación que compara cada nivel contra el en general significar tan opposed a el
nivel de referencia.
Synonyms
Contrastes de suma
Dummy Representación de variables
En el dato de alojamiento de Condado de Rey, hay una variable de factor para el
tipo de propiedad; un subconjunto pequeño de seis registros está mostrado abajo.
Cabeza(casa[, 'PropertyType'])
Fuente: marco de dato local [6 x 1]
PropertyType
(fctr)
1 Multiplex
2 Familia sola
3 Familia sola
4 Familia sola
5 Familia sola
6 Townhouse
Hay tres valores posibles: Multiplex, Familia Sola, y Townhouse . Para

utilizar esta variable de factor, necesitamos convertirlo a un conjunto de
variables binarias. Nosotros esto por crear una variable binaria para cada valor
posible de la variable de factor.
Para hacer este en R, utilizamos el modelo.Función matricial:3
prop_Tipo_dummies <- modelo.Matriz(~PropertyType -1, casa=de

dato) cabeza(prop_tipo_dummies)
PropertyTypeMultiplex PropertyTypeSingle Familiar PropertyTypeTownhouse
1 1 0 0
2 0 1 0
3 0 1 0
4 0 1 0
5 0 1 0
6 0 0 1
El modelo de función.Matricial convierte un marco de dato a un matricial

adecuado a un modelo lineal. La variable de factor PropertyType, el cual tiene
tres niveles distintos, está representado como matricial con tres columnas. En la
comunidad de aprendizaje de la máquina, esta representación está referida a tan
uno caliente codificando (ve “Uno Caliente Encoder”). En la máquina segura que
aprende algoritmos, como árbol y vecinos más cercanos modelos, uno caliente
codificando es la manera estándar de representar variables de factor (por
ejemplo, ve “Modelos de Árbol”).
En el encuadre de regresión, una variable de factor con P los niveles distintos
es normalmente representados por una matriz con único P – 1 columnas. Esto es
porque un modelo de regresión típicamente incluye un interceptar plazo. Con un
interceptar, una vez te ha definido los valores para P – 1 binaries, el valor para el
Pth es sabido y podría ser
Considerado redundando. Añadiendo el Pth la columna causará un
multicollinearity error (ve “Multicollinearity”).
El default representación en R es para utilizar el primer nivel de factor como
referencia e interpretar los niveles restantes relativos a aquel factor.
lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Baños +

+ Dormitorios + BldgGrade + PropertyType, casa=de dato)
Llamada:
+ de Baños + BldgGrade + PropertyType, casa = de dato)
Coeficientes:
-4.469e+05 2.234e+02
SqFtLot Baños
-7.041e-02 -1.597e+04
-5.090e+04 1.094e+05
PropertyTypeSingle Familiar PropertyTypeTownhouse
-8.469e+04 -1.151e+05
La producción del R la regresión muestra dos coeficientes que corresponden a

PropertyType : PropertyTypeSingle Familia y PropertyTypeTownhouse . no
hay ningún coeficiente de Multiplex desde entonces es implícitamente definido
cuándo PropertyTypeSingle Familia == 0 y PropertyTypeTownhouse == 0.
Los coeficientes están interpretados como relativos a Multiplex , así que una casa
que es la familia Sola vale casi $85,000 menos, y una casa que es Townhouse
vale encima
$150,000 menos.4
CODIFICACIONES de FACTOR DIFERENTE
Hay varias maneras diferentes de codificar variables de factor, sabidos cuando sistemas de
codificación del contraste. Por ejemplo, codificación de desviación, también saber tan
contrastes de suma, compara cada nivel contra el global malo. Otro contraste es codificación
polinómica , el cual es apropiado para ordenó factores; ver la sección “Variables de Factor
Ordenado”. Con la excepción de ordenó factores, científicos de dato generalmente no
encuentran cualquier tipo de codificación además codificación de referencia o uno caliente
encoder.
Variables de factor con Muchos Niveles
Algunas variables de factor pueden producir un número enorme de binario
dummies — códigos de cremallera son una variable de factor y hay 43,000
códigos de cremallera en los EE.UU.. En tales casos, es útil de explorar el dato,
y las relaciones entre predictor variables y el resultado, para determinar si la
información útil está contenida en las categorías. Si tan, más allá tienes que
decidir si es útil de retener todos los factores, o si los niveles tendrían que ser
consolidados.
En Condado de Rey, hay 82 códigos de cremallera con una venta de casa:
Mesa(casa$ZipCode)
9800 89118 98001 98002 98003 98004 98005 98006 98007 98008 98010 98011
1 1 358 180 241 293 133 460 112 291 56 163
98014 98019 98022 98023 98024 98027 98028 98029 98030 98031 98032 98033
85 242 188 455 31 366 252 475 263 308 121 517
98034 98038 98039 98040 98042 98043 98045 98047 98050 98051 98052 98053
575 788 47 244 641 1 222 48 7 32 614 499
98055 98056 98057 98058 98059 98065 98068 98070 98072 98074 98075 98077
332 402 4 420 513 430 1 89 245 502 388 204
98092 98102 98103 98105 98106 98107 98108 98109 98112 98113 98115 98116
289 106 671 313 361 296 155 149 357 1 620 364
98117 98118 98119 98122 98125 98126 98133 98136 98144 98146 98148 98155
619 492 260 380 409 473 465 310 332 287 40 358
98166 98168 98177 98178 98188 98198 98199 98224 98288 98354
193 332 216 266 101 225 393 3 4 9
ZipCode Es una variable importante, desde entonces es un proxy para el efecto

de ubicación en el valor de una casa. Incluyendo todos los niveles requiere 81
coeficientes que corresponden a 81 grados de libertad. La casa de modelo
original_lm ha sólo 5 degress de libertad; ve “Evaluar el Modelo”. Además,
varios códigos de cremallera haber sólo una venta. En algunos problemas,
puedes consolidar un código de cremallera que utiliza el primer dos o tres
dígitos, correspondiendo a un submetropolitan región geográfica. Para
Condado de Rey, casi todo de las ventas ocurre en 980xx o 981xx, así que esto
no ayuda .
Una aproximación alternativa es para agrupar los códigos de cremallera según
otra variable, como precio de venta. Incluso mejor es para formar código de
cremallera agrupa utilizar el residuals de un modelo inicial. El siguiente dplyr el
código consolida los 82 códigos de cremallera a cinco grupos basaron en el
median de el residuales de la casa_lm regresión:
Grupos_de cremallera <- casa %>%

Muta(resid = residuals(casa_lm)) %>%
grupo_por(ZipCode) %>%
summarize(med_resid = median(resid),
cnt = n()) %>%
Arregla(med_resid) %>%
muta(cum_cnt = cumsum(cnt),
ZipGroup = ntile(cum_cnt, 5))
casa <- casa %>%
A la izquierda_unir(selecciona(grupos_de cremallera, ZipCode, ZipGroup), por='ZipCode')
El median residual está computado para cada cremallera y el ntile la función

suele partida los códigos de cremallera, ordenados por el median, a cinco
grupos. Ve “Confounding Variables” para un ejemplo de cómo esto está utilizado
como plazo en una regresión que mejora a la acceso original.
El concepto de utilizar el residuals para ayudar guiar la regresión que
cabe es un paso fundamental en el proceso de modeling; ve “Probar las
Suposiciones: Diagnósticos de Regresión”.
Variables de Factor ordenado
Algunas variables de factor reflejan niveles de un factor; estos son denominó
variables de factor ordenado o variables categóricas ordenadas. Por ejemplo,
el grado de préstamo podría ser Un, B, C, y tan en — cada grado lleva más riesgo
que el grado previo. Variables de factor ordenado típicamente pueden ser
convertidas a valores numéricos y utilizados cuando es. Por ejemplo, el variable
BldgGrade es una variable de factor ordenada. Muchos de los tipos de grados
están mostrados en Mesa 4-1. Mientras los grados tienen significado concreto, el
valor numérico está ordenado de bajo a alto, correspondiendo a casas de grado
alto. Con la casa de modelo de la regresión_lm, cabido en “Regresión Lineal
Múltiple”, BldgGrade estuvo tratado como variable numérica.
Mesa 4-1. Un
formato de
dato típico
Descripción de
valor
1 Cabina
2 Substandard
10 Muy bueno
5 Feria
12 Lujo
13 Mansión
Tratando ordenó los factores como variable numérica preserva la información

contenida en el ordenando que sería perdido si esté convertido a un factor.
IDEAS CLAVES
Necesidad de variables del factor para ser convertido a variables numéricas para uso en una
regresión.
El método más común para codificar una variable de factor con P los valores distintos es para
representarles utilizando P-1 dummy variables.
Una variable de factor con muchos niveles, incluso en dato muy grande conjuntos, puede
necesitar ser consolidado a una variable con menos niveles.
Algunos factores tienen nivela aquello está ordenado y puede ser representado como variable
numérica sola.
Interpretando la Ecuación de Regresión
En ciencia de datos, la mayoría de uso importante de regresión es para
pronosticar algunos dependientes (resultado) variable. En algunos casos, aun así,
obteniendo idea de la ecuación él para entender la naturaleza de la relación
entre el predictors y el resultado puede ser de valor. Esta sección proporciona
guiaje encima examinando la ecuación de regresión e interpretándolo .
PLAZOS CLAVES PARA INTERPRETAR LA ECUACIÓN de REGRESIÓN
Variables correlativas
Cuándo el predictor las variables son altamente correlativas, es difícil de interpretar los
coeficientes individuales.
Multicollinearity
Cuándo el predictor las variables tienen perfectas, o cercanos-perfectos, correlación, la
regresión puede ser inestable o imposible de computar..
Synonyms
collinearity
Confounding
Variables
Un importante predictor que, cuándo omitido, ventajas a spurious relaciones en una ecuación de
regresión.
Efectos principales
La relación entre un predictor y la variable de resultado, independiente de otras variables.
Interacciones
Una relación interdependiente entre dos o más predictors y la respuesta.
Correlativo Predictors
En regresión múltiple, el predictor las variables son a menudo correlativas con
cada otro. Cuando un ejemplo, examinar los coeficientes de regresión para el paso
de modelo_lm, cabido en “Selección de Modelo y Stepwise Regresión”:
Paso_lm$coeficientes
6.227632e+06 1.865012e+02
Dormitorios de baños
4.472172e+04 -4.980718e+04
BldgGrade PropertyTypeSingle
Familia 1.391792e+05 2.332869e+04
PropertyTypeTownhouse SqFtFinBasement
9.221625e+04 9.039911e+00
YrBuilt
-3.592468e+03
El coeficiente para Dormitorios es negativo! Esto implica que añadiendo un

dormitorio a una casa reducirá su valor. Cómo puede esto ser? Esto es porque
el predictor las variables son correlativas: las casas más grandes tienden para
tener más dormitorios, y es la medida que valor de casa de los paseos, no el
número de dormitorios. Considera dos casas de la medida misma exacta: es
razonable de esperar que una casa con más, pero más pequeño, los dormitorios
serían considerados menos deseables.
Teniendo correlativo predictors lo puede hacer difícil de interpretar la señal y
valor de coeficientes de regresión (y puede hinchar el error estándar de las
estimaciones). Las variables para dormitorios, medida de casa, y el número de
baños es todo correlativo.
Esto está ilustrado por el ejemplo siguiente, el cual cabe otra regresión que saca
las variables SqFtTotLiving, SqFtFinBasement, y Baños de la ecuación:
Actualización(paso_lm, . ~ . -SqFtTotLiving - SqFtFinBasement -
Baños) Llamada:
lm(Fórmula = AdjSalePrice ~ Dormitorios + BldgGrade +
PropertyType + YrBuilt, casa = de dato0, na.Acción =
na.Omite)
Coeficientes:
(Intercepta) Dormitorios
4834680 27657
BldgGrade PropertyTypeSingle Familia
245709 -17604
PropertyTypeTownhouse YrBuilt
-47477 -3161
La función de actualización puede soler añadir o sacar variables de un modelo.
Ahora el coeficiente para dormitorios es positivo — en línea con qué
esperaríamos (aunque es realmente suplente como proxy para medida de casa,
ahora que aquellas variables han sido sacadas).
Las variables correlativas son sólo una emite con interpretar coeficientes de
regresión. En casa_lm, hay no variable a cuenta para la ubicación de la casa,
y el modelo está mezclando junto tipos muy diferentes de regiones. La
ubicación puede ser un confounding variable; ve “Confounding Variables” para
discusión más lejana.
Multicol inearity
Un caso extremo de variables correlativas produce multicollinearity — una
condición en qué hay redundance entre el predictor variables. Perfecto
multicollinearity ocurre cuándo uno predictor la variable puede ser expresada
como combinación lineal de otros. Multicollinearity Ocurre cuando:
Una variable es tiempo múltiple incluido por error.
P dummies, en vez de P – 1 dummies, está creado de una variable de factor

(ve “Variables de Factor en Regresión”).
Dos variables son casi perfectamente correlativos con uno otro.
Multicollinearity En la regresión tiene que ser dirigió — las variables tendrían que
ser sacadas hasta el multicollinearity está ido. Una regresión no tiene una
solución bien definida en la presencia de perfecto multicollinearity. Muchos
paquetes de software, incluyendo R, automáticamente manejar tipos seguros de
multicolliearity. Por ejemplo, si SqFtTotLiving está incluido dos veces en la
regresión de el dato de casa, los resultados son igual en cuanto a la casa_lm
modelo. En el caso de nonperfect multicollinearity, el software puede obtener
una solución pero los resultados pueden ser inestables.
NOTA
Multicollinearity No es tal problema para nonregression métodos como árboles, clustering, y
más cercanos-vecinos, y en tales métodos pueda ser aconsejable de retener P dummies (en
vez de P – 1). Aquello dijo, incluso en aquellos métodos, nonredundancy en predictor las
variables es todavía una virtud.
Confounding Variables
Con variables correlativas, el problema es uno de comisión: incluyendo
variables diferentes que tiene una relación predictiva similar con la respuesta.
Con confounding variables, el problema es uno de omisión: una variable
importante no es incluida en la ecuación de regresión. Naive La interpretación
de los coeficientes de ecuación puede dirigir a conclusiones nulas.
Toma, por ejemplo, la ecuación de regresión de Condado de Rey casa_lm de
“Ejemplo: Dato de Alojamiento de Condado de King”. Los coeficientes de
regresión de SqFtLot , Baños, y los dormitorios son todo negativos. El modelo
de regresión original no contiene un variable de representar ubicación — un
muy importante predictor de precio de casa. A ubicación de modelo, incluir un
variable ZipGroup que categorizes el código de cremallera a uno de cinco
grupos, de menos caros (1) a más caros (5).5
lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot +

Dormitorios + de baños +
BldgGrade + PropertyType + ZipGroup,
casa=de dato, na.Acción=na.Omite)
Coeficientes:
-6.709e+05 2.112e+02
SqFtLot Baños
4.692e-01 5.537e+03
-4.139e+04 9.893e+04
2.113e+04 -7.741e+04
ZipGroup2 ZipGroup3
5.169e+04 1.142e+05
ZipGroup4 ZipGroup5
1.783e+05 3.391e+05
ZipGroup Es claramente una variable importante: una casa en la cremallera más

cara grupo de código está estimado para tener un precio de ventas más alto por
casi $340,000. Los coeficientes de SqFtLot y los baños son ahora positivos y
añadiendo un baño aumenta el precio de venta por $7,500.
El coeficiente para Dormitorios es todavía negativo. Mientras esto es
unintuitive, esto es un fenómeno bien sabido en inmueble. Para casas de el
mismo livable área y número de baños, habiendo más, y por tanto más
pequeños, los dormitorios está asociado con menos casas valiosas.
Interacciones y Efectos Principales
A Estadísticos les gusta distinguir entre efectos principales, o variables
independientes, y las interacciones entre los efectos principales. Los efectos
principales son qué es a menudo referido a como el predictor variables en
la ecuación de regresión. Una suposición implícita cuándo los efectos
principales únicos están utilizados en un modelo es que la relación entre un
predictor la variable y la respuesta es independientes de el otro predictor
variables. Esto es a menudo no el caso.
Por ejemplo, el modelo cabido a el Dato de Alojamiento de Condado de Rey en
“Confounding las variables” incluye varias variables como efectos principales,
incluyendo ZipCode.
La ubicación en inmueble es todo, y es natural a presume que la relación entre,
dice, medida de casa y el precio de venta depende de ubicación. Una casa grande
construida en un distrito de alquiler bajo no va a retener el mismo valor como
la casa grande construida en una área cara. Incluyes interacciones entre variables
en R utilizando el * operador. Para el dato de Condado del Rey, las acceso
siguientes una interacción entre SqFtTotLiving y ZipGroup :
lm(AdjSalePrice ~ SqFtTotLiving*ZipGroup + SqFtLot +

Dormitorios + de baños + BldgGrade +
PropertyType,
Coeficientes:
-4.919e+05 1.176e+02
ZipGroup2 ZipGroup3
-1.342e+04 2.254e+04
ZipGroup4 ZipGroup5
1.776e+04 -1.555e+05
SqFtLot Baños
7.176e-01 -5.130e+03
-4.181e+04 1.053e+05
1.603e+04 -5.629e+04
SqFtTotLiving:ZipGroup2 SqFtTotLiving:ZipGroup3
3.165e+01 3.893e+01
SqFtTotLiving:ZipGroup4 SqFtTotLiving:ZipGroup5
7.051e+01 2.298e+02
El modelo resultante tiene cuatro plazos nuevos: SqFtTotLiving:ZipGroup2,

SqFtTotLiving:ZipGroup3, y tan encima.
Ubicación y medida de casa aparecen para tener una interacción fuerte. Para una
casa en el más bajo ZipGroup, la pendiente es igual como la pendiente para el
efecto principal
SqFtTotLiving, El cual es $177 por pie cuadrado (esto es porque R codificación
de referencia de los usos para variables de factor; ve “Variables de Factor en
Regresión”). Para una casa en el más alto ZipGroup, la pendiente es la suma de
el efecto principal más SqFtTotLiving:ZipGroup5, o $177 + $230 = $447 por
pie cuadrado. En otras palabras,, añadiendo un pie cuadrado en la cremallera más
cara grupo de código aumenta el precio de venta pronosticado por un factor de
casi 2.7, comparado a el impulso en la cremallera menos cara grupo de código.
SELECCIÓN de MODELO CON PLAZOS de
INTERACCIÓN
En los problemas que implican muchas variables, pueda ser desafiar para decidir qué plazos
de interacción tendrían que ser incluidos en el modelo. Varias aproximaciones diferentes
son generalmente tomadas:
En algunos problemas, intuición y conocimiento previos pueden guiar la elección del cual
plazos de interacción para incluir en el modelo.
Stepwise Selección (ve “Selección de Modelo y Stepwise Regresión”) puede soler

cribar a través de los varios modelos.
La regresión penalizada puede automáticamente cabida a un conjunto grande de
plazos de interacción posible. Quizás la aproximación más común es los modelos de
árbol del uso , así como su descendents,

Gradiente y bosque aleatorios aumentaron árboles. Esta clase de modelos
automáticamente búsquedas
Para optimal plazos de interacción; ve “Modelos de Árbol”.
IDEAS CLAVES
Debido a correlación entre predictors, el cuidado tiene que ser tomado en la interpretación de
los coeficientes en regresión lineal múltiple.
Multicollinearity Puede causar numérico instability en caber la ecuación de regresión.
Un confounding la variable es un importante predictor aquello está omitido de un modelo y

puede dirigir a una ecuación de regresión con spurious relaciones.
Un plazo de interacción entre dos variables está necesitado si la relación entre las variables y la
respuesta es interdependientes.
Probando las Suposiciones: Diagnósticos de Regresión
En modeling explicativo (i.e., en un contexto de búsqueda), varios pasos, además
de el metrics mencionó anteriormente (ve “Evaluar el Modelo”), está tomado
para evaluar qué bien el modelo cabe el dato. La mayoría está basado encima
análisis de el residuals, los cuales pueden probar las suposiciones subyacentes
el modelo. Estos pasos no directamente dirigen exactitud predictiva, pero
pueden proporcionar idea útil en un encuadre predictivo.
PLAZOS CLAVES PARA DIAGNÓSTICOS de REGRESIÓN
Estandarizado residuals
Residuals Dividió por el error estándar del residuals.
Outliers
Registros (o valores de resultado) aquello dista del resto del dato (o el resultado pronosticado).
Valor influyente
Un valor o récord cuya presencia o la ausencia hace una diferencia grande en la ecuación de
regresión.
Apalancamiento
El grado de influir que un registro solo tiene en una ecuación de regresión.
Synonyms
Sombrero-valor
No-normal residuals
No-normalmente distribuido residuals puede invalidar algunos requisitos técnicos de regresión,
pero es normalmente no una preocupación en ciencia de datos.
Heteroskedasticity
Cuando algunas gamas de la experiencia de resultado residuals con varianza más alta (puede indicar
un predictor perdiendo de la ecuación).
Parcelas residuales parciales

Una parcela de diagnóstico a illuminate la relación entre la variable de resultado y un solo predictor.
Synonyms
Añadió parcela de variables
Outliers
En general, un valor extremo, también llamó un outlier, es uno aquello dista de
la mayoría de las otras observaciones. Tan outliers necesidad de ser manejada
para estimaciones de ubicación y variabilidad (ve “Estimaciones de Ubicación”
y “Estimaciones de Variabilidad” ), outliers puede causar problemas con
modelos de regresión. En regresión, un outlier es un récord cuyo real y el valor
dista de el valor pronosticado. Puedes detectar outliers por examinar el
estandarizado residual, el cual es el residual dividido por el error estándar de
el residuals.
hay no teoría estadística que separa outliers de nonoutliers. Bastante, hay
(arbitrario) reglas de pulgar para cómo distante de el bulk del dato unas
necesidades de observación para ser para apellidarse un outlier. Por ejemplo,
con el boxplot, outliers es aquel dato señala que aquello es demasiado lejos
encima o bajo las fronteras de caja (ve “Percentiles y Boxplots” ), donde
“también lejos” = “más de 1.5 tiempo el inter-quartile gama.” En regresión, el
estandarizado residual es el métrico aquello es típicamente utilizado para
determinar si un registro está clasificado como un outlier. Estandarizado
residuals puede ser interpretado como “el número de errores estándares fuera de
la línea de regresión.”
Dejado está cabido una regresión a las ventas de casa de Condado de Rey dato
para todas las ventas en código de cremallera 98105:
Casa_98105 <- casa[casa$ZipCode == 98105,]

lm_98105 <- lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Dormitorios
+ de Baños + BldgGrade, casa=de dato_98105)
Extraemos el estandarizados residuals utilizando el rstandard función y obtener

el índice de el más pequeño residual utilizando la función de orden:
sresid <- rstandard(lm_98105)

idx <- orden(sresid)
sresid[idx[1]]
20431
-4.326732
El más grande overestimate de el modelo es más de cuatro errores estándares

por encima de la línea de regresión, correspondiendo a un overestimate de
$757,753. El dato original graba corresponder a este outlier es como sigue:.
Casa_98105[idx[1], c('AdjSalePrice', esqFtTotLiving',
esqFtLot', 'Baños', 'Dormitorios', 'BldgGrade')]
AdjSalePrice SqFtTotLiving SqFtLot Dormitorios de baños BldgGrade

(dbl) (int) (int) (dbl) (int) (int)
1 119748 2900 7276 3 6 7
En este caso, aparece que hay algo incorrecto con el registro: una casa de
aquella medida típicamente vende para mucho más que $119,748 en aquel
código de cremallera. Figura 4-4 espectáculos un excerpt de el statuatory
acción de esta venta: es claro que la venta implicó sólo interés parcial en la
propiedad. En este caso, el outlier corresonds a una venta que es anómalo y no
tendría que ser incluido en la regresión. Outliers También podría ser el
resultado de otros problemas, como una “entrada de dato” de dedo gordo o un
mismatch de unidades (p. ej., informando una venta en miles de dólares versus
sencillamente dólares).
Figura 4-4. Estatutario warrant de acción para el más grande negativo residual
Para problemas de dato grande, outliers es generalmente no un problema en

caber la regresión para ser utilizada en pronosticar dato nuevo. Aun así,
outliers es central a detección de anomalía, donde hallazgo outliers es el punto
entero. El outlier también podría corresponder a un caso de fraude o una
acción accidental. De todas formas, detectando outliers puede ser una
necesidad empresarial crítica.
Valores influyentes
Un valor cuya ausencia significativamente cambiaría la ecuación de regresión
está denominada un infuential observación. En regresión, tal valor necesita no
ser asociado con un grande residual. Cuando un ejemplo, considerar las líneas
de regresión en Figura 4-5. La línea sólida corresponde a la regresión con
todo el dato, mientras el dashed línea corresonds a la regresión con el punto
en el superior-correcto sacó. Claramente, aquel valor de dato tiene una
influencia enorme en la regresión incluso aunque no es asociado con un grande
outlier (de la regresión llena). Este valor de dato está considerado para tener
apalancamiento alto en la regresión.
Además de estandarizado residuals (ve “Outliers”), los estadísticos han
desarrollado varios metrics para determinar la influencia de un registro solo en
una regresión. Una medida común de apalancamiento es el sombrero-valor;
valores encima Indicar un valor de dato de apalancamiento
alto.6
Figura 4-5. Un ejemplo de un punto de dato influyente en regresión
Otro métrico es la distancia del cocinero, el cual define influencia como

combinación de apalancamiento y medida residual. Una regla de pulgar es que
una observación ha alto influir si la distancia del cocinero supera
.
Una parcela de influencia o parcela de burbuja combina estandarizadas
residuals, el sombrero-valor, y la distancia del cocinero en una parcela sola.
Figura 4-6 espectáculos la parcela de influencia para el dato de casa de Condado
de Rey, y puede ser creado por el siguiente R código.
std_resid <- rstandard(lm_98105)
cocina_D <-
cocineros.Distancia(lm_98105)
valores_de sombrero <-
hatvalues(lm_98105)
Parcela(valores_de sombrero, std_resid,
cex=10*sqrt(cocineros_D)) abline(h=c(-2.5, 2.5),
lty=2)
hay aparentemente varios dato señala que exposición influencia grande en la

regresión. La distancia del cocinero puede ser computada utilizando los cocineros de
función.Distancia, y puedes utilizar hatvalues para computar los
diagnósticos. Los valores de sombrero son plotted en el x-axiales, el residuals es
plotted en el y-axial, y la medida de los puntos está relacionada a el valor de
la distancia del cocinero.
Figura 4-6. Una parcela para determinar qué observaciones haber alto influencia
Mesa 4-2 compara la regresión con el conjunto de dato lleno y con altamente
puntos de dato influyente sacaron. El coeficiente de regresión para Baños cambia
bastante dramáticamente.7
Mesa 4-2. Comparación de

coeficientes de regresión con el
dato lleno y con el dato influyente
sacó
Original Influyente sacó
(Intercepta) –772550 –647137
SqFtTotLiving 210 230
SqFtLot 39 33
Baños 2282 –16132
Dormitorios –26320 –22888
BldgGrade 130000 114871
Para propósitos de caber una regresión que reliably pronostica dato futuro,
identificando las observaciones influyentes es sólo útiles en conjuntos de dato
más pequeño. Para las regresiones que implican muchos registros,
probablemente no puede que cualquiera la observación llevará peso suficiente
para causar influencia extrema en la ecuación cabida (a pesar de que la regresión
todavía puede tener grande outliers). Para propósitos de detección de anomalía,
aun así, identificando las observaciones influyentes pueden ser muy útiles.
Heteroskedasticity, No-Normalidad y Errores Correlativos
Los estadísticos pagan atención considerable a la distribución de el residuals.
Resulta que normal menos plazas (ve “Menos Plazas”) es unbiased, y en
algunos casos el “optimal” estimador, bajo una gama ancha de suposiciones
distribucionales. Esto significa que en más problemas, científicos de dato no
necesitan para ser demasiado preocupados con la distribución de el residuals.
La distribución de el residuals es pertinente principalmente para la validez de
inferencia estadística formal (pruebas de hipótesis y p-valores), el cual es de la
importancia mínima a científicas de dato se preocupó principalmente con exactitud
predictiva. Para inferencia formal para ser plenamente válido, el residuals está
supuesto para ser normalmente distribuido, tiene la misma varianza, y ser
independiente. Una área donde esto puede ser de preocuparse a científicos de dato
es el cálculo estándar de intervalos de confianza para pronosticó valores, los
cuales están basados a las suposiciones sobre el residuals (ve “Confianza e
Intervalos de Predicción”).
Heteroskedasticity Es la carencia de varianza residual constante a través de la
gama de el pronosticó valores. En otras palabras,, los errores son más grandes
para algunas porciones de la gama que para otros. El ggplot2 paquete tiene
algunos herramientas convenientes para analizar residuals.
Las parcelas de código siguientes el absolutos residuals versus el pronosticó
valores para el lm_98105 regresión cabida en “Outliers”.
df <- Datos.Marco(
resid = residuals(lm_98105),
pred =
pronosticar(lm_98105))
ggplot(df, aes(pred, abs(resid))) +
geom_punto() +
geom_Liso()
Figura 4-7 espectáculos la parcela resultante. Utilizando geom_liso, es fácil a

superpose un liso de el absoluto residuals. La función llama el loess método
para producir un visual liso de estimar la relación entre las variables en el x-
axiales y y-axiales en un scatterplot (ve Scatterplot Smoothers).
Figura 4-7. Una parcela del valor absoluto del residuals versus el pronosticó valores
Evidentemente, la varianza de el residuals tiende para aumentar para más alto-

valoró casas, pero es también grande para más bajo-valoró casas. Esta parcela
indica que lm_98105 tiene heteroskedastic errores.
POR QUÉ Un CUIDADO de CIENTÍFICO del DATO
SOBRE HETEROSKEDASTICITY?
Heteroskedasticity Indica que errores de predicción difieren para gamas diferentes del valor
pronosticado, y puede sugerir un modelo incompleto. Por ejemplo, el heteroskedasticity en
lm_98105 puede indicar que la regresión ha dejado algo unaccounted para en alto- y abajo-
casas de gama.
Figura 4-8 es un histograma de el standarized residuals para el lm_98105

regresión. La distribución ha decidely colas más largas que la distribución normal,
y exhibe suave skewness hacia más grande residuals.
Figura 4-8. Un histograma del residuals de la regresión del dato de alojamiento
Los estadísticos también pueden comprobar la suposición que los errores son
independientes. Esto es particularmente cierto para datos que está recogido con
el tiempo. El Durbin-Watson statistic puede soler detectar si hay significativo
autocorrelation en una regresión que implica dato de serie del tiempo.
Incluso aunque una regresión puede violar uno de las suposiciones
distribucionales, tener que nos preocupamos? Más a menudo en ciencia de datos,
el interés es principalmente en predictivo
Exactitud, así que alguna revisión de heteroskedasticity puede ser en orden.
Puedes descubrir que hay alguna señal en el dato que vuestro modelo no ha
capturado. Satisfaciendo suposiciones distribucionales sencillamente por el bien
de validar inferencia estadística formal (p-valores, F-estadísticas, etc.), aun así,
no es que importante para el científico de dato.
SCATTERPLOT SMOOTHERS
La regresión es aproximadamente modeling la relación entre la respuesta y predictor
variables. En evaluar un modelo de regresión, es útil de utilizar un scatterplot más liso a
visually relaciones de punto destacado entre dos variables.
Por ejemplo, en Figura 4-7, un liso de la relación entre el absoluto residuals y el valor
pronosticado muestra que la varianza del residuals depende de el valor del residual. En este caso,
el loess la función estuvo utilizada; loess trabajos por repetidamente cabiendo una serie de
regresiones locales a subconjuntos contiguos para venir arriba con un liso. Mientras loess es
probablemente el más generalmente utilizado más liso, otro scatterplot smoothers es disponible en
R, como super liso (supsmu) y kernal suavizando (ksmooth). Para los propósitos de evaluar un
modelo de regresión, hay típicamente ninguna necesidad de preocuparse sobre los detalles de
estos scatterplot suaviza.
Parcelas Residuales parciales y Nonlinearity
Las parcelas residuales parciales son una manera de visualizar qué bien la
acceso estimada explica la relación entre un predictor y el resultado. Junto con
detección de outliers, esto es probablemente el diagnóstico más importante para
científicos de datos. La idea básica de una parcela residual parcial es para
aislar la relación entre un predictor variable y la respuesta, teniendo en cuenta
todo del otro predictor variables. Un parcial residual podría ser pensado de
como “valor de resultado” sintético, combinando la predicción basada en un solo
predictor con el real residual de la ecuación de regresión llena. Un parcial
residual para predictor Es el normal residual más el plazo de regresión
asociado con :
Dónde Es el coeficiente de regresión estimado. El pronosticar función en R

tiene una opción para regresar los plazos de regresión individuales :
Plazos <- pronosticar(lm_98105, tipo='plazos')

parciales_resid <- resid(lm_98105) + plazos
La parcela residual parcial muestra el En el x-axial y el parcial residuals en

el y-axial. Utilizando ggplot2 lo hace fácil a superpose un liso de el parcial
residuals.
df <- Datos.Marco(SqFtTotLiving = casa_98105[,

esqFtTotLiving'], plazos = de Plazos[,
esqFtTotLiving'],
PartialResid = Parcial_resid[,
esqFtTotLiving']) ggplot(df, aes(SqFtTotLiving, PartialResid)) +
geom_Punto(forma=1) + forma_de escala(sólido =
FALSO) + geom_liso(linetype=2) +
geom_línea(aes(SqFtTotLiving, Plazos))
La parcela resultante está mostrada en Figura 4-9. El parcial residual es una

estimación de la contribución que SqFtTotLiving añade a el precio de
ventas. La relación entre SqFtTotLiving y el precio de ventas es
evidentemente nonlinear. La línea de regresión underestimates el precio de ventas
para casas menos de 1,000 pies cuadrados y overestimates el precio para casas
entre 2,000 y 3,000 pies cuadrados.
hay demasiado pocos puntos de dato encima 4,000 pies cuadrados para dibujar
conclusiones para aquellas casas.
Figura 4-9. Una parcela residual parcial para el variable SqFtTotLiving
Este nonlinearity las marcas notan en este caso: añadiendo 500 pies en una casa
pequeña hace una mucha diferencia más grande que añadiendo 500 pies en una
casa grande. Esto sugiere que, en vez de un plazo lineal sencillo para
SqFtTotLiving, un nonlinear el plazo tendría que ser considerado (ve
“Polinómico y Spline Regresión”).
IDEAS CLAVES
Mientras outliers puede causar problemas para conjuntos de dato pequeño, el interés primario con
outliers es para identificar
Problemas con el dato, o localizar anomalías.
Registros solos (incluyendo regresión outliers) puede tener una influencia grande en una ecuación de
regresión con dato pequeño, pero estos lavados de efecto fuera en dato grande.
Si el modelo de regresión está utilizado para inferencia formal (p-valores y el gustar), entonces
suposiciones seguras sobre la distribución del residuals tendría que ser comprobado. En general,
aun así, la distribución de residuals no es crítico en ciencia de datos.
El parcial residuals la parcela puede soler qualitatively evaluar la acceso para cada plazo
de regresión, posiblemente dirigiendo a especificación de modelo alternativo.
Polinómico y Spline Regresión
La relación entre la respuesta y un predictor la variable no es necesariamente
lineal. La respuesta a la dosis de un fármaco es a menudo nonlinear: plegando la
dosificación generalmente no dirige a una respuesta plegada. La demanda para un
producto no es una función lineal de dólares de marketing gastó desde entonces,
en algún punto, la demanda probablemente puede ser saturada. Hay varias
maneras que la regresión puede ser extendida para capturar estos nonlinear
efectos.
PLAZOS CLAVES PARA NONLINEAR REGRESIÓN
Regresión polinómica
Añade plazos polinómicos (plazas, cubos, etc.) a una regresión.
Spline Regresión
Cabiendo una curva lisa con una serie de segmentos polinómicos.
Nudos
Valores que separados spline segmentos.
Modelos aditivos generalizados

Spline Modelos con selección automatizada de nudos.
Synonyms
GAM
NONLINEAR REGRESIÓN
Cuándo charla de estadísticos sobre nonlinear regresión, están refiriendo a modelos que no
puede ser cabido utilizando menos plazas. Qué clase de modelos es nonlinear? Esencialmente
todos los modelos donde la respuesta no puede ser expresada como combinación lineal del
predictors o algunos transforman del predictors. Nonlinear Modelos de regresión son más
duros y computacionalmente más intensivos de caber, desde entonces requieren optimización
numérica. Por esta razón, es generalmente preferido para utilizar un modelo lineal si es posible..
Polinómico
La regresión polinómica implica incluir plazos polinómicos a una ecuación de
regresión. El uso de fechas de regresión polinómica atrás casi a el desarrollo de
regresión él con un papel por Gergonne en 1815. Por ejemplo, una regresión
cuadrática entre la respuesta Y y el predictor X tomaría la forma:
La regresión polinómica puede ser cabida en R a través del poly función. Por
ejemplo, las acceso siguientes un polinomio cuadrático para SqFtTotLiving con
el dato de alojamiento de Condado de Rey:
lm(AdjSalePrice ~ poly(SqFtTotLiving, 2) + SqFtLot +

BldgGrade + Dormitorios + de baños, casa=de
dato_98105)
Llamada:
lm(Fórmula = AdjSalePrice ~ poly(SqFtTotLiving, 2) + SqFtLot +
BldgGrade + Dormitorios + de Baños, casa = de dato_98105)
Coeficientes:
(Intercepta) poly(SqFtTotLiving, 2)1
-402530.47 3271519.49
poly(SqFtTotLiving, 2)2 SqFtLot
776934.02 32.56
BldgGrade Baños
135717.06 -1435.12
Dormitorios
-9191.94
hay ahora dos coeficientes asociaron con SqFtTotLiving : uno para el plazo
lineal y uno para el plazo cuadrático.
La parcela residual parcial (ve “Parcelas Residuales Parciales y Nonlinearity” )
indica alguna curvatura en la ecuación de regresión asociada con SqFtTotLiving
. La línea cabida más estrechamente empareja el liso (ve “Splines”) de el parcial
residuals cuando comparado a una acceso lineal (ve Figura 4-10).
Figura 4-10. Una regresión polinómica cabida para el variable SqFtTotLiving (línea sólida) versus un
liso (dashed línea; ver la sección siguiente sobre splines)
Splines
La regresión polinómica sólo captura una cantidad segura de curvatura en un
nonlinear relación. Añadiendo en plazos de orden alto, como un polinomio
cuártica cúbico, a menudo dirige a indeseable “wiggliness” en la ecuación de
regresión. Una alternativa, y a menudo superior, aproximación a modeling
nonlinear las relaciones es para utilizar splines. Splines Proporciona una manera
a smoothly interpolate entre puntos fijos. Splines Era originalmente utilizado por
draftsmen para dibujar una curva lisa, particularmente en barco y edificio de
aeronave.
El splines estuvo creado por doblar una pieza delgada de la madera que utiliza
pesos, referidos a tan “patos”; ve Figura 4-11.
Figura 4-11. Splines Era originalmente creó utilizar bendable madera y “patos,” y estuvo utilizado
como draftsman herramienta para caber curvas. Cortesía de foto Bob Perry.
La definición técnica de un spline es una serie de piecewise polinomios

continuos. Eran primero desarrollados durante Segunda Guerra mundial en los
EE.UU. Aberdeen Probando Tierras por yo. J. Schoenberg, un matemático de
rumano. Las piezas polinómicas son smoothly conectados en una serie de
puntos fijos en un predictor variable, referido a tan nudos. Formulación de
splines es mucho más complicado que regresión polinómica; el software
estadístico normalmente maneja los detalles de caber un spline. El R paquete
splines incluye la función bs para crear un b-spline plazo en un modelo de
regresión. Por ejemplo, el siguiente añade un b-spline plazo a el modelo de
regresión de la casa:
Biblioteca(splines)
Nudos <- quantile(casa_98105$SqFtTotLiving, p=c(.25, .5, .75)) lm_spline
<- lm(AdjSalePrice ~ bs(SqFtTotLiving, nudos=de nudos, grado=3) +
SqFtLot + Dormitorios + de baños + BldgGrade, casa=de dato_98105)
Dos necesidad de parámetros para ser especificado: el grado de el polinómico y

la ubicación de los nudos. En este caso, el predictor SqFtTotLiving está
incluido en el modelo que utiliza un cúbico spline (grado=3). Por default, bs
coloca nudos en las fronteras; además, los nudos eran también colocados en el
más bajos quartile, el median quartile, y el superiores quartile.
En contraste a un plazo lineal, para qué el coeficiente tiene un significado directo,
los coeficientes para un spline el plazo no es interpretable. En cambio, es más útil
de utilizar la exhibición visual para revelar la naturaleza de el spline acceso.
Figura 4-12 exhibiciones la parcela residual parcial de la regresión. En contraste
a el modelo polinómico, el spline modelo más estrechamente empareja el liso,
demostrando la flexibilidad más grande de splines. En este caso, la línea más
estrechamente cabe el dato. Hace este malo el spline la regresión es un modelo
mejor ? No necesariamente: no hace sentido económico que casas muy
pequeñas (menos de 1,000 pies cuadrados) tendría valor más alto que
ligeramente casas más grandes. Esto es posiblemente un artefacto de un
confounding variable; ve “Confounding Variables”.
Figura 4-12. Un spline la regresión cabida para el variable SqFtTotLiving (línea sólida) comparó a un
liso (dashed línea)
Modelos Aditivos generalizados
Supone sospechas un nonlinear relación entre la respuesta y un predictor
variable, cualquiera por a priori conocimiento o por examinar los diagnósticos
de regresión. Los plazos polinómicos pueden no bastante flexibles para capturar la
relación, y spline los plazos requieren especificar los nudos. Modelos aditivos
generalizados, o GAM , es una técnica a automáticamente cabido un spline
regresión. El gam paquete en R puede soler cabido un GAM modelo a el dato
de alojamiento:
Biblioteca(mgcv)
lm_gam <- gam(AdjSalePrice ~ s(SqFtTotLiving) + SqFtLot +
Dormitorios + de baños + BldgGrade, casa=de
dato_98105)
El plazo s(SqFtTotLiving) dice el gam función para encontrar los “nudos”

mejores para un spline plazo (ve Figura 4-13).
Figura 4-13. Un GAM la regresión cabida para el variable SqFtTotLiving (línea sólida) comparó a un
liso (dashed línea)
IDEAS CLAVES
Outliers En una regresión es registros con un grande residual.
Multicollinearity Puede causar numérico instability en caber la ecuación de regresión.
Un confounding la variable es un importante predictor aquello está omitido de un modelo y

puede dirigir a una ecuación de regresión con spurious relaciones.
Un plazo de interacción entre dos variables está necesitado si el efecto de uno variable depende
de el
Nivel del otro.
La regresión polinómica puede caber nonlinear relaciones entre predictors y la variable de
resultado. Splines Es serie de segmentos polinómicos strung juntos, uniendo en nudos.
Modelos aditivos generalizados (GAM) automatiza el proceso de especificar los nudos en

splines.
Lectura más lejana
Para más en spline modelos y GAMS, ver Los Elementos de Aprendizaje
Estadístico por Trevor Hastie, Robert Tibshirani, y Jerome Friedman, y su primo
más corto basado en R, Una Introducción a Aprendizaje Estadístico por Gareth
James, Daniela Witten, Trevor Hastie, y Robert Tibshirani; ambos son libros de
Salmer .
Resumen
Quizás ningún otro método estadístico ha visto uso más grande sobre los años que
regresión — el proceso de establecer una relación entre múltiple predictor
variables y una variable de resultado. La forma fundamental es lineal: cada
predictor la variable tiene un coeficiente que describe una relación lineal entre el
predictor y el resultado. Más adelantó formas de regresión, como polinómico y
spline regresión, permiso la relación para ser nonlinear. En estadística clásica, el
énfasis encima está encontrando una acceso buena a el dato observado para
explicar o describir algún fenómeno, y la fuerza de esta acceso es qué
tradicional (“en-muestra”) metrics suele evaluar el modelo. En ciencia de datos,
por contraste, el objetivo es típicamente para pronosticar valores para dato nuevo,
tan metrics basado en exactitud predictiva para fuera-de-dato de muestra está
utilizado. Métodos de selección variable suelen reducir dimensionality y crear
modelos más compactos.
1 Esto y secciones subsiguientes en este capítulo © 2017 Datastats, LLC, Peter Bruce y Andrew
Bruce, utilizado por permiso.
2 En estadística bayesiana, el valor cierto está supuesto para ser una variable aleatoria con una distribución
especificada. En el contexto bayesiano, en vez de estimaciones de parámetros desconocidos, hay
distribuciones posteriores y previas..
3 El -1 argumento en el modelo.Matricial produce uno caliente codificando representación (por
sacar el interceptar, por ello el “-”). Otherwise, el default en R es para producir una matriz con P – 1
columnas con el primer nivel de factor como referencia.
4 Esto es unintuitive, pero puede ser explicado por el impacto de ubicación como confounding
variable; ve “Confounding Variables”.
5 Hay 82 códigos de cremallera en Condado de Rey, muchos con justos un handful de ventas. Un
alternativo a directamente utilizando código de cremallera como variable de factor, ZipGroup grupos
códigos de cremallera similar a un grupo solo. Ve “Variables de Factor con Muchos Niveles” para detalles.
6 El sombrero de plazo-el valor proviene la idea de la matriz de sombrero en regresión. La regresión
lineal múltiple puede ser expresada por la fórmula Dónde es la matriz de sombrero. El
sombrero-los valores corresponden a la diagonal de .
7 El coeficiente para Baños deviene negativo, el cual es unintuitive. La ubicación no ha sido tenida en
cuenta y el código de cremallera 98105 contiene áreas de disparate tipos de casas. Ve “Confounding
Variables” para una discusión de confounding variables.
Capítulo 5. Clasificación
Científicos de dato son a menudo afrontados con un problema que requiere una
decisión automatizada. Es un email un intento en phishing? Es un cliente
probablemente para agitar? Es el usuario de web probablemente a clic en un
anuncio? Estos son todos problemas de clasificación .
La clasificación es quizás la forma más importante de predicción: el
objetivo es para pronosticar si un registro es un 0 o un 1 (phishing/no-
phishing, clic/ no clic, la mantequera/no agita ), o en algunos casos, uno de
varias categorías (por ejemplo, Gmail está filtrando de vuestra bandeja de
entrada a “primario,” “social,” “promocional,” o “foros”)..
A menudo, necesitamos más de una clasificación binaria sencilla: queremos
saber la probabilidad pronosticada que un caso pertenece a una clase.
Más que habiendo un modelo sencillamente asigna una clasificación binaria, más
los algoritmos pueden regresar una puntuación de probabilidad (propensión) de
pertenecer a la clase de interés. De hecho, con logistic regresión, el default
producción de R es en el registro-odds escala, y esto tiene que ser transformado
a una propensión. Un corredero cutoff entonces puede soler convertir la
puntuación de propensión a una decisión. La aproximación general es como
sigue:.
1. Establecer un cutoff probabilidad para la clase de interesar encima
cuál consideramos un récord cuando perteneciendo a aquella clase.
2. Estimación (con cualquier modelo) la probabilidad que un registro

pertenece a la clase de interés..
3. Si aquella probabilidad es por encima del cutoff probabilidad, asignar

el registro nuevo a la clase de interés..
El más alto el cutoff, los menos registros pronosticaron cuando 1 — aquello es,
perteneciendo a la clase de interés. El más bajo el cutoff, el más los registros
pronosticaron cuando 1.
Este capítulo cubre varias técnicas claves para clasificación y estimando
propensiones; métodos adicionales que puede ser utilizado ambos para la
clasificación y la predicción numérica están descritas en el capítulo
próximo.
MÁS DE DOS CATEGORÍAS?
La mayoría vasta de problemas implica una respuesta binaria. Algunos problemas de clasificación, aun
así, implicar una respuesta con más de dos resultados posibles. Por ejemplo, en el aniversario del
contrato de suscripción de un cliente, podría haber tres resultados: las hojas de cliente, o
“mantequeras” (Y=2), continúa en un mes-a-mes (Y=1) contrato, o firma un contrato de plazo largo
nuevo (Y=0). El objetivo es para pronosticar Y = j para j = 0, 1 o 2. La mayoría de los métodos de
clasificación en este capítulo pueden ser aplicados, tampoco directamente o con adaptaciones modestas,
a respuestas que tiene más de dos resultados. Incluso en el caso de más de dos resultados, el
problema a menudo puede ser recast a una serie de los problemas binarios que utilizan probabilidades
condicionales. Por ejemplo, para pronosticar el resultado del contrato, puedes solucionar dos predicción
binaria problemas:
Pronosticar si Y = 0 o Y > 0.
Dado que Y > 0, pronosticar si Y = 1 o Y = 2.
En este caso, hace sentido para romper arriba de el problema a dos casos: si las mantequeras de
cliente, y si no agitan , qué tipo de contrae escogerán . De un punto de vista que cabe modelo, es a
menudo ventajoso de convertir el multiclass problema a una serie de problemas binarios. Esto es
particularmente cierto cuándo una categoría es mucho más común que las otras categorías.
Naive Bayes
El naive Bayes el algoritmo utiliza la probabilidad de observar predictor valores,
dados un resultado, para estimar la probabilidad de observar resultado Y = i, dado
un conjunto de predictor valores.1
PLAZOS CLAVES PARA NAIVE B AYES
Probabilidad condicional
La probabilidad de observar algún acontecimiento (dice X = i) dado algunos otro acontecimiento
(dice Y = i), escrito cuando
.
Probabilidad posterior
La probabilidad de un resultado después del predictor la información ha sido incorporada (en
contraste a la probabilidad previa de resultados, no tomando predictor información a cuenta)..
Para entender clasificación bayesiana, podemos empezar fuera por imaginar “no-
naive” clasificación bayesiana. Para cada récord de ser clasificado:
1. Encontrar todo los otros registros con el mismo predictor perfil (i.e.,
donde el predictor los valores son el mismo)..
2. Determinar lo que clases aquellos registros pertenecen a y qué clase es

la mayoría de prevalent (i.e., probable).
3. Asigna que clase a el registro nuevo.
La aproximación de preceder cantidades a encontrar todos los registros en la

muestra que es exactamente como el registro nuevo de ser clasificado en el
sentido que todo el predictor los valores son idénticos.
NOTA
Predictor Las variables tienen que ser categóricas (factor) variables en el estándar naive Bayes
algoritmo. Ve “Numérico Predictor Variables” para dos workarounds para utilizar variables
continuas.
Por qué la clasificación bayesiana Exacta Es Poco práctica
Cuándo el número de predictor las variables supera un handful, muchos de los
registros de ser clasificados será sin partidos exactos. Esto puede ser entendido
en el contexto de un modelo para pronosticar que vota en la base de variables
demográficas. Incluso un sizable la muestra no puede contener incluso un
partido solo para un nuevo récord quién es un hispano macho con ingresos
altos de los EE.UU. Midwest quién votó en la última elección, no votó en la
elección previa, tiene tres hijas y un hijo, y está divorciado. Y esto es justo
ocho variables, un número pequeño para la mayoría de problemas de
clasificación. La adición de justo una variable nueva sola con cinco categorías
igualmente frecuentes reduce la probabilidad de un partido por un factor de 5..
AVISO
A pesar de su nombre, naive Bayes no es considerado un método de estadística bayesiana.
Naive Bayes Es un dato–método conducido , empírico que requiere relativamente poca pericia
estadística. El nombre proviene el Bayes cálculo estilo regla en formar las predicciones —
específicamente el cálculo inicial de predictor probabilidades de valor dadas un resultado, y
entonces el cálculo final de probabilidades de resultado.
El Naive Solución
En el naive Bayes solución, ya no restringimos el cálculo de probabilidad a
aquellos graba que partido el récord de ser clasificado. En cambio, utilizamos el
conjunto de dato entero. El naive Bayes la modificación es como sigue:.
1. Para una respuesta binaria Y = i (i = 0 o 1), estimación las
probabilidades condicionales individuales para cada predictor
; Estos son las probabilidades que el predictor el
valor es en el registro cuándo observamos Y = i. Esta probabilidad
está estimada por la proporción de X j valores entre el Y = i
registros en el conjunto de formación.
2. Multiplicar estas probabilidades por cada otro, y entonces por la

proporción de los registros que pertenecen a Y = i.
3. Repite pasos 1 y 2 para todas las clases.
4. Estimación una probabilidad para resultado i por tomar el valor

calculado en paso 2 para clase i y dividiendo él por la suma de tales
valores para todas las clases.
5. Asignar el récord a la clase con la probabilidad más alta para este

conjunto de predictor valores.
Este naive Bayes el algoritmo también puede ser declarado como una ecuación
para la probabilidad de observar resultado Y = i, dado un conjunto de predictor
valores :
El valor de Es un scaling factor para asegurar la

probabilidad es entre 0 y 1 y no depende de Y:
Por qué es esta fórmula llamó “naive”? Hemos hecho una suposición de
simplificar que la probabilidad condicional exacta de un vector de predictor
valores, dados observando un resultado, es suficientemente bien estimado por el
producto de las probabilidades condicionales individuales . En
otras palabras,, en estimar
En vez de. , estamos suponiendo
Es independiente de todo el otro predictor variables Para .

Varios paquetes en R puede soler estimar un naive Bayes modelo. Las
acceso siguientes un modelo que utiliza el klaR paquete:
Biblioteca(klaR)
naive_Modelo <- NaiveBayes(casa ~ de propósito_ + del resultado_ + emp_len_,
Dato = na.Omite(dato_de préstamo))
naive_Modelo$mesa
$Propósito_
var
Agrupando consolidación_de deuda de tarjeta_de crédito mejora_de casa la
compra_importante pagó fuera 0.1857711 0.5523427
0.07153354 0.05541148
default 0.1517548 0.5777144 0.05956086 0.03708506
var
Agrupando médico otro negocio_pequeño
pagó fuera 0.01236169 0.09958506 0.02299447
default 0.01434993 0.11415111 0.04538382
$Casa_
var
Agrupando HIPOTECA el ALQUILER
PROPIO pagó fuera 0.4966286
0.08043741 0.4229340
default 0.4327455 0.08363589 0.4836186
$emp_len_
var
Agrupación > 1 Año < 1 Año
pagó fuera 0.9690526
0.03094744
default 0.9523686 0.04763140
La producción de el modelo es las probabilidades condicionales .

El modelo puede soler pronosticar el resultado de un préstamo nuevo:
Préstamo_nuevo
Casa_ de propósito_ emp_len_
1 HIPOTECA_empresarial pequeña > 1 Año
En este caso, el modelo pronostica un default:
Pronostica(naive_modelo, préstamo_nuevo)
$Clase
[1] default
Niveles: pagado de default
$Posterior
Pagado de default
[1,]
0.3717206 0.6282794
La predicción también regresa una estimación posterior de la probabilidad de
default..
El naive bayesiano classifier es sabido al producto predispuso estimaciones. Aun
así, donde el objetivo es a registros de rango según la probabilidad que Y = 1,
unbiased estimaciones de la probabilidad no es necesitada y naive Bayes produce
resultados buenos.
Numérico Predictor Variables
De la definición, vemos que el bayesianos classifier trabajos sólo con
categóricos predictors (p. ej., con spam clasificación, donde presencia o
ausencia de palabras, frases, caracteres, y tan encima, mentiras en el fondo de
la tarea predictiva). Para aplicar naive Bayes a numérico predictors, uno de dos
aproximaciones tiene que ser tomado:
Cubo y convertir el numérico predictors a categórico predictors y aplicar el
algoritmo de la sección anterior.
Uso un modelo de probabilidad — por ejemplo, la distribución

normal (ve “Distribución Normal”) — para estimar la probabilidad
condicional
.
AMONESTACIÓN
Cuándo un predictor la categoría es ausente en el dato de formación, el algoritmo asigna cero
probabilidad a la variable de resultado en dato nuevo, más que sencillamente ignorando este
variable y utilizando la información de otras variables, cuando otros métodos pueden. Esto es
algo para parar atención a cuándo binning variables continuas.
IDEAS CLAVES
Naive Bayes Trabajos con categóricos (factor) predictors y resultados.
Pregunta, “Dentro de cada categoría de resultado, el cual predictor las categorías son más
probables?”
Aquella información es entonces inverted para estimar probabilidades de categorías de

resultado, dados predictor valores.
Lectura más lejana
Elementos de Aprendizaje Estadístico, 2.º ed., por Trevor Hastie,
Robert Tibshirani, y Jerome Friedman (Salmer, 2009).
Hay un capítulo lleno en naive Bayes en los datos Mineros para

Empresariales Analytics, 3.º ed., por Galit Shmueli, Peter Bruce, y Nitin
Patel (Wiley, 2016, con variantes para R, Excel, y JMP)..
Discriminant Análisis
Discriminant El análisis es el más temprano estadístico classifier; esté
introducido por R.
Un. Fisher En 1936 en un artículo publicado en los Anales de revista de
Eugenesias.2
PLAZOS CLAVES PARA DISCRIMINANT ANÁLISIS
Covarianza
Una medida de la extensión a cuál variable varía en concierto con otro (i.e., dirección y
magnitud similares).
Discriminant Función
La función que, cuándo aplicado al predictor variables, maximizes la separación de las clases.
Discriminant Pesos
Las puntuaciones que resultado de la aplicación del discriminant función, y suele
probabilidades de estimación de pertenecer a una clase u otro.
Mientras discriminant el análisis abarca varias técnicas, la mayoría de generalmente

utilizados es lineal discriminant análisis, o LDA . El método original propuesto
por Fisher era de hecho ligeramente diferente de LDA, pero la mecánica es
esencialmente igual. LDA Es ahora menos ampliamente utilizado con el
advenimiento de técnicas más sofisticadas, como modelos de árbol y logistic
regresión.
Aun así, todavía puedes encontrar LDA en algunas aplicaciones y él tiene
enlaces a otro más ampliamente utilizó métodos (como análisis de componentes
principales; ve “Análisis de Componentes Principales”). Además, discriminant el
análisis puede proporcionar una medida de predictor importancia, y está
utilizado como computacionalmente método eficaz de selección de
característica.
AVISO
Lineal discriminant el análisis no tendría que ser confundido con Latente Dirichlet Asignación,
también referido a tan LDA. Latente Dirichlet la asignación está utilizada en texto y
procesamiento de lengua natural y es no relacionado a lineal discriminant análisis.
Matriz de covarianza
Para entender discriminant análisis, es primer necesario de introducir el
concepto de covarianza entre dos o más variables. La covarianza mide la
relación entre dos variables y . Denotar el malo para cada variable
por Y (Ve “Malo”). La covarianza. Entre y está dado por:
Dónde n es el número de registros (nota que dividimos por n – 1 en vez de n:

ve “Grados de Libertad, y n o n – 1?”).
Cuando con el coeficiente de correlación (ve “Correlación”), los valores
positivos indican una relación positiva y los valores negativos indican una
relación negativa.
Correlación, aun así, está apremiado para ser entre –1 y 1, mientras que la
covarianza es en la misma escala como las variables y . La matriz de
covarianza Para
Y consta de las varianzas variables individuales, Y , en la diagonal
(dónde la fila y la columna son el mismo variables) y las covarianzas
entre pares variables en el fuera-diagonales.
NOTA
Recuerda que la desviación estándar suele normalizar un variable a un z-puntuación; la
matriz de covarianza está utilizada en un multivariate extensión de este proceso de
estandarización. Esto es sabido cuando
Mahalanobis Distancia (ve Otra Distancia Metrics) y está relacionado al LDA función.
Fisher Lineal Discriminant
Para simplicidad, centramos en un problema de clasificación en qué queremos
pronosticar un resultado binario y utilizando justo dos variables numéricas
continuas .
Técnicamente, discriminant el análisis supone el predictor las variables son
normalmente variables continuas distribuidas, pero, en práctica, los trabajos de
método bien incluso para nonextreme salidas de normalidad, y para binario
predictors. Fisher lineal discriminant distingue variación entre grupos, por un
lado, de variación dentro de grupos en el otro. Específicamente, buscando
para dividir los registros a dos grupos, LDA foco en maximizing el “entre” suma de
plazas. (Midiendo la variación entre los dos grupos) pariente a el
“dentro” suma de plazas. (Midiendo el dentro-variación de grupo). En
este caso, los dos grupos corresponden a los registros Para qué y = 0 y
los registros Para qué y = 1. El método encuentra la combinación lineal
Aquello maximizes que suma de proporción de plazas.
El entre la suma de plazas es la distancia cuadrada entre el dos grupo significa, y el

dentro la suma de plazas es la spread alrededor del medio dentro de cada grupo,
weighted por la matriz de covarianza. Intuitively, por maximizing el entre suma de
plazas y minimizando el dentro suma de plazas, este método cede la separación
más grande entre los dos grupos.
Un Ejemplo Sencillo
El paquete de MASA, asociado con el libro Estadística Aplicada Moderna
con S por
W. N. Venables Y B. D. Ripley (Salmer, 1994), proporciona una función para
LDA con R. El siguiente aplica esta función a una muestra de dato de
préstamo que utiliza dos predictor variables, puntuación_de prestatario y
pago_inc_proporción , e impresiones fuera de el estimados lineales
discriminator pesos.
Biblioteca(MASA)
Préstamo_lda <- lda(pago ~ de puntuación_de prestatario + de resultado_inc_proporción,
Préstamo=de dato3000)
Préstamo_lda$scaling
LD1
Puntuación_de prestatario -6.2962811
Pago_inc_proporción 0.1288243
UTILIZANDO DISCRIMINANT ANÁLISIS PARA
SELECCIÓN de CARACTERÍSTICA
Si el predictor las variables están normalizadas con anterioridad a correr LDA, el discriminator
los pesos son medidas de importancia variable, por ello proporcionando un método
computacionalmente eficaz de selección de característica.
El lda la función puede pronosticar la probabilidad de “default” versus “pagó

fuera”:
pred <- Pronosticar(préstamo_lda)

cabeza(pred$posterior)
Pagado de default
25333 0.5554293 0.4445707
27041 0.6274352 0.3725648
7398 0.4014055 0.5985945
35625 0.3411242 0.6588758
17058 0.6081592 0.3918408
2986 0.6733245 0.3266755
Una parcela de las ayudas de predicciones ilustra qué LDA trabajos. Utilizando
la producción de el pronosticar función, una parcela de la probabilidad
estimada de default está producido como sigue:
lda_df <- cbind(Préstamo3000,

prob_default=pred$posterior[,'default']) ggplot(dato=lda_df,
aes(x=Puntuación_de prestatario, y=pago_inc_proporción,
color=prob_default)) + geom_punto(alfa=.6) +
Gradiente_de color_de la escala2('blanco'=bajo,
alto='azul') + geom_línea(dato=lda_df0, col='verde',
medida=2, alfa=.8) +
La parcela resultante está mostrada en Figura 5-1.

Figura 5-1. LDA Predicción de prestar default utilizando dos variables: una puntuación del
prestatario creditworthiness y el pago a proporción de ingresos.
Utilizando el discriminant pesos de función, LDA parte el predictor espacio a dos

regiones cuando mostrados por la línea sólida. Las predicciones más lejanas
fuera de la línea tiene un nivel más alto de confianza (i.e., una probabilidad
más allá fuera de 0.5)..
EXTENSIONES DE DISCRIMINANT
ANÁLISIS
Más predictor variables: mientras el texto y el ejemplo en esta sección utilizó justo dos predictor
variables, LDA trabaja tan bien con más de dos predictor variables. El factor limitativo único es el
número de registros (estimando la matriz de covarianza requiere un número suficiente de
registros por variables, el cual es típicamente no un asunto en aplicaciones de ciencia de los
datos).
Cuadrático Discriminant Análisis: hay otras variantes de discriminant análisis. El mejor sabido
es cuadrático discriminant análisis (QDA). A pesar de su nombre, QDA es todavía un lineal
discriminant función. La diferencia principal es que en LDA, la matriz de covarianza está
supuesta para ser igual para los dos grupos que corresponden a Y = 0 y Y = 1. En QDA, la
matriz de covarianza está dejada para ser diferente para los dos grupos. En práctica, la
diferencia en más las aplicaciones no es críticas.
IDEAS CLAVES PARA DISCRIMINANT ANÁLISIS

Discriminant Trabajos de análisis con continuos o categóricos predictors, así como resultados
categóricos.
Utilizando la matriz de covarianza, calcula un lineal discriminant función, el cual suele

distinguir los registros que pertenecen a una clase de aquella pertenencia a otro..
Esta función está aplicada a los registros de derivar pesos, o puntuaciones, para cada registro
(un peso para cada clase posible) aquello determina su clase estimada.
Lectura más lejana
Elementos de Aprendizaje Estadístico, 2.º ed., por Trevor Hastie, Robert
Tibshirani, Jerome Freidman, y su primo más corto, Una Introducción a
Aprendizaje Estadístico, por Gareth James, Daniela Witten, Trevor
Hastie, y Robert Tibshirani (ambos de Salmer). Ambos tienen una sección
en discriminant análisis.
El dato Minero para Empresarial Analytics, 3.º ed., por Galit Shmueli,
Peter Bruce, y Nitin Patel (Wiley, 2016, con variantes para R, Excel, y
JMP) tiene un capítulo lleno en discriminant análisis.
Para interés histórico, Fisher artículo original en el tema, “El Uso de

Medidas Múltiples en Taxonomic Problemas,” cuando publicados en 1936 en
Anales de Eugenesias (ahora llamó Anales de Genéticas ) puede ser
encontrado on-line.
Logistic Regresión
Logistic La regresión es análoga a regresión lineal múltiple, excepto el resultado
es binario. Varias transformaciones están empleadas para convertir el problema
a uno en qué un modelo lineal puede ser cabido. Como discriminant análisis, y a
diferencia de K -Vecino más Cercano y naive Bayes, logistic la regresión es
una aproximación de modelo estructurada , más que un dato-centric
aproximación. Debido a su velocidad computacional rápida y su producción de
un modelo que se deja a rápido puntuando de dato nuevo, es un método
popular .
PLAZOS CLAVES PARA LOGISTIC REGRESIÓN
Logit
La función que mapas la probabilidad de pertenecer a una clase con una gama de ± ∞ (en vez
de 0 a 1)..
Synonym
Registro odds (ve abajo)
Odds
La proporción de “éxito” (1) a “no éxito” (0).
Registro odds
La respuesta en el modelo transformado (ahora lineal), el cual consigue mapped atrás a una
probabilidad.
Cómo conseguimos de una variable de resultado binaria a una variable de

resultado que puede ser modeled en moda lineal, entonces atrás otra vez a un
resultado binario?
Logistic Función de respuesta y Logit
Los ingredientes claves son el logistic función de respuesta y el logit, en qué
nosotros mapa una probabilidad (cuál es en un 0–1 escala) a un más expansive
escala propio para modeling lineal.
El primer paso es para pensar de la variable de resultado no como etiqueta
binaria, pero cuando la probabilidad p que la etiqueta es una “1 .” Naively,
podríamos ser tentados a modelo p como función lineal de el predictor variables:
Aun así, cabiendo este modelo no asegura que p acabará entre 0 y 1, como
mosto de probabilidad.
En cambio, nosotros modelo p por aplicar un logistic respuesta o inverse logit
función a el predictors:
Esto transforma asegura que el p estancias entre 0 y 1.

Para conseguir la expresión exponencial fuera de el denominador,
consideramos odds en vez de probabilidades. Odds, familiar a bettors en
todas partes, es la proporción de “éxitos” (1) a “nonsuccesses” (0). En plazos
de probabilidades, odds es la probabilidad de un acontecimiento dividido
por la probabilidad que el acontecimiento no ocurrirá . Por ejemplo, si la
probabilidad que un caballo ganará es 0.5, la probabilidad de “no ganará” es
(1 – 0.5) = 0.5, y el odds es 1.0.

Podemos obtener la probabilidad del odds utilizando el inverse odds función:
Combinamos esto con el logistic función de respuesta, mostrado más temprano,
para conseguir:
Finalmente, tomando el logarithm de ambos lados, conseguimos una expresión

que implica una función lineal de el predictors:
El registro-odds función, también sabido como el logit función, mapas la

probabilidad p de A cualquier valor : Ve Figura 5-2.
El círculo de transformación es completo; hemos utilizado un modelo lineal
para pronosticar una probabilidad, el cual, en vuelta, podemos mapa a una
etiqueta de clase por aplicar un cutoff regla
— Cualquier registro con una probabilidad más grande que el cutoff está
clasificado como 1.
Figura 5-2. La función que mapas una probabilidad a una escala propio para un modelo lineal
(logit)
Logistic Regresión y el GLM
La respuesta en el logistic fórmula de regresión es el registro odds de un
resultado binario de 1. Sólo observamos el resultado binario, no el registro odds,
tan especial los métodos estadísticos están necesitados para caber la ecuación.
Logistic La regresión es un caso especial de un modelo lineal generalizado
(GLM) desarrolló para extender regresión lineal a otros encuadres.
En R, para caber un logistic regresión, el glm la función está utilizada con el
parámetro familiar puesto a binomio . El código siguiente cabe un logistic
regresión a el dato de préstamo personal introducido en “K-Vecinos más
Cercanos”.
logistic_Modelo
Llamada: glm(pago = de resultado ~ de la fórmula_inc_casa + de

propósito_ + de la proporción_ + emp_len_ + puntuación_de
prestatario, binomio = "familiar", dato = de préstamo_del dato)
Coeficientes:
(Intercepta) pago_inc_proporción
1.26982 0.08244
Propósito_de consolidación_de deuda de propósito_mejora_de
casa
0.25216 0.34367
Propósito_propósito_de compra importante_médico
0.24373 0.67536
Propósito_otro
propósito_negocio_pequ
eño 0.59268 1.21226
En casa_ALQUILER de casa_PROPIA
0.03132 0.16867
emp_len_ < 1 prestatario de Año_puntuación
0.44489 -4.63890
Grados de Libertad : 46271 Total (i.e. Null); 46260

Residual Null Deviance: 64150
Residual Deviance: 58530 AIC: 58550
La respuesta es resultado , el cual toma un 0 si el préstamo está pagado fuera y

1 si el préstamo defaults. El propósito_ y la casa_ son variables de factor
representando el propósito de el préstamo y el estado de propiedad de la casa.
Cuando en regresión, una variable de factor con P los niveles está
representado con P – 1 columnas. Por default en R, la codificación de referencia
está utilizada y los niveles son todos comparó a el nivel de referencia (ve
“Variables de Factor en Regresión”). Los niveles de referencia para estos
factores son tarjeta_de crédito e HIPOTECA , respectivamente. La
puntuación de prestatario_variable es una puntuación de 0 a 1
representando el creditworthiness de el prestatario (de pobre a excelente).
Esta variable estuvo creada de varias otras variables que utilizan K-Vecino más
Cercano: ve “KNN como Motor de Característica”.
Modelos Lineales generalizados
Modelos lineales generalizados (GLMs) es el segunda clase más importante de
modelos además regresión. GLMs Está caracterizado por dos componentes
principales:
Una distribución de probabilidad o familia (binomio en el caso de logistic
regresión)
Un mapeo de función del enlace la respuesta a el predictors (logit en el caso

de logistic regresión)
Logistic La regresión es por lejano la mayoría de forma común de GLM. Un

científico de dato encontrará otros tipos de GLMs. A veces una función de
enlace del registro está utilizada en vez del logit; en práctica, el uso de un
enlace de registro probablemente no puede dirigir a resultados muy diferentes
para más aplicaciones. El poisson la distribución es generalmente utilizada a dato
de cuenta del modelo (p. ej., el número de tiempo un usuario visita una página
web en una cantidad segura de tiempo). Otras familias incluyen binomio
negativo y gamma, a menudo utilizado a modelo elapsed tiempo (p. ej., tiempo a
fracaso). En contraste a logistic regresión, aplicación de GLMs con estos
modelos es más nuanced e implica cuidado más grande. Estos son más evitados
a no ser que eres familiar con y entender la utilidad y pitfalls de estos
métodos.
Pronosticó Valores de Logistic Regresión
El valor pronosticado de logistic la regresión es en plazos del registro odds:
. La probabilidad pronosticada está dada por el logistic
Función de respuesta:
Por ejemplo, mirada en las predicciones del modelo logistic_modelo:
pred <- Pronosticar(logistic_modelo)

resumen(pred)
Min. 1st Qu. Median Malo 3rd Qu. Max.
-2.728000 -0.525100 -0.005235 0.002599 0.513700 3.658000
Convirtiendo estos valores a probabilidades es un sencillos transforma:
prob <- 1/(1 + exp(-pred))

> Resumen(prob)
0.06132 0.37170 0.49870 0.50000 0.62570 0.97490
Estos son en una escala de 0 a 1 y no todavía declarar si el valor pronosticado

es default o pagó fuera. Podríamos declarar cualquier valor más grande que 0.5
cuando default, análogo a el K-Vecinos más Cercanos classifier. En práctica,
un más bajo cutoff es a menudo apropiado si el objetivo es para identificar
miembros de una clase rara (ve “El Problema de Clase Raro”).
Interpretando los Coeficientes y Odds Proporciones
Una ventaja de logistic la regresión es que produce un modelo que puede ser
puntuado a dato nuevo rápidamente, sin recomputation. Otro es la facilidad
relativa de interpretación de el modelo, cuando comparado con otros métodos
de clasificación. La idea conceptual clave está entendiendo un odds proporción.
El odds la proporción es más fácil de entender para una variable de factor binaria
X:
Esto está interpretado como el odds que Y = 1 cuándo X = 1 versus el odds
que Y = 1 cuándo X = 0. Si el odds la proporción es 2, entonces el odds que Y
= 1 es dos tiempo más alto cuándo X = 1 versus X = 0.
Por qué molestar con un odds proporción, en vez de probabilidades? Trabajamos
con odds porque el coeficiente En el logistic la regresión es el registro de el
odds proporción para
.
Un ejemplo hará esto más explícito. Para el modelo cabido en “Logistic
Regresión y el GLM”, el coeficiente de regresión para propósito_el
negocio_pequeño es 1.21226. Esto significa que un préstamo a un negocio
pequeño comparó a un préstamo para pagar fuera deuda de tarjeta del crédito
reduce el odds de defaulting versus el ser pagó fuera por
. Claramente, préstamos para el propósito de crear o
expandiendo un negocio pequeño es considerablemente más arriesgado que
otros tipos de préstamos..
Figura 5-3 espectáculos la relación entre el odds proporción y registro-odds
proporción para odds las proporciones más grandes que 1. Porque los
coeficientes son en la escala de registro, un aumento de 1 en los resultados de
coeficiente en un aumento de En el odds proporción.
Figura 5-3. La relación entre el odds proporción y el registro-odds proporción
Odds Proporciones para variables numéricas X puede ser interpretado de modo

parecido: miden el cambio en el odds proporción para un cambio de unidad en X.
Por ejemplo, el efecto de creciente el pago a proporción de ingresos de, dice, 5 a
6 aumentos el odds de el préstamo defaulting por un factor de
. La puntuación de prestatario_variable es una
puntuación en los prestatarios' creditworthiness y gamas de 0 (bajos) a 1
(altos). El odds de los prestatarios mejores relativos a los prestatarios peores
defaulting En sus préstamos es más pequeños por un factor de
. En otras palabras,, el default riesgo de los prestatarios con el más pobres

creditworthiness es 100 tiempo más grande que que de los prestatarios mejores!
Lineal y Logistic Regresión: Semejanzas y Diferencias.
Regresión lineal múltiple y logistic participación de regresión muchos
commonalities. Ambos suponen una forma lineal paramétrica que relaciona el
predictors con la respuesta.
Explorando y encontrando el modelo mejor está hecho en maneras muy
similares. Generalidades a el modelo lineal para utilizar un spline transformar
de el predictor es igualmente aplicable en el logistic encuadre de regresión.
Logistic La regresión difiere en dos maneras fundamentales:
La manera el modelo es acceso (menos las plazas no
es aplicables) La naturaleza y análisis de el residuals
de el modelo
Cabiendo el modelo
La regresión lineal está cabida utilizando menos plazas, y la calidad de la
acceso está evaluada utilizando RMSE y R-estadística cuadrada. En logistic
regresión (diferente en regresión lineal), hay no solución de forma cerrada y
el modelo tienen que ser cabidos utilizando máximos likelihood valoración
(MLE). Máximo likelihood la valoración es un proceso que intenta encontrar el
modelo que es más probablemente para tener producido el dato vemos. En el
logistic ecuación de regresión, la respuesta no es 0 o 1 sino una estimación de
el registro odds que la respuesta es 1. El MLE encuentra la solución tal que el
registro estimado odds más describe el resultado observado. La mecánica de el
algoritmo implica un quasi-optimización de Newton que itera entre un paso de
puntuar (Fisher está puntuando), basado en los parámetros actuales, y una
actualización a los parámetros para mejorar la acceso..
MÁXIMO LIKELIHOOD VALORACIÓN
Más detalle, si te gustan los símbolos estadísticos: inicio con un conjunto de Y un

datos
Modelo de probabilidad que depende de un conjunto de . El objetivo
parámetros de
MLE Es para encontrar el conjunto de parámetros que maximizes el valor de ;
Es, él maximizes la probabilidad de observar dado el modelo ..] En el Aqu
proceso de caber, el modelo está evaluado utilizando un métrico llamado deviance: ello
Más bajo deviance corresponde a una acceso mejor.
Afortunadamente, más los usuarios no necesitan para los preocuparse con los
detalles de el algoritmo de caber desde este está manejado por el software. La
mayoría de científicos de dato no necesitarán preocuparse sobre el método de
caber, otro que entendiendo que es una manera de encontrar un modelo bueno
bajo suposiciones seguras.
MANEJANDO VARIABLES de FACTOR
En logistic regresión, variables de factor tendrían que ser coded tan en regresión lineal; ve
“Variables de Factor en Regresión”. En R y otro software, esto es normalmente manejado
automáticamente y generalmente la referencia que codifica está utilizado. Todo de los
otros métodos de clasificación cubrió en este capítulo típicamente utiliza el caliente encoder
representación (ve “Uno Caliente Encoder”).
Evaluando el Modelo
Como otros métodos de clasificación, logistic la regresión está evaluada por qué
con exactitud el modelo clasifica dato nuevo (ve “Evaluar Modelos de
Clasificación”). Cuando con regresión lineal, algunos herramientas estadísticas
estándares adicionales es disponible de evaluar y mejorar el modelo. Junto con
el estimó coeficientes, R informa el error estándar de los coeficientes (SE), un
z-valor, y un p-valor:
Resumen(logistic_modelo
) Llamada:
glm(Pago = de resultado ~ de la fórmula_inc_casa + de propósito_ + de
la proporción_ + emp_len_ + puntuación_de prestatario, binomio =
"familiar", dato = de préstamo_del dato)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.71430 -1.06806 -0.04482 1.07446 2.11672
Coeficientes:
Estimaci Std. Error z Valor Pr(>|z|)
ón
(Intercepta) 1.269822 0.051929 24.453 < 2e-16 ***
Pago_inc_proporción 0.082443 0.002485 33.177 < 2e-16 ***
Consolidación_de deuda_del 0.252164 0.027409 9.200 < 2e-16 ***
propósito
Mejora_de casa_del 0.343674 0.045951 7.479 7.48e-14 ***
propósito
Propósito_compra_important 0.243728 0.053314 4.572 4.84e-06 ***
e
El propósito_médico 0.675362 0.089803 7.520 5.46e-14 ***
Propósito_otro 0.592678 0.039109 15.154 < 2e-16 ***
Propósito_negocio_pequeño 1.212264 0.062457 19.410 < 2e-16 ***
En casa_PROPIO 0.031320 0.037479 0.836 0.403
ALQUILER_de casa 0.168670 0.021041 8.016 1.09e-15 ***
emp_len_ < 1 Año 0.444892 0.053342 8.340 < 2e-16 ***
Puntuación_de prestatario -4.638902 0.082433 -56.275 < 2e-16 ***
---
Signif. Códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '
1 (parámetro de Dispersión para la familia binomial tomada
para ser 1)
Null deviance: 64147 encima 46271 grados de la

libertad Residual deviance: 58531 encima 46260 grados
de libertad AIC: 58555
Número de Fisher Puntuando iteraciones: 4
Interpretación de el p-el valor viene con el mismo caveat cuando en regresión,

y tendría que ser visto más como indicador relativo de importancia variable (ve
“Evaluar el Modelo”) que como medida formal de importancia estadística. Un
logistic modelo de regresión, el cual tiene una respuesta binaria, no tiene un
asociado RMSE o R-cuadró. En cambio, un logistic modelo de regresión es
típicamente evaluó utilizar más general metrics para clasificación; ve “Evaluar
Modelos de Clasificación”.
Muchos otros conceptos para regresión lineal llevan encima a el logistic
encuadre de regresión (y otro GLMs). Por ejemplo, puedes utilizar stepwise
regresión, plazos de interacción de la acceso, o incluir spline plazos. Las mismas
preocupaciones con respecto a confounding y las variables correlativas aplican
a logistic regresión (ve “Interpretar la Ecuación de Regresión”). Puedes caber
modelos aditivos generalizados (ve “Modelos Aditivos Generalizados”)
utilizando el mgcv paquete:
logistic_gam <- gam(Resultado ~ s(pago_inc_proporción) + propósito_ +

Casa_ + emp_len_ + s(puntuación_de
prestatario), dato=de préstamo_del dato,
familia='binomio')
Una área donde logistic la regresión difiere es en el análisis de el residuals.

Cuando en regresión (ve Figura 4-9), es sincero de computar parcial residuals:
Plazos <- pronosticar(logistic_gam,

tipo='plazos') parciales_resid <-
resid(logistic_modelo) + plazos
df <- Datos.Marco(pago_inc_dato = de préstamo_de la proporción[,
'pago_inc_proporción'], plazos = de plazos[,
es(pago_inc_proporción)'],
Parcial_resid = parcial_resid[, es(pago_inc_proporción)'])
ggplot(df, aes(x=pago_inc_proporción, y=parcial_resid, sólido = FALSO)) +
geom_Punto(forma=46, alfa=.4) +
geom_línea(aes(x=pago_inc_proporción, y=plazos),
El color= esd', alfa=.5, medida=1.5) +
laboratorios(y='Parciales Residuales')
La parcela resultante está mostrada en Figura 5-4. La acceso estimada, mostrado

por la línea, va entre dos conjuntos de nubes de punto. La nube superior
corresponde a una respuesta de 1 (defaulted préstamos), y la nube inferior
corresponde a una respuesta de 0 (los préstamos pagaron fuera). Esto es muy
propio de residuals de un logistic la regresión desde la producción es binaria.
Parcial residuals en logistic regresión, mientras menos valioso que en
regresión, es todavía útil de confirmar nonlinear comportamiento e identificar
altamente registros influyentes.
Figura 5-4. Parcial residuals de logistic regresión
AVISO
Algunos de la producción de la función de resumen eficazmente puede ser ignorada. El
parámetro de dispersión no aplica a logistic regresión y es allí para otros tipos de GLMs. El
residual deviance y el número de puntuar las iteraciones están relacionadas a el máximos
likelihood cabiendo método; ve “Máximo Likelihood Valoración”.
IDEAS CLAVES PARA LOGISTIC REGRESIÓN

Logistic La regresión es como regresión lineal, exceptúa que el resultado es una variable binaria .
Varias transformaciones están necesitadas para conseguir el modelo a una forma que puede ser
cabido como modelo lineal, con el registro del odds proporción como la variable de respuesta.
Después del modelo lineal es acceso (por un proceso iterativo), el registro odds es mapped atrás a
una probabilidad.
Logistic La regresión es popular porque es computacionalmente rápidamente, y produce un

modelo que puede ser puntuado a dato nuevo sin recomputation.
Lectura más lejana
1. La referencia estándar en logistic la regresión está Aplicada Logistic
Regresión, 3.º ed., por David Hosmer, Stanley Lemeshow, y Rodney
Sturdivant (Wiley).
2. También popular es dos libros por Joseph Hilbe: Logistic

Modelos de Regresión (muy comprensibles) y Guía Práctica a
Logistic Regresión (compacto), ambos de CRC Prensa.
3. Elementos de Aprendizaje Estadístico, 2.º ed., por Trevor Hastie,

Robert Tibshirani, Jerome Freidman, y su primo más corto, Una
Introducción a Aprendizaje Estadístico, por Gareth James, Daniela
Witten, Trevor Hastie, y Robert Tibshirani (ambos de Salmer) tanto
tener una sección en logistic regresión.
4. El dato Minero para Empresarial Analytics, 3.º ed., por Galit

Shmueli, Peter Bruce, y Nitin Patel (Wiley, 2016, con variantes para
R, Excel, y JMP) tiene un capítulo lleno en logistic regresión.
Evaluando Modelos de Clasificación
Es común en modeling predictivo para probar fuera de un número de modelos
diferentes, aplica cada cual a un holdout muestra (también llamó una prueba o
muestra de validación), y evaluar su rendimiento. Fundamentalmente, estas
cantidades a ver cuál produce las predicciones más cuidadosas.
PLAZOS CLAVES PARA EVALUAR MODELOS de CLASIFICACIÓN
Exactitud
El porcentaje (o proporción) de los casos clasificados correctamente.
Matriz de confusión
Una exhibición tabular (2×2 en el caso binario) de las cuentas récord por su clasificación
pronosticada y real estado.
Sensibilidad
El porcentaje (o proporción) de 1s correctamente clasificado.
Synonym
Recuerda
Especificidad
El porcentaje (o proporción) de 0s correctamente clasificado.
Precisión
El porcentaje (proporción) de pronosticó 1s aquello es de hecho 1s.
ROC Curva
Una parcela de sensibilidad versus especificidad.
Ascensor
Una medida de cómo eficaz el modelo es en identificar (comparitively raro) 1s en probabilidad
diferente cutoffs.
Una manera sencilla de medir rendimiento de clasificación es para contar la

proporción de predicciones que es correcto.
En la mayoría de algoritmos de clasificación, cada caso está asignado una
“probabilidad estimada de ser un 1.”3 El default punto de decisión, o cutoff, es
típicamente 0.50 o 50%. Si la probabilidad es encima 0.5, la clasificación es
“1,” otherwise es “0.” Una alternativa default cutoff es el prevalent
probabilidad de 1s en el dato.
La exactitud es sencillamente una medida de error total:
Matriz de confusión
En el fondo de clasificación metrics es la matriz de confusión. La matriz de
confusión es una mesa mostrando el número de correcto e incorrect
predicciones categorized por tipo de respuesta. Varios paquetes son disponibles
en R para computar una matriz de confusión, pero en el caso binario, es sencillo
de computar uno a mano.
Para ilustrar la matriz de confusión, considerar el logistic_gam modelo que
estuvo entrenado en un dato equilibrado puesto con un número igual de
defaulted y pagado-de préstamos (ve Figura 5-4). Siguiendo las convenciones
habituales Y = 1 corresponde a el acontecimiento de interés (p. ej., default) y Y
= 0 corresponde a un negativo (o habitual) acontecimiento (p. ej., pagó fuera).
El siguiente computa la matriz de confusión para el logistic_gam el modelo
aplicó a el entero (desequilibrado) conjunto de formación:
pred <- Pronosticar(logistic_gam,

newdata=conjunto_de tren) pred_y <-
cuando.Numérico(pred > 0)
Cierto_y <- cuando.Numérico(conjunto_de
tren$resultado=='default') cierto_pos <-
(cierto_y==1) & (pred_y==1)
Cierto_neg <- (cierto_y==0) & (pred_y==0)
falso_pos <- (cierto_y==0) & (pred_y==1)
falso_neg <- (cierto_y==1) & (pred_y==0)
conf_Mate <- matricial(c(suma(cierto_pos), suma(falso_pos),
Suma(falso_neg), suma(cierto_neg)),
2, 2) colnames(conf_mate) <- c('Yhat = 1', 'Yhat = 0')
rownames(conf_mate) <- c('Y = 1', 'Y = 0')
conf_Estera
Yhat = 1 Yhat = 0
Y = 1 14635 8501
Y = 0 8236 14900
El pronosticó los resultados son columnas y los resultados ciertos son las filas
. Los elementos diagonales de el espectáculo matricial el número de las
predicciones correctas y los elementos fuera diagonales muestran el número de
incorrect predicciones. Por ejemplo, 6,126 defaulted los préstamos eran
correctamente pronosticados como default, pero 17,010 defaulted los
préstamos eran incorrectamente pronosticados tan pagados fuera.
Figura 5-5 espectáculos la relación entre la matriz de confusión para un binario
reponse Y y diferente metrics (ve “Precisión, Recuerda, y Especificidad” para más
en el metrics). Cuando con el ejemplo para el dato de préstamo, la respuesta real
es a lo largo de las filas y la respuesta pronosticada es a lo largo de las
columnas. ( Puedes ver matrices de confusión con este invertidos.) Las cajas
diagonales (izquierda superior, más bajo correcto) espectáculo cuándo las
predicciones Correctamente pronosticar la respuesta. Uno importante métrico
no
Explícitamente llamado fuera es el índice positivo falso (la imagen de espejo de
precisión). Cuándo 1s es raro, la proporción de falso positives a todo pronosticó
positives puede ser alto, dirigiendo a el unintuitive situación donde un
pronosticado 1 es más probablemente un 0. Estas pestes de problema pruebas de
exploración médica (p. ej., mammograms) aquello es ampliamente aplicó: debido
a la rareza relativa de la condición, la prueba positiva resulta más
probablemente no significa cáncer de pecho. Estas ventajas a mucha confusión
en el público.
Figura 5-5. Matriz de confusión para una respuesta binaria y varios metrics
El Problema de Clase Raro
En muchos casos, hay un imbalance en las clases para ser pronosticadas, con
una clase mucho más prevalent que el otro — por ejemplo, reclamaciones de
seguro legítimo versus fraudulentos unos, o navegadores versus compradores en
un sitio web. La clase rara (p. ej., las reclamaciones fraudulentas) es
normalmente la clase de más interés, y es típicamente designó 1, en contraste
a el más prevalent 0s. En el escenario típico, el 1s es el caso más importante, en
el sentido que misclassifying les cuando 0s es más costoso que misclassfying 0s
cuando 1s. Por ejemplo, correctamente identificando una reclamación de seguro
fraudulenta puede salvar miles de dólares. Por otro lado, correctamente
identificando un nonfraudulent la reclamación meramente te salvas el coste y
esfuerzo de pasar por la reclamación a mano con una revisión más prudente
(cuál es qué harías si la reclamación era tagged tan “fraudulento”).
En tales casos, a no ser que las clases son fácilmente separable, la mayoría de
modelo de clasificación cuidadoso puede ser uno que sencillamente clasifica
todo como 0. Por ejemplo, si sólo 0.1% de los navegadores en una tienda de
web acaban adquirir, un modelo que pronostica que cada navegador dejará sin
adquirir será 99.9% cuidadoso. Aun así, sea inútil. En cambio, seríamos felices
con un modelo que es menos cuidadoso en general, pero es bien en elegir fuera
de los compradores, incluso si él misclassifies algún nonpurchasers a lo largo de
la manera.
Precisión, Recal , y Especificidad
Metrics Otro que exactitud pura — metrics aquello es más nuanced — es
generalmente utilizado en evaluar modelos de clasificación. Muchos de estos
tener una historia larga en estadísticas — especialmente biostatistics, donde
suelen describir el rendimiento esperado de pruebas de diagnóstico. La
precisión mide la exactitud de un resultado positivo pronosticado (ve Figura 5-
5):
El recordar, también sabido cuando sensibilidad, mide la fuerza de el modelo

para pronosticar un resultado positivo — la proporción de el 1s que lo
correctamente identifica (ve Figura 5-5). La sensibilidad de plazo está utilizada
mucho en biostatistics y diagnósticos médicos, mientras que recuerda está
utilizado más en la comunidad de aprendizaje de la máquina. La definición de
recordar es:
Otro métrico utilizado es especificidad, el cual mide la capacidad de pronosticar

de un modelo un resultado negativo:
# Precisión
conf_estera[1,1]/suma(conf_este
ra[,1]) # recuerda
ra[1,]) # especificidad
ra[2,])
ROC Curva
Puedes ver que hay un tradeoff entre recordar y especificidad. Capturando más
1s generalmente significa misclassifying más 0s cuando 1s. El ideal classifier
haría un trabajo excelente de clasificar el 1s, sin misclassifying más 0s cuando
1s.
El métrico que capturas este tradeoff es el “Auricular que Opera curva” de
Características, normalmente referido a como el ROC curva. El ROC parcelas
de curva recuerdan (sensibilidad) en el y-axial en contra especificidad en el x-
axial.4 El ROC la curva muestra el comercio-fuera entre recordar y especificidad
cuando cambias el cutoff para determinar cómo para clasificar un registro.
Sensibilidad (recuerda) es plotted en el y-axial, y puedes encontrar dos formas en
qué el x-axiales es labeled:
Especificidad plotted en el x-axial, con 1 en el izquierdo y 0 en la
Especificidad correcta plotted en el x-axial, con 0 en el izquierdo y 1 en el
correcto
La curva mira idéntica whichever manera está hecho. El proceso para computar el
ROC la curva es:
1. Clase los registros por la probabilidad pronosticada de ser un 1,
empezando con el más probable y acabando con el menos
probable.
2. Computar la especificidad acumulable y recordar basado en el

ordenó registros.
Computando el ROC curva en R es sincero. El código siguiente computa ROC para

el dato de préstamo:
idx <- Orden(-pred)

Recuerda <- cumsum(cierto_y[idx]==1)/suma(cierto_y==1)
Especificidad <- (suma(cierto_y==0) -
cumsum(cierto_y[idx]==0))/suma(cierto_y==0) roc_df <-
datos.Marco(recuerda = recuerda, especificidad = de especificidad)
ggplot(roc_df, aes(x=especificidad, y=recordar)) +
geom_Línea(color='azul') +
escala_x_revés(expande=c(0, 0)) +
Escala_y_continuo(expande=c(0, 0)) + geom_línea(dato=de
dato.Marco(x=(0:100)/100), aes(x=x, y=1-x),
linetype='Salpicado', el color= esd')
El resultado está mostrado en Figura 5-6. La línea diagonal salpicada

corresponde a un classifier ningún mejor que posibilidad aleatoria. Un
extremadamente eficaz classifier (o, en situaciones médicas, un diagnóstico
extremadamente eficaz prueba) tendrá un ROC aquello
hugs El superior-esquina izquierda — correctamente identifique mucho 1s sin
misclassifying mucho 0s cuando 1s. Para este modelo, si queremos un classifier
con una especificidad de al menos 50%, entonces el recordar es
aproximadamente 75%.
Figura 5-6. ROC Curva para el dato de préstamo
PRECISIÓN-RECORDAR CURVA
Además de ROC curvas, pueda ser illuminating para examinar la precisión-recordar (PR)
curva. PR Las curvas están computadas en una manera similar exceptúa que el dato está
ordenado de menos a más probable y precisión acumulable y recordar la estadística está
computada. PR Las curvas son especialmente útiles en evaluar dato con altamente resultados
desequilibrados.
AUC
El ROC la curva es una herramienta gráfica valiosa pero, por él, no constituye
una medida sola para el rendimiento de un classifier. El ROC la curva puede
ser utilizada, aun así, para producir el área debajo la curva (AUC) métrico. AUC
Es sencillamente el área total bajo el ROC curva. El más grande el valor de
AUC, el más eficaz el classifier. Un AUC de 1 indica un perfecto classifier:
consigue todo el 1s correctamente clasificado, y no misclassify cualquier 0s
cuando 1s.
Un completamente ineficaz classifier — la línea diagonal — tendrá un AUC de
0.5.
Figura 5-7 espectáculos el área bajo el ROC curva para el modelo de préstamo.
El valor de AUC puede ser computado por una integración numérica:
Suma(roc_df$recordar[-1] * diff(1-
roc_df$especificidad)) [1] 0.5924072
El modelo tiene un AUC de aproximadamente 0.59, correspondiendo a un

relativamente débil classifier.
Figura 5-7. Área bajo el ROC curva para el dato de préstamo
CONFUSIÓN de ÍNDICE POSITIVA FALSA
Índices/negativos positivos falsos es a menudo confundido o conflated con especificidad o
sensibilidad (incluso en publicaciones y software!). A veces el índice positivo falso está definido
como la proporción de cierto negatives que la prueba positiva. En muchos casos (como
detección de intrusión de la red), el plazo suele refiere a la proporción de señales positivas que
es cierto negatives.
Ascensor
Utilizando el AUC como métrico es una mejora sobre exactitud sencilla, cuando
pueda evaluar qué bien un classifier maneja el tradeoff entre exactitud global y
la necesidad de identificar el más importante 1s. Pero no completamente dirija el
problema de caso raro, donde necesitas bajar la probabilidad del modelo cutoff
abajo
0.5 Para evitar habiendo todo graba clasificado cuando 0. En tales casos, para
un récord de ser clasificados como 1, pueda ser suficiente de tener una
probabilidad de 0.4, 0.3, o más bajo. En efecto, acabamos overidentifying 1s,
reflejando su importancia más grande.
Cambiando este cutoff mejorará vuestras posibilidades de coger el 1s (en el coste
de misclassifying más 0s cuando 1s). Pero qué es el óptimo cutoff?
El concepto de ascensor deja tú defer contestando que cuestión. En cambio,
consideras los registros por orden de su probabilidad pronosticada de ser 1s.
Dice, de la parte superior 10% clasificado cuando 1s, cuánto mejor hizo el
algoritmo , comparado a el benchmark de sencillamente eligiendo a ciegas? Si
puedes conseguir 0.3% respuesta en este superior decile en vez de el 0.1%
consigues en general eligiendo aleatoriamente, el algoritmo está dicho para tener
un ascensor (también llamó beneficios) de 3 en el superiores decile. Un
gráfico de ascensor (gráfico de beneficios) cuantifica esto sobre la gama de el
dato. Pueda ser producido decile por decile, o continuamente sobre la gama
de el dato.
Para computar un gráfico de ascensor, primero produces un gráfico de beneficios
acumulable que espectáculos el recordar en el y-axial y el número total de
registros en el x-axiales. La curva de ascensor es la proporción de los
beneficios acumulables a la línea diagonal que corresponde a selección aleatoria.
Decile Obtiene los gráficos son uno de las técnicas más viejas en modeling
predictivo, datando de el comercio de internet de las vísperas. Eran
particularmente populares entre profesionales de correo directo. El correo directo
es un método caro de publicitario si aplicado indiscriminantly, y advertisers
utilizó modelos predictivos (bastante sencillos unos, en los días tempranos) para
identificar los clientes potenciales con la perspectiva más probable de payoff..
UPLIFT
A veces el plazo uplift suele significar la misma cosa cuando ascensor. Un alternar el significado
está utilizado en un más restrictive encuadre, cuándo un Un-B la prueba ha sido conducida y el
tratamiento (Un o B) es entonces utilizado como predictor variable en un modelo predictivo. El
uplift es la mejora en la respuesta pronosticada para un caso individual con tratamiento Un
versus tratamiento B. Esto está determinado por puntuar el caso individual primero con el
predictor conjunto a Un, y entonces otra vez con el predictor toggled a B. Marketers Y asesores
de campaña política utilizan este método para determinar cuál de dos messaging los tratamientos
tendrían que ser utilizados con qué clientes o votantes..
Una curva de ascensor deja miras en las consecuencias de poner probabilidad

diferente cutoffs para clasificar registros cuando 1s. Pueda ser un paso
intermedio en resolver en un apropiado cutoff nivel. Por ejemplo, una
autoridad de impuesto sólo podría tener una cantidad segura de recursos que lo
puede gastar encima auditorías de impuesto, y les quiere gastar encima las
trampas de impuesto más probables. Con su constreñimiento de recurso en
mente, la autoridad utilizaría un gráfico de ascensor para estimar dónde para
dibujar la línea entre regresos de impuesto seleccionó para la auditoría y aquellos
dejaron sólo.
IDEAS CLAVES PARA EVALUAR MODELOS de CLASIFICACIÓN

Exactitud (el porcentaje de pronosticó clasificaciones que es correcto) es pero un primer paso en
evaluar un modelo.
Otro metrics (recuerda, especificidad, precisión) centra encima rendimiento más concreto
características (p. ej., recuerda mide qué bien un modelo es en correctamente identificando
1s).
AUC (Área bajo el ROC curva) es un común métrico para la capacidad de un modelo para
distinguir 1s de 0s..
De modo parecido, el ascensor mide qué eficaz un modelo es en identificar el 1s, y es a menudo
calculado decile por decile, empezando con el más probable 1s.
Lectura más lejana
La evaluación y la valoración son típicamente cubiertas en el contexto de un
modelo particular (p. ej., K-decisión o Vecinos más Cercanos árboles); tres
libros que mango él en su capítulo propio sea:
El dato Minero, 3.º ed., por Ian Whitten, Elbe Frank, y Mark Sala (Morgan
Kaufmann, 2011).
Ciencia de Dato moderno con R por Benjamin Baumer, Daniel Kaplan, y

Nicholas Horton (CRC Prensa, 2017).
El dato Minero para Empresarial Analytics, 3.º ed., por Galit Shmueli, Peter
Bruce, y Nitin Patel (Wiley, 2016, con variantes para R, Excel, y JMP)..
Un tratamiento excelente de cruz-validación y resampling puede ser encontrado

en:
Una Introducción a Aprendizaje Estadístico por Gareth James, et al.
(Salmer, 2013).
Estrategias para Imbalanced Dato
La sección anterior evaluación tratada de modelos de clasificación que utilizan
metrics aquello va allende exactitud sencilla, y es propio para imbalanced dato —
de dato en qué el resultado de interés (compra en un sitio web, fraude de seguro,
etc.) es raro. En esta sección, miramos en estrategias adicionales que puede
mejorar rendimiento de modeling predictivo con imbalanced dato.
PLAZOS CLAVES PARA IMB ALANCED DATO
Undersample
Uso menos del prevalent registros de clase en el modelo de clasificación.
Synonym
Downsample
Oversample
Uso más de los registros de clase raros en el modelo de clasificación, bootstrapping si es
necesario.
Synonym
Upsample
Arriba peso o abajo peso

Sujeta más (o menos) peso al raro (o prevalent) clase en el modelo.
Generación de dato
Como bootstrapping, excepto cada nuevo bootstrapped el registro es ligeramente diferente de su
fuente.
Z-Puntuación
El valor que resultados después de que estandarización.
K
El número de vecinos consideró en el cálculo de vecino más cercano.
Undersampling
Si tienes bastante dato, cuando es el caso con el dato de préstamo, una solución
es a undersample (o downsample) el prevalent clase, así que el dato para ser
modeled es más equilibrado entre 0s y 1s. La idea básica en undersampling es que
el dato para la clase dominante tiene muchos registros redundandos. Tratando un
más pequeño, dato más equilibrado beneficios de cosechas del conjunto en
rendimiento de modelo, y lo hace más fácil de preparar el dato, y para explorar
y modelos pilotos.
Cuánto dato es bastante? Depende de la aplicación, pero en general, habiendo
decenas de miles de los registros para la menos clase dominante es bastante. El
más fácilmente distinguishable el 1s es de el 0s, el menos dato necesitó.
El dato de préstamo analizado en “Logistic la regresión” estuvo basada en un
conjunto de formación equilibrado: medio de los préstamos estuvieron pagados
fuera y la otra mitad era en default. El pronosticó los valores eran similares:
medio de las probabilidades eran menos de 0.5 y a medias era más grande que
0.5. En el conjunto de dato lleno, sólo aproximadamente 5% de los préstamos
eran en default:
Malo(préstamo_todos los _datos$resultado

== 'default') [1] 0.05024048
Qué pasa si utilizamos el dato lleno puesto para entrenar el modelo?
Modelo_lleno <- glm(pago ~ de resultado_inc_propósito + de proporción_ +

Casa_ + emp_len_+ dti + revol_bal + revol_util,
conjunto=de tren_del dato, familia='binomio')
pred <-
Pronosticar(modelo_lleno)
significa(pred > 0)
[1] 0.00386009
Sólo 0.39% de los préstamos están pronosticados para ser en default, o menos
de 1/12 de el número esperado. Los préstamos que estuvo pagado fuera
abrumar los préstamos en default porque el modelo está entrenado utilizando
todo el dato igualmente. Pensando aproximadamente él intuitively, la presencia de
tantos nondefaulting préstamos, coupled con la variabilidad inevitable en
predictor dato, significa que, incluso para un defaulting préstamo, el modelo
probablemente puede encontrar algunos nondefaulting préstamos que es similar
a, por casualidad..
Cuándo una muestra equilibrada estuvo utilizada, aproximadamente 50% de los
préstamos estuvieron pronosticados para ser en default.
Oversampling Y Arriba/Abajo Ponderación
Una crítica de el undersampling el método es que echa fuera dato y no está
utilizando toda la información a mano. Si tienes un dato relativamente pequeño
conjunto, y la clase más rara contiene unos cuantos centenar o unos cuantos
registros de millar, entonces undersampling la clase dominante tiene el riesgo de
tirar información útil. En este caso, en vez de downsampling el caso
dominante, tienes que oversample (upsample) la clase más rara por dibujar
filas adicionales con sustitución (bootstrapping).
Puedes conseguir un efecto similar por ponderación el dato. Muchos algoritmos
de clasificación toman un argumento de peso que te dejará a arriba/abajo peso el
dato. Por ejemplo, aplicar un vector de peso a el dato de préstamo que utiliza el
argumento de peso a glm :
wt <- ifelse(Préstamo_todos los _datos$resultado=='default',

1/malo(préstamo_todos los _datos$resultado ==
'default'), 1)
Modelo_lleno <- glm(pago ~ de resultado_inc_propósito + de proporción_ +
Casa_ + emp_len_+ dti + revol_bal + revol_util,
el dato=presta_todos los _datos, peso=wt,
familia='binomio')
pred <- Pronosticar(modelo_lleno)
significa(pred > 0)
[1] 0.4344177
Los pesos para préstamos que default está puesto a Dónde p es la probabilidad
de default. El nondefaulting los préstamos tienen un peso de 1. La suma de los
pesos para el defaulted préstamos y nondefaulted los préstamos son
aproximadamente iguales. El malo de el pronosticó los valores es ahora 43%
en vez de 0.39%..
Nota que la ponderación proporciona un alternativo a ambos upsampling la clase
más rara y downsampling la clase dominante.
ADAPTANDO LA FUNCIÓN de PÉRDIDA
Mucha clasificación y algoritmos de regresión optimizan unos criterios seguros o función de
pérdida. Por ejemplo, logistic intentos de regresión para minimizar el deviance. En la literatura,
algunos proponen para modificar la función de pérdida para evitar los problemas causaron por
una clase rara. En práctica, esto es duro de hacer: algoritmos de clasificación pueden ser
complejos y difíciles de modificar. La ponderación es una manera fácil de cambiar la función
de pérdida, descontando errores para registros con pesos bajos a favor de registros de pesos más
altos.
Generación de dato
Una variación de upsampling vía bootstrapping (ve “Undersampling”) es
generación de dato por perturbar existiendo registros de crear registros nuevos.
La intuición detrás de esta idea es que desde entonces sólo observamos un
conjunto limitado de casos, el algoritmo no tiene un conjunto rico de
información para construir reglas “de clasificación.” Por crear registros nuevos
que es similar pero no idéntico a existir registros, el algoritmo tiene una
posibilidad de aprender un conjunto más robusto de reglas. Esta idea es similar en
espíritu a ensemble modelos estadísticos como aumentar y bagging (ve Capítulo
6).
La idea tracción obtenida con la publicación de el GOLPEÓ algoritmo, el cual
está para “Minoría Sintética Oversampling Técnica.” El GOLPEÓ el algoritmo
encuentra un récord aquello es similar a el ser récord upsampled (ve “K-
Vecinos más Cercanos”) y crea un sintético récord aquello es un aleatoriamente
weighted media de el registro original y el neighboring registro, donde el peso
está generado por separado para cada predictor. El número de sintético
oversampled los registros crearon depende de el oversampling la proporción
requirió para traer el dato puesto a equilibrio aproximado, con respetar a clases
de resultado.
Hay varias implementaciones de GOLPEÓ en R. El paquete más
comprensible para manejar el dato desequilibrado es desequilibrado . Ofrece
una variedad de técnicas, incluyendo un “algoritmo de” Correr para seleccionar
el método mejor. Aun así, el GOLPEÓ el algoritmo es bastante sencillo que lo
puede ser implementado directamente en R utilizando el knn paquete.
Coste-Clasificación Basada
En práctica, exactitud y AUC es la manera de escoger de un hombre pobre una
regla de clasificación. A menudo, un coste estimado puede ser asignado a falso
positives versus falso negatives, y es más apropiado de incorporar estos costes
para determinar el mejores cutoff cuándo clasificando 1s y 0s. Por ejemplo,
suponer el coste esperado de un default de un préstamo nuevo es Y el
regreso esperado de un pagado-fuera el préstamo es .
Entonces el regreso esperado para aquel préstamo es:
En vez de sencillamente etiquetado un préstamo como default o pagó fuera, o

determinando la probabilidad de default, hace más sentido para determinar si el
préstamo tiene un regreso esperado positivo. Probabilidad pronosticada de
default es un paso intermedio, y tenga que ser combinado con el valor total
del préstamo para determinar beneficio esperado, el cual es el definitivo
planeando métrico de empresarial. Por ejemplo, un préstamo de valor más
pequeño podría ser pasado encima a favor de un más grande uno con un
ligeramente más alto pronosticado default probabilidad.
Explorando las Predicciones
Un solo métrico, como AUC, no puede capturar todos los aspectos de el
appropriateness de un modelo para una situación. Figura 5-8 exhibiciones las
reglas de decisión para cuatro modelos diferentes cabidos a el dato de préstamo
que utiliza justo dos predictor variables: puntuación_de prestatario y
pago_inc_proporción . Los modelos son lineales discriminant análisis (LDA),
logistic regresión lineal, logistic la regresión cabe utilizar un modelo aditivo
generalizado (GAM) y un modelo de árbol (ve “Modelos de Árbol”). La región a
el superior-izquierdo de las líneas corresponde a un pronosticados default.
LDA Y logistic la regresión lineal da casi resultados idénticos en este caso. El
modelo de árbol produce la regla menos regular: de hecho, hay situaciones en
qué aumentando la puntuación de prestatario cambia la predicción de “pagado-
fuera” a “default”! Finalmente, el GAM acceso de el logistic la regresión
representa un compromise entre los modelos de árbol y los modelos lineales.
Figura 5-8. Comparación de las reglas de clasificación para cuatro métodos diferentes
No es fácil de visualizar las reglas de predicción en dimensiones más altas, o en

el caso de el GAM y modelo de árbol, incluso generar las regiones para tales
reglas.
De todas formas, análisis exploratorio de pronosticó los valores es siempre
warranted.
IDEAS CLAVES PARA IMB ALANCED ESTRATEGIAS de DATO

Altamente imbalanced dato (i.e., donde los resultados interesantes, el 1s, es raro) es problemático
para algoritmos de clasificación.
Una estrategia es para equilibrar el dato de formación vía undersampling el caso abundante (u
oversampling el caso raro).
Si utilizando todo el 1s hojas quietas tú con demasiado pocos 1s, puedes bootstrap los casos
raros, o el uso GOLPEÓ para crear el dato sintético similar a existir casos raros.
Imbalanced El dato normalmente indica que correctamente clasificando una clase (el 1s) tiene
valor más alto, y que proporción de valor tendría que ser construida a la valoración métrica.
Lectura más lejana
Tom Fawcett, autor de Ciencia de Datos para Empresarial, tiene un
artículo bueno en imbalanced clases.
Para más encima GOLPEÓ, ve Nitesh V. Chawla, Kevin W. Bowyer,

Lawrence O. Sala, y W. Philip Kegelmeyer, “GOLPEÓ: Minoría Sintética
Encima- Técnica de muestreo,” Revista de Búsqueda de Inteligencia
Artificial 16 (2002): 321–357.
También ver el Analytics Vidya la guía Práctica de “Equipo de Contenido

para tratar Imbalanced Problemas de Clasificación en R,” Marcha 28,
2016.
Resumen
Clasificación, el proceso de pronosticar cuál de dos (o un número pequeño de)
categorías un registro pertenece a, es una herramienta fundamental de predictivo
analytics. un préstamo default (sí o ningún)? él prepay? un clic de visitante de
la web en un enlace? adquiera algo? Es una reclamación de seguro fraudulenta?
A menudo en problemas de clasificación, una clase es de interés primario (p.
ej., la reclamación de seguro fraudulenta) y, en clasificación binaria, esta clase
está designada como 1, con el otro, más prevalent la clase siendo una 0 . A
menudo, una parte clave del proceso está estimando una puntuación de
propensión, una probabilidad de pertenecer a la clase de interés. Un escenario
común es uno en qué la clase de interés es relativamente raro. El capítulo
concluye con una discusión de una variedad de valoración de modelo metrics
aquello va allende exactitud sencilla; estos son importantes en la situación de
clase rara, cuándo clasificando todos los registros cuando 0s puede ceder
exactitud alta.
2 Ciertamente está sorprendiendo que el primer artículo en clasificación estadística estuvo publicado en una
revista dedicó a eugenesia. De hecho, hay una conexión desconcertanda entre el desarrollo temprano de
estadísticas y eugenesia .
3 No todos los métodos proporcionan unbiased estimaciones de probabilidad. En más casos, es
suficiente que el método proporciona un ranking equivalente a el rankings que resultaría de un
unbiased estimación de probabilidad; el cutoff el método es entonces funcionalmente equivalente.
4 El ROC la curva era primero utilizada durante Segunda Guerra mundial para describir el rendimiento
del radar que recibe estaciones, cuyo trabajo era a correctamente identificar (clasifica) reflejó señales de
radar, y fuerzas de defensa de la alerta a incoming aeronave.
Capítulo 6. Aprendizaje de
Máquina estadística
Los avances recientes en estadísticas han sido dedicados a desarrollar más

potente automatizó técnicas para modeling predictivo — tanto regresión y
clasificación. Esta caída de métodos bajo el paraguas de aprendizaje de
máquina estadística, y está distinguido de métodos estadísticos clásicos en
aquel son dato -conducidos y no busca para imponer lineal u otra estructura
global en el dato. El K-método de Vecinos más Cercanos, por ejemplo, es
bastante sencillo: clasificar un registro de acuerdo con cómo los registros
similares están clasificados. El más exitoso y ampliamente utilizó las técnicas
están basadas en ensemble el aprendizaje aplicó a árboles de decisión. La idea
básica de ensemble el aprendizaje es para utilizar muchos modelos para formar
una predicción como opposed a justo un modelo solo. Árboles de decisión son
una técnica flexible y automática para aprender reglas sobre las relaciones entre
predictor variables y variables de resultado. Resulta que la combinación de
ensemble el aprendizaje con árboles de decisión dirige que actúa hasta arriba
fuera-el-balda técnicas de modeling predictivo.
El desarrollo de muchos de las técnicas en aprendizaje de máquina estadística
pueden ser remontadas a los estadísticos Leo Breiman (ve Figura 6-1) en la
Universidad de California en Berkeley y Jerry Friedman en Stanford
Universidad. Su trabajo, junto con otros investigadores en Berkeley y Stanford,
empezado con el desarrollo de modelos de árbol en 1984. El desarrollo
subsiguiente de ensemble métodos de bagging y aumentando en el 1990s
estableció la fundación de aprendizaje de máquina estadística.
Figura 6-1. Leo Breiman, quién era un profesor de estadísticas en Berkeley, era en el forefront en
desarrollo de muchas técnicas en el núcleo de un científico de dato toolkit
La MÁQUINA que APRENDE VERSUS
ESTADÍSTICA
En el contexto de modeling predictivo, qué es la diferencia entre aprendizaje de máquina y
estadística? no hay una línea brillante dividiendo las dos disciplinas. Aprendizaje de máquina
tiende para ser más centrado en algoritmos eficaces en desarrollo que escala a dato grande
para optimizar el
Modelo predictivo. La estadística generalmente paga más atención a la teoría probabilista y
estructura subyacente del modelo. Bagging, y el bosque aleatorio (ve “Bagging y el Bosque
Aleatorio”), creció arriba firmemente en el campamento de estadística. Aumentando (ve
“Aumentar”), por otro lado, ha sido desarrollado en ambas disciplinas pero recibe más atención
en el lado de aprendizaje de la máquina del dividir. A toda costa de la historia, la promesa de
aumentar asegura que él thrive como técnica en ambas estadística y aprendizaje de máquina.
K-Vecinos más cercanos
La idea detrás de K -Vecinos más Cercanos (KNN) es muy sencillo.1 Para cada
récord de ser clasificado o pronosticó:.
1. Encuentra K graba aquello tiene características similares (i.e., similares
predictor valores).
2. Para clasificación: Descubrir lo que la clase de mayoría es entre

aquellos registros similares, y asignar aquella clase a el registro
nuevo.
3. Para predicción (también llamado KNN regresión): Encontrar la

media entre aquellos registros similares, y pronosticar aquella media
para el registro nuevo.
PLAZOS CLAVES PARA K-más CERCANOS NEIGHB ORS
Vecino
Un récord aquello tiene similar predictor valores a otro registro.
Distancia metrics
Medidas que suma arriba en un número solo qué lejos uno récord es de otro.
Estandarización
Restar el malo y dividir por la desviación estándar.
Synonym
Normalización
Z-Puntuación
El valor que resultados después de que estandarización.
K
El número de vecinos consideró en el cálculo de vecino más cercano.
KNN Es uno de las técnicas de clasificación/de predicción más sencillas: hay

ningún modelo para ser cabido (cuando en regresión). Esto no significa que
utilizando KNN es un procedimiento automático. Los resultados de predicción
dependen de cómo las características son scaled, cómo la semejanza está
medida, y qué grande K está puesto. También, todo predictors tiene que ser en
forma numérica. Ilustraremos él con un ejemplo de clasificación.
Un Smal Ejemplo: Pronosticando Préstamo Default
Mesa 6-1 espectáculos unos cuantos registros de dato de préstamo personal de
el Club de Dejar. Dejando el club es un dirigente en peer-a-peer dejando en qué
piscinas de inversoras hacen préstamos personales a individual. El objetivo de un
análisis sería para pronosticar el resultado de un préstamo potencial nuevo:
pagado-de versus default.
Mesa 6-1. Unos cuantos registros y columnas para Dejar dato de

préstamo del Club
Resultad Cantidad de Ingreso Propósito Ye ars Empleó Propiedad de Estat
o préstamo s casa al
Pagado 10000 79100 Consolidación_de 11 HIPOTECA NV

fuera deuda
Pagado 9600 48000 Emotivo 5 HIPOTECA TN

fuera
Pagado 18800 120036 Consolidación_de 11 HIPOTECA MD

fuera deuda
Default 15250 232000 Negocio_pequeñ 9 HIPOTECA CA

o
Pagado 17050 35000 Consolidación_de 4 ALQUILER MD

fuera deuda
Pagado 5500 43000 Consolidación_de 4 ALQUILER KS

fuera deuda
Considerar un modelo muy sencillo con justo dos predictor variables: dti, el
cual es la proporción de pagos de deuda (excluyendo hipoteca) a ingresos, y
pago_inc_proporción , el cual es la proporción de el pago de préstamo a
ingresos. Ambas proporciones están multiplicadas por
100. Utilizando un conjunto pequeño de 200 préstamos, préstamo200, con
resultados binarios sabidos
(default O no-default, especificado en el predictor resultado200 ), y con K
conjunto a 20, el KNN estimación para un préstamo nuevo para ser
pronosticado, newloan, con dti=22.5 y pago_inc_proporción=9 puede ser
calculado en R como sigue:.
Biblioteca(FNN)
knn_pred <- knn(Préstamo=de tren200, prueba=newloan,
cl=resultado200, k=20) knn_pred == 'default'
[1] CIERTO
El KNN la predicción es para el préstamo a default.
Mientras R tiene un nativo knn función, el contribuido R paquete FNN, para
Vecino más Cercano Rápido, balanza al dato grande mejor y proporciona más
flexibilidad.
Figura 6-2 da una exhibición visual de este ejemplo. El préstamo nuevo para ser
pronosticado es la plaza en el medio. Los círculos (default) y triángulos
(pagados fuera) es el dato de formación. La línea negra muestra la frontera de el
más cercano 20 puntos. En este caso, 14 defaulted mentira de préstamos dentro
del círculo cuando comparado con único 6 pagado-de préstamos. De ahí, el
resultado pronosticado de el préstamo es default.
NOTA
Mientras la producción de KNN para la clasificación es típicamente una decisión binaria, como
default o pagó fuera en el dato de préstamo, KNN las rutinas normalmente ofrecen la
oportunidad a producción una probabilidad (propensión) entre 0 y 1. La probabilidad está
basada en la fracción de una clase en el K vecinos más cercanos.
En el ejemplo de preceder, esta probabilidad de default habría sido estimado en O 0.7.
Utilizando una puntuación de probabilidad deja utilizas la clasificación gobierna otro que votos
de mayoría sencilla (probabilidad de 0.5). Esto es especialmente importante en problemas con
imbalanced clases; ve “Estrategias para Imbalanced Dato”. Por ejemplo, si el objetivo es para
identificar miembros de una clase rara, el cutoff típicamente sería puesto abajo 50%. Uno la
aproximación común es para poner el cutoff en la probabilidad del acontecimiento raro.
Figura 6-2. KNN Predicción de prestar default utilizando dos variables: deuda-a-proporción
de ingresos y pago de préstamo-a-proporción de ingresos
Distancia Metrics
Semejanza (nearness) está determinado utilizando una distancia métrica, el cual
es una función que medidas qué lejos dos registros (x1, x2, … xp ) y ( u1, u2, …
up) es de uno otro. La distancia más popular métrica entre dos vectores es
distancia euclidiana . Para medir la distancia euclidiana entre dos vectores, resta
uno de el otro, plaza las diferencias, suma les, y tomar la raíz cuadrada:
La distancia euclidiana ofrece ventajas computacionales especiales. Esto es

particularmente importante para conjuntos de dato grande desde KNN implica K
× n pairwise comparaciones donde n es el número de filas..
Otra distancia común métrica para el dato numérico es distancia de Manhattan :
La distancia euclidiana corresponde a la distancia de línea recta entre dos

puntos (p. ej., cuando las moscas de cuervo). Distancia de Manhattan es la
distancia entre dos puntos traversed en una dirección sola a la vez (p. ej.,
viajando a lo largo de bloques de ciudad rectangular). Por esta razón, distancia
de Manhattan es una aproximación útil si la semejanza está definida tan punto-
a-tiempo de viaje del punto.
En medir distancia entre dos vectores, variables (características) aquello está
medido con comparativamente la escala grande dominará la medida. Por
ejemplo, para el dato de préstamo, la distancia sería casi sólo una función de los
ingresos y variables de cantidad del préstamo, los cuales están medidos en
decenas o centenares de miles. Variables de proporción contarían para
prácticamente nada en comparación. Dirigimos este problema por estandarizar
el dato; ve “Estandarización (Normalización, Z- Puntuaciones)”.
OTRA DISTANCIA METRICS
hay numeroso otro metrics para medir distancia entre vectores. Para dato numérico,
Mahalanobis la distancia es atractiva desde entonces él cuentas para la correlación entre dos
variables. Esto es útil desde entonces si dos variables son altamente correlativas, Mahalanobis
esencialmente tratará estos como variable sola en plazos de distancia. Euclidiano y distancia de
Manhattan no cuenta para la correlación, eficazmente colocando peso más grande en el atributo
que underlies aquellas características. El downside de utilizar Mahalanobis la distancia está
aumentada complejidad y esfuerzo computacionales ; está computado utilizando la matriz de
covarianza; ve “Matriz de Covarianza”.
Uno Caliente Encoder
El dato de préstamo en Mesa 6-1 incluye varios factor (cuerda) variables. La
mayoría de estadístico y la máquina que aprende los modelos requieren este tipo
de variable de ser convertido a una serie de binario dummy las variables que
transportan la misma información, cuando en Mesa 6-2. En vez de un solo
variable denotando el estado de ocupante de la casa cuando “posee con un
mortage,” “posee sin hipoteca,” “alquileres,” o “otro,” acabamos con cuatro
variables binarias. El primero sería “posee con una hipoteca — Y/N,” el
segundo sería “posee sin hipoteca — Y/N,” y tan encima. Esto un predictor,
estado de ocupante de la casa, así cede un vector con uno 1 y tres 0s, aquello
puede ser utilizado en estadístico y la máquina que aprende algoritmos. La
frase un caliente codificando proviene terminología de circuito digital, donde
describe encuadres de circuito en qué únicos uno mordió está dejado para ser
positivo (caliente).
Mesa 6-2. Representando

dato de factor de propiedad
de casa como numérico
dummy variable
HIPOTECA OTRO PRO ALQU
PIO ILER
1 0 0 0
1 0 0 0
1 0 0 0
1 0 0 0
0 0 0 1
0 0 0 1
NOTA
En lineal y logistic regresión, uno caliente codificando problemas de causas con
multicollinearity; ve “Multicollinearity”. En tales casos, un dummy está omitido (su valor puede
ser inferido de los otros valores). Esto no es un asunto con KNN y otros métodos.
Estandarización (Normalización, Z-Puntuaciones)
En medida, somos a menudo no tanto interesados en “cuánto” pero “qué
diferentes de la media.” Estandarización, normalización llamada también, pone
todas las variables en balanza similar por restar el malo y dividiendo por la
desviación estándar. De este modo, aseguramos que una variable no demasiado
influencia un modelo sencillamente debido a la escala de su medida original.
Estos son generalmente refered a tan z-puntuaciones. Las medidas son entonces
declaradas en plazos de “desviaciones estándares fuera de el malos.” De este
modo, el impacto de una variable en un modelo no es afectado por la escala
de su medida original.
AMONESTACIÓN
Normalización en este contexto estadístico no es para ser confundido con normalización
de base de datos, el cual es la extracción de dato redundando y la verificación de
dependencias de datos.
Para KNN y unos cuantos otros procedimientos (p. ej., análisis de componentes
principales y clustering), es esencial de considerar estandarizando el dato con
anterioridad a aplicar el procedimiento. Para ilustrar esta idea, KNN está
aplicado a el dato de préstamo que utiliza dti y pago_inc_proporción (ve “Un
Ejemplo Pequeño: Pronosticando Préstamo Default”) plus dos otras variables:
revol_bal, el crédito rotativo total disponible a el solicitante en dólares, y
revol_util , el porcentaje de el ser de crédito utilizó. El registro nuevo de ser
pronosticado está mostrado aquí:
newloan
Pago_inc_proporción dti revol_bal
revol_util 1 2.3932 1 1687 9.4
La magnitud de revol_bal , el cual es en dólares, es mucho más grande que las

otras variables. El knn la función regresa el índice de los vecinos más cercanos
como un atributo nn.Índice, y esto puede soler mostrar el superior-cinco filas
más cercanas en
Préstamo_df:
Préstamo_df <- modelo.Matriz(~ -1 + pago_inc_proporción + dti + revol_bal +

revol_util, dato=de préstamo_del
dato) knn_pred <- knn(préstamo=de tren_df, prueba=newloan,
cl=resultado, k=5) préstamo_df[attr(knn_pred,"nn.Índice"),]
Pago_inc_proporción dti revol_bal revol_util
36054 2.22024 0.79 1687 8.4
33233 5.97874 1.03 1692 6.2
28989 5.65339 5.40 1694 7.0
29572 5.00128 1.84 1695 5.1
20962 9.42600 7.14 1683 8.6
El valor de revol_bal en estos vecinos es muy cercanos a su valor en el

registro nuevo, pero el otro predictor las variables son por todas partes el mapa
y esencialmente jugar ninguna función en determinar vecinos.
Compara esto a KNN aplicado a el dato estandarizado que utiliza el R escala de
función, el cual computa el z-puntuación para cada variable:
Préstamo_std <- escala(préstamo_df)

knn_pred <- knn(Préstamo=de tren_std, prueba=newloan_std,
cl=resultado, k=5) préstamo_df[attr(knn_pred,"nn.Índice"),]
Pago_inc_proporción dti revol_bal revol_util
2081 2.61091 1.03 1218 9.7
36054 2.22024 0.79 1687 8.4
23655 2.34286 1.12 523 10.7
41327 2.15987 0.69 2115 8.1
39555 2.76891 0.75 2129 9.5
Los cinco vecinos más cercanos son mucho más igualmente en todas las
variables que proporcionan un resultado más sensato. Nota que los resultados
están mostrados en la escala original, pero KNN estuvo aplicado a el scaled
dato y el préstamo nuevo para ser pronosticado.
CONSEJO
Utilizando el z-la puntuación es justo una manera a rescale variables. En vez del malo, una
estimación más robusta de ubicación podría ser utilizada, como el median. Así mismo, una
estimación diferente de escala como el interquartile la gama podría ser utilizada en vez de la
desviación estándar. A veces, las variables son “squashed” a el 0–1 gama. Es también
importante de darse cuenta que scaling cada variable de tener varianza de unidad es un poco
arbitraria. Esto implica que cada variable está pensada para tener la misma importancia en poder
predictivo. Si tienes conocimiento subjetivo que algunas variables son más importantes que
otros, entonces estos podrían ser scaled arriba. Por ejemplo, con el dato de préstamo, es
razonable de esperar que el pago-a-proporción de ingresos es muy importante.
NOTA
Normalización (estandarización) no cambia la forma distribucional del dato; no lo haga
normalmente shaped si no sea ya normalmente shaped (ve “Distribución Normal”).
Escogiendo K
La elección de K es muy importante a el rendimiento de KNN. La elección
más sencilla es para poner , sabido como el 1-vecino más cercano
classifier. La predicción es intuitiva: está basado encima encontrando el
registro de dato en la formación puesta más similar a el registro nuevo de ser
pronosticado. Encuadre Es raramente la elección mejor; casi siempre
obtienes rendimiento superior por utilizar K > 1-vecinos más cercanos.
En general, si K es demasiado abajo, podemos ser overfitting: incluyendo el
ruido en el dato. Valores más altos de K proporciona suavizar que reduce el
riesgo de overfitting en el dato de formación. Por otro lado, si K es
demasiado alto, podemos oversmooth el dato y perder fuera en KNN capacidad
de capturar la estructura local en el dato, uno de sus ventajas principales.
El K que equilibrios mejores entre overfitting y oversmoothing es típicamente
determinado por exactitud metrics y, en particular, exactitud con holdout o dato
de validación. hay no regla general sobre el mejor K — depende mucho en la
naturaleza de el dato. Para dato estructurado altamente con ruido pequeño,
valores más pequeños de K trabajo más. Tomando prestado un plazo de la
comunidad de procesamiento de la señal, este tipo de datos es a veces referido a
cuando habiendo una señal alta-a-proporción de ruido (SNR).
Ejemplos de datos con típicamente altos SNR es letra y reconocimiento de
discurso. Para dato ruidoso con menos estructura (dato con un bajo SNR), como
el dato de préstamo, valores más grandes de K es apropiado. Típicamente,
valores de K caída en la gama 1 a 20. A menudo, un número extraño está
escogido para evitar lazos.
SESGO-VARIANZA TRADEOFF
La tensión entre oversmoothing y overfitting es un caso del sesgo-varianza tradeoff, un
ubiquitous problema en el modelo estadístico que cabe. La varianza refiere a el error de modeling
que ocurre debido a la elección de entrenar dato; aquello es, si eras para escoger un conjunto
diferente de entrenar dato, el modelo resultante sería diferente. El sesgo refiere a el error de
modeling que ocurre porque has no correctamente identificó el subyacente real-escenario
mundial; este error no desaparecería si tú sencillamente añadido más entrenando dato. Cuándo
un modelo flexible es overfit, los aumentos de varianza. Puedes reducir esto por utilizar un
modelo más sencillo, pero el sesgo puede aumentar debido a la pérdida de flexibilidad en
modeling la situación subyacente real. Una aproximación general a manejar este tradeoff es a
través de cruz-validación. Ve “Cross-Validación” para más detalles.
KNN Como Motor de Característica
KNN Obtuvo su popularidad debido a su simplicidad y naturaleza intuitiva. En
plazos de rendimiento, KNN por él es normalmente no competitivo con
clasificación más sofisticada técnicas. En el modelo práctico que cabe, aun así,
KNN puede soler añadir “conocimiento local” en un proceso escenificado con
otras técnicas de clasificación.
1. KNN Está corrido en el dato, y para cada registro, una clasificación
(o quasi- probabilidad de una clase) está derivado.
2. Aquel resultado está añadido como característica nueva a el

registro, y otro método de clasificación es entonces corrido en el
dato. El original predictor las variables son así utilizadas dos
veces.
Al principio te podrías preguntar si este proceso, desde entonces utiliza algunos

predictors dos veces, causa un problema con multicollinearity (ve
“Multicollinearity”). Esto no es un asunto, desde la información que es
incorporado a el segundo-modelo de etapa es altamente local, derivó sólo de
unos cuantos registros cercanos, y es por tanto información adicional, y no
redundando.
NOTA
Puedes pensar de este uso escenificado de KNN como forma de ensemble aprendizaje, en qué
métodos de modeling predictivos múltiples están utilizados conjuntamente con uno otro.
También pueda ser considerado como forma de ingeniería de característica donde el objetivo
es para derivar características (predictor variables) aquello tiene poder predictivo. A menudo
esto implica algunos revisión manual del dato; KNN da una manera bastante automática para
hacer este.
Por ejemplo, considerar el dato de alojamiento de Condado de Rey. En tasar una

casa para venta, un realtor basará el precio en las casas similares recientemente
vendidas, sabidos como “comps.” En esencia, realtors está haciendo una versión
manual de KNN: por mirar en los precios de venta de casas similares, pueden
estimar lo que una casa venderá para. Podemos crear una característica nueva
para un modelo estadístico a mimic el profesional de inmueble por aplicar
KNN a ventas recientes. El valor pronosticado es el precio de ventas y el
existiendo predictor las variables podrían incluir ubicación, pies cuadrados
totales, tipo de estructura, medida de parcela, y número de dormitorios y
baños. El nuevo predictor variable (característica) que añadimos vía KNN es el
KNN predictor para cada registro
(Análogo a el realtors' comps). Desde entonces estamos pronosticando un valor
numérico, la media de el K-los vecinos más Cercanos está utilizado en vez de
un voto de mayoría (sabido como KNN regresión).
De modo parecido, para el dato de préstamo, podemos crear características que
representa aspectos diferentes de el proceso de préstamo. Por ejemplo, el
siguiendo construiría una característica que representa un prestatario
creditworthiness:
Toma prestado_df <- modelo.Matriz(~ -1 + dti + revol_bal + revol_util + abierto_acc +

delinq_2yrs_cero + pub_rec_cero, dato=de préstamo_del
dato) toma prestado_knn <- knn(toma prestado_df, la prueba=toma prestado_df,
cl=dato_de préstamo[, 'resultado'],
prob=CIERTO, k=10)
prob <- attr(toma prestado_knn,
"prob")
Toma prestado_característica <- ifelse(toma
prestado_knn=='default', prob, 1-prob) resumen(toma
prestado_característica)
0.0000 0.4000 0.5000 0.5012 0.6000 1.0000
El resultado es una característica que pronostica el likelihood un prestatario

default basado en su historia de crédito.
IDEAS CLAVES PARA K-más CERCANOS NEIGHB ORS

K-Vecinos más cercanos (KNN) clasifica un registro por asignarlo a la clase que los registros
similares pertenecen a.
Semejanza (distancia) está determinado por Euclidian distancia u otro relacionado metrics.
El número de vecinos más cercanos para comparar un récord a, K, está determinado por
qué bien el algoritmo actúa encima entrenando dato, utilizando valores diferentes para K.
Típicamente, el predictor las variables están estandarizadas de modo que variables de la escala
grande no domina la distancia métrica.
KNN Es a menudo utilizado como primera etapa en modeling predictivo, y el valor pronosticado
está añadido atrás a el dato como predictor para segundo-etapa (no-KNN) modeling.
Modelos de árbol
Modelos de árbol, Clasificación llamada también y Árboles de Regresión
(CARRETA),2 árboles de decisión, o árboles justos, es una clasificación eficaz y
popular (y regresión) el método inicialmente desarrollado por Leo Breiman y
otros en 1984. Modelos de árbol, y su más potentes descendents bosques
aleatorios y aumentando (ve “Bagging y el Bosque Aleatorio” y “Aumentando” ),
forma la base para el más ampliamente utilizado y herramientas de modeling
predictivas potentes en ciencia de datos para ambas regresión y clasificación..
PLAZOS CLAVES PARA ÁRBOLES
Recursivo partitioning
Repetidamente dividiendo y subdividing el dato con el objetivo de hacer los resultados en
cada subdivisión final como homogeneous como posible.
Valor de ruptura
Un predictor valor que divide los registros a aquellos donde aquello predictor es menos de el
valor de ruptura, y aquellos donde es más.
Nodo
En el árbol de decisión, o en el conjunto de correspondiente branching reglas, un nodo es el
gráfico o representación de regla de un valor de ruptura.
Hoja
El fin de un conjunto de si-entonces reglas, o ramas de un árbol — las reglas que te traes a
aquella hoja proporciona uno de las reglas de clasificación para cualquier registro en un árbol.
Pérd
ida El número de misclassifications en una etapa en el proceso de partir; el más pérdidas, la
más impureza.
Impureza
La extensión al cual una mezcla de clases está encontrada en un subpartition del dato (el más
mixto, el más impuro).
Synonym
Heterogeneidad
Antónimo
Homogeneidad, pureza
Pruning
El proceso de tomar un árbol plenamente crecido y progresivamente cortando sus ramas atrás, para
reducir overfitting.
Un modelo de árbol es un conjunto de “si-entonces-más” gobierna aquello es
fácil de entender y para implementar. En contraste a regresión y logistic
regresión, los árboles tienen la capacidad de descubrir los patrones escondidos
que corresponden a interacciones complejas en el dato.
Aun así, a diferencia de KNN o naive Bayes, modelos de árbol sencillo pueden
ser expresados en plazos de predictor relaciones que es fácilmente interpretable.
ÁRBOLES de DECISIÓN EN BÚSQUEDA de
OPERACIONES
Los árboles de decisión del plazo tiene un diferentes (y más viejos) significado en ciencia de
decisión y búsqueda de operaciones, donde refiere a un proceso de análisis de decisión
humano. En este significado, puntos de decisión, resultados posibles, y su estimó las
probabilidades están puestas fuera en un branching esquema, y el camino de decisión con el
valor esperado máximo está escogido.
Un Ejemplo Sencillo
Los dos paquetes principales para caber modelos de árbol en R es rpart y árbol
. Utilizando el rpart paquete, un modelo está cabido a una muestra de 3,000
registros de el dato de préstamo que utiliza el pago de
variables_inc_proporción y puntuación_de prestatario (ve “K-Vecinos
más Cercanos” para una descripción de el dato).
Biblioteca(rpart)
Árbol_de préstamo <- rpart(pago ~ de puntuación_de prestatario + de
resultado_inc_proporción, dato=de préstamo_del dato,
control = rpart.Control(cp=.005))
Parcela(árbol_de préstamo,
uniforme=CIERTO, margen=.05)
texto(árbol_de préstamo)
El árbol resultante está mostrado en Figura 6-3. Estas reglas de clasificación

están determinadas por traversing a través de un árbol jerárquico, empezando en
la raíz hasta una hoja está lograda.
Figura 6-3. Las reglas para un modelo de árbol sencillo cabido al dato de préstamo
Típicamente, el árbol es plotted al revés, así que la raíz está al frente y las
hojas son en el fondo. Por ejemplo, si conseguimos un préstamo con
puntuación_de prestatario de 0.6 y
Un pago_inc_proporción de 8.0, acabamos en el leftmost hoja y pronosticar el
préstamo será pagado fuera.
Una versión amablemente imprimida del árbol es también fácilmente produjo:
Árbol_de
préstamo n=
3000
Nodo), ruptura, n, pérdida, yval, (yprob)

* Denota nodo terminal
1) raíz 3000 1467 pagó fuera (0.5110000 0.4890000)

2) puntuación_de prestatario>=0.525 1283 474 pagó fuera (0.6305534 0.3694466)
4) pago_inc_proporción< 8.772305 845 249 pagó fuera (0.7053254 0.2946746) *
5) pago_inc_proporción>=8.772305 438 213 default (0.4863014 0.5136986)
10) puntuación_de prestatario>=0.625 149 60 pagó fuera (0.5973154 0.4026846) *
11) puntuación_de prestatario< 0.625 289 124 default (0.4290657 0.5709343) *
3) puntuación_de prestatario< 0.525 1717 724 default (0.4216657 0.5783343)
6) pago_inc_proporción< 9.73236 1082 517 default (0.4778189 0.5221811)
12) puntuación_de prestatario>=0.375 784 384 pagó fuera (0.5102041 0.4897959)
*
13) puntuación_de prestatario< 0.375 298 117 default (0.3926174 0.6073826) *
7) pago_inc_proporción>=9.73236 635 207 default (0.3259843 0.6740157) *
La profundidad de el árbol está mostrada por el indent. Cada nodo

corresponde a una clasificación provisional determinada por el prevalent
resultado en aquella partición. La “pérdida” es el número de misclassifications
cedido por la clasificación provisional en una partición. Por ejemplo, en
nodo 2, había 474 misclassification fuera de un total de 1,467 registros
totales. Los valores en los paréntesis corresponden a la proporción de
registros que está pagado fuera y default, respectivamente. Por ejemplo, en
nodo 13, el cual pronostica default, encima 60 por ciento de los registros son
presta aquello es en default.
El Recursivo Partitioning Algoritmo
El algoritmo para construir un árbol de decisión, llamado recursivo partitioning ,
es sincero e intuitivo. El dato es repetidamente partitioned utilizando predictor
valores que hacer el trabajo mejor de separar el dato a relativamente
homogeneous particiones. Figura 6-4 espectáculos un cuadro de las particiones
creó para el árbol en Figura 6-3. La primera regla es puntuación_de prestatario
>= 0.525 y está descrito por regla 1 en la parcela. La segunda regla es pago
_inc_proporción < 9.732 y divide el righthand región en dos.
Figura 6-4. Las reglas para un modelo de árbol sencillo cabido al dato de préstamo
Supone tenemos una variable de respuesta Y y un conjunto de P predictor

variables Xj para
. Para una partición Un de registros, recursivos partitioning
encontrará la manera mejor a partición Un a dos subpartitions:
1. Para cada predictor variable Xj,
a. Para cada valor sj de X j:
i. Partido los registros en Un con X j valores < sj cuando una
partición, y los registros restantes donde Xj ≥ sj como otra
partición.
ii. Medida la homogeneidad de clases dentro de cada subpartition

de
Un.
b. Seleccionar el valor de s j que máximo de productos dentro-

homogeneidad de partición de clase..
2. Seleccionar la variable Xj y el valor de ruptura sj que máximo de

productos
Dentro-homogeneidad de partición de clase.
Ahora viene la parte recursiva:

1. Inicializar Un con el conjunto de dato entero.
2. Aplicar el partitioning algoritmo para partir Un a dos subpartitions, Un1 y

Un2.
3. Repite paso 2 en subpartitions Un1 y Un 2.
4. El algoritmo rescinde cuándo ninguna partición más lejana puede

ser hecha que suficientemente mejora la homogeneidad de las
particiones.
El resultado de fin es un partitioning de el dato, cuando en Figura 6-4

exceptúa en P - dimensiones, con cada partición que pronostica un resultado de 0
o 1 dependiendo de el voto de mayoría de el reponse en aquella partición.
NOTA
Además de un binario 0/1 predicción, modelos de árbol pueden producir una estimación de
probabilidad basada en el número de 0s y 1s en la partición. La estimación es sencillamente la
suma de 0s o 1s en la partición dividida por el número de observaciones en la partición.
El estimado entonces puede ser convertido a una decisión binaria;

por ejemplo, puesto la estimación a 1 si Prob(Y = 1) > 0.5.
Midiendo Homogeneidad o Impureza
Modelos de árbol recursively crear particiones (conjuntos de registros), Un,
aquello pronostica un resultado de Y = 0 o Y = 1. Puedes ver de el algoritmo
de preceder que necesitamos una manera de medir homogeneidad, clase
llamada también pureza, dentro de una partición. O, equivalently, necesitamos
medir la impureza de una partición. La exactitud de las predicciones es la
proporción p de misclassified registros dentro de aquella partición, el cual
varía de 0 (perfecto) a 0.5 (puramente aleatorio adivinando).
Resulta que la exactitud no es una medida buena para impureza. En cambio, dos
medidas comunes para impureza son el Gini impureza y entropía o información .
Mientras estos (y otro) medidas de impureza aplican a problemas de clasificación
con más de dos clases, centramos en el caso binario. El Gini impureza para un
conjunto de registros Un es:
La medida de entropía está dada por:
Figura 6-5 espectáculos que Gini impureza (rescaled) y medidas de entropía son
similares, con la entropía que da puntuaciones de impureza más alta para exactitud
moderada y alta índices.
Figura 6-5. Gini Impureza y medidas de entropía
GINI COEFICIENTE
Gini La impureza no es para ser confundido con el Gini coeficiente. Representan conceptos
similares, pero el Gini el coeficiente está limitado a el problema de clasificación binario y está
relacionado a el AUC métrico (ve “AUC”).
La impureza métrica está utilizado en el algoritmo de partir describió más

temprano. Para cada partición propuesta de el dato, la impureza está medida para
cada de las particiones que resultado de la ruptura. Un weighted la media es
entonces calculada, y whichever partición (en cada etapa) cede el más bajo
weighted la media está seleccionada.
Parando el Árbol de Crecer
Cuando el árbol crece más grande, las reglas de partir devienen más detalladas, y
el árbol gradualmente cambios de identificar “reglas” grandes que identifica
relaciones reales y fiables en el dato a “reglas” minúsculas que refleja ruido
único. Un árbol plenamente crecido resultados en completamente hojas puras y,
de ahí, 100% exactitud en clasificar el dato que está entrenado encima. Esta
exactitud es, naturalmente, illusory — hemos overfit (ve Sesgo-Varianza
Tradeoff) el dato, cabiendo el ruido en el dato de formación, no la señal que
queremos identificar en dato nuevo.
PRUNING
Un método sencillo e intuitivo de reducir medida de árbol es a prune atrás las ramas terminales
y más pequeñas del árbol, dejando un árbol más pequeño. Qué lejos tener que el pruning
procede? Una técnica común es a prune el árbol atrás al punto donde el error en holdout el dato
está minimizado. Cuándo combinamos predicciones de árboles múltiples (ve “Bagging y el
Bosque Aleatorio”), aun así, necesitaremos una manera de parar crecimiento de árbol.
Pruning Juega una función en el proceso de cruz- validación para determinar qué lejos para
crecer árboles que está utilizado en ensemble métodos.
Necesitamos alguna manera de determinar cuándo para parar creciendo un árbol

en una etapa que generalizará a dato nuevo. Hay dos maneras comunes para
parar partiendo:
Evita partir una partición si un resultante subpartition es demasiado
pequeño, o si una hoja terminal es demasiado pequeña. En rpart, estos
constreñimientos están controlados por separado por los parámetros
minsplit y minbucket , respectivamente, con defaults de 20 y 7 .
No parte una partición si la partición nueva no “significativamente” reduce

la impureza. En rpart, esto está controlado por el parámetro de
complejidad cp, el cual es una medida de cómo complejo un árbol es —
el más complejo, el más grande el valor de cp . En práctica, cp suele
crecimiento de árbol del límite por sujetar una pena a complejidad adicional
(rupturas) en un árbol.
El primer método implica reglas arbitrarias, y puede ser usful para trabajo
exploratorio, pero podemos no fácilmente determinar valores óptimos (i.e.,
valora que maximize exactitud predictiva con dato nuevo). Con el parámetro de
complejidad, cp, podemos estimar qué árbol de medida actuará más con dato
nuevo.
Si cp es demasiado pequeño, entonces el árbol overfit el dato, cabiendo ruido y
no señalar. Por otro lado, si cp es demasiado grande, entonces el árbol será
demasiado pequeño y ha poco poder predictivo. El default en rpart es 0.01, a
pesar de que para conjuntos de dato más grande, probablemente puedes
encontrar esto es demasiado grande. En el ejemplo anterior, cp estuvo puesto
a 0.005 desde el default dirigió a un árbol con una ruptura sola. En análisis
exploratorio, es suficiente a sencillamente probar unos cuantos valores.
Determinando el óptimo cp es un caso de el sesgo-varianza tradeoff (ve Sesgo-
Varianza Tradeoff). La manera más común para estimar un valor bueno de cp es
vía
Cruz-validación (ve “Cross-Validación”):
1. Partición el dato a entrenar y validación (holdout) conjuntos.
2. Crecer el árbol con el dato de formación.
3. Prune Él sucesivamente, paso a paso, registro cp (utilizando el dato de

formación) en cada paso.
4. Nota el cp aquello corresponde a el error mínimo (pérdida) en el

Dato de validación.
5. Repartition El dato a entrenar y validación, y repetir el creciendo,

pruning, y cp proceso de registro.
6. Hacer este otra vez y otra vez, y mediano el cps aquello refleja error
mínimo para cada árbol.
7. Vuelve a el dato original, o dato futuro, y crecer un árbol, parando

en este óptimo cp valor.
En rpart, puedes utilizar el argumento cptable para producir una mesa de el

CP valores y su cruz asociada-error de validación (xerror en R), de qué te
puede determinar el CP valor que tiene la cruz más baja-error de validación.
Pronosticando un Valor Continuo
Pronosticando un valor continuo (regresión denominada también) con un árbol
sigue la misma lógica y procedimiento, excepto aquella impureza está medida
por cuadró desviaciones de el malos (cuadró errores) en cada subpartition, y el
rendimiento predictivo está juzgado por la raíz cuadrada de el error cuadrado
malo (RMSE) (ve “Evaluar el Modelo”) en cada partición.
Cómo los árboles Son Utilizados
Uno de los obstáculos grandes afrontó por predictivo modelers en las
organizaciones es la naturaleza “de caja negra” percibida de los métodos
utilizan, el cual da aumento a oposición de otros elementos de la organización.
A este particular, el modelo de árbol tiene dos apelando aspectos.
Modelos de árbol proporcionan una herramienta visual para explorar el
dato, para obtener una idea de qué variables es importante y cómo
relacionan a uno otro. Los árboles pueden capturar nonlinear relaciones
entre predictor variables.
Modelos de árbol proporcionan un conjunto de reglas que puede ser

eficazmente comunicado a nonspecialists, cualquiera para implementación
o para “vender” un dato proyecto minero.
Cuándo viene a predicción, aun así, harnassing los resultados de árboles

múltiples es típicamente más potentes que justo utilizando un árbol solo. En
particular, el bosque aleatorio y algoritmos de árbol aumentado casi siempre
proporcionan exactitud predictiva superior y rendimiento (ve “Bagging y el
Bosque Aleatorio” y “Aumentando” ), pero las ventajas antedichas de un árbol
solo están perdidas.
IDEAS CLAVES
Árboles de decisión producen un conjunto de reglas para clasificar o pronosticar un resultado.
Las reglas corresponden a sucesivos partitioning del dato a subpartitions.
Cada partición, o ruptura, referencias un valor concreto de un predictor variable y divide el

dato a registros donde aquello predictor el valor es encima o bajo aquel valor de ruptura.
En cada etapa, el algoritmo de árbol escoge el partido aquello minimiza la impureza de resultado
dentro de cada subpartition.
Cuándo ninguna ruptura más lejana puede ser hecha, el árbol es plenamente crecido y cada
nodo terminal, u hoja, tiene registros de una clase sola; los casos nuevos que siguen que regla
(ruptura) el camino sería asignado que clase.
Un árbol plenamente crecido overfits el dato y tiene que ser pruned atrás de modo que
captura señal y no ruido.
Algoritmos de árbol múltiple como bosques aleatorios y aumentó los árboles ceden rendimiento
predictivo mejor, pero perder el poder comunicativo basado de árboles solos.
Lectura más lejana
Analytics Vidhya Equipo de contenido, “Un Completo Preceptoral encima
Árbol Modeling Basado de Arañazo (en & R Pitón)”, abril 12, 2016.
Terry M. Therneau, Elizabeth J. Atkinson, y el Mayo Fundación, “Una

Introducción a Recursivo Partitioning Utilizando el RPART Rutinas”, junio 29,
2015.
Bagging Y el Bosque Aleatorio
En 1907, el Señor de estadístico Francis Galton visitaba una feria de condado
en Inglaterra, en qué un concurso era aguantado para adivinar el peso vestido de
un ox aquello era encima exposición. Había 800 suposiciones, y, mientras las
suposiciones individuales variadas ampliamente, tanto el malos y el median
salió dentro 1% de el ox peso cierto. James Suroweicki ha explorado este
fenómeno en su libro La Cordura de Multitudes (Doubleday, 2004). Este
principio aplica a modelos predictivos, también: averaging (o tomando votos
de mayoría) de modelos múltiples — un ensemble de modelos.
— Resulta para ser más cuidadoso que justo seleccionando un modelo.
PLAZOS CLAVES PARA B AGGING Y EL BOSQUE ALEATORIO
Ensemble
Formando una predicción por utilizar una colección de modelos.
Synonym
Modelo averaging
Bagging
Una técnica general para formar una colección de modelos por bootstrapping el dato.
Synonym
Bootstrap Agregación
Bosque aleatorio
Un tipo de bagged la estimación basó encima modelos de árbol de la decisión.
Synonym
Bagged Árboles de decisión
Importancia variable
Una medida de la importancia de un predictor variable en el rendimiento del modelo.
El ensemble la aproximación ha sido aplicada a y a través de muchos métodos de

modeling diferente, más públicamente en el Netflix Concurso, en qué Netflix
ofreció un $1 millones de premio a cualquier contestant quién vino arriba con un
modelo que produjo una 10% mejora en pronosticar el valorando que un Netflix
el cliente otorgaría una película. La versión sencilla de ensembles es como
sigue:.
1. Desarrollar un modelo predictivo y grabar las predicciones para un dato
dado
Conjunto.
2. Repite para modelos múltiples, en el mismo dato.
3. Para cada récord de ser pronosticado, tomar una media (o un weighted

media, o un voto de mayoría) de las predicciones.
Ensemble Los métodos han sido aplicados más sistemáticamente y eficazmente a

árboles de decisión. Ensemble Modelos de árbol son tan potentes que
proporcionan una manera de construir modelos predictivos buenos con
relativamente poco esfuerzo.
Yendo allende el sencillo ensemble algoritmo, hay dos variantes principales de
ensemble modelos: bagging y aumentando . En el caso de ensemble modelos
de árbol, estos son refered a bosque tan aleatorio modelos y modelos de árbol
aumentado. Este foco de sección en bagging; aumentando está cubierto en
“Aumentar”.
Bagging
Bagging, El cual está para “bootstrap agregando,” estuvo introducido por Leo
Breiman en 1994. Supone tenemos una respuesta Y y P predictor variables
Con n registros.
Bagging Es como el algoritmo básico para ensembles, exceptúa que, en vez de
caber los varios modelos a el mismo dato, cada modelo nuevo está cabido a un
bootstrap resample.
Aquí es el algoritmo presentó más formalmente:
1. Inicializa M, el número de modelos para ser cabidos, y n , el número de
registros de escoger (n < N). Pone la iteración .
2. Tomar un bootstrap resample (i.e., con sustitución) de n registros de

el dato de formación para formar un subsample Y (La bolsa)..
3. Tren un modelo que utiliza Y Para crear un conjunto de reglas de

decisión .
4. Increment El contador de modelo . Si m <= M, va para dar

un paso 1.
En el caso dónde Pronostica la probabilidad , el bagged la

estimación está dada por:
Bosque aleatorio
El bosque aleatorio está basado encima aplicando bagging a árboles de
decisión con uno extensión importante: además de muestreo los registros, el
algoritmo también muestras las variables.3 En árboles de decisión tradicional,
para determinar cómo para crear un subpartition de una partición Un, el
algoritmo hace la elección de punto variable y partido por minimizar un criterio
como Gini impureza (ve “Medir Homogeneidad o Impureza” ). Con bosques
aleatorios, en cada etapa de el algoritmo, la elección de variable está limitado a
un subconjunto aleatorio de variables. Comparado a el algoritmo de árbol
básico (ve “El Recursivo Partitioning Algoritmo”), el algoritmo de bosque
aleatorio añade dos más pasos: el bagging discutido más temprano (ve “Bagging
y el Bosque Aleatorio”), y el bootstrap muestreo de variables en cada ruptura:
1. Tomar un bootstrap (con sustitución) subsample de los registros.
2. Para la primera ruptura, muestra p < P variables al azar

sin sustitución.
3. Para cada de el sampled variables , aplicar

el algoritmo de partir:.
a. Para cada valor De :

i. Partido los registros en partición Un con X j(k) < sj(k) cuando
una partición, y los registros restantes dónde
Cuando otra partición.
ii. Medida la homogeneidad de clases dentro de cada subpartition

de
Un.
b. Seleccionar el valor de Aquello produce máximo dentro-

homogeneidad de partición de clase..
4. Seleccionar la variable. Y el valor de ruptura Aquello

produce máximo dentro-homogeneidad de partición de clase..
5. Procede a la ruptura próxima y repetir los pasos anteriores,

empezando con paso 2.
6. Continúa con las rupturas adicionales que siguen el mismo
procedimiento hasta el árbol está crecido.
7. Vuelve para dar un paso 1, tomar otro bootstrap subsample, y

empezar el proceso encima otra vez.
Cuántas variables a muestra en cada paso? Una regla de pulgar es para escoger
Dónde P es el número de predictor variables. El paquete randomForest
implementa el bosque aleatorio en R. El siguiente aplica este paquete a el dato de
préstamo (ve “K-Vecinos más Cercanos” para una descripción de el dato).
> Biblioteca(randomForest)
> rf <- randomForest(Pago ~ de puntuación_de prestatario + de resultado_inc_proporción,
Préstamo=de dato3000)
Llamada:
randomForest(Puntuación = de prestatario ~ de resultado_de fórmula +
pago_inc_proporción, préstamo = de dato3000)
Tipo de bosque aleatorio: Número de
clasificación de árboles: 500
El núm. de variables probó en cada ruptura: 1
OOB Estimación de índice de error:

38.53% matriz de Confusión:
Pagado de default clase.Error
Pagado 1089 425 0.2807133
fuera
default 731 755 0.4919246
Por default, 500 árboles están entrenados. Desde entonces hay sólo dos
variables en el predictor conjunto, el algoritmo aleatoriamente selecciona la
variable en qué para partir en cada etapa (i.e., un bootstrap subsample de medida
1).
El fuera-de-bolsa (OOB) la estimación de error es el índice de error para el
entrenó modelos, aplicados a el dato dejó fuera de la formación puesta para
aquel árbol. Utilizando la producción de el modelo, el OOB el error puede ser
plotted versus el número de árboles en el bosque aleatorio:
Error_df = dato.Marco(índice_de error = rf$err.Índice[,'OOB'],

num_Árboles = 1:rf$ntree)
ggplot(error_df, aes(x=num_árboles, y=índice_de
error)) +
geom_Línea()
El resultado está mostrado en Figura 6-6. El índice de error rápidamente

disminuciones de encima .44 antes de estabilizar alrededor .385. El pronosticó
los valores pueden ser obtenidos de el pronosticar función y plotted como
sigue:
pred <- Pronosticar(préstamo_lda)
rf_df <- cbind(Préstamo3000,
pred_default=pred[,'default']>.5) ggplot(dato=rf_df,
aes(x=puntuación_de prestatario, y=pago_inc_proporción,
Color=pred_default, forma=pred_default)) +
geom_punto(alfa=.6, medida=2) +
Manual_de forma_de la escala( valores=c( 46, 4))
Figura 6-6. La mejora en exactitud del bosque aleatorio con la adición de más árboles
La parcela, mostrado en Figura 6-7, es bastante revelando sobre la naturaleza de

el bosque aleatorio.
Figura 6-7. El pronosticó los resultados del bosque aleatorio aplicaron al préstamo default dato
El método de bosque aleatorio es un “método de caja” negro . Produce

predicciones más cuidadosas que un árbol sencillo, pero las reglas de decisión
intuitiva del árbol sencillo están perdidas. Las predicciones son también un poco
ruidosos: nota que algunos prestatarios con una puntuación muy alta, indicando
alto creditworthiness, todavía acabar con una predicción de default. Esto es un
resultado de algunos registros inusuales en el dato y demuestra el peligro de
overfitting por el bosque aleatorio (ve Sesgo-Varianza Tradeoff).
Importancia variable
El poder de el algoritmo de bosque aleatorio muestra él cuando construyes
modelos predictivos para datos con muchas características y registros. Tiene la
capacidad a automáticamente determinar qué predictors es importante y descubrir
relaciones complejas entre predictors correspondiendo a plazos de interacción (ve
“Interacciones y Efectos Principales”). Por ejemplo, cabido un modelo a el
préstamo default dato con todas las columnas incluidas:
> rf_Todo <- randomForest(resultado ~ ., dato=de préstamo_del dato, la importancia=CIERTA)

> rf_Todo
Llamada:
randomForest(Resultado = de fórmula ~ ., dato = de préstamo_del dato, la
importancia = CIERTA) Tipo de bosque aleatorio:
clasificación
Número de árboles: 500
Núm. de variables probó en cada ruptura: 3
OOB Estimación de índice de error:

34.38% matriz de Confusión:
Pagado de default clase.Error
Pagado 15078 8058 0.3482884
fuera
default 7849 15287 0.3392548
La importancia de argumento=peticiones CIERTAS que el randomForest

tienda información adicional sobre la importancia de variables diferentes. La
función varImpPlot parcela el rendimiento relativo de las variables:
varImpPlot(rf_Todo, tipo=1)
varImpPlot(rf_todo, tipo=2)
El resultado está mostrado en Figura 6-8.

Figura 6-8. La importancia de variables para el modelo lleno cabido al dato de préstamo
Hay dos maneras para medir importancia variable:

Por la disminución en exactitud de el modelo si los valores de una variable
son aleatoriamente permuted (tipo=1). Aleatoriamente permuting los valores
tiene el efecto de sacar todo poder predictivo para aquella variable. La
exactitud está computada de el fuera-de-dato de bolsa (así que esta medida
es eficazmente una cruz-estimación validada).
Por la disminución mala en el Gini puntuación de impureza (ve “Medir

Homogeneidad o Impureza” ) para todo de los nodos que estuvo partido en
una variable (tipo=2). Esto mide cuánta mejora a la pureza de los nodos
que variables contribuye. Esta medida está basada en el conjunto de
formación, y por lo tanto menos fiable que una medida calculó encima
fuera-de-dato de bolsa.
Los tableros superiores e inferiores de Figura 6-8 espectáculo importancia

variable según la disminución en exactitud y en Gini impureza, respectivamente.
Las variables en ambos tableros son ranked por la disminución en exactitud.
Las puntuaciones de importancia variables produjeron por estas dos medidas
son bastante diferentes.
Desde la disminución de exactitud es un más fiable métrico, por qué tener que
utilizamos el Gini medida de disminución de la impureza? Por default,
randomForest sólo computa este Gini impureza: Gini la impureza es un
byproduct de el algoritmo, mientras que exactitud de modelo por variable
requiere computaciones extras (aleatoriamente permuting el dato y pronosticando
este dato). En casos donde la complejidad computacional es importante, como
en un encuadre de producción donde los miles de modelos están siendo acceso,
no pueda valer el esfuerzo computacional extra. Además, el Gini la disminución
arroja luz sobre qué variables el bosque aleatorio está utilizando para hacer sus
reglas de partir (recuerda que esta información, fácilmente visible en un árbol
sencillo, es eficazmente perdido en un bosque aleatorio). Examinando la
diferencia entre Gini disminución y exactitud de modelo la importancia variable
puede sugerir maneras de mejorar el modelo.
Hyperparameters
El bosque aleatorio, cuando con muchos la máquina estadística que aprende
algoritmos, puede ser considerado un algoritmo de cajas negras con knob para
ajustar cómo los trabajos de caja. Estos knob se apellidan hyperparameters, los
cuales son parámetros que te necesidad de poner antes de caber un modelo; no
son optimizados tan parte del proceso de formación. Mientras los modelos
estadísticos tradicionales requieren elecciones (p. ej., la elección de predictors
para utilizar en un modelo de regresión), el hyperparameters para el bosque
aleatorio es más crítico, especialmente para evitar overfitting. En particular, el
dos más importante hyperparemters para el bosque aleatorio es:
nodesize
La medida mínima para nodos terminales (hojas en el árbol). El default es 1
para clasificación y 5 para regresión.
maxnodes
El número máximo de nodos en cada árbol de decisión. Por default, no hay
ningún límite y el árbol más grande será cabido subject a los
constreñimientos de nodesize .
Pueda ser tentar para ignorar estos parámetros y sencillamente ir con el default
valores. Aun así, utilizando el default puede dirigir a overfitting cuándo aplicas el
bosque aleatorio a dato ruidoso. Cuándo aumentas nodesize o conjunto
maxnodes, el algoritmo cabrá árboles más pequeños y es menos probablemente
para crear spurious reglas predictivas. Cross-validación (ve “Cross-Validación”)
puede soler probar los efectos de poner valores diferentes para hyperparameters.
IDEAS CLAVES PARA B AGGING Y EL BOSQUE

ALEATORIO
Ensemble Los modelos mejoran exactitud de modelo por combinar los resultados de muchos
modelos.
Bagging Es un tipo particular de ensemble el modelo basó encima cabiendo muchos modelos a
bootstrapped muestras del dato y averaging los modelos.
El bosque aleatorio es un tipo especial de bagging aplicó a árboles de decisión. Además de

resampling el dato, las muestras de algoritmo de bosque aleatorias el predictor variables cuándo
partiendo los árboles.
Una producción útil del bosque aleatorio es una medida de importancia variable que
rangos el predictors en plazos de su contribución a exactitud de modelo.
El bosque aleatorio tiene un conjunto de hyperparameters que tendría que ser puesto a punto
utilizando cruz-validación para evitar overfitting.
Aumentando
Ensemble Los modelos han devenido una herramienta estándar para modeling
predictivo. Aumentando es una técnica general para crear un ensemble de
modelos. Esté desarrollado alrededor de el mismo tiempo como bagging (ve
“Bagging y el Bosque Aleatorio”). Como bagging, aumentando es más
generalmente utilizado con árboles de decisión. A pesar de sus semejanzas,
aumentando toma una aproximación muy diferente — uno aquello viene con
muchos más campanas y pitos. Como resultado, mientras bagging puede ser
hecho con relativamente poca sintonía, aumentando requiere mucho cuidado más
grande en su aplicación. Si estos dos métodos eran coches , bagging podría ser
considerado un Honda Acuerdo (fiable y firme), mientras que aumentando
podría ser considerado un Porsche (potente pero requiere más cuidado).
En modelos de regresión lineal, el residuals es a menudo examinado para ver si
la acceso puede ser mejorada (ve “Parcelas Residuales Parciales y Nonlinearity”
). Aumentando toma este concepto mucho más lejano y cabe una serie de
modelos con cada modelo sucesivo cabido para minimizar el error de los
modelos anteriores. Varias variantes de el algoritmo son generalmente utilizó:
Adaboost, el gradiente que aumenta, y el gradiente estocástico que aumenta. El
gradiente último, estocástico que aumenta, es el más general y ampliamente
utilizó.
De hecho, con la elección correcta de parámetros, el algoritmo puede emular el
bosque aleatorio.
PLAZOS CLAVES PARA B OOSTING
Ensemble
Formando una predicción por utilizar una colección de modelos.
Synonym
Modelo averaging
Aumentando
Una técnica general para caber una secuencia de modelos por dar más peso a los registros
con grandes residuals para cada ronda sucesiva.
Adaboost
Una versión temprana de aumentar basado en reweighting el dato basado en el residuals.
El gradiente que aumenta

Una forma más general de aumentar que está lanzado en plazos de minimizing una función de
coste.
El gradiente estocástico que aumenta

Cada ronda.
Regularización
Una técnica para evitar overfitting por añadir un plazo de pena a la función de coste en el
número de parámetros en el modelo.
Hyperparameters
Parámetros que necesidad de ser puesta antes de caber el algoritmo.
El Algoritmo de Aumentar
La idea básica detrás del varios algoritmos de aumentar es esencialmente igual.
El más fácil de entender es Adaboost, el cual procede como sigue:.
1. Inicializa M, el número máximo de modelos para ser cabidos, y poner
el contador de iteración . Inicializar los pesos de observación
Para . Inicializar el ensemble modelo
.
2. Tren un modelo que utiliza Utilizando los pesos de observación

Aquello minimiza el weighted error Definido por summing los pesos
para el misclassified observaciones.
3. Añadir el modelo a el ensemble: Dónde

.
4. Actualización los pesos De modo que los pesos

están aumentados para las observaciones que era misclassfied. La
medida de el aumento depende de. Con valores más grandes de
Principal a pesos más grandes.
5. Increment El contador de modelo . Si , va para

dar un paso 1.
La estimación aumentada está dada por:
Por creciente los pesos para las observaciones que era misclassified, el
algoritmo fuerza los modelos para entrenar más fuertemente en el dato para qué
actúe mal. El factor Asegura que los modelos con error más bajo tienen un
peso más grande.
El gradiente que aumenta es similar a Adaboost pero lanza el problema como
una optimización de una función de coste. En vez de ajustar pesos, el gradiente
que aumenta modelos de acceso a un pseudo-residuales, el cual tiene el efecto
de entrenar más fuertemente en el más grande residuals. En el espíritu de el
bosque aleatorio, el gradiente estocástico que aumenta añade randomness a el
algoritmo por observaciones de muestreo y predictor variables en cada etapa.
XGBoost
El más dominio público utilizado ampliamente software para aumentar es
XGBoost, una implementación del gradiente estocástico que aumenta
originalmente desarrollado por Tianqi Chen y Carlos Guestrin en la Universidad
de Washington. Una implementación computacionalmente eficaz con muchas
opciones, es disponible como paquete para dato más importante lenguas de
software de la ciencia. En R, XGBoost es disponible como el paquete xgboost.
La función xgboost tiene muchos parámetros que puede, y tener que, ser ajustado
(ve “Hyperparameters y Cross-Validación” ). Dos parámetros muy importantes
son subsample, el cual controla la fracción de observaciones que tendría que ser
sampled en cada iteración, y eta , un factor de encogimiento aplicó a En el
algoritmo de aumentar (ve “El Algoritmo de Aumentar” ). Utilizando subsample
hace aumentar el acto como el bosque aleatorio exceptúa que el muestreo está
hecho sin sustitución. El parámetro de encogimiento eta es útil de impedir
overfitting por reducir el cambio en los pesos (un cambio más pequeño en los
pesos significa el algoritmo es menos probablemente a overfit a el conjunto de
formación). El siguiente aplica xgboost a el dato de préstamo con justo dos
predictor variables:
Biblioteca(xgboost)
predictors <- Datos.Matriz(préstamo3000[, c('puntuación_de prestatario',
'Pago_inc_proporción')])
etiqueta <- cuando.Numérico(préstamo3000[,'resultado'])-1
xgb <- xgboost(Dato=predictors, etiqueta=de etiqueta,
Objetivo = "binario:logistic",
params=lista(subsample=.63, eta=0.1),
nrounds=100)
Nota que xgboost no apoya la sintaxis de fórmula, así que el predictors

necesidad de ser convertida a un dato.Matricial y las necesidades de
respuesta para ser convertidos a 0/1 variables. El argumento objetivo dice
xgboost qué tipo de problema esto es; basado en este, xgboost escogerá un
métrico de optimizar..
El pronosticó los valores pueden ser obtenidos de el pronosticar función y,
desde entonces hay sólo dos variables, plotted versus el predictors:
pred <- Pronosticar(xgb, newdata=predictors)

xgb_df <- cbind(Préstamo3000, pred_default=pred>.5,
prob_default=pred) ggplot(dato=xgb_df, aes(x=puntuación_de
prestatario, y=pago_inc_proporción,
Color=pred_default, forma=pred_default)) +
geom_Punto(alfa=.6, medida=2)
El resultado está mostrado en Figura 6-9. Qualitatively, esto es similar a las

predicciones de el bosque aleatorio; ve Figura 6-7. Las predicciones son un
poco ruidosas en aquellos algunos prestatarios con un prestatario muy alto la
puntuación todavía acaba con una predicción de default..
Figura 6-9. El pronosticó resultados de XGBoost aplicó al préstamo default dato
Regularización: Evitando Overfitting
Aplicación ciega de xgboost puede dirigir a modelos inestables a raíz de
overfitting to El dato de formación. El problema con overfitting es doble:
La exactitud de el modelo en dato nuevo no en el conjunto de formación
será degradado.
Las predicciones de el modelo son altamente variables, dirigiendo a

resultados inestables.
Cualquier técnica de modeling es potencialmente prone a overfitting. Por

ejemplo, si demasiadas variables están incluidas en una ecuación de regresión,
el modelo puede acabar con spurious predicciones. Aun así, para técnicas más
estadísticas, overfitting puede ser evitado por un judicious selección de predictor
variables. Incluso el bosque aleatorio generalmente produce un modelo
razonable sin poner a punto los parámetros. Esto, aun así, no es el caso para
xgboost. Acceso xgboost a el dato de préstamo para una formación puesta
con todo de las variables incluidas en el modelo:
> predictors <- Datos.Matriz(dato_de préstamo[,-qué(nombres(dato_de préstamo) %en%

'Resultado')])
> Etiqueta <- cuando.Numérico(dato_de préstamo$resultado)-1
> Prueba_idx <- muestra(nrow(dato_de préstamo), 10000)
> xgb_default <- xgboost(Dato=predictors[-prueba_idx,],
Etiqueta=de etiqueta[-prueba_idx],
Objetivo = "binario:logistic", nrounds=250)
> pred_default <- Pronosticar(xgb_default, predictors[prueba_idx,])
> Error_default <- abs(etiqueta[prueba_idx] - pred_default) > 0.5
> xgb_default$Registro_de
evaluación[250,] iter error_de
tren
1: 250 0.145622
> Malo(error_default)
[1] 0.3715
El conjunto de prueba consta de 10,000 aleatoriamente sampled registros de el

dato lleno, y el conjunto de formación consta de los registros restantes.
Aumentando ventajas a un índice de error de único 14.6% para el conjunto de
formación. El conjunto de prueba, aun así, tiene un mucho error más alto índice
de 36.2%. Esto es un resultado de overfitting: mientras aumentando puede
explicar la variabilidad en la formación puesta muy bien, las reglas de
predicción no aplican a dato nuevo.
Aumentando proporciona varios parámetros para evitar overfitting, incluyendo
los parámetros eta y subsample (ve “XGBoost”). Otra aproximación es
Regularización, una técnica que modifica la función de coste para penalizar la
complejidad de el modelo. Árboles de decisión están cabidos por minimizar
criterios de coste como Gini puntuación de impureza (ve “Medir Homogeneidad
o Impureza” ). En xgboost, es posible de modificar la función de coste por
añadir un plazo que medidas la complejidad de el modelo.
Hay dos parámetros en xgboost a regularize el modelo: alfa y lambda , los
cuales corresponden a distancia de Manhattan y distancia euclidiana cuadrada,
respectivamente (ve “Distancia Metrics”). Aumentando estos parámetros
penalizarán modelos más complejos y reducir la medida de los árboles que
está cabido. Por ejemplo, ver qué pasa si ponemos lambda a 1,000:.
> xgb_Pena <- xgboost(dato=predictors[-prueba_idx,],

Etiqueta=de etiqueta[-prueba_idx],
params=Lista(eta=.1, subsample=.63,
lambda=1000), objetivo = "binario:logistic",
nrounds=250)
> pred_Pena <- pronosticar(xgb_pena, predictors[prueba_idx,])
> Pena_de error <- abs(etiqueta[prueba_idx] - pred_pena) > 0.5
> xgb_Pena$registro_de
evaluación[250,] iter error_de
tren
1: 250 0.332405
> Malo(pena_de error)
[1] 0.3483
Ahora el error de formación es sólo ligeramente más bajo que el error en el

conjunto de prueba.
El pronosticar el método ofrece un argumento conveniente, ntreelimit,
aquello fuerza sólo el primer i árboles para ser utilizados en la predicción.
Esto nos dejo directamente comparar el en- muestra versus fuera-de-error de
muestra valora tan más los modelos están incluidos:
> Error_default <- rep(0, 250)

> Pena_de error <- rep(0, 250)
> Para(i en 1:250){
pred_def <- Pronosticar(xgb_default, predictors[prueba_idx,],
ntreelimit=i) error_default[i] <- malo(abs(etiqueta[prueba_idx] -
pred_def) >= 0.5) pred_bolígrafo <- pronosticar(xgb_pena,
predictors[prueba_idx,], ntreelimit = i) pena_de error[i] <-
malo(abs(etiqueta[prueba_idx] - pred_bolígrafo) >= 0.5)
}
La producción de el modelo regresa el error para la formación puesta en el

componente xgb_default$registro_de evaluación. Por combinar este con
el fuera-de-errores de muestra, podemos parcela los errores versus el número de
iteraciones:.
> Errores <- rbind(xgb_default$registro_de evaluación,

xgb_Pena$registro_de evaluación,
dato.Marco(iter=1:250, error_de error=del
tren_default),
Dato.Marco(iter=1:250, pena_de error=de error_de tren))
> Errores$tipo <- rep(c('default tren', 'tren de pena',
'default Prueba', 'prueba de pena'), rep(250, 4))
> ggplot(Errores, aes(x=iter, y=error_de tren, tipo=de
grupo)) + geom_línea(aes(linetype=tipo, tipo=de color))
El resultado, mostrado en Figura 6-10, espectáculos cómo el default el modelo

firmemente mejora la exactitud para el conjunto de formación pero de hecho
empeora para el conjunto de prueba. El modelo penalizado no exhibe este
comportamiento.
Figura 6-10. El índice de error del default XGBoost versus una versión penalizada de XGBoost
RIDGE REGRESIÓN Y EL LASSO

Añadiendo una pena en la complejidad de un modelo para ayudar evita overfitting fechas atrás al 1970s.
Menos cuadra la regresión minimiza la suma residual de plazas (RSS); ve “Menos Plazas”. Ridge La
regresión minimiza la suma de cuadrado residuals más una pena en el número y medida de los
coeficientes:
El valor de determina cuántos los coeficientes están penalizados; modelos de producto de valores más
grandes que es menos probablemente a overfit el dato. El Lasso es similar, exceptúa que utiliza
distancia de Manhattan en vez de distancia euclidiana como plazo de pena:
El xgboost lambda de parámetros y la alfa están actuando en un similar

mannger.
Hyperparameters Y Cross-Validación
xgboost Tiene una variedad intimidante de hyperparameters; ve “XGBoost
Hyperparameters” para una discusión. Cuando visto en “Regularización:
Evitando Overfitting”, la elección concreta dramáticamente puede cambiar la
acceso de modelo. Dado una combinación enorme de hyperparameters para
escoger de, cómo tener que nosotros ser guiados en nuestra elección? Un
estándar solution a este problema es para utilizar cruz-validación; ve “Cross-
Validación”. Cross-validación aleatoriamente rupturas arriba del dato a K
grupos diferentes, también llamó pliegues. Para cada pliegue, un modelo está
entrenado en el dato no en el pliegue y entonces evaluado en el dato en el
pliegue. Esto cede una medida de exactitud de el modelo encima fuera-de-dato
de muestra. El conjunto mejor de hyperparameters es el dado por el modelo
con el error global más bajo cuando computado por averaging los errores de
cada de los pliegues.
Para ilustrar la técnica, lo aplicamos a selección de parámetro para xgboost. En
este ejemplo, exploramos dos parámetros: el parámetro de encogimiento eta
(ve “XGBoost”) y la profundidad máxima de árboles max_profundidad. El
parámetro max_la profundidad es la profundidad máxima de un nodo de
hoja a la raíz de el árbol con un default valor de 6. Esto nos doy otra manera
de controlar overfitting: los árboles profundos tienden para ser más complejos y
poder overfit el dato. Primero instalamos los pliegues y lista de parámetro:
> N <- nrow(Dato_de préstamo)

> Número_de pliegue <- muestra(1:5, N, reemplaza = CIERTO)
> params <- Datos.Marco(eta = rep(c(.1, .5, .9), 3),
max_Profundidad = rep(c(3, 6, 12), rep(3,3)))
Ahora aplicamos el algoritmo de preceder para computar el error para cada

modelo y cada cual pliegan utilizar cinco pliegues:
> Error <- matricial(0, nrow=9, ncol=5)

> Para(i en 1:nrow(params)){
> Para(k en 1:5){
> Pliegue_idx <- (1:N)[número_de pliegue == k]
> xgb <- xgboost(Dato=predictors[-pliegue_idx,], etiqueta=de
etiqueta[-pliegue_idx], params = lista(eta =
params[i, 'eta'],
max_Profundidad = params[i,
soyprofundidad_de hacha']), objetivo =
"binario:logistic", nrounds=100, verboso=0)
> pred <- Pronosticar(xgb, predictors[pliegue_idx,])
> Error[i, k] <- malo(abs(etiqueta[pliegue_idx] - pred) >= 0.5)
> }
> }
Desde entonces estamos cabiendo 45 modelos totales, esto puede tomar un rato.
Los errores están almacenados como matriciales con los modelos a lo largo de
las filas y pliegues a lo largo de las columnas. Utilizando la función rowMeans,
podemos comparar el índice de error para los conjuntos de parámetro diferentes:
> avg_Error <- 100 * rowMeans(error)

> cbind(params, avg_error)
eta max_Profu avg_Error
ndidad
1 0.1 3 35.41
2 0.5 3 35.84
3 0.9 3 36.48
4 0.1 6 35.37
5 0.5 6 37.33
6 0.9 6 39.41
7 0.1 12 36.70
8 0.5 12 38.85
9 0.9 12 40.19
Cross-la validación sugiere que utilizando árboles más superficiales con un valor
más pequeño de eta cosechas resultados más cuidadosos. Desde estos modelos
son también más estables, los parámetros mejores a uso son eta=0.1 y
max_profundidad=3 (o posiblemente max_profundidad=6).
XGB OOST HYPERPARAMETERS

El hyperparameters para xgboost es principalmente utilizado para equilibrar overfitting con la
exactitud y complejidad computacional. Para una discusión completa de los parámetros, refiere
a el xgboost documentación.
eta
El factor de encogimiento entre 0 y 1 aplicado a en el algoritmo de aumentar. El default es 0.3,
pero para dato ruidoso, los valores más pequeños están recomendados (p. ej., 0.1).
nrounds
El número de aumentar rondas. Si eta está puesto a un valor pequeño, es importante de aumentar
el número de las rondas desde el algoritmo aprende más despacio. Mientras algunos parámetros
están incluidos para impedir overfitting, habiendo más las rondas no hechas daño.
max_Profundidad
La profundidad máxima de el árbol (el default es 6). En contraste a el bosque aleatorio, el cual
cabe árboles muy profundos, aumentando normalmente cabe árboles superficiales. Esto tiene la
ventaja de evitar spurious interacciones complejas en el modelo que puede surgir de dato
ruidoso.
subsample Y colsample_bytree.
Fracción de los registros a muestra sin sustitución y la fracción de predictors a muestra para
uso en caber los árboles. Estos parámetros, los cuales son similares a aquellos en bosques
aleatorios, la ayuda evita overfitting.
Lambda y alfa.
Los parámetros de regularización para ayudar control overfitting (ve “Regularización:
Evitando Overfitting”).
IDEAS CLAVES PARA B OOSTING
Aumentando es una clase de ensemble los modelos basaron encima cabiendo una secuencia de
modelos, con más el peso dado a registros con errores grandes en rondas sucesivas.
El gradiente estocástico que aumenta es el tipo más general de aumentar y ofrece el rendimiento
mejor. La forma más común del gradiente estocástico que aumenta modelos de árbol de los usos.
XGBoost Es un popular y computat ionally paquete de software eficaz para el gradiente

estocástico que aumenta; es disponible en todas las lenguas comunes utilizaron en ciencia de
datos.
Aumentando es prone a overfitting el dato, y el hyperparameters necesidad de ser puesta a punto

para evitar esto.
La regularización es un way para evitar overfitting por incluir un plazo de pena en el

número de parámetros (p. ej., medida de árbol) en un modelo.
Cross-la validación es especialmente importante para aumentar debido a el número grande de

hyperparameters que necesidad de ser puesta.
Resumen
Este capítulo describe dos clasificación y métodos de predicción que “aprende”
flexibly y localmente de datos, más que empezar con un modelo estructural (p.
ej., una regresión lineal) aquello está cabido a el conjunto de dato entero. K-Los
vecinos más cercanos es un proceso sencillo que sencillamente mira alrededor
en registros similares y asigna su clase de mayoría (o valor mediano) a el ser
récord pronosticó. Probando varios cutoff (ruptura) valores de predictor
variables, modelos de árbol iteratively dividir el dato a secciones e incisos que
es cada vez más homogeneous con respetar a clase. La ruptura más eficaz los
valores forman un camino, y también una “regla,” a una clasificación o
predicción. Modelos de árbol son un muy potentes y herramienta predictiva
popular, a menudo outperforming otros métodos. Han dado aumento a varios
ensemble métodos (bosques aleatorios, aumentando, bagging) aquello agudiza el
poder predictivo de árboles..
2 La CARRETA de plazo es una marca registrada de Salford los sistemas relacionaron a su
implementación concreta de modelos de árbol.
3 El plazo el bosque aleatorio es una marca de Leo Breiman y Adele Cutler y autorizado a Salford
Sistemas. hay no estándar nontrademark nombre, y el plazo el bosque aleatorio es tan sinónimo con el
algoritmo como Kleenex es con tejidos faciales.
Capítulo 7. Unsupervised Aprendizaje
El plazo unsupervised el aprendizaje refiere a métodos estadísticos que

significado de extracto de datos sin entrenar un modelo en labeled dato (dato
donde un resultado de interés es sabido). En Capítulos 4 y 5 , el objetivo es para
construir un modelo (puesto de reglas) para pronosticar una respuesta de un
conjunto de predictor variables. Unsupervised El aprendizaje también
construye un modelo de el dato, pero no distingue entre una variable de
respuesta y predictor variables.
Unsupervised El aprendizaje puede tener objetivos posibles diferentes. En algunos
casos, pueda soler crear una regla predictiva en la ausencia de un labeled
respuesta. Clustering Los métodos pueden soler identificar grupos significativos
de datos. Por ejemplo, utilizando los clics de web y dato demográfico de un
usuario en un sitio web, podemos ser capaces de agrupar tipos diferentes juntos de
usuarios. El sitio web entonces podría ser personalizado a estos tipos diferentes.
En otros casos, el objetivo puede ser para reducir la dimensión de el dato a un
conjunto más gestionable de variables. Esto redujo puesto entonces podría ser
utilizado tan entrada a un modelo predictivo, como regresión o clasificación. Por
ejemplo, podemos tener miles de sensores para controlar un proceso industrial.
Por reducir el dato a un conjunto más pequeño de características, podemos ser
capaces de construir un modelo más potente e interpretable para pronosticar
fracaso de proceso que por incluir corrientes de dato de miles de sensores.
Finalmente, unsupervised el aprendizaje puede ser visto como una extensión del
análisis de dato exploratorio (ve Capítulo 1) a situaciones donde estás afrontado
con un número grande de variables y registros. El objetivo es para obtener idea
a un conjunto de datos y cómo las variables diferentes relacionan a cada cual
otro. Unsupervised Las técnicas dan maneras de cribar a través de y analizar estas
variables y descubrir relaciones.
UNSUPERVISED APRENDIZAJE Y PREDICCIÓN

Unsupervised El aprendizaje puede jugar una función importante para predicción, ambos para regresión y
problemas de clasificación. En algunos casos, queremos pronosticar una categoría en la ausencia de
cualquier labeled dato. Por ejemplo, podríamos querer pronosticar el tipo de vegetación en una área de
un conjunto de satélite dato sensorial. Desde entonces no tenemos una variable de respuesta para
entrenar un modelo, clustering nos doy una manera de identificar patrones comunes y categorize las
regiones.
Clustering Es una herramienta especialmente importante para el “problema de inicio frío.” En estos tipos
de problemas, como lanzar una campaña de marketing nueva o identificando tipos nuevos potenciales
de fraude o spam, inicialmente no podemos tener cualquier respuesta para entrenar un modelo. Con el
tiempo, cuando el dato está recogido, podemos aprender más sobre el sistema y construir un modelo
predictivo tradicional. Pero clustering nos ayudo inicio el aprendizaje procesa más deprisa por identificar
segmentos de población.
Unsupervised El aprendizaje es también importante como construir bloque para regresión y técnicas de
clasificación. Con grande datun, si un pequeño subpopulation no es bien representado en la población
global, el modelo entrenado no puede actuar bien para aquel subpopulation. Con clustering, es posible de
identificar y etiqueta subpopulations. Los modelos separados entonces pueden ser cabidos a el
diferentes subpopulations. Alternativamente, el subpopulation puede ser representado con su
característica propia, forzando el modelo global a explícitamente considerar subpopulation identidad
como predictor.
Análisis de Componentes principales
A menudo, las variables variarán juntas (covary), y algunos de la variación
en una es de hecho duplicado por variación en otro. Análisis de componentes
principales (PCA) es una técnica para descubrir la manera en qué variables
numéricas covary.1
PLAZOS CLAVES PARA ANÁLISIS de COMPONENTES PRINCIPALES
Componente principal
Una combinación lineal del predictor variables.
Loadings
Los pesos que transforma el predictors a los componentes.
Synonym
Pesos
Screeplot
Una parcela de las varianzas de los componentes, mostrando la importancia relativa de los
componentes.
La idea en PCA es para combinar múltiple numérico predictor variables a un
conjunto más pequeño de variables, los cuales son weighted combinaciones
lineales de el conjunto original. El conjunto más pequeño de variables, los
componentes principales, “explica” la mayoría de la variabilidad de el conjunto
lleno de variables, reduciendo la dimensión de el dato. Los pesos utilizaron para
formar los componentes principales revelan las contribuciones relativas de las
variables originales a los componentes principales nuevos.
PCA Era primero propuesto por Karl Pearson. En qué era quizás el primer papel en
unsupervised aprendizaje, Pearson reconoció que en muchos problemas allí es
variabilidad en el predictor variables, así que desarrolle PCA como técnica a
modelo esta variabilidad. PCA Puede ser visto como el unsupervised versión de
lineal discriminant análisis; ve“Discriminant Análisis”.
Un Ejemplo Sencillo
Para dos variables, Y , hay dos componentes principales ( O 2):
Los pesos Es sabido como el componente loadings. Estos

transforman las variables originales a los componentes principales. El primer
componente principal, , es la combinación lineal que más explica la variación
total. El segundo componente principal, , explica la variación restante (es
también la combinación lineal que es la acceso peor).
NOTA
Es también común de computar componentes principales en desviaciones de el medio del
predictor variables, más que en el los valora.
Puedes computar componentes principales en R utilizando el princomp función. El

siguiente actúa un PCA en los regresos de precio accionarios para Galón (CVX) y
ExxonMobil (XOM):
Aceite_px <- sp500_px[, c('CVX',

'XOM')] pca <- princomp(aceite_px)
pca$loadings
Loadings:
Comp.1 Comp.2
CVX -0.747 0.665
XOM -0.665 -0.747
Los pesos para CVX y XOM para el primer componente principal es –0.747 y –
0.665 y para el segundo componente principal son 0.665 y –0.747. Cómo para
interpretar esto? El primer componente principal es esencialmente una media de
CVX y XOM, reflejando la correlación entre las dos compañías de energía. El
segundo componente principal medidas cuándo los precios accionarios de CVX
y XOM diverge.
Es instructive a parcela los componentes principales con el dato:
loadings <- pca$loadings

ggplot(Aceite=de dato_px, aes(x=CVX,
y=XOM)) +
geom_Punto(alfa=.3) +
stat_ellipse(tipo='norma', nivel=.99) +
geom_abline(Intercepta = 0, pendiente = loadings[2,1]/loadings[1,1]) +
geom_abline(intercepta = 0, pendiente = loadings[2,2]/loadings[1,2])
El resultado está mostrado en Figura 7-1.

Figura 7-1. Los componentes principales para los regresos accionarios para Galón y ExxonMobil
El sólido dashed las líneas muestran los dos componentes principales: el

primero uno es a lo largo del eje largo de el ellipse y el segundo un es a lo
largo del eje corto. Puedes ver que una mayoría de la variabilidad en los dos
regresos accionarios está explicada por el primer componente principal. Estas
marcas notan desde entonces energía los precios accionarios tienden para mover
como grupo.
NOTA
Los pesos para el primer componente principal son ambos negativos, pero invirtiendo la señal
de todos los pesos no cambia el componente principal. Por ejemplo, utilizando pesos de 0.747 y
0.665 para el primer componente principal es equivalente a los pesos negativos, tan una línea
infinita definida por el origen y 1,1 es el mismo tan uno definido por el origen y –1, –1.
Computing Los Componentes Principales
Yendo de dos variables a más las variables es sinceras. Para el primer
componente, sencillamente incluir el adicional predictor variables en la
combinación lineal, asignando pesos que optimiza la colección de el covariation
de todo el predictor variables a este primer componente principal (la
covarianza es el plazo estadístico; ve “Matriz de Covarianza”). El cálculo de
componentes principales es un método estadístico clásico, confiando en
cualquier la matriz de correlación de el dato o la matriz de covarianza, y
ejecuta rápidamente, no confiando encima iteración. Cuando notado más
temprano, trabaja sólo con variables numéricas, no categóricos unos. El
proceso lleno puede ser descrito como sigue:
1. En crear el primer componente principal, PCA llega en la
combinación lineal de predictor variables que maximizes el
porcentaje de varianza total explicó.
2. Esta combinación lineal entonces deviene el primer “nuevo” predictor,

Z1.
3. PCA Repite este proceso, utilizando las mismas variables, con pesos
diferentes para crear un segundo nuevo predictor, Z2. La ponderación
está hecha tal aquel Z1 y Z 2 es uncorrelated.
4. El proceso continúa hasta que tienes tan muchos variables

nuevas, o componentes, Zi como variables originales Xi.
5. Escoge retener tan muchos componentes cuando está necesitado a

cuenta para la mayoría de la varianza..
6. El resultado tan lejos es un conjunto de pesos para cada componente. El

paso final es para convertir el dato original a puntuaciones de
componente principales nuevas por aplicar los pesos a los valores
originales. Estas puntuaciones nuevas entonces pueden ser utilizadas
como el conjunto reducido de predictor variables.
Interpretando Componentes Principales
La naturaleza de los componentes principales a menudo revela información
sobre la estructura de el dato. Hay un par de exhibiciones de visualización
estándar para ayudarte glean idea sobre los componentes principales. Uno tal
método es un Screeplot para visualizar la importancia relativa de componentes
principales (el nombre deriva de el parecido de la parcela a un scree
pendiente). El siguiente es un ejemplo para unas cuantas compañías superiores
en &el S P 500:
syms <- c( 'AAPL', soySFT', 'CSCO', 'INTC', 'CVX', 'XOM',

EsLB', 'COP', 'JPM', 'WFC', 'USB', 'AXP', 'WMT', 'TGT', 'HD', 'COSTE')
Superior_sp <- sp500_px[fila.Nombres(sp500_px)>='2005-01-
01', syms] sp_pca <- princomp(superiores_sp)
screeplot(sp_pca)
Cuando visto en Figura 7-2, la varianza de la primera componente principal es

bastante grande (cuando es a menudo el caso), pero los otros componentes
principales superiores son significativos.
Figura 7-2. Un screeplot para un PCA de stocks superiores del&S P 500
Pueda ser especialmente revelando a parcela los pesos de los componentes

principales superiores. Una manera para hacer este es para utilizar el reunir
función de el tidyr paquete conjuntamente con ggplot :
Biblioteca(tidyr)
loadings <- sp_pca$loadings[,1:5]
loadings$Símbolo <- fila.Nombres(loadings)
loadings <- Reunir(loadings, "Componente", "Peso", -Símbolo)
ggplot(loadings, aes(x=Símbolo, y=Peso)) +
geom_Barra(stat='identidad') +
Verja_de faceta(Componente ~ ., balanza='libre_y')
El loadings para la parte superior cinco componentes están mostrados en Figura

7-3. El loadings para el primer componente principal tiene la misma señal: esto
es típico para datos en qué todas las columnas comparten un factor común (en
este caso, la tendencia de mercado de valores global). El segundo componente
captura los cambios de precio de stocks de energía cuando comparados a los
otros stocks. El tercer componente es principalmente un contraste en los
movimientos de Apple y CostCo. El cuarto componente contrasta los
movimientos de Schlumberger a los otros stocks de energía. Finalmente, el
quinto componente es mayoritariamente dominado por compañías financieras.
Figura 7-3. El loadings para la parte superior cinco componentes principales de regresos de
precio accionario
CUÁNTOS COMPONENTES A CHOOSE?
Si vuestro objetivo es para reducir la dimensión del dato, tienes que decidir cuántos
componentes principales para seleccionar. La aproximación más común es para utilizar una
regla ad hoc para seleccionar los componentes que explica “más” de la varianza. Puedes hacer
este visually a través del screeplot; por ejemplo, en Figura 7-2, sea natural de restringir el
análisis hasta arriba cinco componentes. Alternativamente, podrías seleccionar los componentes
superiores tal que la varianza acumulable supera un umbral, como 80%. También, puedes
inspeccionar el loadings para determinar si el componente tiene una interpretación intuitiva. Cross-
la validación proporciona un método más formal para seleccionar el número de componentes
significativos (ve “Cross-Validación” para más).
IDEAS CLAVES PARA COMPONENTES PRINCIPALES

Los componentes principales son combinaciones lineales del predictor variables (el dato
numérico único). Están calculados con objeto de minimizar correlación entre
componentes, reduciendo redundancia.
Un número limitado de los componentes típicamente explicarán la mayoría de la varianza en la

variable de resultado.
El conjunto limitado de los componentes principales entonces pueden ser utilizados en sitio del (más
numeroso) original predictors, reduciendo dimensionality.
Lectura más lejana
Para una mirada detallada en el uso de cruz-validación en componentes
principales, ve Rasmus Bro, K. Kjeldahl, Un.K. Smilde, y Henk Un. L. Kiers,
“Cross-Validación de Modelos de Componente: Una Mirada Crítica en
Métodos Actuales”, Analíticos y Bioanalytical Química 390, núm. 5 (2008).
K-Medios Clustering
Clustering Es una técnica para dividir dato a grupos diferentes, donde los
registros en cada grupo son similares a uno otro. Un objetivo de clustering es
para identificar grupos significativos y significativos de datos. Los grupos pueden
ser utilizados directamente, analizados en más profundidad, o pasado como
característica o un resultado a una regresión predictiva o modelo de clasificación.
K-Los medios es el primer clustering método para ser desarrollado; es todavía
ampliamente utilizado, owing su popularidad a la simplicidad relativa de el
algoritmo y su capacidad a escala a conjuntos de dato grande.
PLAZOS CLAVES PARA K-MEDIOS CLUSTERING
Grupo
Un grupo de registros que es similar.
El grupo malo
El vector de medio variable para los registros en un grupo.
K
El número de grupos.
K-Los medios divide el dato a K grupos por minimizar la suma de el cuadró

distancias de cada récord a el malos de su grupo asignado. El está referido a
como el dentro-suma de grupo de plazas o dentro-grupo SS. K-Los medios no
asegura los grupos tendrán la misma medida, pero encuentra los grupos que es
el más separó.
NORMALIZACIÓN
Es típico de normalizar (estandariza) variables continuas por restar el malo y dividiendo por la
desviación estándar. Otherwise, las variables con escala grande dominarán el clustering proceso
(ve “Estandarización (Normalización, Z-Puntuaciones)”).
Un Ejemplo Sencillo
Inicio por considerar un dato puesto con n registros y justo dos variables, y .
Supone queremos partir el dato a Grupos. Esto significa asignar cada
registro A un grupo k. Dado una asignación de registros a grupo
k, el centro de el grupo Es el malo de los puntos en el grupo:
El GRUPO MALO
En clustering registros con variables múltiples (el caso típico), el grupo de plazo significa
refiere no a un número solo, pero a el vector de medios de las variables.
La suma de las plazas dentro de un grupo está dada por:
K-Los medios encuentra la asignación de registros que minimiza dentro-suma de

grupo de plazas a través de todo cuatro grupos .
K-Medios clustering puede soler idea de beneficio a cómo los movimientos de

precio de stocks tienden a grupo. Nota que los regresos accionarios están
informados en una moda que es, en efecto, estandarizado, así que no
necesitamos para normalizar el dato. En R, K-medios clustering puede ser actuado
utilizando el kmeans función. Por ejemplo, el siguiente encuentra cuatro grupos
basaron encima dos variables: los regresos accionarios para ExxonMobil (XOM) y
Galón (CVX):
df <- sp500_px[fila.Nombres(sp500_px)>='2011-01-01', c('XOM',

'CVX')] km <- kmeans(df, centra=4)
La asignación de grupo para cada registro está regresada como el componente

de grupo:
> df$Grupo <- factor(km$grupo)

> Cabeza(df)
XOM CVX grupo
2011-01-03 0.73680496 0.2406809 2
2011-01-04 0.16866845 -0.5845157 1
2011-01-05 0.02663055 0.4469854 2
2011-01-06 0.24855834 -0.9197513 1
2011-01-07 0.33732892 0.1805111 2
2011-01-10 0.00000000 -0.4641675 1
Los primeros seis registros están asignados a cualquier grupo 1 o grupo 2. El

medio de los grupos es también regresó:
> Centros <- datos.Marco(factor=de grupo(1:4), km$centros)

> Centros
Grupo XOM CVX 1 1 -
0.3284864 -0.5669135
2 2 0.2410159 0.3342130
3 3 -1.1439800 -1.7502975
4 4 0.9568628 1.3708892
Grupos 1 y 3 representa “abajo” mercados, mientras grupos 2 y 4 representa

“arriba de mercados.” En este ejemplo, con justo dos variables, es sincero de
visualizar los grupos y su medio:
ggplot(Dato=df, aes(x=XOM, y=CVX, grupo=de color, grupo=de forma))

+ geom_punto(alfa=.3) +
geom_Punto(centros=de dato, aes(x=XOM, y=CVX), medida=3, golpe=2)
La parcela resultante, dado por Figura 7-4, muestra las asignaciones de grupo y el
grupo significa.
Figura 7-4. Los grupos de K-los medios aplicaron a dato de precio accionario para ExxonMobil y Galón
(los dos centros de grupo en el área densa son duros de distinguir)
K-Algoritmo de medios
En general, K-los medios pueden ser aplicados a un dato puesto con p variables
. Mientras la solución exacta a K -los medios es computacionalmente
muy difíciles, los algoritmos heurísticos proporcionan una manera eficaz de
computar un localmente optimal solución.
Los inicios de algoritmo con un usuario-especificado K y un conjunto inicial
de grupo significa, entonces itera los pasos siguientes:
1. Asignar cada récord a el grupo más cercano significa tan medido por
distancia cuadrada.
2. Computar el grupo nuevo significa basado en la asignación de registros..
El algoritmo converge cuándo la asignación de registros a los grupos no cambia .

Para la primera iteración, necesitas especificar un conjunto inicial de grupo
significa. Normalmente tú esto por aleatoriamente asignando cada récord a uno
de el K grupos, entonces encontrando el medio de aquellos grupos.
Desde este algoritmo no es guaranteed para encontrar la solución posible mejor,
está recomendado para correr el algoritmo muchos cronometra utilizar muestras
aleatorias diferentes para inicializar el algoritmo. Cuando más de uno puesto de las
iteraciones está utilizada, el K-resultado de medios está dado por la iteración que
tiene el más bajo dentro-suma de grupo de plazas..
El nstart parámetro a el R función kmeans te dejas para especificar el número de
inicios aleatorios para probar. Por ejemplo, las carreras de código siguientes K-
medios para encontrar 5 grupos que utilizan 10 diferentes empezando el grupo
significa:
syms <- c( 'AAPL', soySFT', 'CSCO', 'INTC', 'CVX', 'XOM', esLB', 'COP',
'JPM', 'WFC', 'USB', 'AXP', 'WMT', 'TGT', 'HD', 'COSTE')
df <- sp500_px[fila.Nombres(sp500_px)>='2011-01-01',
syms] km <- kmeans(df, centra=5, nstart=10)
La función automáticamente regresa la solución mejor fuera de los 10 puntos de

partida diferentes. Puedes utilizar el argumento iter.max Para poner el número
máximo de iteraciones el algoritmo está dejado para cada inicio aleatorio.
Interpretando los Grupos
Una parte importante de análisis de grupo puede implicar la interpretación de los
grupos. Las dos producciones más importantes de kmeans es las medidas de los
grupos y el grupo significa. Para el ejemplo en el inciso anterior, las medidas de
grupos resultantes están dadas por este R orden:
Km$medida
[1] 186 106 285 288 266
Las medidas de grupo son relativamente equilibró. Imbalanced Los grupos

pueden resultar de distantes outliers, o grupos de registros muy distintos de el
resto de el dato — tanto poder warrant inspección más lejana.
Puedes parcela los centros de los grupos que utilizan el reunir función
conjuntamente con ggplot :
Centros <-
cuando.Dato.Marco(t(centros))
nombres(centros) <- pasta("Grupo", 1:5)
centros$Símbolo <-
fila.Nombres(centros)
Centros <- reunir(centros, "Grupo", "Malo", -Símbolo)
centros$centros = de Color$Significar > 0
ggplot(Centros, aes(x=Símbolo, y=Malo, llena=Color)) +
geom_barra(stat='identidad', identidad = "de posición",
ancho=.75) + verja_de faceta(Grupo ~ ., balanza='libre_y')
La parcela resultante está mostrada en Figura 7-5 y revela la naturaleza de cada

grupo. Por ejemplo, grupos 1 y 2 corresponde a los días en qué el mercado es
abajo y arriba, respectivamente. Grupos 3 y 5 está caracterizado por arriba-días
de mercado para stocks de consumidor y abajo-días de mercado para stocks de
energía, respectivamente. Finalmente, grupo 4 capturas los días en qué stocks de
energía eran arriba y stocks de consumidor eran abajo.
Figura 7-5. El medio de las variables en cada grupo (“medio de grupo”)
ANÁLISIS de GRUPO VERSUS PCA
La parcela de grupo significa es similar en espíritu a mirar en el loadings para análisis de
componente principal (PCA); ve “Interpretar Componentes Principales”. Una distinción
importante es que diferente con PCA, la señal del grupo significa es significativo. PCA Identifica
direcciones principales de variación, mientras que análisis de grupo encuentra los grupos de
registros localizaron cerca uno otro.
Seleccionando el Número de Grupos
El K-algoritmo de medios requiere que especificas el número de grupos K. A
veces el número de grupos está conducido por la aplicación. Por ejemplo, una
compañía que dirige una fuerza de ventas podría querer clientes de grupo a
“personas” para centrar y llamadas de ventas de la guía. En tal caso, las
consideraciones directivas dictarían el número de segmentos de cliente deseado
— por ejemplo, dos no podría ceder útil differentiation de clientes, mientras
ocho podría ser demasiados para dirigir.
En la ausencia de un número de grupo dictado por consideraciones prácticas o
directivas, una aproximación estadística podría ser utilizada. hay no método
estándar solo para encontrar el “número” mejor de grupos..
Una aproximación común, llamó el método de codo, es para identificar cuándo
el conjunto de grupos explica “más” de la varianza en el dato. Añadiendo los
grupos nuevos allende este conjunto contribuye relativamente poca contribución
incremental en la varianza explicó. El codo es el punto donde la varianza
acumulable explicó flattens fuera después de aumentar steeply, por ello el
nombre de el método.
Figura 7-6 espectáculos el porcentaje acumulable de la varianza explicada para el
default dato para el número de los grupos que varían de 2 a 15. Dónde es el
codo en este ejemplo? hay no candidato obvio, desde el aumento incremental
en varianza explicó gotas gradualmente. Esto es bastante típico en datos que no
haber bien-definió grupos. Esto es perhaps un drawback de el método de codo,
pero revela la naturaleza de el dato.
Figura 7-6. El método de codo aplicó al dato accionario
En R, el kmeans la función no proporciona una orden sola para aplicar el método

de codo, pero pueda ser fácilmente aplicado de la producción de kmeans cuando
mostrado aquí:
pct_var <- Datos.Marco(pct_var = 0,

num_Grupos=2:14)
totalss <- kmeans(df, centra=14, nstart=50, iter.max = 100)$totss
para(i en 2:14){
pct_var[i-1, 'pct_var'] <- kmeans(df, centra=i, nstart=50, iter.max = 100)
$betweenss/totalss
}
En evaluar cuántos grupos para retener, quizás la prueba más importante es esto :
qué probablemente es los grupos para ser replicated en dato nuevo? Es los grupos
interpretables, y relacionan a una característica general de el dato, o justo
reflejan un caso concreto? Puedes evaluar esto, en parte, utilizando cruz-
Validación; ve “Cross-Validación”.
En general, hay no regla sola que reliably guiar cuántos grupos para producir.
NOTA
Hay muchos maneras más formales para determinar el número de grupos basó en estadístico o
teoría de información. Por ejemplo, Robert Tibshirani, Guenther Walther, y Trevor Hastie
(http://www.stanford.edu/~hastie/vacío/de Papeles.Pdf) propone un “vacío” statistic basó en
teoría estadística para identificar el codo. Para más aplicaciones, una aproximación teórica es
probablemente no necessary, o incluso apropiado.
IDEAS CLAVES PARA K-MEDIOS CLUSTERING

El número de deseó grupos, K, está escogido por el usuario.
El algoritmo desarrolla grupos por iteratively asignando registros a el grupo más cercano malo
hasta que asignaciones de grupo no cambian .
Las consideraciones prácticas normalmente dominan la elección de K ; hay no statistically

determinado optimal número de grupos..
Jerárquico Clustering
Jerárquico clustering es un alternativo a K -medios que puede ceder grupos muy
diferentes. Jerárquico clustering es más flexible que K-medios y más fácilmente
acomoda variables no numéricas. Es más sensible en descubrir outlying o
registros o grupos aberrantes. Jerárquico clustering también se deja a una
exhibición gráfica intuitiva, dirigiendo a interpretación más fácil de los grupos.
PLAZOS CLAVES PARA JERÁRQUICOS CLUSTERING
Dendrogram
Una representación visual de los registros y la jerarquía de grupos al cual pertenecen.
Distancia
Una medida de cómo cercano uno récord es a otro.
Dissimilarity
Una medida de cómo cercano un grupo es a otro.
Jerárquico clustering la flexibilidad viene con un coste, y jerárquico clustering no

escala bien a conjuntos de dato grande con millones de registros. Para incluso
modesto- sized dato con decenas justas de miles de registros, jerárquicos
clustering puede requerir recursos de informática intensiva. De hecho, la mayoría
de las aplicaciones de jerárquicos clustering está centrado encima relativamente
conjuntos de dato pequeño.
Un Sencillo Example
Jerárquico clustering trabajos en un dato puesto con n registros y p variables y
está basado encima dos edificio básico bloques:
Una distancia métrica Para medir la distancia beween dos registros i y j .
Un dissimilarity métrico Para medir la diferencia entre dos grupos

Un y B basó en las distancias Entre los miembros de cada grupo.
Para las aplicaciones que implican dato numérico, la mayoría de elección de

importancia es el dissimilarity métrico. Jerárquico clustering inicios por poner
cada récord como propio grupo e itera para combinar los grupos menos
disímiles.
En R, el hclust la función puede soler actuar jerárquico clustering. Uno
diferencia grande con hclust versus kmeans es que opera en el pairwise
distancias Más que el dato él. Puedes computar estos utilizando el dist
función. Por ejemplo, el siguiente aplica jerárquico clustering a los regresos
accionarios para un conjunto de compañías:
syms1 <- c('GOOGL', 'AMZN', 'AAPL', soySFT', 'CSCO', 'INTC', 'CVX',

'XOM', esLB', 'COP', 'JPM', 'WFC', 'USB', 'AXP',
'WMT', 'TGT', 'HD', 'COSTE')
# Toma transpose: a compañías de grupo, necesitamos los stocks a lo largo de las filas
df <- t(sp500_px[fila.Nombres(sp500_px)>='2011-01-01',
syms1]) d <- dist(df)
hcl <- hclust(d)
Clustering Algoritmos grupo los registros (filas) de un marco de dato. Desde

entonces queremos grupo las compañías, necesitamos a transpose el marco
de dato y poner los stocks a lo largo de las filas y las fechas a lo largo de
las columnas.
El Dendrogram
Jerárquico clustering se deja a una exhibición gráfica natural como árbol,
referido a como dendrogram. El nombre proviene las palabras griegas dendro
(árbol) y gramma (dibujo). En R, fácilmente puedes producir este utilizando la
orden de parcela:
Parcela(hcl)
El resultado está mostrado en Figura 7-7. Las hojas de el árbol corresponden a

los registros. La longitud de la rama en el árbol indica el grado de
dissimilarity entre grupos correspondientes. Los regresos para Google y
Amazona son bastante disímiles a los regresos para los otros stocks. La otra
caída de stocks a grupos naturales: energy stocks, stocks financieros, y stocks de
consumidor son todos separados a su propios subtrees.
Figura 7-7. Un dendogram de stocks
En contraste a K -medios, no es necesario a prespecify el número de grupos. Para

extraer un número concreto de grupos, puedes utilizar el cutree función:
cutree(hcl, k=4)
GOOGL AMZN AAPL MSFT CSCO INTC CVX XOM SLB COP JPM WFC
1 2 3 3 3 3 4 4 4 4 3 3
USB AXP WMT TGT HD COSTÓ
3 3 3 3 3 3
El número de los grupos a extracto está puesto a 4, y puedes ver aquel Google y
Amazona cada cual pertenece a su grupo propio. Los stocks de aceite (XOM,
CVS, SLB, COP) todos pertenecen a otro grupo. Los stocks restantes son en el
cuarto grupo.
El Agglomerative Algoritmo
El algoritmo principal para jerárquico clustering es el agglomerative algoritmo,
el cual iteratively fusiona grupos similares. El agglomerative el algoritmo
empieza con cada récord constituyendo su propio solo-grupo récord, entonces
complexiones arriba de grupos más grandes y más grandes. El primer paso es
para calcular distancias entre todos los pares de registros.
Para cada par de registros Y , medimos la
distancia entre los dos registros, , utilizando una distancia métrica (ve
“Distancia Metrics”). Por ejemplo, podemos utilizar Euclidian distancia:
Ahora giramos a inter-distancia de grupo. Considera dos grupos Un y B , cada

cual con un conjunto distintivo de registros, Y
. Podemos medir el dissimilarity entre los grupos
Por utilizar las distancias entre los miembros de Un y los
miembros de B.
Uno mide de dissimilarity es el método de conexión completa, el cual es la
distancia máxima a través de todos los pares de registros entre Un y B :
Esto define el dissimilarity como la diferencia más grande entre todos los
pares. Los pasos principales de el agglomerative el algoritmo es:
1. Crear un conjunto inicial de grupos con cada grupo que consta de un
solo
Récord para todos los registros en el dato.
2. Computar el dissimilarity ) Entre todos los pares de grupos.

.
3. Fusionar los dos grupos Y Aquello es menos disímil cuando

medido por ).
4. Si tenemos más de un grupo que queda, regreso para dar un paso 2.
Otherwise, estamos hacer.
Medidas de Dissimilarity
Hay cuatro medidas comunes de dissimilarity: conexión completa, conexión
sola, conexión mediana, y varianza mínima. Estos (más otras medidas) es todo
apoyado por más jerárquico clustering software, incluyendo hclust. El método
de conexión completo definió más temprano tiende para producir grupos con
miembros que es similar. El método de conexión solo es la distancia mínima
entre los registros en dos grupos:
Esto es un “método” codicioso y grupos de productos que puede contener

bastante disparate elementos. El método de conexión mediano es la media de
todos pares de distancia y representa un compromise entre la conexión sola y
completa métodos.
Finalmente, el método de varianza mínimo, también referido a cuando el método
de Ward, es similar a K -medios desde entonces minimiza el dentro-suma de
grupo de plazas (ve “K- Medios Clustering”).
Figura 7-8 aplica jerárquico clustering utilizando las cuatro medidas a el
ExxonMobil y Galón regresos accionarios. Para cada medida, cuatro grupos están
retenidos.
Figura 7-8. Una comparación de medidas de dissimilarity aplicó a dato accionario
Los resultados son strikingly diferentes: la medida de conexión sola asigna casi
todo de los puntos a un grupo solo. Excepto el método de varianza mínimo
(Ward.D), todas las medidas acaban con al menos un grupo con justo unos
cuantos outlying puntos. El método de varianza mínimo es más similar a el K-
grupo de medios; compara con Figura 7-4.
IDEAS CLAVES PARA JERÁRQUICOS CLUSTERING

Inicio con cada registro en su grupo propio.
Progresivamente, los grupos están unidos a grupos cercanos hasta que todos los registros
pertenecen a un grupo solo (el agglomerative algoritmo).
La historia de aglomeración está retenida y plotted, y el usuario (sin especificar el número de

grupos por adelantado) puede visualizar el número y estructura de grupos en etapas diferentes.
Inter-Distancias de grupo están computadas en maneras diferentes, todo confiando en el conjunto de

todo inter-distancias récord.
Modelo-Basado Clustering
Clustering Métodos como jerárquicos clustering y K -los medios están basados
en heuristics y confiar principalmente encima encontrando grupos cuyos
miembros son cercanos a uno otro, cuando midió directamente con el dato
(ningún modelo de probabilidad implicado). Antiguamente 20 años, el esfuerzo
significativo ha sido dedicado a modelo en desarrollo-basado clustering
métodos. Adrian Raftery y otros investigadores en la Universidad de
Washington hizo contribuciones críticas a modelo-basado clustering, incluyendo
ambas teoría y software. Las técnicas son grounded en teoría estadística y
proporcionar maneras más rigurosas para determinar la naturaleza y número de
grupos. Podrían ser utilizados, por ejemplo, en casos donde podría haber uno
agrupa de registros que es similar a uno otro pero no necesariamente cerrar a uno
otro (p. ej., stocks de tecnología con varianza alta de regresos), y otro grupo de
registros que es similar, y también cerrar (p. ej., stocks de utilidad con bajos
variance).
Multivariate Distribución normal
El más modelo utilizado ampliamente-basado clustering resto de métodos en
el multivariate distribución normal. El multivariate la distribución normal es una
generalización de la distribución normal para poner de p variables
. La distribución está definida por un conjunto de medios
Y una matriz de covarianza . La
matriz de covarianza es una medida de cómo las variables correlate con cada
otro (ve “Matriz de Covarianza” para detalles en la covarianza). La matriz de
covarianza
Consta de p varianzas Y covarianzas para todos los
pares de variables. . Con las variables puestas a lo largo de las filas y
duplicados a lo largo de las columnas, la matriz parece esto:
Desde una matriz de covarianza es symmetric, y , hay sólo

Plazos de covarianza. En total, la matriz de covarianza tiene
Parámetros. La distribución está denotada por:
Esto es una manera simbólica de decir que las variables son todos
normalmente distribuidos, y la distribución global es plenamente descrita por el
vector de medio variable y la matriz de covarianza.
Figura 7-9 espectáculos los contornos de probabilidad para un multivariate
distribución normal para dos variables X y Y (el 0.5 contorno de probabilidad,
por ejemplo, contiene 50% de la distribución).
El medio es Y Y la matriz de covarianza es:
Desde la covarianza Es positivo, X y Y es positivamente correlativo.

Figura 7-9. Contornos de probabilidad para una distribución normal bidimensional
Mezclas de Normals
La idea clave detrás modelo-basado clustering es que cada registro está supuesto
para ser distribuido cuando uno de K multivariate-distribuciones normales,
donde K es el número de grupos. Cada distribución tiene un diferente malo Y
matriz de covarianza . Por ejemplo, si tienes dos variables, X y Y , entonces
cada fila Es modeled cuando habiendo sido sampled de uno de K
distribuciones
.
R Tiene un paquete muy rico para modelo-basado clustering llamó mclust,
originalmente desarrollado por Chris Fraley y Adrian Raftery. Con este
paquete, podemos aplicar modelo-basó clustering a el dato de regreso
accionario anteriormente analizamos utilizar K- medios y jerárquicos
clustering:
> Biblioteca(mclust)
> df <- sp500_px[fila.Nombres(sp500_px)>='2011-01-01', c('XOM', 'CVX')]
> mcl <- Mclust(df)
> Resumen(mcl)
Mclust VEE (ellipsoidal, orientación y forma iguales) modelo con 2 componentes:
Registro.likelihood n df BIC ICL

-2255.134 1131 9 -4573.546 -5076.856
Clustering Mesa:
1 2
963 168
Si ejecutas este código, notarás que la computación toma significiantly más largo
que otros procedimientos. Extrayendo las asignaciones de grupo que utilizan el
pronosticar función, podemos visualizar los grupos:
Grupo <- factor(pronostica(mcl)$clasificación)

ggplot(Dato=df, aes(x=XOM, y=CVX, grupo=de color, grupo=de forma))
+ geom_punto(alfa=.8)
La parcela resultante está mostrada en Figura 7-10. Hay dos grupos: un grupo en
medio de el dato, y un segundo grupo en el borde exterior de el dato. Esto es
muy diferente de los grupos obtuvieron utilizar K-medios (Figura 7-4) y
jerárquico clustering (Figura 7-8), los cuales encuentran grupos que es compacto.
Figura 7-10. Dos grupos están obtenidos para dato de regreso accionario que utiliza mclust
Puedes extraer los parámetros a las distribuciones normales que utilizan el

resumen
Función:
> Resumen(mcl, los

parámetros=CIERTOS)$signif
icar [,1] [,2]
XOM 0.05783847 -0.04374944
CVX 0.07363239 -0.21175715
> Resumen(mcl, los parámetros=CIERTOS)$varianza
, , 1
XOM CVX
XOM 0.3002049 0.3060989
CVX 0.3060989 0.5496727
, , 2
XOM CVX
XOM 1.046318 1.066860
CVX 1.066860 1.915799
Las distribuciones tienen correlaciones y medio similares, pero la segunda
distribución ha mucho covarianzas y varianzas más grandes.
Los grupos de mclust puede parecer sorprendente, pero de hecho, ilustran la
naturaleza estadística de el método. El objetivo de modelo-basado clustering es
para encontrar el que cabe mejor puesto de multivariate distribuciones normales.
El dato accionario aparece para tener una forma que mira normal: ver los
contornos de Figura 7-9. De hecho, aun así, los regresos accionarios tienen un
más largos-tailed distribución que una distribución normal. Para manejar esto,
mclust cabe una distribución a el bulk del dato, pero entonces cabe una segunda
distribución con una varianza más grande.
Seleccionando el Número de Grupos
A diferencia de K -medios y jerárquicos clustering, mclust automáticamente
selecciona el número de grupos (en este caso, dos). Él esto por escoger el
número de grupos para qué la Información bayesiana Criterios (BIC) tiene el
valor más grande. BIC (Similar a AIC) es una herramienta general para
encontrar el modelo mejor entre un candidato puesto de modelos. Por ejemplo,
AIC (o BIC) es generalmente utilizado para seleccionar un modelo en stepwise
regresión; ve “Selección de Modelo y Stepwise Regresión”. BIC Trabajos por
seleccionar el modelo que cabe mejor con una pena para el número de
parámetros en el modelo. En el caso de modelo-basado clustering, añadiendo
más los grupos siempre mejorarán la acceso a expensas de introducir
parámetros adicionales en el modelo.
Puedes parcela el BIC valor para cada medida de grupo que utiliza una función
en hclust:
Parcela(mcl, qué='BIC', pregunta=FALSO)
El número de grupos — o número de diferentes multivariate modelos normales

(componentes) — está mostrado en el x-axial (ve Figura 7-11).
Figura 7-11. BIC Puntuaciones para el dato de regreso accionario para números diferentes de grupos
(componentes)
Esta parcela es similar a el uso de parcela del codod para identificar el número de
grupos para escoger para K-medios, excepto el ser de valor plotted es BIC en vez
de porcentaje de la varianza explicada (ve Figura 7-6). Uno la diferencia grande
es que en vez de uno tacha, mclust muestra 14 líneas diferentes! Esto es porque
mclust de hecho está cabiendo 14 modelos diferentes para cada medida de
grupo, y finalmente escoge el que cabe mejor
Modelo.
Por qué hace mclust cabido tantos modelos para determinar el conjunto mejor
de multivariate normals? Es porque hay maneras diferentes a parameterize la
matriz de covarianza Para caber un modelo. Mayoritariamente, no necesitas
para preocuparse sobre los detalles de los modelos y sencillamente puede
utilizar el modelo escogido por mclust. En este ejemplo, según BIC, tres
modelos diferentes (llamados VEE, VEV, y VVE) da la acceso mejor que
utiliza dos componentes.
NOTA
Modelo-basado clustering es una área rica y rápidamente en desarrollo de estudio, y la cobertura
en este texto sólo abarca una parte pequeña del campo. De hecho, el mclust archivo de ayuda es
actualmente 154 páginas mucho tiempo.
Navigating Los matices de modelo-basado clustering es probablemente más esfuerzo que está
necesitado para más los problemas encontraron por científicos de datos.
Modelo-basado clustering las técnicas tienen algunas limitaciones. Los métodos

requieren una suposición subyacente de un modelo para el dato, y los resultados
de grupo son muy dependientes en aquella suposición. Los requisitos de
computaciones son más altos que incluso jerárquicos clustering, haciéndolo
difíciles a escala a dato grande. Finalmente, el algoritmo es más sofisticado y
menos accesible que que de otros métodos.
IDEAS CLAVES PARA MODELO-B ASED CLUSTERING

Los grupos están supuestos para derivar de dato diferente-generando procesos con distribuciones de
probabilidad diferente.
Los modelos diferentes están cabidos, suponiendo números diferentes de (típicamente normales)
distribuciones.
El método escoge el modelo (y el número asociado de grupos) que acceso el dato bien sin
utilizar demasiados parámetros (i.e., overfitting).
Lectura más lejana
Para más detalle encima modelo-basado clustering, ver el mclust
documentación.
Scaling Y Variables Categóricas
Unsupervised Técnicas de aprendizaje generalmente requieren que los datos ser
apropiadamente scaled. Esto es diferente de muchos de las técnicas para
regresión y clasificación en qué scaling no es importante (una excepción es K-
vecinos más cercanos; ve “K-Vecinos más Cercanos”).
PLAZOS CLAVES PARA SCALING DATO
Scaling
Squashing O expandiendo dato, normalmente para traer variables múltiples a la misma escala.
Normalización
Un método de scaling — restando el malo y dividiendo por la desviación estándar.
Synonym
Estandarización
Gower distancia
Un scaling el algoritmo aplicó a mixto numérico y categoprical dato para traer todas las variables a
un 0–1 gama.
Por ejemplo, con el dato de préstamo personal, las variables haber ampliamente
magnitud y unidades diferentes. Algunas variables haber relativamente valores
pequeños (p. ej., número de los años empleados), mientras otros tienen valores
muy grandes (p. ej., cantidad de préstamo en dólares). Si el dato no es scaled,
entonces el PCA, K-medios, y otro clustering los métodos serán dominados por
las variables con valores grandes e ignorar las variables con valores pequeños.
El dato categórico puede posar un problema especial para algún clustering
procedimientos. Cuando con K -vecinos más cercanos, unordered variables de
factor son generalmente convertidas a un conjunto de binario (0/1) las variables
que utilizan un calientes codificando (ve “Uno Caliente Encoder”). No sólo es las
variables binarias probablemente en una escala diferente de otro dato, el hecho
que variables binarias haber sólo dos valores pueden probar problemáticos con
técnicas como PCA y K -medios.
Scaling Las Variables
Variables con escala muy diferente y necesidad de unidades para ser
normalizado apropiadamente antes de que aplicas un clustering procedimiento.
Por ejemplo, dejado es aplica kmeans a un conjunto de datos de préstamo
defaults sin normalizar:
df <- defaults[, c('préstamo_amnt', 'planta anual_inc', esvol_bal',

'abierto_acc', 'dti', esvol_util')]
Km <- kmeans(df, centra=4, nstart=10)
Centros <- datos.Marco( km=de medida$medida,
km$centros) ronda(centros, dígitos=2)
Préstamo de medida_amnt planta anual_inc revol_bal abre_acc dti revol_util
1 55 23157.27 491522.49 83471.07 13.35 6.89 58.74
2 1218 21900.96 165748.53 38299.44 12.58 13.43 63.58
3 7686 18311.55 83504.68 19685.28 11.68 16.80 62.18
4 14177 10610.43 42539.36 10277.97 9.60 17.73 58.05
Las variables anuales_inc y revol_bal domina los grupos, y los grupos tienen
medidas muy diferentes. Grupo 1 ha sólo 55 miembros con comparativamente
ingresos altos y equilibrio de crédito rotativo.
Una aproximación común a scaling las variables es para convertirles a z -
puntuaciones por restar el malo y dividiendo por la desviación estándar. Esto está
denominado estandarización o normalización (ve “Estandarización
(Normalización, Z- Puntuaciones)” para más discusión aproximadamente
utilizando z-puntuaciones):
Ver qué pasa a los grupos cuándo kmeans está aplicado a el dato normalizado:
df0 <- escala(df)

Km0 <- kmeans(df0, centra=4, nstart=10)
centra0 <-escala(km0$centros, el
centro=FALSO,
Escala=1/attr(df0, escaled:escala'))
Centros0 <- escala(centros0, centro=-attr(df0, escaled:centro'), escala=F) dato.Marco(km=de
medida0$medida, centra0)
Préstamo de medida_amnt planta anual_inc revol_bal abre_acc dti revol_util
1 5429 10393.60 53689.54 6077.77 8.69 11.35 30.69
2 6396 13310.43 55522.76 16310.95 14.25 24.27 59.57
3 7493 10482.19 51216.95 11530.17 7.48 15.79 77.68
4 3818 25933.01 116144.63 32617.81 12.44 16.25 66.01
Las medidas de grupo son más equilibradas, y los grupos no son justo
dominados por
Anual_inc y revol_bal , revelando estructura más interesante en el dato. Nota
que los centros son rescaled a las unidades originales en el código de preceder. Si
habíamos dejado les unscaled, los valores resultantes serían en plazos de z-
puntuaciones, y por lo tanto menos interpretables.
NOTA
Scaling Es también importante para PCA. Utilizando el z-las puntuaciones es equivalentes a
utilizar la matriz de correlación (ve “Correlación”) en vez de la matriz de covarianza en
computar los componentes principales.
Software para computar PCA normalmente tiene una opción para utilizar la matriz de correlación
(en R, el princomp
La función tiene el argumento cor).
Variables dominantes
Incluso en casos donde las variables están medidas en la misma escala y con
exactitud reflejar importancia relativa (p. ej., movimiento a precios accionarios), a
veces pueda ser útil a rescale las variables.
Supone añadimos Alfabeto (GOOGL) y Amazona (AMZN) a el análisis en
“Interpretar Componentes Principales”.
syms <- c('AMZN', 'GOOGL' 'AAPL', soySFT', 'CSCO', 'INTC', 'CVX', 'XOM',
EsLB', 'COP', 'JPM', 'WFC', 'USB', 'AXP', 'WMT', 'TGT', 'HD', 'COSTE')
Superior_sp1 <- sp500_px[fila.Nombres(sp500_px)>='2005-01-
01', syms] sp_pca1 <- princomp(superiores_sp1)
screeplot(sp_pca1)
El screeplot muestra las varianzas para los componentes principales superiores.

En este caso, el screeplot en Figura 7-12 revela que las varianzas de el primer y
segundos componentes son mucho más grandes que el otros. Esto a menudo
indica que uno o dos variables dominan el loadings. Esto es, de hecho, el caso en
este ejemplo:
Ronda(sp_pca1$loadings[,1:2], 3)
Comp.1 Comp.2
GOOGL 0.781 0.609
AMZN 0.593 -0.792
AAPL 0.078 0.004
MSFT 0.029 0.002
CSCO 0.017 -0.001
INTC 0.020 -0.001
CVX 0.068 -0.021
XOM 0.053 -0.005
...
El primeros dos componentes principales son casi completamente dominados por

GOOGL y AMZN. Esto es porque los movimientos de precio accionarios de
GOOGL y AMZN dominar la variabilidad..
Para manejar esta situación, tampoco les puedes incluir cuando es, rescale las
variables (ve “Scaling las Variables”), o excluir las variables dominantes de el
análisis y manejarles por separado. hay no “aproximación” correcta, y el
tratamiento depende de la aplicación..
Figura 7-12. Un screeplot para un PCA de stocks superiores del&S P 500 incluyendo GOOGL y AMZN
Dato categórico y Gower Distancia
En el caso de dato categórico, lo tienes que convertir a dato numérico,
cualquiera por ranking (para un factor ordenado) o por codificar como puesto de
binario (dummy) variables. Si el dato consta de mixto variables continuas y
binarias, normalmente quieres escala las variables de modo que las gamas son
similares; ve “Scaling las Variables”. Uno el método popular es para utilizar
Gower distancia.
La idea básica detrás de Gower la distancia es para aplicar una distancia
diferente métrica a cada variable dependiendo de el tipo de datos:
Para variables numéricas y ordenó factores, la distancia está calculada como
el valor absoluto de la diferencia entre dos registros (distancia de
Manhattan).
Para variables categóricas, la distancia es 1 si las categorías entre dos

registros son diferentes y la distancia es 0 si las categorías son igual..
Gower la distancia está computada como sigue:
1. Computar la distancia. Para todos los pares de variables i y j

para cada registro.
2. Escala cada par Así que el mínimo es 0 y el máximo es 1.
3. Añadir el pairwise scaled distancias entre las variables juntas,

tampoco utilizando un sencillos o weighted malos, para crear la
matriz de distancia.
Para ilustrar Gower distancia, toma unas cuantas filas de el dato de préstamo:
> x = defaults[1:5, c('dti', 'pago_inc_proporción', 'casa', 'propósito')]

> x
# Un tibble: 5 × 4
dti Pago_inc_propósito de casa de la
proporción
<dbl> <dbl> <fctr> <fctr>
1 1.00 2.39320 ALQUI Automovilístico
LER
2 5.55 4.57170 PROPI Negocio_pequeño
O
3 18.08 9.71600 ALQUI Otro
LER
4 10.08 12.21520 ALQUI Consolidación_de
LER deuda
5 7.06 3.90888 ALQUI Otro
LER
La función daisy en el paquete de grupo puede soler computar Gower distancia:
> Biblioteca(grupo)
> daisy(x,
métrico='gower')
Dissimilarities :
1 2 3 4
2 0.6220479
3 0.6863877 0.8143398
4 0.6329040 0.7608561 0.4307083
5 0.3772789 0.5389727 0.3091088 0.5056250
Todas las distancias son entre 0 y 1. El par de los registros con la distancia más
grande es 2 y 3: tampoco tiene los mismos valores para la casa o el
propósito y ellos tienen niveles muy diferentes de dti (deuda-a-ingresos) y
pago_inc_proporción . Registros 3 y 5 tiene la distancia más pequeña porque
comparten los mismos valores para casa o propósito .
Puedes aplicar jerárquico clustering (ve “Jerárquico Clustering”) a la matriz de
distancia resultante que utiliza hclust a la producción de daisy :
df <- defaults[Muestra(nrow(defaults), 250),

c('dti', 'pago_inc_proporción', 'casa',
'propósito')] d = daisy(df, métrico='gower')
hcl <- hclust(d)
dnd <- Cuando.dendrogram(hcl)
Parcela(dnd,
leaflab='ninguno')
El resultante dendrogram está mostrado en Figura 7-13. Los registros

individuales no son distinguishable en el x-axiales, pero podemos examinar los
registros en uno de el subtrees (en el izquierdo, utilizando un “corte” de 0.5),
con este código:
> df[Etiquetas(dnd_corte$bajar[[1]]),]
# Un tibble: 9 × 4
dti Pago_inc_proporci Casa Propósi
<dbl> ón <fctr> to
<dbl> <fctr>
1 24.57 0.83550 ALQUIL Otro
ER
2 34.95 5.02763 ALQUIL Otro
ER
3 1.51 2.97784 ALQUIL Otro
ER
4 8.73 14.42070 ALQUIL Otro
ER
5 12.05 9.96750 ALQUIL Otro
ER
6 10.15 11.43180 ALQUIL Otro
ER
7 19.61 14.04420 ALQUIL Otro
ER
8 20.92 6.90123 ALQUIL Otro
ER
9 22.49 9.36000 ALQUIL Otro
ER
Esto subtree enteramente consta de renters con un propósito de préstamo

labeled como “otro.” Mientras la separación estricta no es cierta de todo
subtrees, esto ilustra que las variables categóricas tienden para ser agrupados
juntos en los grupos.
Figura 7-13. Un dendrogram de hclust aplicó a una muestra de prestar default dato con tipos variables
mixtos
Problemas con Clustering Dato Mixto
K-Medios y PCA es más apropiado para variables continuas. Para conjuntos de
dato más pequeño, es mejor de utilizar jerárquico clustering con Gower
distancia. En principio, no hay ninguna razón por qué K-los medios no pueden
ser aplicados a dato binario o categórico..
Normalmente utilizarías el “un caliente encoder” representación (ve “Uno Caliente
Encoder”) para convertir el dato categórico a valores numéricos. En práctica, aun
así, utilizando K-medios y PCA con el dato binario puede ser difícil.
Si el estándar z-las puntuaciones están utilizadas, las variables binarias
dominarán la definición de los grupos. Esto es porque 0/1 variables apechugan
con sólo dos valores y K -los medios pueden obtener un pequeños dentro-suma
de grupo-de-plazas por asignar todos los registros con un 0 o 1 a un grupo solo.
Por ejemplo, aplica kmeans para prestar default el dato que incluye casa de
variables del factor y pub_rec_cero :
df <- Modelo.Matriz(~ -1 + dti + pago_inc_pub + de casa + de la

proporción_rec_cero, dato=defaults)
df0 <- escala(df)
Km0 <- kmeans(df0, centra=4, nstart=10)
centra0 <-escala(km0$centros, el
centro=FALSO,
Escala=1/attr(df0, escaled:escala'))
escala(centros0, centro=-attr(df0, escaled:centro'),
escala=F)
dti Pago_inc_proporción homeMORTGAGE homeOWN homeRENT pub_rec_cero
1 17.02 9.10 0.00 0 1.00 1.00
2 17.47 8.43 1.00 0 0.00 1.00
3 17.23 9.28 0.00 1 0.00 0.92
4 16.50 8.09 0.52 0 0.48 0.00
La parte superior cuatro grupos son esencialmente proxies para los niveles
diferentes de las variables de factor. Para evitar este comportamiento, podrías
escala las variables binarias para tener una varianza más pequeña que otras
variables. Alternativamente, para dato muy grande conjuntos, podrías aplicar
clustering a subconjuntos diferentes de los datos que apechugan con valores
categóricos concretos. Por ejemplo, podrías aplicar clustering por separado a
aquellos préstamos hicieron a alguien quién tiene una hipoteca, posee una casa
francamente, o alquileres..
IDEAS CLAVES PARA SCALING DATO
Las variables midieron en necesidad de balanza diferente para ser transformado a balanza
similar, de modo que su impacto en los algoritmos no es determinados principalmente por su
escala.
Un común scaling el método es normalización (estandarización) — restando el malo y dividiendo

por la desviación estándar.
Otro método es Gower distancia, el cual balanza todas las variables al 0–1 gama ( es a menudo
utilizó
Con dato numérico y categórico mixto).
Resumen
Para reducción de dimensión de dato numérico, las herramientas
principales son cualquier análisis de componentes principal o K -medios
clustering. Ambos requieren atención a apropiado scaling de el dato para
asegurar reducción de dato significativo.
Para clustering con dato estructurado altamente en qué los grupos es bien
separado, todos los métodos probablemente producirán un resultado similar.
Cada método ofrece su ventaja propia. K-Balanza de medios a dato muy grande y
es fácilmente entendió.
Jerárquico clustering puede ser aplicado al dato mixto escribe — numérico y
catego rical — y se deja a una exhibición intuitiva (el dendrogram). Modelo-
basado clustering está fundado en teoría estadística y proporciona una
aproximación más rigurosa, cuando opposed a los métodos heurísticos. Para dato
muy grande, aun así, K- los medios es el método principal utilizó.
Con dato ruidoso, como el préstamo y dato accionario (y mucho de el dato que
un científico de dato afrontará ), la elección es más dura. K-Medios, jerárquicos
clustering, y especialmente modelo-basado clustering todos producen soluciones
muy diferentes. Cómo tener que un científico de dato procede?
Desafortunadamente, hay no regla sencilla de pulgar para guiar la elección.
Finalmente, el método utilizó dependerá de la medida de dato y el objetivo de la
aplicación.
Bibliografía
[bokeh] Bokeh Equipo de desarrollo. “Bokeh: Biblioteca de pitón para

visualización interactiva” (2014). http://www.bokeh.pydata.org.
[Deng-Wickham-2011] Deng, H. Y Wickham, H. “Valoración de densidad en

R” (2011). http://vita.had.co.nz/papers/density-estimation.pdf.
[Wikipedia-2016] “Buceo.” Wikipedia: La Enciclopedia Libre. Wikimedia

Fundación, Inc. 10 Mar 2016. Web. 19 Mar 2016.
[Donoho-2015] Donoho, David. “50 Años de Ciencia de Datos” (2015).

http://courses.csail.mit.edu/18.337/2015/docs/50yearsdatascience.pdf.
[Duong-2001] Duang, Tarn. “Una introducción a kernel valoración de

densidad” (2001).
http://www.mvstat.net/tduong/research/seminars/seminar-2001- 05.Pdf.
[Pocos-2007] Pocos, Stephen. “Salvar los Pasteles para Postre.”

Inteligencia visual Newsletter, Perceptual Borde (2007).
Https://www.perceptualedge.com/articles/visual_business_intelligence/save
[Hintze-Nelson-1998] Hintze, J. Y Nelson, R. “Parcelas de violín: Una

Parcela de Caja- Densidad Trace Synergism.” El Estadístico americano 52.2
(mayo 1998): 181–184.
[Galton-1886] Galton, Francis. “Regresión hacia mediocridad en estatura

Hereditaria.” La Revista de el Instituto Antropológico de Gran Bretaña e
Irlanda, 15:246-273. JSTOR 2841583.
[ggplot2] Wickham, Hadley. ggplot2: Gráfico Elegante para Análisis de

Datos. Salmer-Verlag Nueva York (2009). ISBN: 978-0-387-98140-6.
http://had.co.nz/ggplot2/book.
[Hyndman-Seguidor-1996] Hyndman, R. J. Y Seguidor, Y. “Muestra

quantiles en paquetes estadísticos,” Estadístico americano 50, (1996)
361–365.
[Enrejado] Sarkar, Deepayan. Enrejado: Multivariate Visualización de Dato
con R . Salmer (2008). ISBN 978-0-387-75968-5. Http://lmdvr.r-Forjar.r-
project.org.
[Legendre] Legendre, Adrien-Marie. Nouvelle methodes Vierte la

determinación des orbites des cometes. F. Didot, París (1805).
[NIST-Manual-2012] NIST/SEMATECH e-Manual de Métodos

Estadísticos,
http://www.itl.nist.gov/div898/handbook/eda/section3/eda35b.htm (2012).
[R-Base-2015] R Equipo de Núcleo. “R: Una Lengua y Entorno para

Informática Estadística,” R Fundación para Informática Estadística
(2015). http://www.r-project.org/.
[seaborne] Wasdom, Michael. “Seaborn: Visualización de dato

estadístico” (2015).
http://stanford.edu/~mwaskom/Software/seaborn/#.
[Stigler-Gauss] Stigler, Stephen M. “Gauss y la Invención de Menos

Plazas.” Ann. Stat. 9(3), 465–474 (1981).
[Enrejado-Gráficos] Becker, R., Cleveland, W, Shyu, M. Y Kaluzny, S.

“Una Visita de Gráfico de Enrejado” (1996).
http://polisci.msu.edu/jacoby/icpsr/graphics/manuscripts/trellis_tour.pdf.
[Tukey-1962] Tukey, John W. “El Futuro de Análisis de Datos.” Ann.

Matemática. Statist. 33 (1962), núm. 1, 1–67.
https://projecteuclid.org/download/pdf_1/euclid.aoms/1177704711
[Tukey-1977] Tukey, John W. Análisis de Dato exploratorio. Pearson (1977).

ISBN: 978-0-201-07616-5.
[Tukey-1987] Tukey, John W. Editado por Jones, L. V. El recogió trabajos de

John W. Tukey: Filosofía y Principios de Análisis de Datos 1965–1986,
Volumen IV. Chapman Y Sala/CRC (1987). ISBN: 978-0-534-05101-3.
[UCLA] “R Biblioteca: Sistemas de Codificación del Contraste para

Variables Categóricas.” UCLA: Grupo de Consultoría estadística.
http://www.ats.ucla.edu/stat/r/library/contrast_coding.htm. Junio
accedido 2016.
[Zhang-Wang-2007] Zhang, Qi y Wang, Wei. 19.ª Conferencia Internacional
en Base de datos Científica y Estadística Administración, Sociedad de
Ordenador del IEEE (2007).
Índice
Un
Un/B testaje, Un/B Testaje-Para Lectura más Lejana
Grupo de control, ventajas de utilizar, Por qué Tener un Grupo
de Control? epsilon-Algoritmo codicioso, Multi-importancia de
Algoritmo de Bandido de Brazo de permisos, Por qué Justo
Un/B? Por qué No C, D…? Tradicional, shortcoming de, Multi-
Algoritmo de Bandido del Brazo
Exactitud, Evaluando Modelos de

Clasificación que mejoran en bosques
aleatorios, Bosque Aleatorio
Adaboost, Aumentando
Aumentando algoritmo, El Algoritmo de
Aumentar ajustó R-cuadrado, Evaluando el
Modelo
Ajustamiento de p-valores, Testaje Múltiple, el múltiplo que
Prueba agglomerative algoritmo, El Agglomerative Algoritmo
AIC (Akaike Criterios de Información), Selección de Modelo y Stepwise

Regresión, Seleccionando el Número de Grupos.
Variantes de, Selección de Modelo y Stepwise
Regresión Akike, Hirotugu, Selección de Modelo y

Stepwise Regresión
Toda regresión de subconjunto, Selección de Modelo y Stepwise Regresión

Alfa, Importancia Estadística y P-Valores , la alfa
que divide arriba en testaje múltiple, Testaje
Múltiple
Hipótesis alternativa, Pruebas de Hipótesis, Hipótesis Alternativa
Asociación Estadística americana (ASA), declaración en p-valores, Valor

de el p-valor
Detección de anomalía, Outliers, Regresión y Predicción
ANOVA (Análisis de varianza

statististical La prueba basada en F-statistic, F-Statistic
ANOVA (Análisis de varianza), ANOVA-la lectura más

Lejana que computa ANOVA mesa en R, F-Statistic
Descomposición de varianza, F-
Statistic dos-manera, Dos-Manera
ANOVA
Armas (multi-bandidos de brazo), Multi-Algoritmo de
Bandido del Brazo AUC (área bajo el ROC curva),
AUC
Conexión mediana, Medidas de Dissimilarity
B
backward Eliminación, Selección de Modelo y Stepwise
Regresión backward selección, Selección de Modelo y Stepwise
Regresión
bagging, El Bootstrap, Resampling, Aprendizaje de Máquina Estadística,
Bagging rendimiento predictivo mejor que árboles solos, Cómo los árboles
Son Utilizados
Aumentando vs., Aumentando
Utilizando con bosques aleatorios,
algoritmos de bandido de Bosque Aleatorios,
Multi-Algoritmo de Bandido del Brazo

(Ve también multi-bandidos de brazo)
Gráficos de barra, Explorando Dato Binario y
Categórico clasificación bayesiana, Naive Bayes

(Ve también naive Bayes algoritmo)
impracticality De clasificación bayesiana exacta, Por qué la clasificación

bayesiana Exacta Es Poco práctica
Bayesiano infomation criterios (BIC), Selección de Modelo y Stepwise

Distribución de beta, Multi-Algoritmo de Bandido del Brazo
Sesgo, Sesgo
Sesgo de selección, Sesgo de Selección-sesgo de
Lectura más Lejana-varianza tradeoff,
Escogiendo K
Predispuso estimaciones, Desviación Estándar y Relacionó

Estimaciones de naive Bayes classifier, El Naive
Solución
BIC (Criterios de información bayesiana), Selección de Modelo y Stepwise

Hipótesis alternativa bidireccional, Un-Manera, Hipótesis de Dos

Maneras Prueba dato grande
Y outliers en regresión, Outliers
Uso de regresión en, Predicción versus Explicación (Profiling)
valor de, Medida versus Calidad: Cuando Hace Asunto de
Medida?
Dato binario, Elementos de Dato Estructurado

Explorando, Explorando Dato Binario y Categórico -binomio
de Correlación, Distribución Binomial
Distribución binomial, Distribución Binomial-más Lejano
Leyendo pruebas binomials, Distribución Binomial
Cubos
Hexagonal binning, Hexagonal Binning y Contornos (Plotting Numéricos
versus Dato Numérico)
En mesas de frecuencia, Mesa de Frecuencia e
Histogramas en histogramas, Mesa de Frecuencia e
Histogramas.
bivariate Análisis, Explorando Dos o Más Variables
teoría de cisne negro, Mucho tiempo-Tailed
Distribuciones
Estudios ciegos, Por qué Tener un Grupo de Control?
Aumentando, Aprendizaje de Máquina Estadística, Modelos de Árbol,

Aumentando-Resumen bagging vs., Aumentando
Aumentando algoritmo, El Algoritmo de Aumentar

hyperparameters Y cruz-validación, Hyperparameters y Cross-
Validación
overfitting, evitando utilizando regularización, Regularización: Evitando

Overfitting
XGBoost, XGBoost
bootstrap, El Bootstrap-Lectura más Lejana, Resampling

Generación de intervalo de la confianza, Intervalos de Confianza,
Pruebas de permutación, Exhaustivos y Bootstrap Prueba de
Permutación resampling vs. bootstrapping, Resampling versus
Bootstrapping utilizando con bosques aleatorios, Bosque
Aleatorio
bootstrap Muestra, El Bootstrap
boxplots, Explorando la Distribución de Dato

Combinando con una parcela de violín, ejemplo, Dato Categórico y
Numérico
Ejemplo, porcentaje de retrasos de aerolínea por cargadores, Dato

Categórico y Numérico.
outliers En, Outliers
percentiles Y, Percentiles y Boxplots
Breiman, Leo, burbuja de Aprendizaje de
Máquina Estadística parcelas, Valores
Influyentes
C
Dato categórico, Elementos de Dato Estructurado
Explorando, Explorando Dato Binario y Categórico -
Correlación valor esperado, Valor Esperado
Modo, Modo
Dato numérico como dato categórico, Explorando Dato Binario y

Categórico
Explorando dos variables categóricas, Dos Variables
Categóricas importancia de el concepto, Elementos de Dato
Estructurado
La variable numérica agrupada por variable categórica, Dato Categórico y

Numérico.
scaling Y variables categóricas, Scaling y Variables Categóricas-

Resumen
Variables dominantes, Variables Dominantes
Gower distancia, Dato Categórico y Gower Distancia
scaling las variables, Scaling las Variables
Variables categóricas, Variables de Factor en

Regresión (ve también variables de factor)
causation, regresión y, Predicción versus Explicación (Profiling)
Teorema de límite central, Distribución de Muestreo de un Statistic, Teorema

de Límite Central, Estudiante t-Distribución
Ciencia de dato y, Estudiante t-Distribución
chi-Distribución cuadrada, Chi-Prueba Cuadrada: Teoría Estadística

chi-Cuadrado statistic, Chi-Prueba Cuadrada
chi-Prueba cuadrada, Chi-Prueba Cuadrada-la

lectura más Lejana que detecta fraude científico,
Fisher Prueba Exacta
Fisher prueba exacta, Fisher Prueba Exacta
Pertinencia para ciencia de datos, Pertinencia para Ciencia
de Datos resampling aproximación, Chi-Prueba Cuadrada: Un
Resampling Aproximación teoría estadística, Chi-Prueba
Cuadrada: Teoría Estadística
Pureza de clase, Midiendo Homogeneidad o

Impureza.
Clasificación, Clasificación-Resumen
discriminant Análisis, Discriminant Análisis-matriz de
covarianza de Lectura más Lejana, Matriz de Covarianza
Fisher lineal discriminant, Fisher Lineal Discriminant
ejemplo sencillo, Un Ejemplo Sencillo
Evaluando modelos, Evaluando Modelos de Clasificación-más

Lejanos Leyendo AUC métricos, AUC
Matriz de confusión, Confusión
ascensor Matricial, Ascensor
Precisión, recuerda, y especificidad, Precisión, Recuerda, y
Especificidad problema de clase rara, El Problema de Clase

Raro
ROC Curva, ROC Curva

K-Vecinos más cercanos, K-Vecinos más Cercanos
logistic Regresión, Logistic Regresión-Lectura más

Lejana y el GLM, Logistic Regresión y el GLM
Evaluando el modelo, Evaluando el Modelo
Comparación a regresión lineal, Lineal y Logistic Regresión:

Semejanzas y Diferencias
Interpretando coeficientes y odds proporciones, Interpretando los

Coeficientes y Odds Proporciones
logistic Función de respuesta y logit, Logistic Función de Respuesta y

Logit.
Pronosticó valores de, Pronosticó Valores de Logistic Regresión
más de dos resultados posibles, Clasificación
naive Bayes Algoritmo, Naive Bayes-Lectura más Lejana

impracticality De clasificación bayesiana exacta, Por qué la clasificación
bayesiana Exacta Es Poco práctica
Utilizando numérico predictor variables, Numéricos Predictor

Variables
Estrategias para imbalanced dato, Estrategias para Imbalanced Dato-

Lectura más Lejana
Coste-clasificación basada, Coste-generación de
dato de Clasificación Basada, Generación de Dato
Explorando las predicciones, Explorando las Predicciones
oversampling Y arriba/abajo ponderación, Oversampling y

Arriba/Abajo
Ponderación
undersampling, Undersampling
unsupervised Aprendiendo tan construyendo bloque, Unsupervised

Aprendiendo
El grupo malo, K-Medios Clustering, Un Ejemplo Sencillo, Interpretando los

Grupos
clustering, Unsupervised Aprendiendo

Aplicación a problemas de inicio frío, Unsupervised
Aprendiendo análisis de grupo vs. PCA, Interpretando los
Grupos
Jerárquico, Jerárquico Clustering-Medidas de Dissimilarity,

agglomerative Algoritmo, El Agglomerative Algoritmo
dendrogram, El Dendrogram
dissimilarity Medidas, Medidas de Dissimilarity
K-Medios, K-Medios Clustering-Seleccionando el Número de Grupos ,

Scaling las Variables
Interpretando los grupos, Interpretando los
Grupos K-algoritmo de medios, K-Algoritmo de
Medios
Seleccionando el número de clientes, Seleccionando el Número de
Grupos ejemplo sencillo, Un Ejemplo Sencillo-K-Algoritmo de

Medios
Modelo-basado, Modelo-Basado Clustering-Lectura más Lejana

Mezclas de normals, Mezclas de Normals
Seleccionando el número de grupos, Seleccionando el Número de
problemas de Grupos con dato mixto, Problemas con Clustering el dato
Mixto que estandariza dato, Estandarización (Normalización, Z-
Puntuaciones)
Grupos, K-Medios Clustering
Coeficiente de determinación, Evaluando los
coeficientes de Modelo
En logistic regresión, Interpretando los Coeficientes y Odds Proporciones
En regresión lineal sencilla, Las estimaciones de

Ecuación de la Regresión vs. sabidas, Cupo
Valores y Residuals.
Interpretación en regresión lineal múltiple, Ejemplo: Dato de Alojamiento de

Condado de King
Conexión completa, El Agglomerative Algoritmo
Parámetro de complejidad (cp), Parando el Árbol de Crecer
probabilidades condicionales, Naive Bayes
Condicionando variables, Visualizando Variables Múltiples
Intervalos de confianza, Intervalos de Confianza-Lectura más Lejana,

Generando con bootstrap, nivel de Intervalos
de la Confianza de confianza, Intervalos de

Confianza
Intervalos de predicción vs., Confianza e Intervalos de
Predicción nivel de confianza, Intervalos de Confianza-
Intervalos de Confianza
confounding Variables, Interpretando la Ecuación de Regresión, Confounding

Variables
Matriz de confusión, Evaluando Modelos de Clasificación-Matriz de

Confusión
Mesas de contingencia, Explorando Dos o Más ejemplo de

Variables, grado de préstamo y estado, Dos Variables
Categóricas
Dato continuo, Elementos de Dato

Estructurado variable continua cuando la
prueba métrica, Un/B Testaje
Pronosticando valor continuo con un árbol, Pronosticando un Valor

Continuo
Parcelas de contorno, Explorando Dos o Más Variables

Utilizando con hexagonal binning, Hexagonal Binning y Contornos (Plotting
Numéricos versus Dato Numérico)
Sistemas de codificación del contraste, Dummy Representación de

Variables
Grupo de control, Un/B Testaje

Ventajas de utilizar, Por qué Tener un Grupo de Control?
La distancia del cocinero, Valores Influyentes
Variables correlativas, Interpretando la Ecuación de

Regresión multicollinearity, Multicollinearity
predictor Variables, Correlativos
Predictors correlación, Correlación-Lectura
más Lejana
Plazos claves para, Correlación
Regresión vs., Regresión Lineal Sencilla
scatterplots, Scatterplots
Coeficiente de correlación, Correlación

Informática Pearson coeficiente de correlación,
Correlación conceptos claves, Scatterplots
Otros tipos de, Correlación
Matriz de correlación,
Correlación
Ejemplo, correlación entre telecomunicación regresos accionarios,
Correlación
Coste-clasificación basada, Coste-Basado
Classification dato de cuenta

Cuando la prueba métrica, Un/B Testaje
Fisher prueba exacta para, Fisher Prueba Exacta
Covarianza, Discriminant Análisis, Matriz de Covarianza,

Computando los Componentes Principales
Matriz de covarianza
En discriminant análisis, Matriz de Covarianza
En modelo-basado clustering, Multivariate la distribución
Normal que utiliza para computar Mahalanobis distancia,
Distancia Metrics
Cruz-validación, Cross-Validación, Escogiendo K

Para selección de componentes principales, Interpretando Componentes
Principales
Utilizando para hyperparameters en aumentar, Hyperparameters y

Cross-
Validación
Utilizando para estimar valor de parámetro de complejidad, Parando el

Árbol de Crecer.
Gráficos de beneficios
acumulables, Ascensor D
d.f. (Grados de libertad), Grados de Libertad , Chi-Prueba
Cuadrada (ve también grados de libertad).
Análisis de dato, Análisis de Dato

Exploratorio (ve también análisis de
dato exploratorio)
Distribución de dato, Explorando la Distribución de Dato-Lectura más Lejana,

Distribución de Muestreo de un Statistic
Mesas de frecuencia e histogramas, Mesa de Frecuencia e
Histogramas plazos claves para, Explorando la Distribución de
Dato
percentiles Y boxplots, Percentiles y Boxplots
Distribución de muestreo vs., Distribución de Muestreo de un
Statistic marcos de dato, Dato Rectangular

Y índices, Marcos de Dato y Índices
formato de dato típico, Dato

Rectangular
Generación de dato, Estrategias para Imbalanced Dato, Generación de

Dato
Dato snoopng, Sesgo de Selección
Tipos de dato
Plazos claves para, Elementos de recursos de
Dato Estructurado para lectura más lejana,
Más allá Leyendo
Normalización de base de datos, Estandarización (Normalización,
Z-Puntuaciones) decile gráficos de beneficios, Ascensor
Árboles de decisión, El Bootstrap, significado de

Aprendizaje de Máquina Estadístico en búsqueda de
operaciones, Modelos de Árbol
Recursivo partitioning algoritmo,
descomposición de Bosque Aleatorio de varianza,
ANOVA, F-Statistic
Grados de libertad, Desviación Estándar y Relacionó Estimaciones,

Estudiante t-
Distribución, Grados de Libertad-Lectura más Lejana
En chi-prueba cuadrada, Chi-Prueba Cuadrada: Teoría Estadística
dendrograms, Jerárquico Clustering

Ejemplo, dendrogram de stocks, El Dendrogram
Jerárquico clustering con tipos variables mixtos, Dato Categórico y Gower

Distancia
Parcelas de densidad, Explorando la Distribución de Dato, ejemplo de

Estimaciones de la Densidad, densidad de índices de asesinato
estatal, Estimaciones de Densidad
Variable dependiente, La Ecuación de
Regresión (ve también respuesta)
Codificación de desviación, Variables de Factor en Regresión,
Dummy Representación de Variables
Desviaciones, Estimaciones de Variabilidad

Desviación estándar y relacionó estimaciones, Desviación Estándar y
Relacionó Estimaciones
Hipótesis alternativa direccional, Un-Manera, Hipótesis de Dos Maneras
Prueba dato discreto, Elementos de Dato Estructurado
discriminant Análisis, Discriminant Análisis-matriz de

covarianza de Lectura más Lejana, Matriz de Covarianza
Extensiones de, Un Ejemplo Sencillo
Fisher lineal discriminant, Fisher Lineal Discriminant ejemplo
sencillo, Un Ejemplo Sencillo-Un Ejemplo Sencillo
discriminant Función, Discriminant Análisis
discriminant pesos, Discriminant Análisis
Dispersión, Estimaciones de
Variabilidad (ve también
variabilidad, estimaciones de)
dissimilarity, Jerárquico Clustering

Medidas comunes de, Medidas de Dissimilarity
Midiendo con, método de conexión completa, El Agglomerative el
algoritmo métrico en jerárquico clustering, Un Ejemplo Sencillo
Distancia metrics, K-Vecinos más Cercanos, Jerárquicos Clustering

Gower distancia y dato categórico, Dato Categórico y Gower Distancia
En jerárquico clustering, Un Ejemplo Sencillo, El Agglomerative Algoritmo
en K-Vecinos más Cercanos, Distancia Metrics
Donoho, David, Análisis de Dato Exploratorio
Estudios ciegos dobles, Por qué Tener un Grupo
de Control? dummy Variables, Variables de
Factor en Regresión
Representación de variables de factor en regresión, Dummy
Representación de Variables
Representando dato de factor de la cuerda como números, Uno Caliente

Encoder
Durbin-Watson statistic, Heteroskedasticity, No-Normalidad y Errores

Correlativos
E
EDA (ve análisis de dato exploratorio)
Medida de efecto, Poder y Medida de
Muestra, método de codo de Medida de
Muestra, Seleccionando el Número de Grupos
ensemble aprendizaje, Aprendizaje de Máquina
Estadística
Escenificó utilizado de K-Vecinos más Cercanos, KNN como
Motor de Característica ensemble modelos, Aumentando

Entropía, Midiendo Homogeneidad o Impureza
epsilon-Algoritmo codicioso, Multi-Algoritmo de Bandido del Brazo

Errores, Distribución Normal
Estimaciones, Estimaciones de Ubicación

Indicado por notación de sombrero, Cupo Valores y
Residuals distancia euclidiana, Distancia Metrics
Pruebas exactas, Exhaustivos y Bootstrap Prueba de
Permutación Excel, mesas de pivote, Dos Variables
Categóricas
Pruebas de permutación exhaustiva, Exhaustivos y Bootstrap expectativa
de Prueba de la Permutación o esperado, Chi-Prueba Cuadrada
Valor esperado, Explorando Dato Binario y Categórico , el valor Esperado que

calcula, Valor Esperado
Explicación vs. predicción (en regresión), Predicción versus Explicación

(Profiling)
Análisis de dato exploratorio, Análisis de Dato Exploratorio-Resumen

Dato binario y categórico, Explorando Dato Binario y Categórico-
Correlación
Correlación, Correlación-Lectura más Lejana
Distribución de dato, Explorando la Distribución de Dato-
estimaciones de Lectura más Lejana de ubicación, Estimaciones
de Ubicación -estimaciones de Lectura más Lejana de
variabilidad, Estimaciones de Variabilidad -Lectura más Lejana
Explorando dos o más variables, Explorando Dos o Más

Variables- Resumen
Dato rectangular, Dato Rectangular-Estimaciones de
Ubicación Análisis de Dato Exploratorio (Tukey), Análisis de
Dato Exploratorio
Distribución exponencial, Poisson y Relacionó Distribuciones

calculando, Distribución Exponencial
Extrapolación
Peligros de, Los Peligros de definición de
Extrapolación de, la predicción que
Utiliza Regresión
F
F-statistic, ANOVA, F-Statistic, Evaluando las
facetas de Modelo, Visualizando Variables Múltiples
Variables de factor, Variables de Factor en Regresión-Variables de Factor

Ordenado codificaciones diferentes, Dummy Representación de Variables
dummy Representación de variables, Dummy Representación de
Variables que maneja en logistic regresión, Cabiendo el modelo
En naive Bayes algoritmo, Naive Bayes
ordenó, Variables de Factor Ordenado
Codificación de referencia, Interacciones y Efectos
Principales con muchos niveles, Variables de
Factor con Muchos Niveles

Factores, conversión de columnas de texto a, Elementos de índice de
fracaso de Dato Estructurado, estimando, Estimando el Índice de
Fracaso
Índice de descubrimiento falso, Testaje Múltiple, el
múltiplo que Prueba índice positivo falso, AUC
Selección de característica
chi-Pruebas cuadradas en, Pertinencia para
Ciencia de Datos que utiliza discriminant
análisis, Un Ejemplo Sencillo
Características, Dato Rectangular

Diferencias de terminología, Marcos de Dato y vista
de campo de los Índices (dato espacial), Nonrectangular
el dato Estructura Fisher prueba exacta, Fisher
Prueba Exacta
Fisher lineal discriminant, Fisher Lineal Discriminant Fisher
está puntuando, Cabiendo el modelo
Fisher, R.Un., Fisher Prueba Exacta, Discriminant Análisis
Cupo valores, Regresión Lineal Sencilla, Cupo Valores y Residuals
pliegues, Cross-Validación, Hyperparameters y Cross-Validación.
Selección de delantero y backward selección, Selección de Modelo y Stepwise

Regresión
Mesas de frecuencia, Explorando la Distribución de Dato

Ejemplo, población por estatal, Mesa de Frecuencia e
Histogramas Friedman, Jerome H. (Jerry), Aprendizaje de
Máquina Estadística
G
Beneficios, Ascensor
(Ve también ascensor)
Gallup Encuesta, Muestra y Muestreo Aleatorios Sesgo
Gallup, George, Muestra y Muestreo Aleatorios Sesgo, Selección
Aleatoria Galton, Francis, Regresión a el Malo
GAM (Ve modelos aditivos generalizados)
Distribución gaussiana, Distribución

Normal (ve también distribución
normal)
Modelos aditivos generalizados, Polinomio y Spline Regresión, Modelos

Aditivos Generalizados, Explorando las Predicciones
Modelo lineal generalizado (GLM), Logistic Regresión y el GLM
Gini coeficiente, Midiendo Homogeneidad o Impureza.
Gini Impureza, Midiendo Homogeneidad o
Impureza GLM (ve modelo lineal generalizado)
Gossett, W.S., Estudiante t-Distribución
Gower distancia, Scaling y Variables Categóricas dato

categórico y, Dato Categórico y Gower Distancia
El gradiente aumentó árboles, Interacciones y Efectos Principales
El gradiente que aumenta, El Algoritmo

de Aumentar definición de,
Aumentando
graphs, Nonrectangular Estructuras de Dato
Informática versus estadística, Nonrectangular lección de
Estructuras del Dato en misleading graphs, Más allá Leyendo
Algoritmos codiciosos, Multi-Algoritmo de Bandido del Brazo
H
Notación de sombrero, Cupo Valores y Residuals
Sombrero-valor, Probando las Suposiciones: Diagnósticos de Regresión,

Valores Influyentes
Mapas de calor, Hexagonales Binning y Contornos (Plotting Numéricos

versus Dato Numérico)
heteroskedastic Errores, Heteroskedasticity, No-Normalidad y Errores

Correlativos
heteroskedasticity, Probando las Suposiciones: Diagnósticos de Regresión,

Heteroskedasticity, No-Normalidad y Errores Correlativos
Hexagonal binning, Explorando Dos o Más Variables

Ejemplo, utilizando con parcela de contorno, Hexagonal Binning y
Contornos (Plotting Numéricos versus Dato Numérico)
Jerárquico clustering, Jerárquico Clustering-Medidas de Dissimilarity,

agglomerative Algoritmo, El Agglomerative medidas de
Algoritmo de dissimilarity, Medidas de Dissimilarity
ejemplo sencillo, Un Sencillo Example

Histogramas, Explorando la Distribución de Dato
Ejemplo, población por estatal, Mesa de Frecuencia y
homogeneidad de Histogramas, midiendo, Midiendo
Homogeneidad o Impureza.
hyperparameters
Y cruz-validación en aumentar, Hyperparameters y Cross-Validación
para HGBoost, Hyperparameters y Cross-Validación.
En bosques aleatorios, Hyperparameters
Pruebas de hipótesis, Pruebas de Hipótesis-más

Lejanos Leyendo hipótesis alternativa, Hipótesis
Alternativa
Índice de descubrimiento falso, el
múltiplo que Prueba null hipótesis, El
Null Hipótesis
Uno-manera y pruebas de dos maneras, Un-Manera, Hipótesis de Dos

Maneras Prueba
Yo
Impureza, Modelos de Árbol
Midiendo, Midiendo Homogeneidad o Impureza
En-métodos de muestra para evaluar y modelos de tonada, Selección de

Modelo y Stepwise Regresión
Variables independientes, Regresión Lineal Sencilla, La Ecuación de Regresión

efectos principales, Interacciones y Efectos Principales
Índices, marcos de dato y, Marcos de Dato y
variables de indicador de los Índices, Variables de
Factor en Regresión
Inferencia, Análisis de Dato Exploratorio, Importancia y
Experimentos Estadísticos Testaje
Parcelas de influencia, Valores Influyentes
Valores influyentes, Probando las Suposiciones: Diagnósticos de Regresión,

Valores influyentes
Información, Midiendo Homogeneidad o
interacciones de Impureza, Interpretando la
Ecuación de Regresión
Y efectos principales, Interacciones y Efectos Principales
Decidiendo qué plazos de interacción para incluir en el modelo,

Intercepta, Regresión Lineal Sencilla

En exposición de algodón y ejemplo de capacidad del pulmón, El Internet
de Ecuación de la Regresión de Cosas (IoT), Elementos de Dato
Estructurado
interquantile Gama (IQR), Estimaciones de Variabilidad , Estima Basado en

Percentiles
Intervalo endpoints, Intervalos de
Confianza K
K (En K-Vecinos más Cercanos), K-Vecinos más
Cercanos k-cruz de pliegue-validación, Cross-
Validación
K-Medios clustering, K-Medios Clustering-Seleccionando el Número de los

grupos que interpretan los grupos, Interpretando los Grupos
K-Algoritmo de medios, K-Algoritmo de Medios
Medios
Utilizando en unnormalized y normalizó variables, Scaling las Variables
K-Vecinos más cercanos, Pronosticó Valores de Logistic Regresión, K-

Vecinos más Cercanos-KNN como Motor de Característica
Como motor de característica, KNN como
Motor de Característica que escoge K,
Escogiendo K
Distancia metrics, Distancia Metrics
Ejemplo, pronosticando préstamo default, Un Ejemplo Pequeño:

Pronosticando Préstamo Default
Uno caliente encoder, Uno Caliente Encoder
Estandarización, Estandarización (Normalización, Z-
Puntuaciones) kernal estimaciones de densidad,
Estimaciones de Densidad
KernSmooth Paquete, Estimaciones de
Densidad KNN (ve K-Vecinos más
Cercanos)
Nudos, Polinomio y Spline Regresión, Splines

kurtosis, Mesa de Frecuencia e Histogramas.
L
Lambda, en Poisson y relacionó distribuciones, Poisson y Relacionó
Distribuciones
Lasso Regresión, Selección de Modelo y Stepwise Regresión,
Latente Dirichlet Asignación (LDA), Discriminant hoja de
Análisis, Modelos de Árbol
Menos plazas, Regresión Lineal Sencilla, Menos Plazas
Apalancamiento, Probando las Suposiciones: Diagnósticos

de Regresión valores influyentes en regresión, Valores
Influyentes
Ascensor, Evaluando Modelos de
Clasificación, curva de ascensor del
Ascensor, Ascensor
Lineal discriminant análisis (LDA), Discriminant Análisis, Explorando las

Predicciones
Regresión lineal, Regresión Lineal Sencilla-Weighted Regresión

Comparación a logistic regresión, Lineal y Logistic Regresión:
Cupo valores y residuals, Fitted Valores y Residuals
Modelo lineal generalizado (GLM), Logistic Regresión y el GLM
menos plazas, Menos Plazas
Múltiple, Regresión Lineal Múltiple-Weighted la regresión

que evalúa el modelo, Evaluando el Modelo
Cruz-validación, Cross-Validación
Ejemplo, dato de alojamiento de Condado de Rey, Ejemplo:

Alojamiento de Condado del King
Dato
Selección de modelo y stepwise regresión, Selección de Modelo y Stepwise

Regresión
weighted Regresión, Weighted Regresión
Predicción vs. explicación, Predicción versus Explicación (Profiling) ecuación
de regresión, La Ecuación de Regresión
Literario Digiere encuesta de 1936, Muestra y Muestreo Aleatorios Sesgo,

Selección Aleatoria
loadings, Análisis de Componentes Principales, Un Ejemplo Sencillo

Para superior cinco componentes (ejemplo), Interpretando registro de
Componentes Principales odds, Logistic Regresión
Registro-odds función (ve logit función)
Registro-odds proporción, Interpretando los Coeficientes y Odds

Proporciones
logistic Regresión, Logistic Regresión-Lectura más Lejana,

Explorando las Predicciones
Y el modelo lineal generalizado (GLM), Logistic Regresión y el GLM
Evaluando el modelo, Evaluando el Modelo

Interpretando los coeficientes y odds proporciones, Interpretando los

Coeficientes y Odds Proporciones
logistic Función de respuesta y logit, Logistic Función de Respuesta y Logit
pronosticó valores de, Pronosticó Valores de Logistic Regresión
logit Función, Logistic Regresión, Logistic Función de Respuesta y Logit
mucho tiempo-distribuciones de cola, Mucho tiempo-Tailed
Distribuciones-Lectura más Lejana
Pérdida, Modelos de Árbol
Función de pérdida, Oversampling y Arriba/Abajo
Ponderación M
Aprendizaje de máquina
Estadística vs., Aprendizaje de Máquina Estadística
Máquina learnng, Aprendizaje de Máquina

Estadística (ve también aprendizaje de
máquina estadística)
Mahalanobis Distancia, Matriz de Covarianza, Distancia Metrics
Efectos principales, Interpretando las

interacciones de Ecuación de la Regresión y,
Malvas Cp, Selección de Modelo y Stepwise Regresión
Distancia de Manhattan, Distancia Metrics, Regularización: Evitando

Overfitting,
Máximo likelihood valoración (MLE), Cabiendo el
modelo malo, Estimaciones de Ubicación.

Fórmula para, Malo
Regresión a, Regresión al Malo
La muestra significa vs. la población mala, la muestra Significa versus la
población Significa trimmed malo, Malo
weighted Malo, Malo
Desviación absoluta mala, Estimaciones de Variabilidad , Un/B

fórmula de Testaje para calcular, Desviación Estándar y Relacionó
Estimaciones
Desviación absoluta mala de el median (LOCO), Desviación Estándar y

median, Estimaciones de Ubicación.

Y estimaciones robustas, Median y Estimaciones
Robustas median desviación absoluta, Estimaciones
de Variabilidad metrics, Estimaciones de
Ubicación.
Varianza mínima, Medidas de Dissimilarity
MLE (ve máximo likelihood valoración)
Modo, Explorando Dato Binario y Categórico

ejemplos en dato categórico, Modo
Modelo-basado clustering, Modelo-Basado Clustering-

limitaciones de Lectura más Lejana, Seleccionando el Número
de Grupos.
Mezclas de normals, Mezclas de Normals

multivariate Distribución normal, Multivariate Distribución Normal
momentos de Grupos, Mesa de Frecuencia e Histogramas.
multi-Bandidos de brazo, Por qué Justo Un/B? Por qué No C, D…?,

Multi-Algoritmo de Bandido del Brazo-Lectura más Lejana
Definición de, Multi-Algoritmo de Bandido del Brazo
multicollinearity, Interpretando la Ecuación de Regresión, Multicollinearity

problemas con uno caliente codificando, Uno Caliente Encoder
multicollinearity Errores, Grados de Libertad , Dummy

Representación de Variables
Regresión lineal múltiple (ve regresión lineal)
Testaje múltiple, Testaje Múltiple-más Lejano

Leyendo línea inferior para científicos de
datos, Testaje Múltiple
multivariate Análisis, Explorando Dos o Más Variables
multivariate Distribución normal, Multivariate Distribución
Normal N
n (Medida de muestra), Estudiante t-
Distribución n o medida de muestra,
Grados de Libertad.
naive Bayes Algoritmo, Naive Bayes-Lectura más Lejana

Aplicando a numérico predictor variables, Numéricos Predictor vecinos de
Variables, K-Vecinos más Cercanos
Estructuras de dato de la red, Nonrectangular Estructuras de Dato

Nodos, Modelos de Árbol
No-normal residuals, Probando las Suposiciones: Diagnósticos de
Regresión nonlinear regresión, Polinomio y Spline Regresión-Lectura
más Lejana
Definición de, Polinomio y Spline Regresión nonrectangular
estructuras de dato, Nonrectangular Estructuras de Dato
Distribución normal, Distribución Normal-Estándar Normal y QQ-Parcelas

conceptos claves, Estándares Normales y QQ-Parcelas.
Estándar normal y QQ-Parcelas, Estándares Normales y QQ-Parcelas
Normalización, Estándar Normal y QQ-Parcelas ,

Estandarización (Normalización, Z-Puntuaciones), K-Medios
Clustering
Variables categóricas antes de clustering, Scaling la
distribución de dato de las Variables y, Estandarización
(Normalización, Z-Puntuaciones)
En estadísticas vs. contexto de base de datos, Estandarización

(Normalización, Z- Puntuaciones)
null Hipótesis, Pruebas de Hipótesis, El Null Hipótesis
Variables numéricas
Agrupado según una variable categórica, Dato Categórico y Numérico
numérico predictor variables para naive Bayes, Numéricos Predictor
Variables
Dato numérico como dato categórico, Explorando Dato Binario y

Categórico
O
Representación de objeto (dato espacial), Nonrectangular Estructuras de
Dato
Occam navaja, Selección de Modelo y Stepwise Regresión
odds, Logistic Regresión, Logistic Función de Respuesta y Logit
odds proporciones, Interpretando los Coeficientes y Odds
Proporciones
Registro-odds proporción y, Interpretando los Coeficientes y Odds
Proporciones omnibus pruebas, ANOVA
Uno caliente encoder, Variables de Factor en Regresión, Uno
Caliente Encoder uno caliente codificando, Dummy Representación
de Variables
Uno-pruebas de manera, Pruebas de Hipótesis, Un-Manera, Hipótesis de
Dos Maneras estadística de orden de la Prueba, Estimaciones de
Variabilidad , Estima Basado en Percentiles variables de factor ordenado,
Variables de Factor Ordenado
Dato ordinal, Elementos de Dato Estructurado

Importancia del concepto, Elementos de Dato
Estructurado
Normal menos plazas (OLS), Menos Plazas, Heteroskedasticity, No-

Normalidad y Errores
Correlativos (ve también
menos plazas)
Fuera-de-bolsa (OOB) estimación de error,
resultado de Bosque Aleatorio, Dato Rectangular

outliers, Estimaciones de Ubicación, Outliers, Probando las Suposiciones:
Diagnósticos de
regresión en
regresión, Outliers
Sensibilidad de coeficiente de correlación a, Correlación

Sensibilidad de menos cuadra a, Menos Plazas
Varianza, desviación estándar, desviación absoluta mala y, Estándar De

viation y Relacionó Estimaciones
overfitting, Testaje Múltiple

Evitando en aumentar utilizando regularización, Regularización: Evitando
Overfitting
En regresión lineal, Selección de Modelo y Stepwise Regresión
oversampling, Estrategias para Imbalanced Dato, Oversampling y

Arriba/Abajo Ponderación
P
p-Valores, Importancia Estadística y P-Valores , P-Valora
ajustar, Testaje Múltiple
Ciencia de dato y, Ciencia de Dato y P-
Valores t-statistic y, Evaluando el Modelo
Valor de, Valor de el p-valorar
pairwise comparaciones, ANOVA
Parcelas residuales parciales, Probando las Suposiciones: Diagnósticos de

Regresión,
Parcelas Residuales parciales y Nonlinearity
En logistic regresión, Evaluando el
Modelo PCA (ve análisis de componentes
principales)
Pearson residuals, Chi-Prueba Cuadrada: Un Resampling Aproximación

Pearson chi-prueba cuadrada, Chi-Prueba Cuadrada: Teoría
Estadística Pearson coeficiente de correlación, Correlación
Pearson, Karl, Chi-Prueba Cuadrada, Análisis de Componentes
Principales regresión penalizada, Selección de Modelo y
Stepwise Regresión
percentiles, Estimaciones de Variabilidad

Y boxplots, Percentiles y Boxplots
Las estimaciones basaron encima, Estima Basado en
Percentiles definición precisa de, Estima Basado en
Percentiles
Permiso, obteniendo para testaje subject humano, Por qué Justo Un/B? Por qué
No C, D…?
Pruebas de permutación, Resampling

Exhaustivo y bootstrap, Exhaustivo y Bootstrap Prueba de
Permutación para ANOVA, ANOVA
Valor para ciencia de datos, Pruebas de Permutación: La Línea Inferior

para Ciencia de Datos
Web stickiness ejemplo, Ejemplo: Web Stickiness
Registros pertinentes (en búsquedas), Medida versus Calidad: Cuando

Hace Asunto de Medida?
Redes físicas, Nonrectangular gráficos de pastel de
Estructuras de Dato, Explorando Dato Binario y

Categórico.
Mesas de pivote (Excel), Dos Variables
Categóricas estimaciones de punto, Intervalos
de Confianza
Poisson Distribuciones, Poisson y Relacionó Distribuciones, Modelos Lineales

Generalizados
Calculando, Poisson Distribuciones
Codificación polinómica, Dummy Representación de Variables
Regresión polinómica, Polinomio y Spline Regresión, población
Polinómica, Muestra y Muestreo Aleatorios Sesgo

La muestra significa vs. la población mala, la muestra Significa versus la
población Significa probabilidad posterior, Naive Bayes, El Naive
Solución
Poder y medida de muestra, Poder y Medida de Muestra-Lectura más

Lejana
Precisión, Evaluando Modelos de Clasificación

En modelos de clasificación, Precisión, Recuerda, y Especificidad
Pronosticó valores, Cupo Valores y Residuals

(ve también cupo valores)
Predicción
Explicación vs., en regresión lineal, Predicción versus Explicación
(Profiling)
harnessing Resultados de árboles múltiples, Cómo los árboles Son

Utilizados
K-Vecinos más cercanos, K-los vecinos más

Cercanos que utilizan tan primera etapa,
KNN como Motor de Característica
Pronosticó valores de logistic regresión, Pronosticó Valores de Logistic
Regresión
unsupervised Aprendizaje y, Unsupervised Aprendiendo
Utilizando regresión, la predicción que Utiliza Regresión-

Variables de Factor en Regresión
Confianza e intervalos de predicción, Confianza e Intervalos de Predicción
peligros de extrapolación, Los Peligros de Extrapolación.
Intervalos de predicción, la predicción que Utiliza

Regresión
Intervalos de confianza vs., Confianza e Intervalos de Predicción
predictor Variables, Marcos de Dato y Índices , La Ecuación de Regresión

(ve también variables independientes)
Correlativo, Correlativo Predictors
En lineal discriminant análisis, más de dos, Un Ejemplo Sencillo en
naive Bayes algoritmo, Naive Bayes
Efectos principales, Interacciones y Efectos

Principales
Numérico, aplicando naive Bayes a, Numérico Predictor relación de
Variables entre respuesta y, Parcelas Residuales Parciales y Nonlinearity.
Componentes principales, Análisis de Componentes Principales
Análisis de componentes principales, Análisis de Componentes Principales-

Lectura más Lejana
Análisis de grupo vs., Interpretando los Grupos
Computando los componentes principales, Computando los Componentes
Principales que interpretan componentes principales, Interpretando
Componentes Principales scaling las variables, Scaling las Variables
Ejemplo sencillo, Un Ejemplo Sencillo-Un Ejemplo Sencillo
que estandariza dato, Estandarización (Normalización, Z-
Puntuaciones)
Teoría de probabilidad, Análisis de Dato Exploratorio
profiling Vs. explicación, Predicción versus Explicación (Profiling)
puntuación de propensión, Clasificación
proxy Variables, Ejemplo: Web Stickiness
pruning, Modelos de Árbol, Parando el Árbol de
Crecer pseudo-residuals, El Algoritmo de Aumentar.
Q
QQ-Parcelas, Distribución Normal
Ejemplo, regresos para Netflix, Mucho tiempo-Tailed
las distribuciones estándares normales y, Estándares
Normales y QQ-Parcelas.
Cuadrático discriminant análisis, Un Ejemplo Sencillo
quantiles, Estima Basado en Percentiles

R Función, quantile, Estima Basado en Percentiles
R
R-Cuadrado, Regresión Lineal Múltiple, Evaluando el Modelo
Bosques aleatorios, Interacciones y Efectos Principales, Modelos de Árbol,
Bosque Aleatorio-
Hyperparameters
Rendimiento predictivo mejor que árboles solos, Cómo los árboles
Son Utilizados determinando importancia variable, Importancia
Variable hyperparameters, Hyperparameters
Muestreo aleatorio, Muestra y Muestreo Aleatorios Sesgo-sesgo de

Lectura más Lejana, Sesgo
Plazos claves para, Muestra y Muestreo
Aleatorios Sesgo selección aleatoria, Selección
Aleatoria
La muestra significa vs. la población mala, la muestra Significa versus
Población medida Mala versus calidad, Medida versus Calidad: Cuando
Subconjunto aleatorio de variables,
aleatorización de Bosque Aleatorio, Un/B
Testaje
Pruebas de aleatorización,
Resampling (ve también
pruebas de permutación)
randomness, misinterpreting, Pruebas de Hipótesis
Gama, Estimaciones de Variabilidad , Estima Basado en

Percentiles problema de clase rara, El Problema de Clase
Raro
Recuerda, Evaluando Modelos de Clasificación, Precisión, Recuerda, y
auricular de Especificidad que opera características (ve ROC curva)

Registros, Dato Rectangular, Regresión Lineal Sencilla
Dato rectangular, Dato Rectangular-Estimaciones de

diferencias de terminología de la Ubicación, Marcos
de Dato y Índices.
Recursivo partitioning, Modelos de Árbol, El Recursivos Partitioning

Algoritmo,
Bosque aleatorio
Codificación de referencia, Variables de Factor en Regresión-Dummy

Representación de Variables, Interacciones y Efectos Principales, Logistic
Regresión y el GLM
Regresión, Regresión y Predicción -Resumen causation y,

Predicción versus Explicación (Profiling)
Diagnósticos, Probando las Suposiciones: Diagnósticos de Regresión-

Polinómicos y Spline Regresión
heteroskedasticity, no-normalidad, y errores
correlativos, Heteroskedasticity, No-Normalidad y
Errores Correlativos
Valores influyentes, Valores
Influyentes outliers, Outliers
parial Parcelas residuales y nonlinearity, Parcelas Residuales Parciales y

Nonlinearity
Utilizando scatterplot smoothers, Heteroskedasticity, No-

Normalidad y Errores Correlativos
Significados diferentes del plazo, Menos Plazas
Variables de factor en, Variables de Factor en Regresión-Variables de

Factor Ordenado
Variables de factor ordenado, Variables de Factor
Ordenado con muchos niveles, Variables de Factor
con Muchos Niveles
Interpretando la ecuación de regresión, Interpretando la Ecuación de

Regresión-
confounding Variables, Confounding las
variables correlativas predictors,
Correlativos Predictors
Interacciones y efectos principales, Interacciones y Efectos Principales
multicollinearity, Multicollinearity
KNN (K-Vecinos más cercanos), KNN como Motor de Característica
logistic Regresión, Logistic Regresión-Lectura más Lejana

Regresión lineal múltiple, Regresión Lineal Múltiple-Weighted

Regresión
Polinómico y spline regresión, Polinomio y Spline Regresión-

Resumen
Modelos aditivos generalizados, Modelos Aditivos
Generalizados regresión polinómica, Polinomio
splines, Splines
Predicción con, la predicción que Utiliza Regresión-Variables de Factor en

Regresión
Confianza e intervalos de predicción, Confianza e Intervalos de
Predicción
Peligros de extrapolación, Los Peligros de
Extrapolación ridge regresión, Regularización: Evitando
Overfitting
Regresión lineal sencilla, Regresión Lineal Sencilla-la lectura más

Lejana cupo valores y residuals, Cupo Valores y Residuals.
Menos plazas, Menos Plazas
Predicción vs. explicación, Predicción versus Explicación (Profiling)
ecuación de regresión, La Ecuación de Regresión
unsupervised Aprendiendo tan construyendo bloque,
Unsupervised Aprendiendo con un árbol, Pronosticando un
Valor Continuo
Coeficiente de regresión, Regresión Lineal Sencilla

En exposición de algodón y ejemplo de capacidad del pulmón, La regresión
de Ecuación de la Regresión al malo, Regresión a el Malo
Regularización, Aumentando
avoding overfitting Con, Regularización: Evitando Overfitting
Sustitución (en muestreo), Muestra y Muestreo Aleatorios

Sesgo bootstrap, El Bootstrap
Representatividad, Muestra y Muestreo Aleatorios Sesgo
resampling, El Bootstrap, Resampling-Para Lectura más

Lejana bootstrapping vs., Resampling versus
Bootstrapping
Pruebas de permutación, Prueba de Permutación
Exhaustivo y bootstrap pruebas, Exhaustivos y Bootstrap Prueba de
Permutación
Valor para ciencia de datos, Pruebas de Permutación: La Línea Inferior

para Ciencia de Datos
Web stickiness ejemplo, Ejemplo: Web Stickiness
Utilizando en chi-prueba cuadrada, Chi-Prueba Cuadrada: Un
Resampling Aproximación error estándar residual, Regresión Lineal
Múltiple, Evaluando el Modelo suma residual de plazas, Menos Plazas

(Ve también menos plazas)
residuals, Regresión Lineal Sencilla, Cupo Valores y Residuals

informática, Cupo Valores y Residuals.
Distribución de, Heteroskedasticity, No-la normalidad y los errores
Correlativos estandarizaron, Probando las Suposiciones: Diagnósticos de
Regresión
Respuesta, Regresión Lineal Sencilla, La Ecuación de Regresión

Relación entre predictor variable y, Parcelas Residuales Parciales y
Nonlinearity
ridge Regresión, Selección de Modelo y Stepwise Regresión,

Regularización:
Evitando Overfitting
Robusto, Estimaciones de
Ubicación estimaciones
robustas de ubicación
Ejemplo, población y índice de asesinato por estatales, Ejemplo:
Estimaciones de Ubicación de Población y Índices de Asesinato
Desviación absoluta mala de el median, Desviación Estándar y Relacionó
Estimaciones
median, Median y Estimaciones

Robustas outliers y, Outliers
ROC Curva, ROC Curva
La raíz significa error cuadrado (RMSE), Regresión Lineal Múltiple,

Evaluando el Modelo, Pronosticando un Valor Continuo
RSE (Ve error estándar residual)
RSS (suma residual de plazas), Menos

Plazas (ve también menos plazas)
S
Sesgo de muestra, Muestra y Muestreo Aleatorios Sesgo, Muestra y
Muestreo Aleatorios Sesgo
Muestra statistic, Distribución de Muestreo de un Statistic
Muestras
Definición de, Muestra y Muestreo Aleatorios Sesgo
Medida de muestra, poder y, Poder y Medida de Muestra-
diferencias de terminología de Lectura más Lejanas, Marcos de
Dato y Índices.
Muestreo, Dato y Distribuciones de Muestreo-Resumen

Distribución binomial, Distribución Binomial-Lectura más
Lejana bootstrap, El Bootstrap-Lectura más Lejana

Intervalos de confianza, Intervalos de Confianza-Lectura más Lejana
Mucho tiempo-distribuciones de cola, Mucho tiempo-Tailed
Distribuciones-más Lejanos Leyendo distribución normal, Distribución
Normal-Estándar Normal y QQ-Parcelas oversampling imbalanced dato,
Oversampling y Arriba/Abajo Ponderación
Poisson Y relacionó distribuciones, Poisson y Relacionó Distribuciones-

Resumen
Estimando índice de fracaso, Estimando el Índice
de Fracaso distribución exponencial, Distribución
Exponencial Poisson distribución, Poisson
Distribuciones
Weibull Distribución, Weibull Distribución
Población versus muestra, Dato y Distribuciones de Muestreo
Muestra y muestreo aleatorios sesgo, Muestra y Muestreo Aleatorios

Sesgo-
Lectura más lejana
Distribución de muestreo de un statistic, Distribución de Muestreo de un

Statistic-
Lectura más lejana
Sesgo de selección, Sesgo de Selección-Lectura más Lejana
Estudiantil t-distribución, Estudiante t-Distribución-el muestreo
de Lectura más Lejana Thompson, Multi-Algoritmo de Bandido
del Brazo undersampling imbalanced dato, Undersampling

Con y sin sustitución, Muestra y Muestreo Aleatorios Sesgo, El Bootstrap,
Resampling
Distribución de muestreo, Distribución de Muestreo de un Statistic-más Lejano
Leyendo teorema de límite central, Teorema de Límite Central
Distribución de dato vs., Distribución de Muestreo de un
Statistic error estándar, Error Estándar
Parámetro de escala (Weibull distribución), Weibull Distribución
scaling Dato y variables categóricas, Scaling y Variables Categóricas-

Resumen
Problemas clustering dato mixto, Problemas con Clustering Dato Mixto
scatterplot smoothers, Heteroskedasticity, No-Normalidad y Errores

Correlativos
scatterplots, Correlación
Ejemplo, regresos para ATT y Verizon,
Scatterplots fraude científico, detectando, Fisher
Prueba Exacta
screeplots, Análisis de Componentes Principales, Interpretando Componentes

Principales
Para PCA de stocks superiores, Variables Dominantes
Búsquedas
Consultas de búsqueda encima Google, Medida versus Calidad: Cuando
Efecto de búsqueda vasta, Sesgo de Selección
Sesgo de selección, Sesgo de Selección-regresión de

Lectura más Lejana al malo, Regresión a el
Malo
self-Sesgo de muestreo de la selección, Muestra y Muestreo Aleatorios Sesgo
Sensibilidad, Evaluando Modelos de Clasificación, Precisión,

Recuerda, y Especificidad.
Parámetro de forma (Weibull distribución), Weibull señal de
Distribución-a-proporción de ruido, Escogiendo K
Nivel de importancia, Poder y Medida de Muestra, Medida de Muestra
Pruebas de importancia, Pruebas de Hipótesis, Ciencia de

Dato y P-Valores (ve también pruebas de hipótesis)
Muestra aleatoria sencilla, Muestra y Muestreo Aleatorios
Sesgo conexión sola, Medidas de Dissimilarity.
Torcido, Mucho tiempo-Tailed Distribuciones
skewness, Mesa de Frecuencia y pendiente
de Histogramas, Regresión Lineal Sencilla

(Ve también coeficiente de regresión)
En ecuación de regresión, La Ecuación de
Regresión GOLPEÓ algoritmo, Generación de
Dato
Estructuras de dato espacial, Nonrectangular Estructuras de Dato

Especificidad, Evaluando Modelos de Clasificación, Precisión, Recuerda, y
Especificidad.
spline Regresión, Polinomio y Spline Regresión, Splines
splines, Splines
Valor de ruptura, Modelos de Árbol
Cuadrado-raíz de n regla, Error
Estándar SS (suma de plazas),
ANOVA
withing Suma de grupo de plazas, K-Medios Clustering
Desviación estándar, Estimaciones de Variabilidad

Y relacionó estimaciones, Desviación Estándar y Relacionó matriz de
covarianza de las Estimaciones y, Matriz de Covarianza
En producción de testaje estadístico, Un/B Testaje
Sensibilidad a outliers, Desviación Estándar y Relacionado Estima error
estándar vs., Error Estándar
Error estándar, Distribución de Muestreo de un

Statistic fórmula para calcular, Error Estándar
Desviación estándar vs., Error Estándar
Distribución normal estándar, Distribución Normal, Estándar Normal y QQ-.

Parcelas
Estandarización, Estándar Normal y QQ-Parcelas , K-Vecinos más Cercanos,

K- Medios Clustering
En K-Vecinos más Cercanos, Estandarización (Normalización, Z-
Puntuaciones)
Estandarizado residuals, Probando las Suposiciones: Diagnósticos de Regresión

que examinan para detectar outliers, Outliers
Importancia y experimentos estadísticos testaje, Importancia y Experimentos

Estadísticos Testaje-Resumen
Un/B testaje, Un/B Testaje-Para Lectura más Lejana
chi-Prueba cuadrada, Chi-Prueba Cuadrada-Lectura más Lejana
Grados de libertad, Grados de Libertad -pruebas de
hipótesis de Lectura más Lejanas, Pruebas de Hipótesis-
Lectura más Lejana
multi-Algoritmo de bandido del brazo, Multi-Algoritmo de Bandido del Brazo-
más Lejano Leyendo pruebas múltiples, Testaje Múltiple-Lectura más
Lejana
Poder y medida de muestra, Poder y Medida de Muestra-
Lectura más Lejana resampling, Resampling-Importancia
Estadística y P-Valores.
Importancia estadística y p-valores, Importancia Estadística y P-Valores-

Alfa de Lectura
más lejana,
Alfa
Ciencia de dato y p-valores, Ciencia de Dato y P-
Valores p-valores, P-Valor

Tipo 1 y tipo 2 errores, Tipo 1 y Tipo 2 valor de
Errores de p-valores, Valor de el p-valor

t-Pruebas, t-Pruebas-Lectura más Lejana
Inferencia estadística, tubería de inferencia clásica, Importancia y

Experimentos Estadísticos Testaje
Aprendizaje de máquina estadística, Aprendizaje de Máquina Estadística-

Resumen
bagging Y el bosque aleatorio, Bagging y el BosqueAleatorio-
Hyperparameters
Aumentando, Aumentando-Resumen
Evitando overfitting utilizando regularización, Regularización: Evitando
Overfitting
hyperparameters Y cruz-validación, Hyperparameters y Cross-

Validación
XGBoost, XGBoost
K-Vecinos más cercanos, K-Vecinos más Cercanos-KNN como

Motor de Característica como motor de característica, KNN como
Motor de Característica
Escogiendo K, Escogiendo K
Distancia metrics, Distancia Metrics
Ejemplo, pronosticando préstamo default, Un Ejemplo Pequeño:

Pronosticando Préstamo Default
Uno caliente encoder, Uno Caliente Encoder
Estandarización, Estandarización (Normalización, Z-
Puntuaciones) modelos de árbol, Modelos de Árbol-Lectura
más Lejana
Midiendo homogeneidad o impureza, Midiendo Homogeneidad o
Impureza
Pronosticando un valor continuo, Pronosticando un Valor Continuo
Recursivo partitioning algoritmo, El Recursivo Partitioning Algoritmo
Parando crecimiento de árbol, Parando el Árbol de
Crecer usos de árboles, Cómo los árboles Son
Utilizados
Momentos estadísticos, Mesa de Frecuencia e
Histogramas importancia estadística, Prueba de
Permutación
Estadística vs. aprendizaje de máquina, la máquina
Estadística que Aprende stepwise regresión, Selección de
Modelo y Stepwise Regresión
El gradiente estocástico que aumenta, El Algoritmo

de Aumentar definición de, Aumentando
XGBoost Implementación, XGBoost-Hyperparameters y Cross-

Validación
Muestreo estratificado, Muestra y Muestreo Aleatorios Sesgo, Selección
Aleatoria dato estructurado, Elementos de Dato Estructurado-Lectura más
Lejana
Estudiantil t-distribución, Estudiante t-Distribución-temas de Lectura

más Lejana, Un/B Testaje
Éxito, Distribución Binomial

Contrastes de suma, Dummy Representación de Variables
T
t-Distribuciones, Estudiante t-Distribución-Lectura más Lejana, t-
ciencia de dato de las Pruebas y, Estudiante t-Distribución
t-statistic, t-Pruebas, Regresión Lineal Múltiple, Evaluando el
Modelo t-pruebas, t-Pruebas-Lectura más Lejana
Cola, Mucho tiempo-Tailed
objetivo de Distribuciones
shuffling, Sesgo de Selección
Muestra de prueba, Evaluando Modelos de Clasificación
Prueba statistic, Un/B Testaje, t-Pruebas

Seleccionando antes del experimento, Por qué Tener un Grupo de
Control?
Thompson muestreo, Multi-tiempo de Algoritmo
de Bandido de Brazo dato de serie,
Nonrectangular tiempo de Estructuras del Dato-
a-análisis de fracaso, Weibull tratamiento de
Distribución, Un/B Testaje
Grupo de tratamiento, Un/B Testaje
Modelos de árbol, Interacciones y Efectos Principales, Explorando las

Predicciones, Modelos de Árbol
Cómo los árboles están utilizados, Cómo los árboles Son Utilizados
Midiendo homogeneidad o impureza, Midiendo Homogeneidad o
Impureza.
Pronosticando un valor continuo, Pronosticando un Valor Continuo
Recursivo partitioning algoritmo, El Recursivo Partitioning Algoritmo
Parando crecimiento de árbol, Parando el Árbol de
Crecer gráfico de Enrejado, Visualizando Variables
Múltiples
Pruebas, Distribución Binomial
trimmed Malo, Estimaciones de

fórmula de Ubicación para, Malo
Tukey, John Dato más Salvaje , Exploratorio Análisis
Pruebas de dos maneras, Pruebas de Hipótesis, Un-Manera, Hipótesis de

Dos Maneras Prueba
Tipo 1 errores, Importancia Estadística y P-Valores , Tipo 1 y Tipo 2

Errores, Testaje Múltiple
Tipo 2 errores, Importancia Estadística y P-Valores , Tipo 1 y Tipo 2 Errores
U
unbiased Estimaciones, Desviación Estándar y Relacionó
Estimaciones undersampling, Undersampling
Distribución aleatoria uniforme, Fisher Prueba
Exacta univariate análisis, Explorando Dos o Más
Variables
unsupervised Aprendizaje, Unsupervised Aprendizaje-

Resumen y predicción, Unsupervised Aprendiendo
Jerárquico clustering, Jerárquico Clustering-Medidas de Dissimilarity
agglomerative algoritmo, El Agglomerative Algoritmo
dendrogram, El Dendrogram
dissimilarity Medidas, Medidas de Dissimilarity
K-Medios clustering, K-Medios Clustering-Seleccionando el Número de los

grupos que interpretan los grupos, Interpretando los Grupos
K-Algoritmo de medios, K-Algoritmo de Medios
Seleccionando el número de clientes, Seleccionando el Número de
Medios
Modelo-basado clustering, Modelo-Basado Clustering-mezclas de

Lectura más Lejana de normals, Mezclas de Normals.
multivariate Distribución normal, Multivariate Distribución Normal

Grupos.
Análisis de componentes principales, Análisis de Componentes Principales-

Lectura más Lejana
Computando los componentes principales, Computando los Componentes
Principales
Interpretando componentes principales, Interpretando Componentes
Principales ejemplo sencillo, Un Ejemplo Sencillo-Un Ejemplo Sencillo
scaling Y variables categóricas, Scaling y Variables Categóricas-

Resumen
Problemas clustering dato mixto, Problemas con Clustering Dato Mixto
Arriba peso o abajo peso, Estrategias para Imbalanced Dato, Oversampling y

Arriba/Abajo Ponderación
uplift Vs.
ascensor,
Ascensor V
Muestra de validación, Evaluando variabilidad de
Modelos de la Clasificación
Variabilidad, estimaciones de, Estimaciones de Variabilidad-Lectura más

Lejana
Ejemplo, índice de asesinato por población estatal, Ejemplo: Estimaciones
de Variabilidad de Población Estatal
Terminología clave, Estimaciones de
Variabilidad percentiles, Estima Basado
en Percentiles
Desviación estándar y relacionó estimaciones, Desviación Estándar y

Variables
Explorando dos o más, Explorando Dos o Más Variables-Resumen
dato categórico y numérico, Dato Categórico y Numérico.
Hexagonal binning y contornos, Hexagonales Binning y
Contornos (Plotting Numéricos versus Dato Numérico)
Conceptos claves, Visualizando Variables Múltiples
Visualizando variables múltiples, Visualizando importancia de
Variables Múltiples de, determinando en bosques aleatorios, Importancia
Variable rescaling con z-puntuaciones, Estandarización (Normalización,
Z-Puntuaciones)
Varianza, Estimaciones de
análisis de Variabilidad de
(ANOVA), ANOVA
Fórmula para calcular, Desviación Estándar y Relacionó sensibilidad de
Estimaciones a outliers, Desviación Estándar y Relacionó Estimaciones
Efecto de búsqueda vasta, Sesgo de Selección
Parcelas de violín, Explorando Dos o Más Variables

Combinando con un boxplot, ejemplo, Dato Categórico y Numérico
W
El método de Ward, Medidas de Dissimilarity
Web stickiness ejemplo (prueba de permutación), Ejemplo: Web
Stickiness testaje de web

Algoritmos de bandido en, Multi-Algoritmo de Bandido del Brazo
Decidiendo cuánto tiempo una prueba tendría que correr,
Poder y Medida de Muestra Weibull distribución, Poisson y

Relacionó Distribuciones
Calculando, Weibull Distribución
weighted Malo, Estimaciones de

Ubicación valor esperado, Valor
Esperado
weighted median, Estimaciones de Ubicación , Median y fórmula de

Estimaciones Robustas para calcular, Malo
weighted Regresión, Regresión Lineal Múltiple, Weighted Regresión
Pesos, componente de Regresión Lineal

Sencillo loadings, Un Ejemplo Sencillo
whiskers (En boxplots), Percentiles y Boxplots
gana, Multi-Algoritmo de Bandido del Brazo
Dentro suma de grupo de plazas (SS), K-Medios Clustering
X
XGBoost, XGBoost-Hyperparameters y Cross-Validación
hyperparameters, Hyperparameters y Cross-Validación.
Z
z-Distribución, Estándar Normal y QQ-
Parcelas (ve también distribución normal)
z-s Núcleo, Distribución Normal, Estrategias para Imbalanced Dato, K-

Vecinos más Cercanos, Estandarización (Normalización, Z-
Puntuaciones)
Convirtiendo dato a, Estándar Normal y QQ-Parcelas
rescaling Variables, Estandarización (Normalización, Z-Puntuaciones)

Sobre los Autores
Peter Bruce fundó y creció el Instituto para Educación de Estadísticas en
Statistics.com, el cual ahora ofrece aproximadamente 100 cursos en estadísticas,
aproximadamente un tercer de los cuales están apuntados en el científico de
dato. En recruiting autores superiores como instructores y forjando una estrategia
de marketing para lograr científicos de dato profesional, Peter ha desarrollado
tanto una vista ancha de el mercado de objetivo y su pericia propia para
lograrlo.
Andrew Bruce ha encima 30 años de experiencia en estadísticas y ciencia de
dato en academia, gobierno, y negocio. Tiene un PhD en estadísticas de la
Universidad de Washington y ha publicado papeles numerosos en refereed
revistas. Ha desarrollado estadístico-basó soluciones a una gama ancha de
problemas afrontó por una variedad de industrias, de empresas financieras
establecidas a internet startups, y ofrece un profundo entendiendo de la práctica
de ciencia de datos.
Colofón
El animal en la cubierta de la estadística Práctica para Científicas de Datos es
un cangrejo de orilla tachado (Pachygrapsus crassipes), también sabido como
cangrejo de orilla tachada. Está encontrado a lo largo de las costas y playas de
el océano Pacífico en América del Norte, América Central, Corea, y Japón.
Estos crustáceos viven bajo rocas, en tidepools, y dentro de crevices. Gastan
sobre medios su tiempo encima tierra, y periódicamente regresar a el agua para
mojar su gills.
El cangrejo de orilla tachado está nombrado para las rayas verdes en su
marrones-negros carapace. Tiene rojo claws y piernas moradas, el cual también
tiene un tachado o mottled patrón. El cangrejo generalmente crece para ser 3–5
centímetros en medida; las mujeres son ligeramente más pequeñas.
Sus ojos son en flexibles stalks que puede rotate para darles un campo lleno de
visión cuando andan.
Los cangrejos son omnivores, alimentando principalmente en algas, pero también
mollusks, gusanos, fungi, animales muertos, y otros crustáceos (dependiendo de
qué es disponible). Ellos moult muchas veces cuando crecen a edad adulta,
tomando en abrevar para expandir y la grieta abre su concha vieja. Una vez esto
está conseguido, gastan varias horas difíciles que consiguen libres, y entonces
must escondrijo hasta la concha nueva hardens.
Muchos de los animales encima O'Reilly cubiertas es endangered; todos de ellos
son importantes a el mundo. Para aprender más aproximadamente cómo puedes
ayudar, va a animals.oreilly.com.
La imagen de cubierta es de Museo Pictórico de Naturaleza Animada. Las
fuentes de cubierta son URW Typewriter y Guardián Sans. La fuente de texto es
Adobe Minion Pro; la fuente de encabezar es Adobe la miríada Condensada; y la
fuente de código es Dalton Maag Ubuntu Mono.
Prefacio
Qué para Esperar
Las convenciones Utilizaron en
Este Libro que Utiliza
Ejemplos de Código
El safari® Reserva On-
line Cómo para
Contactarnos
Acknowledgments
1. Elementos de Análisis de
Dato exploratorios de Dato
Estructurado
Lectura más lejana
Dato rectangular
Marcos de dato y Índices
Nonrectangular el dato Estructura
Lectura más Lejana
Estimaciones de la
ubicación Mala
Median Y Estimaciones Robustas
Ejemplo: Estimaciones de Ubicación de Población y Asesinato
Valora Lectura más Lejana
Estimaciones de Variabilidad
Desviación estándar y Relacionó las
estimaciones Estima Basadas en

Percentiles
Ejemplo: Estimaciones de Variabilidad de
Población Estatal Lectura más Lejana
Explorando la Distribución de
Dato Percentiles y
Boxplots.
Mesa de frecuencia y
Estimaciones de Densidad de los
Histogramas
Lectura más lejana
Explorando Dato Binario y Categórico

Modo
Valor esperado
Lectura más
Lejana
Correlación
Scatterplots
Lectura más
lejana
Explorando Dos o Más Variables

Hexagonal Binning y Contornos (Plotting Numéricos versus
Dato Numérico)
Dos Variables Categóricas
Dato Categórico y Numérico
que Visualiza Variables
Múltiples Más allá Leyendo

Resumen
2. Dato y Distribuciones de Muestreo
Muestra y Muestreo Aleatorios
Sesgo
Sesgo
Selección aleatoria
Medida versus Calidad: Cuando Hace Asunto
de Medida? La muestra Significa versus la
población Significa Lectura más Lejana
Sesgo de selección
Regresión a la
Lectura más Lejana
Mala
Distribución de muestreo de un
Statistic Teorema de Límite
Central
Error estándar
Lectura más
Lejana
El Bootstrap
Resampling versus Bootstrapping
Lectura más lejana
Intervalos de
confianza Más
allá Leyendo
Distribución normal
Estándar Normal y QQ-Parcelas
Mucho tiempo-Tailed
Distribuciones Más
allá Leyendo
Estudiantil t-Distribución
Lectura más Lejana
Lectura más Lejana
Poisson Y Relacionó
Distribuciones Poisson
Distribuciones
La distribución
exponencial que Estima el
Índice de Fracaso Weibull
Distribución Lectura más
Lejana
Resumen
3. Importancia y Experimentos estadísticos que

Prueban Un/B Testaje
Por qué Tener un Grupo de
Control? Por qué Justo Un/B? Por
qué No C, D…? Para Lectura
más Lejana
Pruebas de hipótesis
El Null Hipótesis
Hipótesis Alternativa
Uno-Manera, Hipótesis de Dos
Maneras Prueba Lectura más Lejana
Resampling
Ejemplo: Web Stickiness
Exhaustivo y Bootstrap Pruebas de Permutación de
Prueba de Permutación: La Línea Inferior para
Ciencia de Datos Para Lectura más Lejana
Importancia estadística y P-Valores

P-Valor
Alfa
Tipo 1 y Tipo 2 Dato de
Errores Ciencia y P-
Valores Más allá
Leyendo
t-Pruebas
Lectura más lejana
Testaje múltiple
Lectura más lejana
Grados de Libertad
Lectura más
Lejana
ANOVA
F-Statistic
Dos-Manera ANOVA
Lectura más Lejana
Chi-Prueba cuadrada
Chi-Prueba cuadrada: Un Resampling
Aproximación Chi-Prueba Cuadrada:

Teoría Estadística
Fisher Pertinencia de
Prueba Exacta para Ciencia
de Datos Lectura más
Lejana
Multi-Algoritmo de Bandido
del brazo Lectura más
Lejana
Power y Medida de
Muestra Medida
de Muestra
Resumen de
Lectura más lejana
4. Regresión y Predicción
Regresión Lineal Sencilla
La Ecuación de Regresión
Cupo Valores y Residuals
Menos Plazas
Predicción versus Explicación
(Profiling) Lectura más Lejana
Regresión Lineal múltiple

Ejemplo: Dato de Alojamiento de
Condado de King que Evalúa el
Modelo
Cross-Validación
Selección de modelo y Stepwise

Regresión Weighted Regresión
La predicción que Utiliza Regresión
Los Peligros de Confianza de
Extrapolación e Intervalos de
Predicción
Variables de factor en Regresión

Dummy Representación de
Variables
Variables de factor con Muchas
Nivela Factor Ordenado Variables
Interpretando la Ecuación de
Regresión Correlativa
Predictors
Multicollinearity
Confounding Interacciones de
variables y Efectos
Principales
Probando las Suposiciones: Diagnósticos de

Regresión Outliers
Valores influyentes
Heteroskedasticity, No-Normalidad y Errores
Correlativos Parcelas Residuales Parciales y
Nonlinearity.
Polinómico y Spline Polinomio de

Regresión
Splines
Modelos Aditivos
generalizados Más allá
Leyendo
Resumen
5. Clasificación
Naive Bayes
Por qué la clasificación bayesiana Exacta Es Poco
práctica El Naive Solución
Numérico Predictor Variables
Más allá Leyendo
Discriminant Matriz de
Covarianza del
análisis
Fisher Lineal Discriminant
Un Ejemplo Sencillo
Lectura más lejana
Logistic Regresión
Logistic Función de respuesta y Logit
Logistic Regresión y el GLM
Generalizó Modelos Lineales
Pronosticó Valores de Logistic la regresión
que Interpreta los Coeficientes y Odds
Proporciones
Lineal y Logistic Regresión: las semejanzas y Las Diferencias
que Evalúan el Modelo
Lectura más lejana
Evaluando Modelos de Clasificación

Confusion Matriz
La Precisión de Problema de
Clase Rara, Recuerda, y
Especificidad ROC Curva
AUC
Ascensor
Más allá Leyendo
Estrategias para Imbalanced
Dato
Undersampling
Oversampling Y Arriba/Abajo
Generación de Dato de la Ponderación
Coste-la clasificación Basada
que Explora las Predicciones
Más allá Leyendo
Resumen
6. Aprendizaje de Máquina
estadística K-Vecinos
más Cercanos
Un Ejemplo Pequeño: Pronosticando
Préstamo Default Distancia Metrics
Uno Caliente Encoder
Estandarización (Normalización, Z-
Puntuaciones) Escogiendo K
KNN Como Motor de Característica
Modelos de árbol
Un Ejemplo Sencillo
El Recursivo Partitioning el algoritmo
que Mide la homogeneidad o La
Impureza que Paran el Árbol de
Crecer Pronosticando un Valor
Continuo
Cómo los árboles
Son Utilizados
Lectura más Lejana
Bagging Y el Bosque Aleatorio

Bagging
Bosque aleatorio
Importancia Variable
Hyperparameters
Aumentando
El Algoritmo de
Aumentar XGBoost
Hyperparameters y Cross-Resumen de
Validación
7. Unsupervised Aprendizaje
Análisis de Componentes principales
Un Ejemplo Sencillo
Computando los Componentes
Principales que Interpretan
Componentes Principales
Lectura más lejana
K-Medios Clustering
Un Ejemplo
Sencillo K-
Algoritmo de
Medios
Interpretando los Grupos que
Seleccionan el Número de
Grupos.
Jerárquico Clustering
Un Ejemplo
Sencillo
El Dendrogram
El Agglomerative Medidas de
Algoritmo de Dissimilarity
Modelo-Basado Clustering
Multivariate Mezclas de
Distribución normal de
Normals.
Seleccionando el Número de
Grupos Más allá Leyendo
Scaling Y Variables Categóricas

Scaling las Variables
Variables dominantes
Dato categórico y Gower Problemas de
Distancia con Clustering Dato Mixto
Índice de
Bibliografía del
resumen

Estadistica Practica para R PDF

Cargado por

Copyright:

Formatos disponibles

También podría gustarte

Estadistica Practica para R PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Practica para R PDF

Cargado por

Copyright:

Formatos disponibles

www.allitebooks.

Peter Bruce y Andrew Bruce

Editor de producción: Kristen

Brown Copyeditor: Rachel

Monaghan Proofreader: Eliahu

Sussman Indexer: Ellen Troutman-

Zaig Diseñador de Interior: David

Futato Diseñador de Cubierta:

Karen: Rebecca Demarest

Mayo 2017: Primera Edición

Ve http://oreilly.com/catalog/errata.csp?isbn=9781491952962 para detalles

Para explicar qué conceptos son importantes y útiles de una perspectiva de

1005 Gravenstein la carretera Del

norte Sebastopol, CA 95472

800-998-9938 (en los Estados Unidos o

Canadá) 707-829-0515 (internacional o

Como disciplina, la estadística mayoritariamente ha desarrollado antiguamente

Con el preparado availablility de computar poder y software de análisis de dato

PLAZOS CLAVES PARA TIPOS de DATOS

Hay dos tipos básicos de dato estructurado: numérico y categórico. El dato

El almacenamiento y la indexación pueden ser optimizados (cuando en una

El tercer “beneficio” puede dirigir a unintended o comportamiento inesperado:

Las bases de datos son más detalladas en su clasificación de tipos de datos,

PLAZOS CLAVES PARA DATO RECTANGULAR

El dato rectangular es esencialmente una matriz bidimensional con las filas

Mesa 1-1. Un formato de dato típico

Juego/de Película/de EE.UU. 3249 5 Mon 0.01 0.01 0

Juego/de Película/de EE.UU. 3249 5 Mon 0.01 0.01 0

Automotive EE.UU. 3115 7 Tue 0.01 0.01 0

Automotive EE.UU. 3115 7 Tue 0.01 0.01 0

Automotive EE.UU. 3115 7 Tue 0.01 0.01 0

Automotive EE.UU. 3115 7 Tue 0.01 0.01 0

Automotive EE.UU. 3115 7 Tue 0.01 0.01 1

Automotive EE.UU. 3115 7 Tue 0.01 0.01 1

R Documentación en marcos de datos

PLAZOS CLAVES PARA ESTIMACIONES DE UBICACIÓN

Al principio mirada, summarizing el dato podría parecer bastante trivial: justo

Una variación de el malo es un trimmed malo, el cual calculas por caer un

Un trimmed malo elimina la influencia de valores extremos. Por ejemplo, en

Hay dos motivaciones principales para utilizar un weighted malo:

El dato recogido no igualmente representar los grupos diferentes que estamos

El median no es la estimación robusta única de ubicación. De hecho, un

Mesa 1-2. Unas cuantas filas

1 Alabama 4,779,736 5.7

2 Alaska 710,231 5.6

3 Arizona 6,392,017 4.7

4 Arkansas 2,915,918 5.6

5 California 37,253,956 4.4

6 Colorado 5,029,196 2.8

7 Connecticut 3,574,097 2.4

8 Delaware 897,934 5.8

Computar el malo, trimmed malo, y median para la población que utiliza R:

> Estatal <- leído.csv(Usuarios="/de archivo/andrewbruce1/estado/de libro.csv")

En este caso, el weighted malo y median es sobre el mismo.

(outlier). Otro metrics (median, trimmed malo) es más robusto.

John Tukey 1977 Dato Exploratorio clásico Análisis (Pearson) es todavía

PLAZOS CLAVES PARA VARIAB ILITY METRICS

Desviación absoluta mala