Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Practica para R PDF
Estadistica Practica para R PDF
Estadistica Practica para R PDF
com
Estadística práctica para Científicos
de Datos
50 Conceptos Esenciales
Ilustrador de Montgomery de la
Este libro está apuntado en el científico de dato con alguna familiaridad con el
R lenguaje de programación, y con algún previo (quizás spotty o efímero)
exposición a estadística. Ambos de nosotros vinieron al mundo de ciencia de
datos de el mundo de estadísticas, así que tenemos algún agradecimiento de la
contribución que la estadística puede hacer a el arte de ciencia de datos. Al
mismo tiempo, somos bien conscientes de las limitaciones de instrucción de
estadística tradicional: la estadística como disciplina es un siglo y un medio
viejo, y la mayoría de estadística textbooks y los cursos son laden con el
momento e inercia de un océano liner.
Dos objetivos underlie este libro:
Para poner fuera, en digestible, navegable, y fácilmente referenced forma,
conceptos claves de estadísticas que es pertinente a ciencia de dato.
www.allitebooks.com
Las convenciones Utilizaron en Este Libro
El siguiente typographical las convenciones están utilizadas en este libro:
Italic
Indica plazos nuevos, URLs, direcciones de correo electrónico, filenames, y
extensiones de archivo.
Ancho constante
Utilizado para listados de programa, así como dentro de párrafos para
referir para programar elementos como variables o nombres de función,
bases de datos, tipos de dato, variables de entorno, declaraciones, y palabras
clave.
Negrita de ancho constante
Órdenes de espectáculos u otro texto que tendría que ser escrito
literalmente por el usuario.
Ancho constante italic
Texto de espectáculos que tendría que ser reemplazado con usuario-
suministró valores o por los valores determinaron por contexto.
CO
Este elemento signifies un consejo o NS
sugerencia.. EJ
O
NOTA
Este elemento signifies una nota
general.
AVISO
Este elemento indica un aviso o amonestación.
www.allitebooks.com
Utilizando Ejemplos de Código
Supplemental Material (ejemplos de código, ejercicios, etc.) es disponible para
descarga en https://github.com/andrewgbruce/statistics-for-data-scientists.
Este libro es aquí para ayudar consigues vuestro trabajo hecho. En general, si
código de ejemplo está ofrecido con este libro, puedes utilizar él en vuestros
programas y documentación. No necesitas para contactarnos para permiso a no
ser que estás reproduciendo una porción significativa de el código. Por
ejemplo, escribiendo un programa que usos varios chunks de código de este
libro no requiere permiso. Vendiendo o distribuyendo un CD- ROM de los
ejemplos de O'Reilly libros requiere permiso. Contestando una cuestión por
citar este libro y citando código de ejemplo no requiere permiso. Incorporando
una cantidad significativa de código de ejemplo de este libro a la
documentación de vuestro producto requiere permiso.
Apreciamos, pero no requiere , atribución. Una atribución normalmente incluye
el título, autor, editor, e ISBN. Por ejemplo: “Estadística Práctica para
Científicos de Datos por Peter Bruce y Andrew Bruce (O'Reilly). Copyright
2017 Peter Bruce y Andrew Bruce, 978-1-491-95296-2.”
Si sientes vuestro uso de caídas de ejemplos del código fuera de uso justo o el
permiso dado encima, siente libre de contactarnos en permissions@oreilly.com.
www.allitebooks.com
El safari® Reserva
On-line NOTA
El safari Reserva On-line es un encima-reclamar biblioteca digital que entrega
contenido experto en ambos libro y forma de vídeo de los autores principales
del mundo en tecnología y negocio..
Profesionales de tecnología, desarrolladores de software, diseñadores de web, y
profesionales empresariales y creativos Safari de uso Reserva On-line como su
recurso primario para búsqueda, el problema que soluciona, aprendizaje, y
formación de certificación.
El safari Reserva ofertas On-line una gama de planes y tasando para
empresa, gobierno, educación, e individual.
Los miembros tienen acceso a miles de libros, entrenando vídeos, y
prepublication manuscritos en uno plenamente searchable la base de datos de
editoras gusta O'Reilly Medios de comunicación, Prentice Profesional de Sala,
Addison-Wesley Profesional, Prensa de Microsoft, Sams, Que, Peachpit Prensa,
Prensa Focal, Cisco Prensa, John Wiley & Hijos, Syngress, Morgan Kaufmann,
IBM Redbooks, Packt, Adobe Prensa, FT Prensa, Apress, Manning, Jinetes
Nuevos, McGraw-Cerro, Jones & Bartlett, Tecnología de Curso, y centenares
más. Para más información aproximadamente el safari Reserva On-line,
complacer visitarnos on-line.
www.allitebooks.com
Cómo para Contactarnos
Complacer comentarios de dirección y cuestiones respecto de este libro a el
editor: O'Reilly Medios de comunicación, Inc.
local).
707-829-0104 (fax)
Tenemos una página web para este libro, donde listamos errata, ejemplos, y
cualquier información adicional. Puedes acceder esta página en
http://bit.ly/practicalstats_for_datascientists.
Para comentar o preguntar cuestiones técnicas sobre este libro, envía email a
bookquestions@oreilly.com.
Para más información sobre nuestros libros, cursos, conferencias, y noticiosos, ver
nuestro sitio web en http://www.oreilly.com.
Nos encuentro encima Facebook: http://facebook.com/oreilly
Nos sigo encima Twitter: http://twitter.com/oreillymedia
Nos miro encima YouTube/Youtube: http://www.youtube.com/oreillymedia
Acknowledgments
Los autores reconocen las muchas personas quién ayudó marca esto reserva una
realidad.
Gerhard Pilcher, CEO de el dato minero Búsqueda Grande firme, vio borradores
tempranos de el libro y nos di correcciones detalladas y útiles y comentarios.
Así mismo, Anya McGuirk y Wei Xiao, estadísticos en SAS, y Jay Hilfiger,
autor de O'Reilly del socio, retroalimentación útil proporcionada en borradores
iniciales de el libro.
En O'Reilly, Shannon Cutt ha shepherded nos a través del proceso de publicación
con bueno aclamar y la cantidad correcta de prodding, mientras Kristen Brown
smoothly tomó nuestro libro a través de la fase de producción. Rachel Monaghan
y Eliahu Sussman corrigió y mejoró nuestra escritura con cuidado y paciencia,
mientras Ellen Troutman-Zaig preparó el índice. También damos las gracias a
Marie Beaugureau, quién inició nuestro proyecto en O'Reilly, así como Ben
Bengfort, O'Reilly autor y statistics.com instructor, quién nos introduje a
O'Reilly..
Nosotros, y este libro, también ha beneficiado de las muchas conversaciones Peter
ha tenido sobre los años con Galit Shmueli, coautor en otros proyectos de libro.
Finalmente, nos gustaría a especialmente dar las gracias a Elizabeth Bruce y
Deborah Donnell, cuya paciencia y el soporte hicieron este esfuerzo posible.
Capítulo 1. Análisis de Dato
exploratorio
Continuo
Dato que puede apechugar con cualquier valor en un intervalo.
Synonyms
Intervalo, flotador, numérico
Discreto
Dato que puede apechugar con valores de entero único, como cuentas.
Synonyms
Entero, cuenta
Categórico
Dato que puede apechugar con sólo un conjunto concreto de los valores que representan un
conjunto de categorías posibles.
Synonyms
enums, enumerado, factores, nominales, polychotomous
Binario
Un caso especial de dato categórico con justo dos categorías de valores (0/1, ciertos/falsos).
Synonyms
Dicotómico, lógico, indicador, booleano
Ordinal
Dato categórico que tiene un explícito ordenando.
Synonyms
Factor ordenado
Los valores posibles una variable categórica dada puede tomar está aplicado
en el software (como un enum).
IDEAS CLAVES
El dato es típicamente clasificado en software por tipo.
Tipos de dato incluyen continuos, discretos, categóricos (cuál incluye binario), y ordinal. El
dato que escribe en actos de software como señalar a el software encima cómo para
procesar el dato.
Lectura más lejana
Tipos de dato pueden ser confundir, desde los tipos pueden overlap, y la
taxonomía en un software puede diferir de aquel en otro. El R-el sitio web
Preceptoral cubre la taxonomía para R.
Marco de dato
Dato rectangular (como un spreadsheet) es la estructura de dato básica para estadístico y
la máquina que aprende modelos.
Característica
Una columna en la mesa es generalmente referido a como característica.
Synonyms
Atributo, entrada, predictor, variable
Resultado
Muchos proyectos de ciencia del dato implican pronosticar un resultado — a menudo un
sí/ningún resultado (en Mesa 1- 1, es subasta “ era competitivo o no”). Las características son a
veces utilizadas para pronosticar el resultado en un experimento o estudio..
Synonyms
Variable dependiente, respuesta, objetivo, producción
Registros
Una fila en la mesa es generalmente referido a como récord.
Synonyms
Caso, ejemplo, caso, observación, patrón, muestra
IDEAS CLAVES
La estructura de dato básica en ciencia de datos es una matriz rectangular en qué filas son
registros y columnas es variables (características).
La terminología puede ser confundir; hay una variedad de synonyms surgiendo de las disciplinas
diferentes que contribuye a ciencia de dato (estadística, informática, y tecnología de información).
Lectura más lejana
Documentación en marcos de datos en
en Pitón
Estimaciones de Ubicación
Variables con medidos o dato de cuenta podría tener miles de valores distintos.
Un paso básico en explorar vuestro dato está consiguiendo un “valor típico” para
cada característica (variable): una estimación de donde la mayoría de el dato está
localizado (i.e., su tendencia central).
Malo
La suma de todos los valores dividió por el número de valores.
Synonyms
Mediano
Weighted Malo
La suma de todos los valores cronometra un peso dividido por la suma de los pesos.
Synonyms
weighted Media
Median
El valor tal aquello un-medio de las mentiras de dato encima y abajo..
Synonyms
50.º percentile
Weighted median
El valor tal aquello un-medio de la suma de las mentiras de pesos encima y bajo el dato
ordenado.
Trimmed Malo
La media de todos los valores después de caer un número fijo de valores extremos.
Synonyms
Truncado malo
Robusto
No sensible a valores extremos.
Synonyms
Resistente
Outlier
Un dato valora aquello es muy diferente de la mayoría del dato.
Synonyms
Valor extremo
NOTA
N (O n ) refiere a el número total de registros u observaciones. En estadísticas está capitalizado
si está refiriendo a una población, y lowercase si refiere a una muestra de una población. En
ciencia de datos, aquella distinción no es vital así que lo puedes ver ambas maneras.
Outliers
El median está referido a como estimación robusta de ubicación desde entonces
no es influido por outliers (casos extremos) que podría sesgar los resultados. Un
outlier es cualquier valor que es muy distante de los otros valores en un
conjunto de dato. La definición exacta de un outlier es un poco subjetivo, a
pesar de que las convenciones seguras están utilizadas en varios resúmenes de
dato y parcelas (ve “Percentiles y Boxplots” ). Siendo un outlier en él no hace
un inválido de valor del dato o erróneo (cuando en el ejemplo anterior con Bill
Gates). Todavía, outliers es a menudo el resultado de errores de datos como
mezclar dato de unidades diferentes (kilómetros versus metros) o lecturas malas
de un sensor.
Cuándo outliers es el resultado de dato malo, el malo resultará en una estimación
pobre de ubicación, mientras el median será todavía ser válido. De todas formas,
outliers tendría que ser identificado y es normalmente digno de investigación
más lejana.
DETECCIÓN de ANOMALÍA
En contraste a análisis de dato típico, donde outliers es a veces informativo y a veces un
estorbo, en detección de anomalía los puntos de interés son el outliers, y la masa más
grande de datos sirve principalmente para definir el “normal” contra qué anomalías están
medidas.
El malo es más grande que el trimmed malo, el cual es más grande que el
median.
Esto es porque el trimmed malo excluye el más grande y más pequeño cinco
estados (trim=0.1 gotas 10% de cada fin). Si queremos computar el índice de
asesinato mediano para el país, necesitamos utilizar un weighted malos o median
a cuenta para poblaciones diferentes en los estados. Desde entonces base R no
tiene una función para weighted median, necesitamos instalar un paquete como
matrixStats:
> weighted.Malo(estado[["Asesinato.Índice"]],
w=estado[["Población"]]) [1] 4.445834
> Biblioteca("matrixStats")
> weightedMedian(Estado[["Asesinato.Índice"]],
w=estado[["Población"]]) [1] 4.4
IDEAS CLAVES
El básico métrico para la ubicación es el malo, pero pueda ser sensible a valores extremos
Desviaciones
La diferencia entre el observó valores y la estimación de ubicación.
Synonyms
Errores, residuals
Varianza
La suma de cuadró desviaciones de el malos divididos por n – 1 dónde n es el número de
valores de datos.
Synonyms
Malo-cuadrado-error
Desviación estándar
La raíz cuadrada de la varianza.
Synonyms
l2-norma, norma euclidiana
Synonyms
l1-norma, norma de Manhattan
Gama
La diferencia entre el más grande y el valor más pequeño en un conjunto de dato.
Estadística de orden
Metrics Basó en los valores de dato ordenaron de más pequeños a más grandes.
Synonyms
Rangos
Percentile
El valor tal aquel P el porcentaje de los valores apechuga con este valor o menos y (100–P) por
ciento apechugar con este valor o más..
Synonyms
quantile
Interquartile Gama
La diferencia entre el 75.º percentile y el 25.º percentile.
Synonyms
IQR
Tan hay maneras diferentes para medir ubicación (malo, median, etc.) hay
también maneras diferentes para medir variabilidad.
Desviación estándar y Relacionó Estimaciones
El más ampliamente utilizó las estimaciones de variación están basadas en las
diferencias, o desviaciones , entre la estimación de ubicación y el dato
observado. Para un conjunto de datos {1, 4, 4}, el malos es 3 y el median es 4.
Las desviaciones de el malos es las diferencias: 1 – 3 = –2, 4 – 3 = 1 , 4 – 3 = 1.
Estas desviaciones nos dicen cómo dispersadas el dato es alrededor de el valor
central.
Una manera para medir la variabilidad es para estimar un valor típico para estas
desviaciones. Averaging Las desviaciones ellos no nos diría mucho — el offset
de desviaciones negativo el positivo unos. De hecho, la suma de las
desviaciones de el malos es precisamente cero. En cambio, una aproximación
sencilla es para tomar la media de los valores absolutos de las desviaciones
del malos. En el ejemplo de preceder, el valor absoluto de las desviaciones es
{2 1 1} y su media es (2 + 1 + 1) / 3 = 1.33. Esto es sabido como la desviación
GRADOS DE LIBERTAD, Y N O N – 1 ?
En libros de estadísticas, hay siempre alguna discusión de por qué hemos n – 1 en el denominador en
la fórmula de varianza, en vez de n, dirigiendo a el concepto de grados de libertad . Esta distinción
no es importante desde n es generalmente bastante grande que lo no hará mucha diferencia si divides
por n o n – 1. Pero en caso estás interesado, aquí es la historia. Está basado en la premisa que te
quiere estimaciones de marca sobre una población, basado en una muestra.
Si utilizas el denominador intuitivo de n en la fórmula de varianza, tú underestimate el valor cierto de la
varianza y la desviación estándar en la población. Esto está referido a como estimación predispuesta.
Aun así, si divides por n – 1 en vez de n , la desviación estándar deviene un unbiased estimación.
A plenamente explicar por qué utilizando n las ventajas a una estimación predispuesta implica la idea de
grados de libertad, el cual tiene en cuenta el número de constreñimientos en computar una estimación.
En este caso, hay n – 1 grados de la libertad desde entonces allí es un constreñimiento: la desviación
estándar depende de calcular la muestra mala. Para muchos problemas, científicos de dato no necesitan
para preocuparse sobre grados de libertad, pero hay casos donde el concepto es importante (ve
“Escoger K”).
NOTA
La varianza, la desviación estándar, desviación absoluta mala, y median desviación absoluta de
el median no es estimaciones equivalentes, incluso en el caso donde el dato proviene una
distribución normal. De hecho, la desviación estándar es siempre más grande que la desviación
absoluta mala, el cual él es más grande que el median desviación absoluta. A veces, el median la
desviación absoluta está multiplicada por un constante scaling factor ( pasa para salir a 1.4826)
para poner LOCO en la misma escala como la desviación estándar en el caso de una
distribución normal.
Las estimaciones Basaron en Percentiles
Una aproximación diferente a estimar la dispersión está basada encima mirando
en el spread de el dato ordenado. La estadística basó encima ordenada (ranked)
el dato está referido a tan estadística de orden. La medida más básica es la gama
: la diferencia entre el número más grande y más pequeño. El mínimo y el máximo
los valora es útil de saber, y útil en identificar outliers, pero la gama es
extremadamente sensible a outliers y no muy útil como medida general de
dispersión en el dato.
Para evitar la sensibilidad a outliers, podemos mirar en la gama de el dato
después de caer valores de cada fin. Formalmente, estos tipos de estimaciones
están basados en diferencias entre percentiles. En un conjunto de dato, el Pth
percentile es un valor tal que al menos P el porcentaje de los valores apechuga
con este valor o menos y al menos (100 – P) el porcentaje de los valores
apechuga con este valor o más. Por ejemplo, para encontrar el 80.º percentile,
clase el dato. Entonces, empezando con el valor más pequeño, procede 80 por
ciento de la manera a el valor más grande. Nota que el median es la misma
cosa como el 50.º percentile. El percentile es esencialmente igual como
quantile, con quantiles indexed por fracciones (así que el .8 quantile es igual
como el 80.º percentile).
Una medida común de variabilidad es la diferencia entre el 25.º percentile y el
75.º percentile, llamó el interquartile gama (o IQR). Aquí es un ejemplo
sencillo: 3,1,5,3,6,7,2,9. Ordenamos estos para conseguir 1,2,3,3,5,6,7,9. El 25.º
percentile es en 2.5, y el 75.º percentile es en 6.5, así que el interquartile la
gama es
6.5 – 2.5 = 4. El software puede haber ligeramente difiriendo aproximaciones
que cosecha respuestas diferentes (ve la nota siguiente); típicamente, estas
diferencias son más pequeñas.
Para dato muy grande conjuntos, calculando exactos percentiles puede ser
computacionalmente muy caro desde entonces requiere ordenar todos los
valores de dato. Aprendizaje de máquina y uso de software estadístico algoritmos
especiales, como [Zhang-Wang-2007], para conseguir un aproximado percentile
que puede ser calculado muy deprisa y es guaranteed para tener una exactitud
segura.
PERCENTILE: DEFINICIÓN PRECISA
Si tenemos un incluso número de datos (n es incluso), entonces el percentile es ambiguo
bajo la definición de preceder. De hecho, podríamos apechugar con cualquier valor entre
la estadística de orden y
Dónde j satisface:
> sd(Estado[["Población"]])
[1] 6848235
> IQR(Estado[["Población"]])
[1] 4847308
> Loco(estado[["Población"]]
) [1] 3849870
La desviación estándar es casi dos veces tan grande como el LOCO (en R, por
default, la escala de el LOCO está ajustado para ser en la misma escala como
el malo). Esto no está sorprendiendo desde la desviación estándar es sensible a
outliers..
IDEAS CLAVES
La varianza y la desviación estándar son el más extendido y routinely informó estadística de
variabilidad..
Más robusto metrics incluir malo y median desviaciones absolutas de el malos y percentiles
(quantiles).
Lectura más lejana
1. El recurso de estadística on-line de David Lane tiene una sección en
percentiles.
Boxplot
Una parcela introducida por Tukey como manera rápida para visualizar la distribución de datos.
Synonyms
Caja y whiskers parcela
Mesa de frecuencia
Una cuenta de la cuenta de dato numérico valora que caída a un conjunto de intervalos (cubos).
Histograma
Una parcela de la mesa de frecuencia con los cubos en el x-axiales y la cuenta (o proporción)
en el y- axial.
Parcela de densidad
Una versión suavizada del histograma, a menudo basado en un kernal estimación de densidad.
Percentiles Y Boxplots
En “las estimaciones Basaron en Percentiles”, exploramos cómo percentiles
puede soler medir el spread de el dato. Percentiles Es también valioso a
summarize la distribución entera. Es común de informar el quartiles (25.º, 50.º, y
75.º percentiles) y el deciles (el 10.º, 20.º, …, 90.º percentiles). Percentiles Es
especialmente valioso a summarize las colas (la gama exterior) de la
distribución.
La cultura popular ha acuñado el plazo un-percenters para referir a las
personas en la parte superior 99.º percentile de riqueza..
Mesa 1-4 exhibiciones algún percentiles de el índice de asesinato por estatal.
En R, esto sería producido por el quantile función:
1 563,626– 24 WY,VT,ND,AK,SD,DE,MT,RI,NH,ME,HOLA,ID,NE,WV,NM,NV,UT,KS,
4,232,658 Un
2 4,232,659– 14 KY,LA,SC,AL,CO,MN,WI,MD,MO,TN,AZ,EN,MA,WA
7,901,691
3 7,901,692– 6 VA,NJ,NC,GA,MI,OH
11,570,724
4 11,570,725– 2 PA,IL
15,239,757
5 15,239,758– 1 FL
18,908,790
6 18,908,791– 1 NY
22,577,823
7 22,577,824– 1 TX
26,246,856
8 26,246,857– 0
29,915,889
9 29,915,890– 0
33,584,922
10 33,584,923– 1 CA
37,253,956
www.allitebooks.com
El estado menos populoso es Wyoming , con 563,626 personas (2010 Censo) y
la mayoría de populoso es California, con 37,253,956 personas. Esto nos doy
una gama de 37,253,956 – 563,626 = 36,690,330, el cual tenemos que dividir
arriba a cubos de medida igual — dejados es dice 10 cubos. Con 10 medida
igual cubos, cada cubo tendrá un ancho de 3,669,033, así que el primer cubo
abarcará de 563,626 a 4,232,658. Por contraste, el cubo superior, 33,584,923 a
37,253,956, ha sólo uno estatal: California. Los dos cubos inmediatamente abajo
California es vacía, hasta que logramos Texas. Es importante de incluir los
cubos vacíos; el hecho que no hay ningún valor en aquellos cubos es
información útil . También pueda ser útil a experimento con medidas de cubo
diferente. Si son demasiado grandes, las características importantes de la
distribución pueden ser ocultadas. Él son demasiado pequeños, el resultado es
demasiado granular y la capacidad de ver los cuadros más grandes está perdido.
NOTA
Ambas mesas de frecuencia y percentiles summarize el dato por crear cubos. En general,
quartiles y deciles tendrá la misma cuenta en cada cubo (cubos de cuenta igual), pero las
medidas de cubo serán diferentes. La mesa de frecuencia, por contraste, tendrá cuentas
diferentes en los cubos (cubos de medida igual).
Figura 1-3. Histograma de poblaciones estatales
hist(Estado[["Asesinato.Índice"]], freq=FALSO)
líneas(densidad(estado[["Asesinato.Índice"]]), lwd=3,
col="azul")
IDEAS CLAVES
Una frecuencia de parcelas de histograma de frecuencia cuentas en el y-valores axiales y variables
en el x-axiales; da un sentido de la distribución del dato en una mirada.
Modo
El más generalmente ocurriendo categoría o valor en un conjunto de dato.
Valor esperado
Cuándo las categorías pueden ser asociadas con un valor numérico, esto da un valor mediano
basado en la probabilidad de una categoría de ocurrencia..
Gráficos de barra
La frecuencia o proporción para cada categoría plotted como barras.
Gráficos de pastel
La frecuencia o proporción para cada categoría plotted como wedges en un pastel.
Gráficos de barra son una herramienta visual común para mostrar una variable
categórica sola, a menudo visto en la prensa popular. Las categorías están
listadas en el x-axiales, y frecuencias o proporciones en el y-axiales. Figura 1-
5 espectáculos los retrasos de aeropuerto por año por causa para Dallas/Fort
Valor, y está producido con el R función barplot:
barplot(Cuando.Matriz(dfw)/6, cex.Axial=.5)
Figura 1-5. Retrasos de aerolínea de parcela de barra en DFW por causa
El valor esperado es realmente una forma de weighted malo: añade las ideas de
probabilidad y expectativas futuras pesos, a menudo basados en juicio subjetivo.
El valor esperado es un concepto fundamental en tasación empresarial y
capital budgeting — por ejemplo, el valor esperado de cinco años de beneficios
de una adquisición nueva, o los ahorros de coste esperados de software de
administración paciente nuevo en una clínica.
IDEAS CLAVES
El dato categórico es típicamente summed arriba en proporciones, y puede ser visualizado en un
gráfico de barra.
Las categorías podrían representar cosas distintas (manzanas y naranjas, macho y hembra), niveles
de una variable de factor (abajo, medio, y alto), o dato numérico aquello ha sido binned.
Coeficiente de correlación
Un métrico que medidas la extensión a qué variables numéricas está asociada con uno otro
(gamas de –1 a +1)..
Matriz de correlación
Una mesa donde las variables están mostradas en ambas filas y columnas, y los valores de
célula son las correlaciones entre las variables.
Scatterplot
Una parcela en qué el x-axial es el valor de uno variable, y el y-axial el valor de otro.
v2: {4, 5, 6}
El ETFs para &el S P 500 (ESPÍA) y el Índice de Dow Jones (DIA) tiene una
correlación alta. Similary, el QQQ y el XLK, compuso mayoritariamente de
compañías de tecnología, es postively correlativo. Defensivo ETFs, como aquel
oro de seguir precios (GLD), precios de aceite (USO), o volatilidad de mercado
(VXX) tiende para ser negativamente correlativo con el otro ETFs. La
orientación de el ellipse indica si dos variables son positivamente correlativas
(ellipse es apuntado correcto) o negativamente correlativo (ellipse es apuntado
izquierdo). El sombreando y ancho de el ellipse indicar la fuerza de la
asociación: más delgado y más oscuro ellipses corresponder a relaciones más
fuertes.
Como la desviación mala y estándar, el coeficiente de correlación es sensible a
outliers en el dato. Paquetes de software ofrecen alternativas robustas a el
coeficiente de correlación clásico. Por ejemplo, el R función cor tiene un trim
el argumento similar a aquello para computar un trimmed malo (ve [R-base-
2015]).
Figura 1-6. Correlación entre ETF regresos
OTRAS ESTIMACIONES de CORRELACIÓN
Estadísticos haber mucho tiempo hace propuso otros tipos de coeficientes de correlación, como
Spearman rho o Kendall tau. Estos son coeficientes de correlación basó en el rango del
dato. Desde entonces trabajan con rangos más que valores, estas estimaciones son robustas a
outliers y puede manejar tipos seguros de nonlinearities. Aun así, científicos de dato
generalmente se pueden aferrar a Pearson coeficiente de correlación, y sus alternativas
robustas, para análisis exploratorio. La apelación de rango- basó las estimaciones es
mayoritariamente para conjuntos de dato más pequeño y pruebas de hipótesis concreta.
Scatterplots
La manera estándar de visualizar la relación entre dos dato medido las variables
es con un scatterplot. El x-axial representa uno variable, el y-axial otro, y cada
punto en el graph es un registro. Ve Figura 1-7 para una parcela entre los
regresos diarios para ATT y Verizon. Esto está producido en R con la orden:
Los regresos tienen una relación positiva fuerte: encima más días, ambos stocks
remontan o bajar en tándem. hay muy pocos días donde uno accionario baja
significativamente mientras el otro stock remonta (y viceversa)..
Figura 1-7. Scatterplot Entre regresos para ATT y Verizon
Cuándo valores altos de v1 está asociado con valores bajos de v2, v1 y v2 es negativamente asoció.
El coeficiente de correlación es un estandarizado métrico de modo que él siempre gamas de
–1 (correlación negativa perfecta) a +1 (correlación positiva perfecta).
Un coeficiente de correlación de 0 indica ninguna correlación, pero ser consciente que los
arreglos aleatorios de datos producirán ambos valores positivos y negativos para el coeficiente
de correlación justo por casualidad..
Lectura más lejana
Estadística, 4.º ed., por David Freedman, Robert Pisani, y Roger Purves (W. W.
Norton, 2007), tiene una discusión excelente de correlación..
Explorando Dos o Más Variables
Estimadores familiares como malos y mirada de varianza en variables un a la
vez (univariate análisis). Análisis de correlación (ve “Correlación”) es un
método importante que compara dos variables (bivariate análisis). En esta
sección miramos en parcelas y estimaciones adicionales, y en más de dos
variables (multivariate análisis).
Mesas de contingencia
Una cuenta de cuentas entre dos o variables más categóricas.
Hexagonal binning
Una parcela de dos variables numéricas con los registros binned a hexágonos.
Parcelas de contorno
Una parcela que muestra la densidad de dos variables numéricas como un mapa topográfico.
Parcelas de violín
Similar a un boxplot pero mostrando la estimación de densidad.
Como univariate análisis, bivariate el análisis implica ambas estadística de
resumen de la informática y produciendo exhibiciones visuales. El tipo
apropiado de bivariate o multivariate el análisis depende de la naturaleza de
el dato: numérico versus categórico.
Hexagonal Binning y Contornos (Plotting Numéricos versus Dato
Numérico)
Scatterplots Es bien cuándo hay un número relativamente pequeño de valores
de datos. La parcela de regresos accionarios en Figura 1-7 implica sólo
aproximadamente 750 puntos. Para conjuntos de datos con centenares de miles
o millones de registros, un scatterplot será demasiado denso, así que
necesitamos una manera diferente de visualizar la relación. Para ilustrar,
considerar el dato pone kc_impuesto , el cual contiene el impuesto-evaluó
valores para propiedades residenciales en Condado de Rey, Washington. Para
foco en la parte principal del dato, desnudamos fuera muy caros y muy
pequeños o las residencias grandes que utilizan la función de subconjunto:
ggplot(kc_Impuesto0, (aes(x=SqFtTotLiving,
y=TaxAssessedValue))) + stat_binhex(blanco="de color") +
Tema_bw() +
La escala_llena_gradiente(blanco="bajo", alto="negro")
+ laboratorios(x="Acabó Pies Cuadrados", y="Grava Valor
Evaluado")
Figura 1-8. Hexagonal binning para impuesto-valor evaluado versus acabó pies cuadrados
Biblioteca(descr)
x_Tabulador <- CrossTable(lc_préstamos$grado, lc_préstamos$estado,
prop.c=FALSO, prop.chisq=FALSO, prop.t=FALSO)
IDEAS
CLAVES
Hexagonal binning y parcelas de contorno son herramientas útiles que permiso examen gráfico de
dos variables numéricas a la vez, sin anonadarse por cantidades enormes de datos..
Mesas de contingencia son la herramienta estándar para mirar en las cuentas de dos
variables categóricas. Boxplots Y parcelas de violín te dejan a parcela una variable numérica
Un error popular aguanta que la era de dato grande significa el fin de una
necesidad para muestreo. De hecho, la proliferación de los datos de pertinencia y
calidad variables refuerza la necesidad para muestreo como herramienta para
trabajar efficiently con una variedad de datos y para minimizar sesgo. Incluso en
un proyecto de dato grande, los modelos predictivos son típicamente
desarrollados y pilotados con muestras. Las muestras son también utilizadas en
pruebas de varias clases (p. ej., tasando, tratamientos de web).
Figura 2-1 espectáculos un esquemáticos que underpins los conceptos en este
capítulo. El lado izquierdo representa una población que, en estadísticas, está
supuesto para seguir un subyacente pero distribución desconocida. La cosa única
disponible es el dato de muestra y su distribución empírica, mostrado en el
righthand lado. Para conseguir de el lado izquierdo a el righthand lado, un
procedimiento de muestreo está utilizado (representado por dashed flechas).
La estadística tradicional centró mucho en el lado izquierdo, utilizando la
teoría basada en suposiciones fuertes sobre la población. La estadística moderna
ha movido a el righthand lado, donde tales suposiciones no son necesitadas.
Figura 2-1. Población versus muestra
Muestra
Un subconjunto de un conjunto de dato más grande.
Población
El conjunto de dato más grande o idea de un conjunto de dato.
N (n)
La medida de la población (muestra).
Muestreo aleatorio
Dibujando elementos a una muestra al azar.
Muestreo estratificado
Dividiendo la población a estratos y aleatoriamente muestreo de cada estratos.
Sesgo de muestra
Una muestra que misrepresents la población.
Figura 2-4. George Gallup, catapultado a fama por el Literario Digiere es “fracaso de dato” grande
IDEAS CLAVES
Incluso en la era de dato grande, el muestreo aleatorio queda una flecha importante en la
científica de dato es tiembla.
El sesgo ocurre cuándo las medidas o las observaciones son sistemáticamente en error porque
no son representativos de la población llena.
Calidad de dato es a menudo más importante que cantidad de dato, y el muestreo aleatorio puede
reducir sesgo y facilitar mejora de calidad que sería prohibitively caro.
Lectura más lejana
Una revisión útil de procedimientos de muestreo puede ser encontrada en
Ronald Fricker Métodos “de Muestreo del capítulo para Web y Encuestas
de Email,” encontrados en el Manual de Salvia de Métodos de Búsqueda
On-line. Este capítulo incluye una revisión de las modificaciones a
muestreo aleatorio que es a menudo utilizado para razones prácticas de
costados o viabilidad..
PLAZOS CLAVES
Sesgo
Error sistemático.
Dato snooping
Caza extensa a través de datos en búsqueda de algo interesante.
habilidad
AVISO
Regresión a el malo, significando para “volver,” es distinto de el método de modeling estadístico
de regresión lineal, en qué una relación lineal está estimada entre predictor variables y una
variable de resultado.
IDEAS CLAVES
Especificando una hipótesis, entonces recogiendo el dato que sigue aleatorización y
principios de muestreo aleatorio, asegura en contra sesgo.
Todas otras formas de análisis de datos corrido el riesgo de predispone resultar del análisis de
colección/del dato
Proceso (repetido corriendo de modelos en los datos mineros, dato snooping en búsqueda, y
después-el-selección de hecho de acontecimientos interesantes).
Lectura más lejana
Christopher J. Pannucci Y Edwin G. Wilkins' El artículo que “Identifica y
Evitando Sesgo en Búsqueda” en (sorprendentemente) Plástico y
Reconstructive Cirugía (agosto 2010) tiene una revisión excelente de varios
tipos de predisponer aquello puede introducir a búsqueda, incluyendo sesgo
de selección.
PLAZOS CLAVES
Muestra statistic
Un métrico calculado para una muestra de los datos dibujados de una población más grande.
Distribución de dato
La distribución de frecuencia de valores individuales en un conjunto de dato.
Distribución de muestreo
La distribución de frecuencia de una muestra statistic encima muchas muestras o resamples.
Error estándar
La variabilidad (desviación estándar) de una muestra statistic encima muchas muestras (no
para ser confundidos con desviación estándar, el cual, por él, refiere a variabilidad de
valores de dato individual).
Típicamente, una muestra está dibujada con el objetivo de medir algo (con una
muestra statistic) o modeling algo (con un estadístico o modelo de aprendizaje
de la máquina).
Desde nuestra estimación o el modelo está basado en una muestra, pueda ser en
error; pueda ser diferente si éramos para dibujar una muestra diferente. Somos
por tanto interesados en cómo diferentes lo podría ser — una preocupación clave
es variabilidad de muestreo . Si tuvimos mucho dato, podríamos dibujar
muestras adicionales y observar la distribución de una muestra statistic
directamente. Típicamente, calcularemos nuestra estimación o el modelo que
utiliza tanto dato cuando es fácilmente disponible, así que la opción de dibujar
muestras adicionales de la población no es fácilmente disponible.
AVISO
Es importante de distinguir entre la distribución de los puntos de dato individuales, sabidos
como la distribución de dato, y la distribución de una muestra statistic, sabido como la
distribución de muestreo.
La distribución de una muestra statistic como el malo probablemente puede ser
más regular y campana-shaped que la distribución de el dato él. El más grande
la muestra que el statistic está basado encima, el más esto es cierto. También, el
más grande la muestra, el más estrecho la distribución de la muestra statistic.
Esto está ilustrado en un ejemplo que utiliza ingresos anuales para solicitantes
de préstamo a Dejar Club (ve “Un Ejemplo Pequeño: Pronosticando Préstamo
Default” para una descripción de el dato). Toma tres muestras de este dato:
una muestra de 1,000 valores, una muestra de 1,000 significa de 5 valores, y
una muestra de 1,000 significa de 20 valores.
Entonces parcela un histograma de cada muestra para producir Figura 2-6.
Figura 2-6. Histograma de ingresos anuales de 1,000 solicitantes de préstamo (superiores), entonces
1000 significa de n=5 solicitantes (medios), y n=20 (inferiores)
Biblioteca(ggplot2)
# Tomar una muestra aleatoria sencilla
samp_Dato <- datos.Marco(muestra=de ingresos(ingresos_de préstamos, 1000),
Tipo='dato_dist')
# toma una muestra de medios de 5 valores
samp_malos_05 <- datos.Marco(
Ingresos = tapply(muestra(ingresos_de préstamos, 1000*5),
rep(1:1000, rep(5, 1000)), DIVERTIDO=malo),
El tipo = soyean_de_5')
# Tomar una muestra de medios de 20 valores
samp_Malo_20 <- datos.Marco(
Ingresos = tapply(muestra(ingresos_de préstamos, 1000*20),
rep(1:1000, rep(20, 1000)), DIVERTIDO=malo),
El tipo = soyean_de_20')
# Atar el dato.Marcos y convertir tipo a unos ingresos
de factor <- rbind(samp_dato, samp_malo_05,
samp_malo_20) ingresos$factor = de tipo(ingresos$tipo,
Niveles=c('dato_dist', soyean_de_5',
soyean_de_20'), etiquetas=c('Dato', soyean de
5', soyean de 20'))
# Parcela los histogramas
ggplot(Ingresos, aes(x=ingresos)) +
geom_histograma(cubos=40) + verja_de
faceta(tipo ~ .)
Teorema de Límite central
Este fenómeno está denominado el teorema de límite central . Dice que el significa
dibujado de las muestras múltiples se parecerán a la campana familiar-shaped
curva normal (ve “Distribución Normal”), incluso si la población de fuente no es
normalmente distribuido, proporcionado que la medida de muestra es bastante
grande y la salida de el dato de la normalidad no es demasiado grande. El
teorema de límite central deja fórmulas de aproximación normal como el t-
distribución para ser utilizada en calcular distribuciones de muestreo para
inferencia — que es, intervalos de confianza y pruebas de hipótesis.
El teorema de límite central recibe mucha atención en textos de estadística
tradicional porque él underlies la maquinaria de pruebas de hipótesis e intervalos
de confianza, el cual ellos consume a medias el espacio en tales textos.
Científicos de dato tendrían que ser conscientes de esta función, pero, desde
pruebas de hipótesis formal e intervalos de confianza juegan una función pequeña
en ciencia de datos, y el bootstrap es disponible de todas formas, el teorema de
límite central no es tan central en la práctica de ciencia de datos.
Error estándar
El error estándar es un solo métrico que sumas arriba de la variabilidad en la
distribución de muestreo para un statistic. El error estándar puede ser estimado
utilizando un statistic basó en la desviación estándar s de los valores de muestra,
y la medida de muestra n:
Cuando los aumentos de medida de la muestra, las disminuciones de error
estándares, correspondiendo a qué estuvo observado en Figura 2-6. La relación
entre muestra y error estándares la medida es a veces referida a como el
cuadrado-raíz de n regla: para reducir el error estándar por un factor de 2, la
medida de muestra tiene que ser aumentada por un factor de 4..
La validez de la fórmula de error estándar surge de el teorema de límite central
(ve “Teorema de Límite Central”). De hecho, no necesitas para confiar en el
teorema de límite central para entender error estándar. Considerar la aproximación
siguiente para medir error estándar:
1. Recoger un número de marca muestras nuevas de la población.
IDEAS CLAVES
La distribución de frecuencia de una muestra statistic nos digo cómo aquel métrico resultaría de
manera diferente de muestra a muestra..
Esta distribución de muestreo puede ser estimada vía el bootstrap, o vía fórmulas que confía en el
teorema de límite central.
Un clave métrico que sumas arriba de la variabilidad de una muestra statistic es su error estándar.
Lectura más lejana
El recurso multimedia on-line de David Lane en las estadísticas tiene un
simulacro útil que te dejas para seleccionar una muestra statistic, una medida de
muestra y número de iteraciones y visualizar un histograma de la distribución
de frecuencia resultante.
El Bootstrap
Uno manera fácil y eficaz para estimar la distribución de muestreo de un
statistic, o de parámetros de modelo, es para dibujar muestras adicionales, con
sustitución, de la muestra él y recalculate el statistic o modelo para cada
resample. Este procedimiento se apellida el bootstrap, y no necesariamente
implique cualesquier suposiciones sobre el dato o la muestra statistic siendo
normalmente distribuyó.
PLAZOS CLAVES
Bootstrap Muestra
Una muestra tomada con sustitución de un conjunto de dato observado.
Resampling
El proceso de tomar repitió muestras de dato observado; incluye ambos bootstrap y permutación
(shuffling) procedimientos.
2. Repite n tiempo.
5. Uso el R resultados a:
a. Calcular su desviación estándar (esto estima la muestra
significa error estándar).
Biblioteca(bota)
stat_Divertido <- función(x, idx) median(x[idx])
Bota_obj <- bota(ingresos_de préstamos, R = 1000, statistic=stat_diversión)
Bootstrap Estadística :
Sesgo original std. Error
t1* 62000 -70.5595 209.1515
AVISO
El bootstrap no compensa para una medida de muestra pequeña; no crea dato nuevo, ni rellene
agujeros en un dato de existir conjunto. Meramente nos informo aproximadamente cómo
muchas muestras adicionales behave cuándo dibujados de una población como nuestra muestra
original.
Resampling versus Bootstrapping
A veces el plazo resampling está utilizado synonymously con el plazo
bootstrapping, tan justo perfiló. Más a menudo, el plazo resampling también
incluye procedimientos de permutación (ve “Prueba de Permutación”), donde
las muestras múltiples están combinadas y el muestreo puede ser hecho sin
sustitución. De todas formas, el plazo bootstrap siempre implica muestreo con
sustitución de un conjunto de dato observado.
IDEAS CLAVES
El bootstrap (muestreo con sustitución de un conjunto de dato) es una herramienta potente
para evaluar la variabilidad de una muestra statistic.
El bootstrap puede ser aplicado en moda similar en una variedad ancha de circunstancias,
sin estudio extenso de aproximaciones matemáticas a distribuciones de muestreo.
También nos dejo para estimar distribuciones de muestreo para estadísticas donde ninguna
aproximación matemática ha sido desarrollada.
PLAZOS CLAVES
Nivel de confianza
El porcentaje de intervalos de confianza, construidos en la misma manera de la misma
población, esperado para contener el statistic de interés..
Intervalo endpoints
El superior y fondo del intervalo de confianza.
Figura 2-9 espectáculos una una 90% confianza intervalo para los ingresos
anuales malos de solicitantes de préstamo, basados en una muestra de 20 para
qué el malo era $57,573.
Figura 2-9. Bootstrap Intervalo de confianza para los ingresos anuales de solicitantes de préstamo,
basados en una muestra de 20
NOTA
Naturalmente, qué somos realmente interesados en cuándo tenemos un resultado de
muestra es “qué es la probabilidad que las mentiras de valor ciertas dentro de un intervalo
seguro?” Esto no es realmente la cuestión que unas respuestas de intervalo de la confianza,
pero acaba ser qué la mayoría de personas interpretan la respuesta..
La cuestión de probabilidad asociada con unos inicios de intervalo de la confianza fuera con
la frase “Dada un procedimiento de muestreo y una población, qué es la probabilidad que…”
para entrar la dirección opuesta, “Dado un resultado de muestra, qué es la probabilidad que
(algo es cierto sobre la población),” implica cálculos más complejos y más profundos
imponderables.
El porcentaje asociado con el intervalo de confianza está denominado el nivel
de confianza . El más alto el nivel de confianza, el más ancho el intervalo.
También, el más pequeño la muestra, el más ancho el intervalo (i.e., la más
incertidumbre). Ambos sentido de marca: el más seguro quieres ser, y el
menos dato tienes, el más ancho te tiene que hacer el intervalo de confianza
para ser suficientemente asegurado de capturar el valor cierto.
NOTA
Para un científico de dato, un intervalo de confianza es una herramienta para conseguir una idea
de cómo variable un resultado de muestra podría ser. Científicos de dato utilizarían esta
información no para publicar un papel erudito o entregar un resultado a una agencia reguladora
(como el investigador puede), pero más probablemente para comunicar el error potencial en una
estimación, y, quizás, aprender si una muestra más grande está necesitada.
IDEAS CLAVES
Intervalos de confianza son la manera típica a estimaciones presentes como una
muestra será .
El más bajo el nivel de confianza puedes tolerar, el más estrecho el intervalo de confianza será
PLAZOS CLAVES
Error
La diferencia entre un punto de dato y un valor pronosticado o mediano.
Estandariza
Restar el malo y dividir por la desviación estándar.
z-Puntuación
El resultado de estandarizar un punto de dato individual.
Estándar normal
Una distribución normal con malo = 0 y desviación estándar = 1.
QQ-Parcela
Una parcela para visualizar qué cercano una distribución de muestra es a una distribución
normal.
En una distribución normal (Figura 2-10), 68% de las mentiras de dato dentro
uno desviación estándar de el malo, y 95% mentiras dentro dos desviaciones
estándares.
AVISO
Es un error común que la distribución normal se apellida que porque la mayoría de dato sigue
una distribución normal — que es, es la cosa normal . La mayoría de las variables utilizó en un
proyecto de ciencia de dato típico — de hecho dato más crudo globalmente — no es
normalmente distribuyó: ve “Mucho tiempo- Tailed Distribuciones”. La utilidad de la distribución
normal deriva de el hecho que mucha estadística es normalmente distribuida en su distribución
de muestreo. Aun así, las suposiciones de normalidad son generalmente un último recurso,
utilizados cuándo distribuciones de probabilidad empírica, o bootstrap distribuciones, no es
disponible.
Figura 2-10. Curva normal
NOTA
La distribución normal es también referida a como distribución Gaussiana después de que Carl
Friedrich Gauss, un prodigous matemático alemán del tardío 18.º y siglo XIX temprano. Otro
nombre anteriormente utilizado para la distribución normal era la “distribución” de error .
Statistically Hablando, un error es la diferencia entre un valor real y una estimación estadística
como la muestra mala.
Por ejemplo, la desviación estándar (ve “Estimaciones de Variabilidad” ) está basado en los
errores de el malos del dato. El desarrollo de Gauss de la distribución normal provino su
estudio de los errores de medidas astronómicas que estuvo encontrado para ser normalmente
distribuyó.
Estándar Normal y QQ-Parcelas
Una distribución normal estándar es una en qué las unidades en el x-axiales
está expresado en plazos de desviaciones estándares fuera de el malos. Para
comparar dato a una distribución normal estándar, restas el malo entonces
dividir por la desviación estándar; esto es normalización llamada también o
estandarización (ve “Estandarización (Normalización, Z-Puntuaciones)”). Nota
que “la estandarización” en este sentido es no relacionada a base de datos
estandarización récord (conversión a un formato común). El valor
transformado está denominado un z-puntuación, y la distribución normal es a
veces llamó el z-distribución.
Un QQ-la parcela suele visually determinar qué cercano una muestra es a la
distribución normal. El QQ-la parcela ordena el z-puntuaciones de bajos a alto,
y parcelas cada valor z-puntuación en el y-axial; el x-axial es el
correspondiente quantile de una distribución normal para el rango de aquel
valor. Desde el dato está normalizado, las unidades corresponden a el número
de desviaciones estándares fuera de el dato de el malo. Si los puntos
aproximadamente caída en la línea diagonal, entonces la distribución de muestra
puede ser considerada cercano a normal. Figura 2-11 espectáculos un QQ-
Parcela para una muestra de 100 valores aleatoriamente generados de una
distribución normal; cuando esperado, los puntos estrechamente siguen la
línea. Esta figura puede ser producida en R con el qqnorm función:
AVISO
Convirtiendo dato a z -puntuaciones (i.e., estandarizando o normalizando el dato) no hace el
dato normalmente distribuyó. Justo pone el dato en la misma escala como la distribución
normal estándar, a menudo para propósitos de comparación.
IDEAS CLAVES
La distribución normal era esencial a el desarrollo histórico de estadísticas, cuando él permitted
aproximación matemática de incertidumbre y variabilidad..
Mientras el dato crudo es típicamente no normalmente distribuido, los errores a menudo son,
cuando es medias y totales en muestras grandes.
Para convertir dato a z -puntuaciones, restas el malo del dato y dividir por la desviación
estándar; entonces puedes comparar el dato a una distribución normal.
Mucho tiempo-Tailed Distribuciones
A pesar de la importancia de la distribución normal históricamente en
estadísticas, y en contraste a lo que el nombre sugeriría , el dato es generalmente
no normalmente distribuyó.
Torci
do Dónde una cola de una distribución es más larga que
el otro.
Mientras la distribución normal es a menudo apropiada y útil con respetar a la
distribución de errores y estadística de muestra, típicamente no caracteriza la
distribución de dato crudo. A veces, la distribución es altamente sesgada
(asimétrico), como con dato de ingresos, o la distribución puede ser discreta,
cuando con dato binomial. Ambos symmetric y las distribuciones asimétricas
pueden tener colas largas. Las colas de una distribución corresponden a los
valores extremos (pequeños y grandes). Colas largas, y guarding en contra les,
es ampliamente reconocido en trabajo práctico. Nassim Taleb Ha propuesto la
teoría de cisne negra, el cual pronostica que anamolous acontecimientos, como
un accidente de mercado de valores, es mucho más probablemente para
ocurrir que sería pronosticado por la distribución normal.
Un ejemplo bueno para ilustrar el largo-tailed la naturaleza de datos es regresos
accionarios. Figura 2-12 espectáculos el QQ-Parcela para los regresos
accionarios diarios para Netflix (NFLX). Esto está generado en R por:
En contraste para Representar 2-11, los puntos son lejos bajo la línea para
valores bajos y lejos por encima de la línea para valores altos. Esto significa
que somos mucho más probablemente para observar valores extremos que
sería esperado si el dato tuvo una distribución normal. Figura 2-12 espectáculos
otros fenómenos comunes: los puntos son cercanos a la línea para el dato dentro
uno desviación estándar de el malo. Tukey Refiere a este fenómeno como los
datos que son “normales en el medio,” pero teniendo mucho más colas (ve
[Tukey-1987]).
NOTA
Hay mucha literatura estadística sobre la tarea de caber distribuciones estadísticas a dato
observado. Beware Un excesivamente dato-centric aproximación a este trabajo, el cual es
tanto arte cuando ciencia. El dato es variable, y a menudo compatible, en su cara, con más de
una forma y tipo de distribución. Es típicamente el caso que el ámbito y el conocimiento
estadístico tienen que ser traídos para aguantar para determinar qué tipo de distribución es
apropiado a modelo una situación dada. Por ejemplo, podríamos tener dato en el nivel de
tráfico de internet en un servidor encima muchos consecutivos 5-segundos periodos. Es útil de
saber que la distribución mejor a acontecimientos “de modelo por periodo de tiempo” es el
Poisson (ve “Poisson Distribuciones”).
n
Medida de muestra.
Grados de libertad
Un parámetro que deja el t-distribución para ajustar a medidas de muestra diferente, estadística, y
número de grupos..
NOTA
Qué necesidad de científicos del dato para saber sobre el t-distribución y el teorema de límite
central? No una parcela entera. Estas distribuciones están utilizadas en inferencia estadística
clásica, pero no es tan central a los propósitos de ciencia de datos. Comprensivo y
cuantificando la incertidumbre y la variación son importantes a científicos de dato, pero
empíricos bootstrap el muestreo puede contestar más cuestiones aproximadamente error de
muestreo. Aun así, científicos de dato routinely encuentro t-estadísticas en producción de
software estadístico y procedimientos estadísticos en R, por ejemplo en Un-B pruebas y
regresiones, así que la familiaridad con su propósito es útil.
IDEAS CLAVES
El t-la distribución es de hecho una familia de las distribuciones que se parecen a la distribución
normal, pero con colas más gruesas.
Prueba
Un acontecimiento con un resultado discreto (p. ej., un dedo de moneda).
Éxito
El resultado de interés para una prueba.
Synonyms
“1” (como opposed a “0”)
Binomial
Teniendo dos resultados.
Synonyms
Sí/ningún, 0/1, binario
Prueba binomial
Una prueba con dos resultados.
Synonym
Bernoulli prueba
Distribución binomial
Distribución de número de éxitos en x pruebas.
Synonym
Bernoulli distribución
pbinom(2, 5, 0.1)
IDEAS CLAVES
Los resultados binomials son importantes a modelo, desde entonces representan, entre otras cosas,
decisiones fundamentales (compra o no compra , clic o no clic, sobrevive o dado, etc.).
Una prueba binomial es un experimento con dos resultados posibles: uno con probabilidad p y el
otro con probabilidad 1 – p.
Lambda
El índice (por unidad de tiempo o espacial) en qué acontecimientos ocurren.
Poisson Distribución
La distribución de frecuencia del número de acontecimientos en sampled unidades de tiempo o
espacial.
Distribución exponencial
La distribución de frecuencia del tiempo o distancia de un acontecimiento al acontecimiento
próximo.
Weibull Distribución
Una versión generalizada del exponencial, en qué el índice de acontecimiento está dejado para
cambiar con el tiempo.
Poisson Distribuciones
De dato previo podemos estimar el número mediano de acontecimientos por
unidad de tiempo o espacio, pero también podríamos querer saber qué
diferentes esto podría ser de una unidad de cronometrar/espacial a otro. El
Poisson la distribución nos digo la distribución de acontecimientos por unidad
de tiempo o espacio cuándo nosotros muestra muchos tales unidades. Es útil
cuándo dirigiendo queuing cuestiones como “Cuánta capacidad necesitamos
ser 95% seguro de plenamente procesando el tráfico de internet que llega en un
servidor en cualquier 5- segundo periodo?”
El parámetro clave en un Poisson la distribución es , o lambda. Esto es el
número malo de acontecimientos que ocurre en un intervalo especificado de
tiempo o espacial. La varianza para un Poisson la distribución es también .
Una técnica común es para generar números aleatorios de un Poisson distribución
cuando parte de un queuing simulacro. El rpois función en R esto, tomando
sólo dos argumentos — la cantidad de números aleatorios buscó, y lambda:.
rpois(100, lambda = 2)
rweibull(100,1.5,5000)
IDEAS CLAVES
Para acontecimientos que ocurre en un índice constante, el número de acontecimientos por la
unidad de tiempo o espacio puede ser modeled como Poisson distribución.
Un acontecimiento de cambiar índice con el tiempo (p. ej., una probabilidad creciente de fracaso
de dispositivo) puede ser modeled con el Weibull distribución.
Lectura más lejana
Estadística de Ingeniería moderna por Tom Ryan (Wiley, 2007) tiene un
capítulo dedicó a las distribuciones de probabilidad utilizaron en
aplicaciones de ingeniería.
1 La curva de campana es icónica pero quizás overrated. George W. Cobb, el Monte Holyoke el estadístico
notado para su contribución a la filosofía de enseñar estadística introductoria, argumentado en un
noviembre 2015 editorial en el Estadístico americano que el “curso introductorio estándar, el cual pone
la distribución normal en su centro, hubo outlived la utilidad de su centrality.”
Capítulo 3. Importancia y
Experimentos estadísticos Testaje
Tratamiento
Algo (fármaco, precio, titular de web) al cual un tema está expuesto.
Grupo de tratamiento
Un grupo de los temas expuestos a un tratamiento concreto.
Grupo de control
Un grupo de los temas expuestos a ningún (o estándares) tratamiento.
Aleatorización
El proceso de aleatoriamente asignando temas a tratamientos.
Temas
Los elementos (visitantes de web, pacientes, etc.) aquello está expuesto a tratamientos.
Prueba statistic
El métrico utilizado para medir el efecto del tratamiento.
Un/B las pruebas son comunes en diseño web y marketing, desde los resultados
son tan fácilmente midió. Algunos ejemplos de Un/B el testaje incluye:
Testaje dos tratamientos de tierra para determinar cuál produce germinación
de semilla mejor
Testaje dos terapias para determinar cuál suprime cáncer más eficazmente
Probando dos precios para determinar cuál cede beneficio más neto
Testaje dos titulares de web para determinar cuál produce más clics
(Figura 3-2)
Testaje dos anuncios de web para determinar cuál genera más conversiones
Figura 3-2. Marketers Continuamente prueba una presentación de web contra otro
AVISO
Justo porque el software estadístico que — incluye R — genera producción por default no
significa que toda la producción es útil o pertinente. Puedes ver que el precediendo las
desviaciones estándares no son que útiles; en su cara sugieren que los valores numerosos
podrían ser negativos, cuándo los ingresos negativos no es factibles. Este dato consta de un
conjunto pequeño de relativamente valores altos (vistas de página con conversiones) y un
número enorme de 0-valores (vistas de página sin conversión). Es difícil a suma arriba de la
variabilidad de tal dato con un número solo, aunque la desviación absoluta mala de el malo
(7.68 para Un y 8.15 para B) es más razonable que la desviación estándar.
Por qué Tener un Grupo de Control?
Por qué no skip el grupo de control y justo corrido un experimento que aplica el
tratamiento de interesar a único un grupo, y comparar el resultado a experiencia
previa?
Sin un grupo de control, no hay ninguna garantía que “otras cosas son iguales”
y que cualquier diferencia es realmente debido a el tratamiento (o a
posibilidad). Cuándo tienes un grupo de control, es subject a las mismas
condiciones (excepto el tratamiento de interés) como el grupo de tratamiento. Si
sencillamente haces una comparación a “baseline” o experiencia previa, otros
factores, además el tratamiento, podría diferir.
CEGANDO EN ESTUDIOS
Un estudio ciego es uno en qué los temas son inconscientes de si están consiguiendo
tratamiento Un o tratamiento B. Concienciación de recibir un tratamiento particular puede
afectar respuesta. Un estudio ciego doble es uno en qué los detectives y facilitators (p. ej.,
doctores y enfermeros en un estudio médico) es inconsciente cuál somete está consiguiendo qué
tratamiento. Cegador no es posible cuándo la naturaleza del tratamiento es transparente — por
ejemplo, terapia cognitiva de un ordenador versus un psicólogo.
IDEAS CLAVES
Los temas están asignados a dos (o más) agrupa aquello está tratado exactamente
igualmente, exceptúa que el tratamiento debajo el estudio difiere de uno a otro..
Para testaje de web, los aspectos logísticos de probar puede ser tan
desafiante como el estadístico unos. Un sitio bueno a inicio es el Google
Analytics sección de ayuda en Experimentos.
PLAZOS CLAVES
Null Hipótesis
La hipótesis que la posibilidad es para culpar.
Hipótesis alternativa
Contrapunto al null (qué esperas probar).
Uno-prueba de manera
Prueba de hipótesis que resultados de posibilidad de las cuentas sólo en una dirección.
Un Un/B prueba (ve “Un/B Testaje”) es típicamente construido con una hipótesis
en mente. Por ejemplo, la hipótesis podría ser aquel precio B produce beneficio
más alto. Por qué necesitamos una hipótesis? Por qué no mirada justa en el
resultado de el experimento e ir con whichever el tratamiento mejor?
Las mentiras de respuesta en la tendencia de la mente humana a underestimate
el alcance de comportamiento aleatorio natural. Una manifestación de este es
el fracaso de anticipar acontecimientos extremos, o tan-cisnes “negros
llamados” (ve “Mucho tiempo-Tailed Distribuciones”). Otra manifestación es la
tendencia a misinterpret acontecimientos aleatorios cuando habiendo patrones
de alguna importancia. Testaje de hipótesis estadística estuvo inventado como
manera de proteger investigadores de ser fooled por posibilidad aleatoria.
MISINTERPRETING RANDOMNESS
Puedes observar la tendencia humana a underestimate randomness en este experimento. Preguntar
varios amigos para inventar una serie de 50 dedos de moneda: les tiene escribir abajo una serie de
aleatorio Hs y Ts. Entonces preguntarles a de hecho dedo una moneda 50 tiempo y escribir abajo los
resultados. Les tiene puesto los resultados de dedo de moneda reales en una pila, y el hecho-arriba de
resultados en otro. Es fácil de decir qué resultados son reales: el real unos tendrán carreras más largas
de Hs o Ts. En un conjunto de 50 moneda real dedos, es en absoluto inusual de ver cinco o seis Hs o
Ts en una fila. Aun así, cuándo la mayoría de nosotros está inventando dedos de moneda aleatoria y
nosotros han conseguido tres o cuatro Hs en una fila, prpers decimos aquello, para la serie para mirar
aleatoria, tuvimos cambio mejor a T..
El otro lado de esta moneda, así que para hablar, es que cuándo vemos el reales-equivalente
mundial de seis Hs en una fila (p. ej., cuándo un titular outperforms otro por 10%), estamos inclinar
para atribuirlo a algo real, no posibilidad justa.
B.
Tomado junto, el null y cuenta de mosto de hipótesis alternativa para todas las
posibilidades. La naturaleza de el null la hipótesis determina la estructura de la
prueba de hipótesis.
Uno-Manera, Hipótesis de Dos Maneras Prueba
A menudo, en un Un/B prueba, estás probando una opción nueva (dice B), contra
un establecido default opción (Un) y la presunción es que engancharás con el
default opción a no ser que la opción nueva se prueba definitivamente mejor. En
tal caso, quieres una prueba de hipótesis para proteger tú de ser fooled por
casualidad en la dirección que favorece B. No te preocupas aproximadamente
siendo fooled por casualidad en la otra dirección, porque serías enganchar con
Un a no ser que B prueba definitivamente mejor. Así que quieres una hipótesis
alternativa direccional (B es mejor que Un). En tal caso, utilizas un un-manera
(o un-cola) prueba de hipótesis. Esto significa que resultados de posibilidad
extrema en únicos una dirección de dirección cuenta hacia el p-valor.
Si quieres una prueba de hipótesis para proteger tú de ser fooled por
casualidad en cualquier dirección, la hipótesis alternativa es bidireccional (Un
es diferente de B; podría ser más grande o más pequeño). En tal caso, utilizas
un dos-manera (o dos-cola) hipótesis. Esto significa que resultados de
posibilidad extrema en cualquier cuenta de dirección hacia el p- valor.
Una hipótesis de una colas la prueba a menudo cabe la naturaleza de Un/B la
decisión que hace, en qué una decisión está requerida y una opción es
típicamente asignada “default” estado a no ser que el otro prueba mejor.
Software, aun así, incluyendo R, típicamente proporciona una prueba de dos
colas en su default producción, y muchos estadísticos optan para el más
conservadores prueba de dos colas justo para evitar argumento. Uno-cola versus
dos-la cola es un tema de confundir , y no que pertinente para ciencia de
datos, donde la precisión de p-cálculos de valor no es terriblemente
importantes.
IDEAS CLAVES
Un null la hipótesis es un lógico construye encarnar la idea que nada de particular ha pasado, y
cualquier efecto observas se debe a posibilidad aleatoria.
La prueba de hipótesis supone que el null la hipótesis es cierta, crea un “null modelo” (un modelo
de probabilidad), y pruebas si el efecto observas es un resultado razonable de aquel modelo.
Lectura más lejana
El paseo del Borracho por Leonard Mlodinow (Libros de Vendimia,
2008) es una encuesta legible de las maneras en qué “randomness
gobierna nuestras vidas.”
PLAZOS CLAVES
Prueba de permutación
El procedimiento de combinar dos o más las muestras juntas, y aleatoriamente (o exhaustively)
reallocating las observaciones a resamples.
Synonyms
Prueba de aleatorización, prueba de permutación aleatoria, prueba exacta.
CONSEJO
Un proxy la variable es una aquellas posiciones en para la variable cierta de interés, los cuales
pueden ser inutilizables, demasiado costosos, o demasiado que consumen tiempo para medir. En
búsqueda de clima, por ejemplo, el contenido de oxígeno de núcleos de hielo antiguo está
utilizado como proxy para temperatura. Es útil de tener al menos algún dato en la variable
cierta de interés, así que la fuerza de su asociación con el proxy puede ser evaluado.
El boxplot, mostrado en Figura 3-3, indica que página B dirige a sesiones más
largas que página Un. El medio para cada grupo puede ser computado como
sigue:.
Malo_un <- malo(tiempo_de sesión[tiempo_de sesión['Página']=='Página
Un', 'Tiempo']) significa_b <- malo(tiempo_de sesión[tiempo_de
sesión['Página']=='Página B', 'Tiempo']) significa_b - malo_un
[1] 21.4
Página B tiene la sesión cronometra más grande, en mediano, por 21.4 segundos
versus página Un. La cuestión es si esta diferencia es dentro de la gama de qué
posibilidad aleatoria podría producir, o, alternativamente, es statistically
significativo. Una manera para contestar esto es para aplicar una prueba de
permutación — combina toda la sesión cronometra junta, entonces
repetidamente shuffle y dividirles a grupos de 21 (recuerda que n = 21 para
página
A) Y 15 (n = 15 para B).
Para aplicar una prueba de permutación, necesitamos una función a aleatoriamente
asignar el 36 tiempo de sesión a un grupo de 21 (página Un) y un grupo de 15
(página B):
IDEAS CLAVES
En una prueba de permutación, las muestras múltiples están combinadas, entonces shuffled.
El shuffled los valores son entonces divididos a resamples, y el statistic del interés está
Comparando el valor observado del statistic a el resampled la distribución te dejas para juzgar si
una diferencia observada entre muestras podría ocurrir por casualidad..
Para Lectura más Lejana
Pruebas de aleatorización, 4.º ed., por Eugene Edgington y Patrick Onghena
(Chapman Sala, 2007), pero no consigue demasiado dibujado a el matorral
de nonrandom muestreo.
PLAZOS CLAVES
P-Valor
Dado un modelo de posibilidad que encarna el null hipótesis, el p-el valor es la probabilidad de
obtener resultados como inusuales o extremo como el observó resultados.
Alfa
El umbral de probabilidad de “unusualness” que resultados de posibilidad tienen que superar,
para resultados reales para ser considerados statistically significativos.
Tipo 1 error
Mistakenly Concluyendo un efecto es real (cuándo se debe a posibilidad).
Tipo 2 error
Mistakenly Concluyendo un efecto se debe a posibilidad (cuándo es real).
Precio Un convierte casi 5% mejor que precio B (0.8425% versus 0.8057% — una
diferencia de 0.0368 puntos de porcentaje), bastante grandes para ser
significativos en un negocio de volumen alto. Hemos encima 45,000 puntos de
dato aquí, y está tentando para considerar esto como “dato grande,” no
requiriendo pruebas de importancia estadística (necesitado principalmente a
cuenta para variabilidad de muestreo en muestras pequeñas). Aun así, el
Índices de conversión son tan abajo (menos de 1%) que los valores
significativos reales — las conversiones — son sólo en el 100s, y la medida de
muestra necesitó es realmente determinado por estas conversiones. Podemos
probar si la diferencia en conversiones entre precios Un y B es dentro de la
gama de variación de posibilidad, utilizando un resampling procedimiento. Por
“variación de posibilidad,” significamos la variación aleatoria producida por un
modelo de probabilidad que encarna el null hipótesis que no hay ninguna
diferencia entre los índices (ve “El Null Hipótesis”). El procedimiento de
permutación siguiente pregunta “si los dos precios comparten el mismo índice
de conversión, podría variación de posibilidad produce una diferencia como
grande cuando 5%?”
1. Crear una urna con todos resultados de muestra: esto representa el
índice de conversión compartido supuesto de 382 unos y 45,945 ceros
= 0.008246 = 0.8246%.
IDEAS CLAVES
Pruebas de importancia suelen determinar si un efecto observado es dentro de la gama de
variación de posibilidad para un null modelo de hipótesis.
El p-el valor es la probabilidad que resultados como extremos como el observó los resultados
podrían ocurrir, dados un null modelo de hipótesis.
Testaje de importancia ha sido mucho más pertinente para formal informando de búsqueda que
para ciencia de datos (pero ha sido apagándose recientemente, incluso para el anterior).
Lectura más lejana
Stephen Stigler, “Fisher y el 5% Nivel,” Chance vol. 21, núm. 4 (2008):
12. Este artículo es comentario a escaso encima Ronald Fisher 1925 libro
Métodos Estadísticos para Trabajadores de Búsqueda, y su énfasis en el
5% nivel de importancia..
PLAZOS CLAVES
Prueba statistic
Un métrico para la diferencia o efecto de interés.
t-statistic
Una versión estandarizada de la prueba statistic.
t-Distribución
Una distribución de referencia (en este caso derivado de el null hipótesis), al cual el observado t-
statistic puede ser comparado.
Todas pruebas de importancia requieren que especificas una prueba statistic para
medir el efecto estás interesado en, y ayuda determinas si aquello mentiras de
efecto observado dentro de la gama de variación de posibilidad normal. En un
resampling prueba (ve la discusión de permutación en “Prueba de
Permutación”), la escala de el dato no importa . Creas la referencia (null
hipótesis) distribución de el dato él, y utilizar la prueba statistic cuando es.
En el 1920s y 30s, cuándo testaje de hipótesis estadística era desarrollado, no
sea factible a aleatoriamente shuffle miles de dato de tiempo para hacer un
resampling prueba. Los estadísticos encontraron que una aproximación buena a
la permutación (shuffled) la distribución era el t-prueba, basado en Gossett t-
distribución. Está utilizado para el muy común comparación de dos muestras
— Un/B la prueba — en qué el dato es numérica. Pero en orden para el t-
distribución para ser utilizada sin considerar a escala, una forma estandarizada
de la prueba statistic tiene que ser utilizado.
Un texto de estadística clásico al llegar a este punto muestra varias fórmulas
que incorpora Gossett distribución y demostrar cómo para estandarizar vuestro
dato para compararlo a el estándar t-distribución. Estas fórmulas no son
mostradas aquí porque todo
Software estadístico, así como R y Pitón, incluye manda aquello encarna la
fórmula. En R, la función es t.Prueba:
IDEAS CLAVES
Antes del advenimiento de ordenadores, resampling las pruebas no fueron prácticas y los
estadísticos utilizaron distribuciones de referencia estándar.
PLAZOS CLAVES
Tipo 1 error
Mistakenly Concluyendo que un efecto es statistically significativo.
Ajustamiento de p-valores
Contabilidad para hacer pruebas múltiples en el mismo dato.
Overfitting
Cabiendo el ruido.
B? Es B diferente de
C? Es Un diferente
de C?.
IDEAS CLAVES
Multiplicidad en un estudio de búsqueda o dato proyecto minero (comparaciones múltiples, muchas
variables, muchos modelos, etc.) aumenta el riesgo de concluir que algo es significativo justo por
casualidad..
Para las situaciones que implican comparaciones estadísticas múltiples (i.e., pruebas múltiples de
importancia) hay
Procedimientos de ajustamiento estadístico.
En un dato situación minera, uso de un holdout muestra con labeled variables de resultado pueden
ayudar evitar misleading resultados.
Lectura más lejana
1. Para a escaso exposition de un procedimiento (Dunnett es) para ajustar
para comparaciones múltiples, ve el texto de estadística on-line de
David Lane.
PLAZOS CLAVES
n O medida de muestra
El número de observaciones (también llamó filas o registros ) en el dato.
d.f.
Grados de libertad.
IDEAS CLAVES
El número de grados de libertad (d.f.) Forma parte del cálculo para estandarizar estadística de
prueba así que pueden ser comparados a distribuciones de referencia (t-distribución, F-
distribución, etc.).
Pairwise Comparación
Una prueba de hipótesis (p. ej., de medios) entre dos grupos entre grupos múltiples.
Omnibus Prueba
Una prueba de hipótesis sola de la varianza global entre grupo múltiple significa.
Descomposición de varianza
Separación de componentes. Contribuyendo a un valor individual (p. ej., de la media global, de
un tratamiento malo, y de un error residual).
F-statistic
Un estandarizado statistic aquello mide la extensión a qué diferencias entre grupo
significa supera qué podría ser esperado en un modelo de posibilidad.
SS
“Suma de plazas,” refiriendo a desviaciones de algún valor mediano.
Media 173.75
magnífica
El más tal pairwise comparaciones hacemos, el más grandes el potencial para ser
fooled por posibilidad aleatoria (ve “Testaje Múltiple”). En vez de preocuparse
aproximadamente todas las comparaciones diferentes entre páginas individuales
podríamos posiblemente marca, podemos hacer un solos globales omnibus
prueba que direcciones la cuestión, “Podría todo las páginas tienen el mismo
subyacentes stickiness, y las diferencias entre ellos se deberse la manera
aleatoria en qué un conjunto común de tiempo de sesión consiguió destinado
entre las cuatro páginas?”
El procedimiento utilizó para probar esto es ANOVA. La base para él puede ser
vista en el siguiente resampling procedimiento (especificado aquí para el Un-B-
C-D prueba de página web stickiness):
1. Combinar todo el dato junto en una caja sola
> Biblioteca(lmPerm)
> Resumen(aovp(Página ~ de Tiempo, dato=cuatro_sesiones))
[1] "Encuadres: único SS "
Componente 1 :
Df R Suma Sq R Significa Sq Iter
Pr(Prob) Página 3 831.4 277.13
3104 0.09278 .
Residuals 16 1618.4 101.15
---
Signif. Códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
2. Añade efecto de tratamiento, el cual podría ser negativo (página web variable =
independiente)..
4. Equals: 164.
Dos-Manera ANOVA
El Un-B-C-D prueba justo descrita es un “un-manera” ANOVA, en qué tenemos
un factor (grupo) aquello está variando. Podríamos tener un segundo factor
implicó — decir, “fin de semana versus weekday” — con los datos recogieron en
cada combinación (grupo Un fin de semana, grupo Un weekday, grupo B fin de
semana, etc.). Esto sería un “dos -manera ANOVA,” y manejaríamos él en
moda similar a el-manera ANOVA por identificar el “efecto de interacción.”
Después de identificar el efecto mediano magnífico, y el efecto de tratamiento,
entonces separamos el fin de semana y el weekday observaciones para cada
grupo, y encontrar la diferencia entre las medias para aquellos subconjuntos y la
media de tratamiento.
Puedes ver que ANOVA, entonces dos-manera ANOVA, es los primeros pasos
en la carretera hacia un modelo estadístico lleno, como regresión y logistic
regresión, en qué factores múltiples y sus efectos pueden ser modeled (ve
Capítulo 4).
IDEAS CLAVES
ANOVA Es un estadístico proecdure para analizar los resultados de un experimento con grupos
múltiples.
PLAZOS CLAVES
Chi-Cuadrado statistic
Una medida de la extensión a qué algún dato observado departs de expectativa.
Expectativa o esperó
Cómo esperaríamos el dato para resultar debajo alguna suposición, típicamente el null hipótesis.
d.f.
Grados de libertad.
NOTA
Filas “de medio por columnas” — una 2×3 mesa tiene dos filas y tres
columnas.
Chi-Prueba cuadrada: Un Resampling Aproximación
Supone estás probando tres titulares diferentes — Un, B, y C — y te corridos les
cada cual encima 1,000 visitantes, con los resultados mostrados en Mesa 3-4.
Clic 14 8 12
Los titulares ciertamente aparecen para diferir. Titular Unos regresos casi dos
veces el índice de clic de B. Los números reales son pequeños, aun así. Un
resampling el procedimiento puede probar si los índices de clic difieren a una
extensión más grande que la posibilidad podría causar. Para esta prueba,
necesitamos tener la “distribución” esperada de clics, y, en este caso, aquello
sería bajo el null suposición de hipótesis que todo tres titulares comparten el
mismo índice de clic, para un índice de clic global de 34/3,000. Bajo esta
suposición, nuestra mesa de contingencia parecería Mesa 3-5.
La prueba muestra que este resultado fácilmente podría haber sido obtenido por
randomness.
Chi-Prueba cuadrada: Teoría Estadística
La teoría estadística asintótica muestra que la distribución de el chi-cuadró statistic
puede ser aproximado por un chi-distribución cuadrada. El estándar apropiado
chi- la distribución cuadrada está determinada por los grados de libertad (ve
“Grados de Libertad”). Para una mesa de contingencia, los grados de libertad
están relacionados a el número de filas (r) y columnas (s) como sigue:.
cuadrada: clics
X-cuadró = 1.6659, df = 2, p-valor = 0.4348
> fisher.Prueba(clics)
Dígit Frecuencia
o
0 14
1 71
2 7
3 65
4 23
5 19
6 12
7 45
8 53
9 6
La distribución de los 315 dígitos, mostrados en Figura 3-8 ciertamente mira nonrandom:
Los detectives calcularon la salida de expectativa (31.5 — aquello es qué a menudo cada dígito
ocurriría en una distribución estrictamente uniforme) y utilizó un chi-prueba cuadrada (un resampling el
procedimiento igualmente podría haber sido utilizado) para mostrar que la distribución real era bien
allende la gama de variación de posibilidad normal.
Figura 3-8. Histograma de frecuencia para Imanishi-dato de
laboratorio del Kari
Pertinencia para Ciencia de Datos
La mayoría de usos estándares de el chi-prueba cuadrada, o Fisher prueba
exacta, no es terriblemente pertinente para ciencia de datos. En más
experimentos, si Un-B o Un-B-C…, el objetivo no es sencillamente para
establecer importancia estadística, sino a arive en el tratamiento mejor. Para
este propósito, multi-bandidos armados (ve “Multi-Algoritmo de Bandido del
Brazo”) ofrece una solución más completa.
Una ciencia de dato aplicación de el chi-prueba cuadrada, especialmente
Fisher versión exacta, es en determinar medidas de muestra apropiada para
experimentos de web. Estos experimentos a menudo tienen clic muy bajo índices
y, a pesar de miles de exposiciones, índices de cuenta podrían ser demasiado
pequeños de ceder conclusiones definitivas en un experimento. En tales casos,
Fisher prueba exacta, el chi-prueba cuadrada, y otras pruebas pueden ser útiles
como componente de poder y medida de muestra cálculos (ve “Poder y Medida
de Muestra”).
Chi-Las pruebas cuadradas están utilizadas ampliamente en búsqueda por
detectives en búsqueda de el esquivo statistically significativo p-valorar aquello
dejará publicación. Chi-Pruebas cuadradas, o similares resampling simulacros,
está utilizado en aplicaciones de ciencia de los datos más como filtrar para
determinar si un efecto o la característica es dignos de consideración más lejana
que como prueba formal de importancia. Por ejemplo, están utilizados en
mapeo y estadística espaciales para determinar si el dato espacial conforma a un
especificado null distribución (p. ej., es los delitos concentraron en una área
segura a un grado más grande que la posibilidad aleatoria dejarían ?). También
pueden ser utilizados en selección de característica automatizada en aprendizaje
de máquina, para evaluar clase prevalence a través de características e identificar
características donde el prevalence de una clase segura es inusualmente alto o
abajo, en una manera que no es compatible con variación aleatoria.
IDEAS CLAVES
Un procedimiento común en estadísticas es para probar si cuentas de dato observado son
compatibles con una suposición de independencia (p. ej., propensión para comprar un
elemento particular es independiente de género)..
PLAZOS CLAVES
Multi-Bandido de brazo
Un slot machine imaginario con armas múltiples para el cliente para escoger de, cada cual con
diferente payoffs, aquí tomado para ser una analogía para un multitreatment experimento.
Brazo
Un tratamiento en un experimento (p. ej., “titular Un en una prueba de web”).
Gana
El equivalente experimental de un ganar en el slot machine (p. ej., “clics de cliente en el
enlace”).
Un tradicional Un/B la prueba implica el dato recogido en un experimento,
según un diseño especificado, para contestar una cuestión concreta como, “el
cual es mejor, tratamiento Un o tratamiento B?” La presunción es que una vez
conseguimos una respuesta a aquella cuestión, el experimenting es encima y
procedemos para actuar en los resultados.
Probablemente puedes percibir varias dificultades con aquella aproximación.
Primero, nuestra respuesta puede ser inconclusive: “efectúa no probado.” En otras
palabras,, los resultados de el experimento pueden sugerir un efecto, pero si hay
un efecto, no tenemos un grandes bastante muestra para probarlo (a la
satisfacción de los estándares estadísticos tradicionales). Qué decisión
tomamos? Segundo, podríamos querer empezar aprovechando resultados que
entrados con anterioridad a la conclusión de el experimento. Tercio, podríamos
querer el correctos de cambiar nuestras mentes o para probar algo diferente
basado en dato adicional que entra después del experimento es encima. La
aproximación tradicional a experimentos y pruebas de hipótesis fechas de el
1920s, y es bastante inflexible. El advenimiento de poder de ordenador y el
software ha habilitado más potentes aproximaciones flexibles. Además, ciencia
de dato (y empresarial en general) no es tan preocupado sobre importancia
estadística, pero más preocupado con optimizar resultados y esfuerzo globales.
Algoritmos de bandido, los cuales son muy populares en testaje de web, dejarte
para probar
Tratamientos múltiples inmediatamente y lograr las conclusiones más rápidas
que diseños estadísticos tradicionales. Toman su nombre de slot machine
utilizó en juego, también denominó un-bandidos armados (desde entonces
están configurados de tal manera que extraen dinero de el gambler en un
flujo firme). Si imaginas un slot machine con más de uno arma, cada brazo
que paga en un índice diferente, tendrías un multi-bandido armado, el cual es
el nombre lleno para este algoritmo.
Vuestro objetivo es para ganar tanto dinero como posible, y más
específicamente, para identificar y resolver en el brazo ganador más pronto
más que más tardío. El reto es que no sabes en qué índice las armas te pagan
sólo saber los resultados de estirar el brazo. Supone cada cual “gana” es para
la misma cantidad, ningún asunto qué brazo. Qué difiere es la probabilidad de un
ganar. Supone más allá que te inicialmente probar cada brazo 50 tiempo y
conseguir los resultados siguientes:
Brazo Un: 10 gana fuera
de 50 Brazo B: 2 gana
fuera de 50 Brazo C: 4
IDEAS CLAVES
Tradicional Un/B pruebas envision un proceso de muestreo aleatorio, los cuales pueden dirigir a
exposición excesiva a el tratamiento inferior.
PLAZOS CLAVES
Medida de efecto
La medida mínima del efecto que esperas ser capaz de detectar en una prueba estadística,
como “una 20% mejora en índices de clic”.
Power
La probabilidad de detectar una medida de efecto dada con una medida de muestra dada.
Nivel de importancia
El nivel de importancia estadístico en qué la prueba será conducido.
unos Boxean
B: 5 unos
conducido
IDEAS CLAVES
Descubriendo qué grande una medida de muestra necesitas requiere pensar adelante a la prueba
estadística planeas conducir.
Tienes que especificar la medida mínima del efecto que te quiere detectar.
efecto (poder). Finalmente, tienes que especificar el nivel de importancia (alfa) en qué la
Respuesta
La variable estamos intentando pronosticar.
Synonyms
Variable dependiente, Y-variable, objetivo, resultado
Variable independiente
El variable utilizado para pronosticar la respuesta.
Synonyms
Variable independiente, X-variable, característica, atributo
Récord
El vector de predictor y valores de resultado para un individual concreto o
caso..
Synonyms
Fila, caso, caso, ejemplo
Intercepta .
Synonyms
Cupo valores
Residuals
La diferencia entre el observó valores y el cupo valores.
Synonyms
Errores
Menos plazas
El método de caber una regresión por minimizar la suma de cuadrado residuals.
Synonyms
Normal menos plazas
La Ecuación de Regresión
Estimaciones de regresión lineales sencillas exactamente cuánto Y cambiará
cuándo X cambios por una cantidad segura. Con el coeficiente de correlación,
las variables X y Y es interchangable. Con regresión, estamos intentando
pronosticar el Y variable de X utilizando una relación lineal (i.e., una línea):
Llamada:
lm(Fórmula = PEFR ~ Exposición, pulmón = de dato)
Coeficientes:
(Intercepta) Exposición
424.583 -4.185
o , puede ser interpretado como sigue: para cada año adicional que un
trabajador está expuesto a polvo de algodón, el trabajador PEFR la medida está
reducida por –4.185.
La línea de regresión de este modelo está mostrada en Figura 4-2.
Cabido <-
pronosticar(modelo) resid
<- residuals(modelo)
IDEAS CLAVES
Los modelos de ecuación de la regresión la relación entre una variable de respuesta Y y un
predictor variable X como línea.
En vez de una línea, ahora tenemos un modelo lineal — la relación entre cada
coeficiente y su variable (característica) es lineal.
Synonyms
RMSE
Synonyms
RSE
R-Cuadró
La proporción de la varianza explicada por el modelo, de 0 a 1.
Synonyms
Coeficiente de determinación,
t-statistic
El coeficiente para un predictor, dividido por el error estándar del coeficiente, dando un métrico
de comparar la importancia de variables en el modelo.
Weighted Regresión
Regresión con los registros habiendo pesos diferentes.
Todo de los otros conceptos en regresión lineal sencilla, como caber por menos
plazas y la definición de cupo valores y residuals, extiende a el encuadre de
regresión lineal múltiple. Por ejemplo, el cupo los valores están dados por:
Ejemplo: Dato de Alojamiento de Condado de King
Un ejemplo de utilizar la regresión es en estimar el valor de casas. Condado
assessors tiene que estimar el valor de una casa para los propósitos de evaluar
impuestos. Consumidores de inmueble y los profesionales consultan sitios web
populares como Zillow para constatar un precio justo. Aquí es unas cuantas
filas de albergar dato de Condado de Rey (Seattle), Washington, de el dato
de casa.Marco:
Casa_lm
Llamada:
lm(Fórmula = AdjSalePrice ~ SqFtTotLiving + SqFtLot + Dormitorios
+ de Baños + BldgGrade, casa = de dato, na.Acción = na.Omite)
Coeficientes:
(Intercepta SqFtTotLiving SqFtLot Baños
)
-5.219e+05 2.288e+02 -6.051e-02 -1.944e+04
Dormitorios BldgGrade
-4.778e+04 1.061e+05
Resumen(casa_lm)
Llamada:
lm(Fórmula = AdjSalePrice ~ SqFtTotLiving + SqFtLot + Dormitorios
+ de Baños + BldgGrade, casa = de dato, na.Acción = na.Omite)
Residuals:
Min 1Q Median 3Q Max
-1199508 -118879 -20982 87414 9472982
Coeficientes:
Estimación Std. Error t valor Pr(>|t|)
(Intercepta) -5.219e+05 1.565e+04 -33.349 < 2e-16 ***
SqFtTotLiving 2.288e+02 3.898e+00 58.699 < 2e-16 ***
SqFtLot -6.051e-02 6.118e-02 -0.989 0.323
Baños -1.944e+04 3.625e+03 -5.362 8.32e-08 ***
Dormitorios -4.778e+04 2.489e+03 -19.194 < 2e-16 ***
BldgGrade 1.061e+05 2.396e+03 44.287 < 2e-16 ***
---
Signif. Códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
AVISO
Además de el t-statistic, R y otros paquetes a menudo informarán un p-valor (Pr(>|t|) en
el R producción) y F-statistic . Científicos de dato no generalmente consiguen demasiado
implicados con la interpretación de esta estadística, ni con el asunto de importancia estadística.
Científicos de dato principalmente foco en el t-statistic como guía útil para si para incluir un
predictor en un modelo o no. Alto t-estadísticas (cuáles van con p-los valores cercanos 0) indica
un predictor tendría que ser retenido en un modelo, mientras muy abajo t-las estadísticas indican
un predictor podría ser caído. Ve “P-Valor” para más discusión.
Cross-Validación
Regresión estadística clásica metrics (R2, F-estadísticas, y p-valores) es todo
“en- muestra” metrics — están aplicados a el mismo dato que solió cabido el
modelo. Intuitively, puedes ver que haga mucho sentido para poner aparte
algunos de el dato original, no utilizarlo para caber el modelo, y entonces aplicar
el modelo a el conjunto- aparte (holdout) dato para ver qué bien hace.
Normalmente, utilizarías una mayoría de el dato para caber el modelo, y
utilizar una porción más pequeña para probar el modelo.
Esta idea de “fuera-de-validación” de muestra no es nueva, pero no realmente
tome el control hasta conjuntos de dato más grande devenía más prevalent; con
un conjunto de dato pequeño, los analistas típicamente quieren utilizar todo el
dato y caber el modelo posible mejor.
Utilizando un holdout muestra, aun así, te dejas subject a alguna incertidumbre que
surge sencillamente de variabilidad en el pequeño holdout muestra. Qué
diferente la valoración ser si seleccionaste un diferente holdout muestra?
Cross-la validación extiende la idea de un holdout muestra a múltiple secuencial
holdout muestras. El algoritmo para básico k-cruz de pliegue-la validación es
como sigue:.
1. Pone aparte 1/k de el dato como holdout muestra.
BIC O criterios de información bayesiana: similar a AIC con una pena más fuerte para
incluir variables adicionales a el modelo.
Científicos de dato generalmente no necesitan para preocuparse sobre las diferencias entre
estos en-muestra metrics o la teoría subyacente detrás les.
Cómo encontramos el modelo que minimiza AIC? Uno se acerca es para buscar a
través de todos los modelos posibles, llamados toda regresión de subconjunto.
Esto es computacionalmente caro y no es factible para problemas con dato
grande y muchas variables. Una alternativa atractiva es para utilizar stepwise
regresión, el cual sucesivamente añade y cae predictors para encontrar un
modelo que baja AIC. El paquete de MASA por Venebles y Ripley ofrece un
stepwise función de regresión llamó stepAIC:
Biblioteca(MASA)
Paso <- stepAIC(la casa_llena,
dirección="tanto") paso
Llamada:
lm(Fórmula = AdjSalePrice ~ SqFtTotLiving + Dormitorios + de Baños +
BldgGrade + PropertyType + SqFtFinBasement + YrBuilt, casa = de
dato0, na.Acción = na.Omite)
Coeficientes:
(Intercepta) SqFtTotLiving
6227632.22 186.50
Dormitorios de baños
44721.72 -49807.18
BldgGrade PropertyTypeSingle Familia
139179.23 23328.69
PropertyTypeTownhouse SqFtFinBasement
92216.25 9.04
YrBuilt
-3592.47
Análisis de datos en una forma agregada tal que la variable de peso codifica
cuántas observaciones originales cada fila en el dato agregado representa.
Por ejemplo, con el dato de alojamiento, las ventas más viejas son menos
fiables que ventas más recientes. Utilizando el DocumentDate para determinar el
año de la venta, podemos computar un Peso como el número de años desde
entonces 2005 (el principio de el dato).
Biblioteca(lubridate)
Casa$año = de Año(casa$DocumentDate)
casa$casa = de Peso$Año - 2005
Casa_lm casa_wt
(Intercepta) -521924.722 -584265.244
SqFtTotLiving 228.832 245.017
SqFtLot -0.061 -0.292
Baños -19438.099 -26079.171
Dormitorios -47781.153 -53625.404
BldgGrade 106117.210 115259.026
IDEAS
CLAVES
Modelos de regresión lineales múltiples la relación entre una variable de respuesta Y y
predictor
múltiplo. .
Variables
El más importante metrics para evaluar un modelo es raíz significa error cuadrado (RMSE)
y R- cuadrado (R2).
El error estándar de los coeficientes puede soler medir la fiabilidad de la contribución de una
variable a un modelo.
Stepwise La regresión es una manera a automáticamente determinar qué variables tendrían que
ser incluidas en el modelo.
Weighted La regresión suele da registros seguros más o menos peso en caber la ecuación.
La predicción que Utiliza Regresión
El propósito primario de la regresión en ciencia de datos es predicción. Esto es útil
de mantener en mente, desde entonces regresión, siendo un viejo y método
estadístico establecido, viene con equipaje que es más pertinente a su función de
modeling explicativa tradicional que a predicción..
Intervalo de predicción
Un intervalo de incertidumbre alrededor de un valor pronosticado individual.
Extrapolación
Extensión de un modelo allende la gama del dato utilizó para caberlo.
Los Peligros de Extrapolación
Modelos de regresión no tendrían que soler extrapolar allende la gama de el
dato. El modelo es válido sólo para predictor los valores para qué el dato tiene
valores suficientes (incluso en el caso que el dato suficiente es disponible,
podría haber otros problemas: ve “Probar las Suposiciones: Diagnósticos de
Regresión”). Cuando un caso extremo, supone modelo_lm suele pronosticar
el valor de un 5,000-cuadrado- pies parcela vacía. En tal caso, todo el
predictors relacionó a el edificio tendría un valor de 0 y la ecuación de
regresión cedería una predicción absurda de – 521,900 + 5,000 × –.0605 = –
$522,202. Por qué hizo este pasar? El dato contiene paquetes únicos con los
edificios — allí son ningún registro que corresponde a tierra vacante.
Consiguientemente, el modelo tiene ninguna información para decirlo cómo para
pronosticar el precio de ventas para tierra vacante.
Confianza e Intervalos de Predicción
Mucho de las estadísticas implica entender y midiendo variabilidad
(incertidumbre). El t-estadísticas y p-los valores informaron en producción de
regresión trata esto en una manera formal, el cual es a veces útil para selección
variable (ve “Evaluar el Modelo”). Más útil metrics es intervalos de confianza,
los cuales son intervalos de incertidumbre colocados alrededor coeficientes de
regresión y predicciones. Una manera fácil de entender esto es vía el bootstrap
(ve “El Bootstrap” para más detalles sobre el generales bootstrap
procedimiento). La regresión más común intervalos de confianza encontraron en
producción de software es aquellas para parámetros de regresión (coeficientes).
Aquí es un bootstrap algoritmo para generar intervalos de confianza para
parámetros de regresión (coeficientes) para un dato puesto con P predictors y
n registros (filas):
1. Considerar cada fila (incluyendo variable de resultado) como ticket
“solo” y colocar todo el n ticket en una caja.
individual
El error de punto de dato individual puede ser pensado de como sigue: incluso si
supimos para seguros lo que la ecuación de regresión era (p. ej., si tuvimos un
número enorme de registros de caber él), los valores de resultado reales para un
conjunto dado de predictor los valores variarán .
Por ejemplo, muchos alberga — cada cual con 8 habitaciones, un 6,500 pie
cuadrado parcela, 3 baños, y un sótano — podría tener valores diferentes.
Podemos modelo este error individual con el residuals de el cupo valores. El
bootstrap algoritmo para modeling tanto el error de modelo de la regresión y el
error de punto de dato individual mirarían como sigue:.
1. Tomar un bootstrap muestra de el dato (deletreado fuera en el
detalle más grande más temprano).
IDEAS CLAVES
Extrapolación allende la gama del dato puede dirigir a error.
individuales.
Dummy Variables
Binario 0–1 variables derivaron por recoding dato de factor para uso en regresión y otros
modelos.
Codificación de referencia
El tipo más común de la codificación utilizada por estadísticos, en cuál nivela de un factor está
utilizado como la referencia y otros factores están comparados a aquel nivel.
Synonyms
Codificación de tratamiento
Codificación de desviación
Un tipo de codificación que compara cada nivel contra el en general significar tan opposed a el
nivel de referencia.
Synonyms
Contrastes de suma
Dummy Representación de variables
En el dato de alojamiento de Condado de Rey, hay una variable de factor para el
tipo de propiedad; un subconjunto pequeño de seis registros está mostrado abajo.
Cabeza(casa[, 'PropertyType'])
Fuente: marco de dato local [6 x 1]
PropertyType
(fctr)
1 Multiplex
2 Familia sola
3 Familia sola
4 Familia sola
5 Familia sola
6 Townhouse
Llamada:
lm(Fórmula = AdjSalePrice ~ SqFtTotLiving + SqFtLot + Dormitorios
+ de Baños + BldgGrade + PropertyType, casa = de dato)
Coeficientes:
(Intercepta) SqFtTotLiving
-4.469e+05 2.234e+02
SqFtLot Baños
-7.041e-02 -1.597e+04
Dormitorios BldgGrade
-5.090e+04 1.094e+05
PropertyTypeSingle Familiar PropertyTypeTownhouse
-8.469e+04 -1.151e+05
Mesa(casa$ZipCode)
9800 89118 98001 98002 98003 98004 98005 98006 98007 98008 98010 98011
1 1 358 180 241 293 133 460 112 291 56 163
98014 98019 98022 98023 98024 98027 98028 98029 98030 98031 98032 98033
85 242 188 455 31 366 252 475 263 308 121 517
98034 98038 98039 98040 98042 98043 98045 98047 98050 98051 98052 98053
575 788 47 244 641 1 222 48 7 32 614 499
98055 98056 98057 98058 98059 98065 98068 98070 98072 98074 98075 98077
332 402 4 420 513 430 1 89 245 502 388 204
98092 98102 98103 98105 98106 98107 98108 98109 98112 98113 98115 98116
289 106 671 313 361 296 155 149 357 1 620 364
98117 98118 98119 98122 98125 98126 98133 98136 98144 98146 98148 98155
619 492 260 380 409 473 465 310 332 287 40 358
98166 98168 98177 98178 98188 98198 98199 98224 98288 98354
193 332 216 266 101 225 393 3 4 9
Mesa 4-1. Un
formato de
dato típico
Descripción de
valor
1 Cabina
2 Substandard
10 Muy bueno
5 Feria
12 Lujo
13 Mansión
IDEAS CLAVES
Necesidad de variables del factor para ser convertido a variables numéricas para uso en una
regresión.
El método más común para codificar una variable de factor con P los valores distintos es para
representarles utilizando P-1 dummy variables.
Una variable de factor con muchos niveles, incluso en dato muy grande conjuntos, puede
necesitar ser consolidado a una variable con menos niveles.
Algunos factores tienen nivela aquello está ordenado y puede ser representado como variable
numérica sola.
Interpretando la Ecuación de Regresión
En ciencia de datos, la mayoría de uso importante de regresión es para
pronosticar algunos dependientes (resultado) variable. En algunos casos, aun así,
obteniendo idea de la ecuación él para entender la naturaleza de la relación
entre el predictors y el resultado puede ser de valor. Esta sección proporciona
guiaje encima examinando la ecuación de regresión e interpretándolo .
Variables correlativas
Cuándo el predictor las variables son altamente correlativas, es difícil de interpretar los
coeficientes individuales.
Multicollinearity
Cuándo el predictor las variables tienen perfectas, o cercanos-perfectos, correlación, la
regresión puede ser inestable o imposible de computar..
Synonyms
collinearity
Confounding
Variables
Un importante predictor que, cuándo omitido, ventajas a spurious relaciones en una ecuación de
regresión.
Efectos principales
La relación entre un predictor y la variable de resultado, independiente de otras variables.
Interacciones
Una relación interdependiente entre dos o más predictors y la respuesta.
Correlativo Predictors
En regresión múltiple, el predictor las variables son a menudo correlativas con
cada otro. Cuando un ejemplo, examinar los coeficientes de regresión para el paso
de modelo_lm, cabido en “Selección de Modelo y Stepwise Regresión”:
Paso_lm$coeficientes
(Intercepta) SqFtTotLiving
6.227632e+06 1.865012e+02
Dormitorios de baños
4.472172e+04 -4.980718e+04
BldgGrade PropertyTypeSingle
Familia 1.391792e+05 2.332869e+04
PropertyTypeTownhouse SqFtFinBasement
9.221625e+04 9.039911e+00
YrBuilt
-3.592468e+03
Baños) Llamada:
lm(Fórmula = AdjSalePrice ~ Dormitorios + BldgGrade +
PropertyType + YrBuilt, casa = de dato0, na.Acción =
na.Omite)
Coeficientes:
(Intercepta) Dormitorios
4834680 27657
BldgGrade PropertyTypeSingle Familia
245709 -17604
PropertyTypeTownhouse YrBuilt
-47477 -3161
La función de actualización puede soler añadir o sacar variables de un modelo.
Ahora el coeficiente para dormitorios es positivo — en línea con qué
esperaríamos (aunque es realmente suplente como proxy para medida de casa,
ahora que aquellas variables han sido sacadas).
Las variables correlativas son sólo una emite con interpretar coeficientes de
regresión. En casa_lm, hay no variable a cuenta para la ubicación de la casa,
y el modelo está mezclando junto tipos muy diferentes de regiones. La
ubicación puede ser un confounding variable; ve “Confounding Variables” para
discusión más lejana.
Multicol inearity
Un caso extremo de variables correlativas produce multicollinearity — una
condición en qué hay redundance entre el predictor variables. Perfecto
multicollinearity ocurre cuándo uno predictor la variable puede ser expresada
como combinación lineal de otros. Multicollinearity Ocurre cuando:
Una variable es tiempo múltiple incluido por error.
Multicollinearity En la regresión tiene que ser dirigió — las variables tendrían que
ser sacadas hasta el multicollinearity está ido. Una regresión no tiene una
solución bien definida en la presencia de perfecto multicollinearity. Muchos
paquetes de software, incluyendo R, automáticamente manejar tipos seguros de
multicolliearity. Por ejemplo, si SqFtTotLiving está incluido dos veces en la
regresión de el dato de casa, los resultados son igual en cuanto a la casa_lm
modelo. En el caso de nonperfect multicollinearity, el software puede obtener
una solución pero los resultados pueden ser inestables.
NOTA
Multicollinearity No es tal problema para nonregression métodos como árboles, clustering, y
más cercanos-vecinos, y en tales métodos pueda ser aconsejable de retener P dummies (en
vez de P – 1). Aquello dijo, incluso en aquellos métodos, nonredundancy en predictor las
variables es todavía una virtud.
Confounding Variables
Con variables correlativas, el problema es uno de comisión: incluyendo
variables diferentes que tiene una relación predictiva similar con la respuesta.
Con confounding variables, el problema es uno de omisión: una variable
importante no es incluida en la ecuación de regresión. Naive La interpretación
de los coeficientes de ecuación puede dirigir a conclusiones nulas.
Toma, por ejemplo, la ecuación de regresión de Condado de Rey casa_lm de
“Ejemplo: Dato de Alojamiento de Condado de King”. Los coeficientes de
regresión de SqFtLot , Baños, y los dormitorios son todo negativos. El modelo
de regresión original no contiene un variable de representar ubicación — un
muy importante predictor de precio de casa. A ubicación de modelo, incluir un
variable ZipGroup que categorizes el código de cremallera a uno de cinco
grupos, de menos caros (1) a más caros (5).5
Coeficientes:
(Intercepta) SqFtTotLiving
-6.709e+05 2.112e+02
SqFtLot Baños
4.692e-01 5.537e+03
Dormitorios BldgGrade
-4.139e+04 9.893e+04
PropertyTypeSingle Familiar PropertyTypeTownhouse
2.113e+04 -7.741e+04
ZipGroup2 ZipGroup3
5.169e+04 1.142e+05
ZipGroup4 ZipGroup5
1.783e+05 3.391e+05
Coeficientes:
(Intercepta) SqFtTotLiving
-4.919e+05 1.176e+02
ZipGroup2 ZipGroup3
-1.342e+04 2.254e+04
ZipGroup4 ZipGroup5
1.776e+04 -1.555e+05
SqFtLot Baños
7.176e-01 -5.130e+03
Dormitorios BldgGrade
-4.181e+04 1.053e+05
PropertyTypeSingle Familiar PropertyTypeTownhouse
1.603e+04 -5.629e+04
SqFtTotLiving:ZipGroup2 SqFtTotLiving:ZipGroup3
3.165e+01 3.893e+01
SqFtTotLiving:ZipGroup4 SqFtTotLiving:ZipGroup5
7.051e+01 2.298e+02
Ubicación y medida de casa aparecen para tener una interacción fuerte. Para una
casa en el más bajo ZipGroup, la pendiente es igual como la pendiente para el
efecto principal
SqFtTotLiving, El cual es $177 por pie cuadrado (esto es porque R codificación
de referencia de los usos para variables de factor; ve “Variables de Factor en
Regresión”). Para una casa en el más alto ZipGroup, la pendiente es la suma de
el efecto principal más SqFtTotLiving:ZipGroup5, o $177 + $230 = $447 por
pie cuadrado. En otras palabras,, añadiendo un pie cuadrado en la cremallera más
cara grupo de código aumenta el precio de venta pronosticado por un factor de
casi 2.7, comparado a el impulso en la cremallera menos cara grupo de código.
SELECCIÓN de MODELO CON PLAZOS de
INTERACCIÓN
En los problemas que implican muchas variables, pueda ser desafiar para decidir qué plazos
de interacción tendrían que ser incluidos en el modelo. Varias aproximaciones diferentes
son generalmente tomadas:
En algunos problemas, intuición y conocimiento previos pueden guiar la elección del cual
plazos de interacción para incluir en el modelo.
Un plazo de interacción entre dos variables está necesitado si la relación entre las variables y la
respuesta es interdependientes.
Probando las Suposiciones: Diagnósticos de Regresión
En modeling explicativo (i.e., en un contexto de búsqueda), varios pasos, además
de el metrics mencionó anteriormente (ve “Evaluar el Modelo”), está tomado
para evaluar qué bien el modelo cabe el dato. La mayoría está basado encima
análisis de el residuals, los cuales pueden probar las suposiciones subyacentes
el modelo. Estos pasos no directamente dirigen exactitud predictiva, pero
pueden proporcionar idea útil en un encuadre predictivo.
Estandarizado residuals
Residuals Dividió por el error estándar del residuals.
Outliers
Registros (o valores de resultado) aquello dista del resto del dato (o el resultado pronosticado).
Valor influyente
Un valor o récord cuya presencia o la ausencia hace una diferencia grande en la ecuación de
regresión.
Apalancamiento
El grado de influir que un registro solo tiene en una ecuación de regresión.
Synonyms
Sombrero-valor
No-normal residuals
No-normalmente distribuido residuals puede invalidar algunos requisitos técnicos de regresión,
pero es normalmente no una preocupación en ciencia de datos.
Heteroskedasticity
Cuando algunas gamas de la experiencia de resultado residuals con varianza más alta (puede indicar
un predictor perdiendo de la ecuación).
Synonyms
Añadió parcela de variables
Outliers
En general, un valor extremo, también llamó un outlier, es uno aquello dista de
la mayoría de las otras observaciones. Tan outliers necesidad de ser manejada
para estimaciones de ubicación y variabilidad (ve “Estimaciones de Ubicación”
y “Estimaciones de Variabilidad” ), outliers puede causar problemas con
modelos de regresión. En regresión, un outlier es un récord cuyo real y el valor
dista de el valor pronosticado. Puedes detectar outliers por examinar el
estandarizado residual, el cual es el residual dividido por el error estándar de
el residuals.
hay no teoría estadística que separa outliers de nonoutliers. Bastante, hay
(arbitrario) reglas de pulgar para cómo distante de el bulk del dato unas
necesidades de observación para ser para apellidarse un outlier. Por ejemplo,
con el boxplot, outliers es aquel dato señala que aquello es demasiado lejos
encima o bajo las fronteras de caja (ve “Percentiles y Boxplots” ), donde
“también lejos” = “más de 1.5 tiempo el inter-quartile gama.” En regresión, el
estandarizado residual es el métrico aquello es típicamente utilizado para
determinar si un registro está clasificado como un outlier. Estandarizado
residuals puede ser interpretado como “el número de errores estándares fuera de
la línea de regresión.”
Dejado está cabido una regresión a las ventas de casa de Condado de Rey dato
para todas las ventas en código de cremallera 98105:
En este caso, aparece que hay algo incorrecto con el registro: una casa de
aquella medida típicamente vende para mucho más que $119,748 en aquel
código de cremallera. Figura 4-4 espectáculos un excerpt de el statuatory
acción de esta venta: es claro que la venta implicó sólo interés parcial en la
propiedad. En este caso, el outlier corresonds a una venta que es anómalo y no
tendría que ser incluido en la regresión. Outliers También podría ser el
resultado de otros problemas, como una “entrada de dato” de dedo gordo o un
mismatch de unidades (p. ej., informando una venta en miles de dólares versus
sencillamente dólares).
Figura 4-4. Estatutario warrant de acción para el más grande negativo residual
Mesa 4-2 compara la regresión con el conjunto de dato lleno y con altamente
puntos de dato influyente sacaron. El coeficiente de regresión para Baños cambia
bastante dramáticamente.7
SqFtLot 39 33
Para propósitos de caber una regresión que reliably pronostica dato futuro,
identificando las observaciones influyentes es sólo útiles en conjuntos de dato
más pequeño. Para las regresiones que implican muchos registros,
probablemente no puede que cualquiera la observación llevará peso suficiente
para causar influencia extrema en la ecuación cabida (a pesar de que la regresión
todavía puede tener grande outliers). Para propósitos de detección de anomalía,
aun así, identificando las observaciones influyentes pueden ser muy útiles.
Heteroskedasticity, No-Normalidad y Errores Correlativos
Los estadísticos pagan atención considerable a la distribución de el residuals.
Resulta que normal menos plazas (ve “Menos Plazas”) es unbiased, y en
algunos casos el “optimal” estimador, bajo una gama ancha de suposiciones
distribucionales. Esto significa que en más problemas, científicos de dato no
necesitan para ser demasiado preocupados con la distribución de el residuals.
La distribución de el residuals es pertinente principalmente para la validez de
inferencia estadística formal (pruebas de hipótesis y p-valores), el cual es de la
importancia mínima a científicas de dato se preocupó principalmente con exactitud
predictiva. Para inferencia formal para ser plenamente válido, el residuals está
supuesto para ser normalmente distribuido, tiene la misma varianza, y ser
independiente. Una área donde esto puede ser de preocuparse a científicos de dato
es el cálculo estándar de intervalos de confianza para pronosticó valores, los
cuales están basados a las suposiciones sobre el residuals (ve “Confianza e
Intervalos de Predicción”).
Heteroskedasticity Es la carencia de varianza residual constante a través de la
gama de el pronosticó valores. En otras palabras,, los errores son más grandes
para algunas porciones de la gama que para otros. El ggplot2 paquete tiene
algunos herramientas convenientes para analizar residuals.
Las parcelas de código siguientes el absolutos residuals versus el pronosticó
valores para el lm_98105 regresión cabida en “Outliers”.
df <- Datos.Marco(
resid = residuals(lm_98105),
pred =
pronosticar(lm_98105))
ggplot(df, aes(pred, abs(resid))) +
geom_punto() +
geom_Liso()
Los estadísticos también pueden comprobar la suposición que los errores son
independientes. Esto es particularmente cierto para datos que está recogido con
el tiempo. El Durbin-Watson statistic puede soler detectar si hay significativo
autocorrelation en una regresión que implica dato de serie del tiempo.
Incluso aunque una regresión puede violar uno de las suposiciones
distribucionales, tener que nos preocupamos? Más a menudo en ciencia de datos,
el interés es principalmente en predictivo
Exactitud, así que alguna revisión de heteroskedasticity puede ser en orden.
Puedes descubrir que hay alguna señal en el dato que vuestro modelo no ha
capturado. Satisfaciendo suposiciones distribucionales sencillamente por el bien
de validar inferencia estadística formal (p-valores, F-estadísticas, etc.), aun así,
no es que importante para el científico de dato.
SCATTERPLOT SMOOTHERS
La regresión es aproximadamente modeling la relación entre la respuesta y predictor
variables. En evaluar un modelo de regresión, es útil de utilizar un scatterplot más liso a
visually relaciones de punto destacado entre dos variables.
Por ejemplo, en Figura 4-7, un liso de la relación entre el absoluto residuals y el valor
pronosticado muestra que la varianza del residuals depende de el valor del residual. En este caso,
el loess la función estuvo utilizada; loess trabajos por repetidamente cabiendo una serie de
regresiones locales a subconjuntos contiguos para venir arriba con un liso. Mientras loess es
probablemente el más generalmente utilizado más liso, otro scatterplot smoothers es disponible en
R, como super liso (supsmu) y kernal suavizando (ksmooth). Para los propósitos de evaluar un
modelo de regresión, hay típicamente ninguna necesidad de preocuparse sobre los detalles de
estos scatterplot suaviza.
Parcelas Residuales parciales y Nonlinearity
Las parcelas residuales parciales son una manera de visualizar qué bien la
acceso estimada explica la relación entre un predictor y el resultado. Junto con
detección de outliers, esto es probablemente el diagnóstico más importante para
científicos de datos. La idea básica de una parcela residual parcial es para
aislar la relación entre un predictor variable y la respuesta, teniendo en cuenta
todo del otro predictor variables. Un parcial residual podría ser pensado de
como “valor de resultado” sintético, combinando la predicción basada en un solo
predictor con el real residual de la ecuación de regresión llena. Un parcial
residual para predictor Es el normal residual más el plazo de regresión
asociado con :
Este nonlinearity las marcas notan en este caso: añadiendo 500 pies en una casa
pequeña hace una mucha diferencia más grande que añadiendo 500 pies en una
casa grande. Esto sugiere que, en vez de un plazo lineal sencillo para
SqFtTotLiving, un nonlinear el plazo tendría que ser considerado (ve
“Polinómico y Spline Regresión”).
IDEAS CLAVES
Mientras outliers puede causar problemas para conjuntos de dato pequeño, el interés primario con
outliers es para identificar
Problemas con el dato, o localizar anomalías.
Registros solos (incluyendo regresión outliers) puede tener una influencia grande en una ecuación de
regresión con dato pequeño, pero estos lavados de efecto fuera en dato grande.
Si el modelo de regresión está utilizado para inferencia formal (p-valores y el gustar), entonces
suposiciones seguras sobre la distribución del residuals tendría que ser comprobado. En general,
aun así, la distribución de residuals no es crítico en ciencia de datos.
El parcial residuals la parcela puede soler qualitatively evaluar la acceso para cada plazo
de regresión, posiblemente dirigiendo a especificación de modelo alternativo.
Polinómico y Spline Regresión
La relación entre la respuesta y un predictor la variable no es necesariamente
lineal. La respuesta a la dosis de un fármaco es a menudo nonlinear: plegando la
dosificación generalmente no dirige a una respuesta plegada. La demanda para un
producto no es una función lineal de dólares de marketing gastó desde entonces,
en algún punto, la demanda probablemente puede ser saturada. Hay varias
maneras que la regresión puede ser extendida para capturar estos nonlinear
efectos.
Regresión polinómica
Añade plazos polinómicos (plazas, cubos, etc.) a una regresión.
Spline Regresión
Cabiendo una curva lisa con una serie de segmentos polinómicos.
Nudos
Valores que separados spline segmentos.
Synonyms
GAM
NONLINEAR REGRESIÓN
Cuándo charla de estadísticos sobre nonlinear regresión, están refiriendo a modelos que no
puede ser cabido utilizando menos plazas. Qué clase de modelos es nonlinear? Esencialmente
todos los modelos donde la respuesta no puede ser expresada como combinación lineal del
predictors o algunos transforman del predictors. Nonlinear Modelos de regresión son más
duros y computacionalmente más intensivos de caber, desde entonces requieren optimización
numérica. Por esta razón, es generalmente preferido para utilizar un modelo lineal si es posible..
Polinómico
La regresión polinómica implica incluir plazos polinómicos a una ecuación de
regresión. El uso de fechas de regresión polinómica atrás casi a el desarrollo de
regresión él con un papel por Gergonne en 1815. Por ejemplo, una regresión
cuadrática entre la respuesta Y y el predictor X tomaría la forma:
La regresión polinómica puede ser cabida en R a través del poly función. Por
ejemplo, las acceso siguientes un polinomio cuadrático para SqFtTotLiving con
el dato de alojamiento de Condado de Rey:
Llamada:
lm(Fórmula = AdjSalePrice ~ poly(SqFtTotLiving, 2) + SqFtLot +
BldgGrade + Dormitorios + de Baños, casa = de dato_98105)
Coeficientes:
(Intercepta) poly(SqFtTotLiving, 2)1
-402530.47 3271519.49
poly(SqFtTotLiving, 2)2 SqFtLot
776934.02 32.56
BldgGrade Baños
135717.06 -1435.12
Dormitorios
-9191.94
hay ahora dos coeficientes asociaron con SqFtTotLiving : uno para el plazo
lineal y uno para el plazo cuadrático.
La parcela residual parcial (ve “Parcelas Residuales Parciales y Nonlinearity” )
indica alguna curvatura en la ecuación de regresión asociada con SqFtTotLiving
. La línea cabida más estrechamente empareja el liso (ve “Splines”) de el parcial
residuals cuando comparado a una acceso lineal (ve Figura 4-10).
Figura 4-10. Una regresión polinómica cabida para el variable SqFtTotLiving (línea sólida) versus un
liso (dashed línea; ver la sección siguiente sobre splines)
Splines
La regresión polinómica sólo captura una cantidad segura de curvatura en un
nonlinear relación. Añadiendo en plazos de orden alto, como un polinomio
cuártica cúbico, a menudo dirige a indeseable “wiggliness” en la ecuación de
regresión. Una alternativa, y a menudo superior, aproximación a modeling
nonlinear las relaciones es para utilizar splines. Splines Proporciona una manera
a smoothly interpolate entre puntos fijos. Splines Era originalmente utilizado por
draftsmen para dibujar una curva lisa, particularmente en barco y edificio de
aeronave.
El splines estuvo creado por doblar una pieza delgada de la madera que utiliza
pesos, referidos a tan “patos”; ve Figura 4-11.
Figura 4-11. Splines Era originalmente creó utilizar bendable madera y “patos,” y estuvo utilizado
como draftsman herramienta para caber curvas. Cortesía de foto Bob Perry.
Biblioteca(mgcv)
lm_gam <- gam(AdjSalePrice ~ s(SqFtTotLiving) + SqFtLot +
Dormitorios + de baños + BldgGrade, casa=de
dato_98105)
IDEAS CLAVES
Outliers En una regresión es registros con un grande residual.
Un plazo de interacción entre dos variables está necesitado si el efecto de uno variable depende
de el
Nivel del otro.
1 Esto y secciones subsiguientes en este capítulo © 2017 Datastats, LLC, Peter Bruce y Andrew
Bruce, utilizado por permiso.
2 En estadística bayesiana, el valor cierto está supuesto para ser una variable aleatoria con una distribución
especificada. En el contexto bayesiano, en vez de estimaciones de parámetros desconocidos, hay
distribuciones posteriores y previas..
3 El -1 argumento en el modelo.Matricial produce uno caliente codificando representación (por
sacar el interceptar, por ello el “-”). Otherwise, el default en R es para producir una matriz con P – 1
columnas con el primer nivel de factor como referencia.
4 Esto es unintuitive, pero puede ser explicado por el impacto de ubicación como confounding
variable; ve “Confounding Variables”.
5 Hay 82 códigos de cremallera en Condado de Rey, muchos con justos un handful de ventas. Un
alternativo a directamente utilizando código de cremallera como variable de factor, ZipGroup grupos
códigos de cremallera similar a un grupo solo. Ve “Variables de Factor con Muchos Niveles” para detalles.
6 El sombrero de plazo-el valor proviene la idea de la matriz de sombrero en regresión. La regresión
lineal múltiple puede ser expresada por la fórmula Dónde es la matriz de sombrero. El
sombrero-los valores corresponden a la diagonal de .
7 El coeficiente para Baños deviene negativo, el cual es unintuitive. La ubicación no ha sido tenida en
cuenta y el código de cremallera 98105 contiene áreas de disparate tipos de casas. Ve “Confounding
Variables” para una discusión de confounding variables.
Capítulo 5. Clasificación
Científicos de dato son a menudo afrontados con un problema que requiere una
decisión automatizada. Es un email un intento en phishing? Es un cliente
probablemente para agitar? Es el usuario de web probablemente a clic en un
anuncio? Estos son todos problemas de clasificación .
La clasificación es quizás la forma más importante de predicción: el
objetivo es para pronosticar si un registro es un 0 o un 1 (phishing/no-
phishing, clic/ no clic, la mantequera/no agita ), o en algunos casos, uno de
varias categorías (por ejemplo, Gmail está filtrando de vuestra bandeja de
entrada a “primario,” “social,” “promocional,” o “foros”)..
A menudo, necesitamos más de una clasificación binaria sencilla: queremos
saber la probabilidad pronosticada que un caso pertenece a una clase.
Más que habiendo un modelo sencillamente asigna una clasificación binaria, más
los algoritmos pueden regresar una puntuación de probabilidad (propensión) de
pertenecer a la clase de interés. De hecho, con logistic regresión, el default
producción de R es en el registro-odds escala, y esto tiene que ser transformado
a una propensión. Un corredero cutoff entonces puede soler convertir la
puntuación de propensión a una decisión. La aproximación general es como
sigue:.
1. Establecer un cutoff probabilidad para la clase de interesar encima
cuál consideramos un récord cuando perteneciendo a aquella clase.
El más alto el cutoff, los menos registros pronosticaron cuando 1 — aquello es,
perteneciendo a la clase de interés. El más bajo el cutoff, el más los registros
pronosticaron cuando 1.
Este capítulo cubre varias técnicas claves para clasificación y estimando
propensiones; métodos adicionales que puede ser utilizado ambos para la
clasificación y la predicción numérica están descritas en el capítulo
próximo.
MÁS DE DOS CATEGORÍAS?
La mayoría vasta de problemas implica una respuesta binaria. Algunos problemas de clasificación, aun
así, implicar una respuesta con más de dos resultados posibles. Por ejemplo, en el aniversario del
contrato de suscripción de un cliente, podría haber tres resultados: las hojas de cliente, o
“mantequeras” (Y=2), continúa en un mes-a-mes (Y=1) contrato, o firma un contrato de plazo largo
nuevo (Y=0). El objetivo es para pronosticar Y = j para j = 0, 1 o 2. La mayoría de los métodos de
clasificación en este capítulo pueden ser aplicados, tampoco directamente o con adaptaciones modestas,
a respuestas que tiene más de dos resultados. Incluso en el caso de más de dos resultados, el
problema a menudo puede ser recast a una serie de los problemas binarios que utilizan probabilidades
condicionales. Por ejemplo, para pronosticar el resultado del contrato, puedes solucionar dos predicción
binaria problemas:
Pronosticar si Y = 0 o Y > 0.
En este caso, hace sentido para romper arriba de el problema a dos casos: si las mantequeras de
cliente, y si no agitan , qué tipo de contrae escogerán . De un punto de vista que cabe modelo, es a
menudo ventajoso de convertir el multiclass problema a una serie de problemas binarios. Esto es
particularmente cierto cuándo una categoría es mucho más común que las otras categorías.
Naive Bayes
El naive Bayes el algoritmo utiliza la probabilidad de observar predictor valores,
dados un resultado, para estimar la probabilidad de observar resultado Y = i, dado
un conjunto de predictor valores.1
Probabilidad condicional
La probabilidad de observar algún acontecimiento (dice X = i) dado algunos otro acontecimiento
(dice Y = i), escrito cuando
.
Probabilidad posterior
La probabilidad de un resultado después del predictor la información ha sido incorporada (en
contraste a la probabilidad previa de resultados, no tomando predictor información a cuenta)..
Para entender clasificación bayesiana, podemos empezar fuera por imaginar “no-
naive” clasificación bayesiana. Para cada récord de ser clasificado:
1. Encontrar todo los otros registros con el mismo predictor perfil (i.e.,
donde el predictor los valores son el mismo)..
NOTA
Predictor Las variables tienen que ser categóricas (factor) variables en el estándar naive Bayes
algoritmo. Ve “Numérico Predictor Variables” para dos workarounds para utilizar variables
continuas.
Por qué la clasificación bayesiana Exacta Es Poco práctica
Cuándo el número de predictor las variables supera un handful, muchos de los
registros de ser clasificados será sin partidos exactos. Esto puede ser entendido
en el contexto de un modelo para pronosticar que vota en la base de variables
demográficas. Incluso un sizable la muestra no puede contener incluso un
partido solo para un nuevo récord quién es un hispano macho con ingresos
altos de los EE.UU. Midwest quién votó en la última elección, no votó en la
elección previa, tiene tres hijas y un hijo, y está divorciado. Y esto es justo
ocho variables, un número pequeño para la mayoría de problemas de
clasificación. La adición de justo una variable nueva sola con cinco categorías
igualmente frecuentes reduce la probabilidad de un partido por un factor de 5..
AVISO
A pesar de su nombre, naive Bayes no es considerado un método de estadística bayesiana.
Naive Bayes Es un dato–método conducido , empírico que requiere relativamente poca pericia
estadística. El nombre proviene el Bayes cálculo estilo regla en formar las predicciones —
específicamente el cálculo inicial de predictor probabilidades de valor dadas un resultado, y
entonces el cálculo final de probabilidades de resultado.
El Naive Solución
En el naive Bayes solución, ya no restringimos el cálculo de probabilidad a
aquellos graba que partido el récord de ser clasificado. En cambio, utilizamos el
conjunto de dato entero. El naive Bayes la modificación es como sigue:.
1. Para una respuesta binaria Y = i (i = 0 o 1), estimación las
probabilidades condicionales individuales para cada predictor
; Estos son las probabilidades que el predictor el
valor es en el registro cuándo observamos Y = i. Esta probabilidad
está estimada por la proporción de X j valores entre el Y = i
registros en el conjunto de formación.
Este naive Bayes el algoritmo también puede ser declarado como una ecuación
para la probabilidad de observar resultado Y = i, dado un conjunto de predictor
valores :
Por qué es esta fórmula llamó “naive”? Hemos hecho una suposición de
simplificar que la probabilidad condicional exacta de un vector de predictor
valores, dados observando un resultado, es suficientemente bien estimado por el
producto de las probabilidades condicionales individuales . En
otras palabras,, en estimar
En vez de. , estamos suponiendo
Biblioteca(klaR)
naive_Modelo <- NaiveBayes(casa ~ de propósito_ + del resultado_ + emp_len_,
Dato = na.Omite(dato_de préstamo))
naive_Modelo$mesa
$Propósito_
var
Agrupando consolidación_de deuda de tarjeta_de crédito mejora_de casa la
compra_importante pagó fuera 0.1857711 0.5523427
0.07153354 0.05541148
default 0.1517548 0.5777144 0.05956086 0.03708506
var
Agrupando médico otro negocio_pequeño
pagó fuera 0.01236169 0.09958506 0.02299447
default 0.01434993 0.11415111 0.04538382
$Casa_
var
Agrupando HIPOTECA el ALQUILER
PROPIO pagó fuera 0.4966286
0.08043741 0.4229340
default 0.4327455 0.08363589 0.4836186
$emp_len_
var
Agrupación > 1 Año < 1 Año
pagó fuera 0.9690526
0.03094744
default 0.9523686 0.04763140
Préstamo_nuevo
Casa_ de propósito_ emp_len_
1 HIPOTECA_empresarial pequeña > 1 Año
Pronostica(naive_modelo, préstamo_nuevo)
$Clase
[1] default
Niveles: pagado de default
$Posterior
Pagado de default
[1,]
0.3717206 0.6282794
La predicción también regresa una estimación posterior de la probabilidad de
default..
El naive bayesiano classifier es sabido al producto predispuso estimaciones. Aun
así, donde el objetivo es a registros de rango según la probabilidad que Y = 1,
unbiased estimaciones de la probabilidad no es necesitada y naive Bayes produce
resultados buenos.
Numérico Predictor Variables
De la definición, vemos que el bayesianos classifier trabajos sólo con
categóricos predictors (p. ej., con spam clasificación, donde presencia o
ausencia de palabras, frases, caracteres, y tan encima, mentiras en el fondo de
la tarea predictiva). Para aplicar naive Bayes a numérico predictors, uno de dos
aproximaciones tiene que ser tomado:
Cubo y convertir el numérico predictors a categórico predictors y aplicar el
algoritmo de la sección anterior.
AMONESTACIÓN
Cuándo un predictor la categoría es ausente en el dato de formación, el algoritmo asigna cero
probabilidad a la variable de resultado en dato nuevo, más que sencillamente ignorando este
variable y utilizando la información de otras variables, cuando otros métodos pueden. Esto es
algo para parar atención a cuándo binning variables continuas.
IDEAS CLAVES
Naive Bayes Trabajos con categóricos (factor) predictors y resultados.
Pregunta, “Dentro de cada categoría de resultado, el cual predictor las categorías son más
probables?”
Covarianza
Una medida de la extensión a cuál variable varía en concierto con otro (i.e., dirección y
magnitud similares).
Discriminant Función
La función que, cuándo aplicado al predictor variables, maximizes la separación de las clases.
Discriminant Pesos
Las puntuaciones que resultado de la aplicación del discriminant función, y suele
probabilidades de estimación de pertenecer a una clase u otro.
AVISO
Lineal discriminant el análisis no tendría que ser confundido con Latente Dirichlet Asignación,
también referido a tan LDA. Latente Dirichlet la asignación está utilizada en texto y
procesamiento de lengua natural y es no relacionado a lineal discriminant análisis.
Matriz de covarianza
Para entender discriminant análisis, es primer necesario de introducir el
concepto de covarianza entre dos o más variables. La covarianza mide la
relación entre dos variables y . Denotar el malo para cada variable
por Y (Ve “Malo”). La covarianza. Entre y está dado por:
NOTA
Recuerda que la desviación estándar suele normalizar un variable a un z-puntuación; la
matriz de covarianza está utilizada en un multivariate extensión de este proceso de
estandarización. Esto es sabido cuando
Mahalanobis Distancia (ve Otra Distancia Metrics) y está relacionado al LDA función.
Fisher Lineal Discriminant
Para simplicidad, centramos en un problema de clasificación en qué queremos
pronosticar un resultado binario y utilizando justo dos variables numéricas
continuas .
Técnicamente, discriminant el análisis supone el predictor las variables son
normalmente variables continuas distribuidas, pero, en práctica, los trabajos de
método bien incluso para nonextreme salidas de normalidad, y para binario
predictors. Fisher lineal discriminant distingue variación entre grupos, por un
lado, de variación dentro de grupos en el otro. Específicamente, buscando
para dividir los registros a dos grupos, LDA foco en maximizing el “entre” suma de
plazas. (Midiendo la variación entre los dos grupos) pariente a el
“dentro” suma de plazas. (Midiendo el dentro-variación de grupo). En
este caso, los dos grupos corresponden a los registros Para qué y = 0 y
los registros Para qué y = 1. El método encuentra la combinación lineal
Aquello maximizes que suma de proporción de plazas.
Biblioteca(MASA)
Préstamo_lda <- lda(pago ~ de puntuación_de prestatario + de resultado_inc_proporción,
Préstamo=de dato3000)
Préstamo_lda$scaling
LD1
Puntuación_de prestatario -6.2962811
Pago_inc_proporción 0.1288243
UTILIZANDO DISCRIMINANT ANÁLISIS PARA
SELECCIÓN de CARACTERÍSTICA
Si el predictor las variables están normalizadas con anterioridad a correr LDA, el discriminator
los pesos son medidas de importancia variable, por ello proporcionando un método
computacionalmente eficaz de selección de característica.
Una parcela de las ayudas de predicciones ilustra qué LDA trabajos. Utilizando
la producción de el pronosticar función, una parcela de la probabilidad
estimada de default está producido como sigue:
Esta función está aplicada a los registros de derivar pesos, o puntuaciones, para cada registro
(un peso para cada clase posible) aquello determina su clase estimada.
Lectura más lejana
Elementos de Aprendizaje Estadístico, 2.º ed., por Trevor Hastie, Robert
Tibshirani, Jerome Freidman, y su primo más corto, Una Introducción a
Aprendizaje Estadístico, por Gareth James, Daniela Witten, Trevor
Hastie, y Robert Tibshirani (ambos de Salmer). Ambos tienen una sección
en discriminant análisis.
El dato Minero para Empresarial Analytics, 3.º ed., por Galit Shmueli,
Peter Bruce, y Nitin Patel (Wiley, 2016, con variantes para R, Excel, y
JMP) tiene un capítulo lleno en discriminant análisis.
Logit
La función que mapas la probabilidad de pertenecer a una clase con una gama de ± ∞ (en vez
de 0 a 1)..
Synonym
Registro odds (ve abajo)
Odds
La proporción de “éxito” (1) a “no éxito” (0).
Registro odds
La respuesta en el modelo transformado (ahora lineal), el cual consigue mapped atrás a una
probabilidad.
Aun así, cabiendo este modelo no asegura que p acabará entre 0 y 1, como
mosto de probabilidad.
En cambio, nosotros modelo p por aplicar un logistic respuesta o inverse logit
función a el predictors:
logistic_Modelo
Coeficientes:
(Intercepta) pago_inc_proporción
1.26982 0.08244
Propósito_de consolidación_de deuda de propósito_mejora_de
casa
0.25216 0.34367
Propósito_propósito_de compra importante_médico
0.24373 0.67536
Propósito_otro
propósito_negocio_pequ
eño 0.59268 1.21226
En casa_ALQUILER de casa_PROPIA
0.03132 0.16867
emp_len_ < 1 prestatario de Año_puntuación
0.44489 -4.63890
X:
Esto está interpretado como el odds que Y = 1 cuándo X = 1 versus el odds
que Y = 1 cuándo X = 0. Si el odds la proporción es 2, entonces el odds que Y
= 1 es dos tiempo más alto cuándo X = 1 versus X = 0.
Por qué molestar con un odds proporción, en vez de probabilidades? Trabajamos
con odds porque el coeficiente En el logistic la regresión es el registro de el
odds proporción para
.
Un ejemplo hará esto más explícito. Para el modelo cabido en “Logistic
Regresión y el GLM”, el coeficiente de regresión para propósito_el
negocio_pequeño es 1.21226. Esto significa que un préstamo a un negocio
pequeño comparó a un préstamo para pagar fuera deuda de tarjeta del crédito
reduce el odds de defaulting versus el ser pagó fuera por
. Claramente, préstamos para el propósito de crear o
expandiendo un negocio pequeño es considerablemente más arriesgado que
otros tipos de préstamos..
Figura 5-3 espectáculos la relación entre el odds proporción y registro-odds
proporción para odds las proporciones más grandes que 1. Porque los
coeficientes son en la escala de registro, un aumento de 1 en los resultados de
coeficiente en un aumento de En el odds proporción.
Figura 5-3. La relación entre el odds proporción y el registro-odds proporción
de el modelo
Cabiendo el modelo
La regresión lineal está cabida utilizando menos plazas, y la calidad de la
acceso está evaluada utilizando RMSE y R-estadística cuadrada. En logistic
regresión (diferente en regresión lineal), hay no solución de forma cerrada y
el modelo tienen que ser cabidos utilizando máximos likelihood valoración
(MLE). Máximo likelihood la valoración es un proceso que intenta encontrar el
modelo que es más probablemente para tener producido el dato vemos. En el
logistic ecuación de regresión, la respuesta no es 0 o 1 sino una estimación de
el registro odds que la respuesta es 1. El MLE encuentra la solución tal que el
registro estimado odds más describe el resultado observado. La mecánica de el
algoritmo implica un quasi-optimización de Newton que itera entre un paso de
puntuar (Fisher está puntuando), basado en los parámetros actuales, y una
actualización a los parámetros para mejorar la acceso..
Afortunadamente, más los usuarios no necesitan para los preocuparse con los
detalles de el algoritmo de caber desde este está manejado por el software. La
mayoría de científicos de dato no necesitarán preocuparse sobre el método de
caber, otro que entendiendo que es una manera de encontrar un modelo bueno
bajo suposiciones seguras.
MANEJANDO VARIABLES de FACTOR
En logistic regresión, variables de factor tendrían que ser coded tan en regresión lineal; ve
“Variables de Factor en Regresión”. En R y otro software, esto es normalmente manejado
automáticamente y generalmente la referencia que codifica está utilizado. Todo de los
otros métodos de clasificación cubrió en este capítulo típicamente utiliza el caliente encoder
representación (ve “Uno Caliente Encoder”).
Evaluando el Modelo
Como otros métodos de clasificación, logistic la regresión está evaluada por qué
con exactitud el modelo clasifica dato nuevo (ve “Evaluar Modelos de
Clasificación”). Cuando con regresión lineal, algunos herramientas estadísticas
estándares adicionales es disponible de evaluar y mejorar el modelo. Junto con
el estimó coeficientes, R informa el error estándar de los coeficientes (SE), un
z-valor, y un p-valor:
Resumen(logistic_modelo
) Llamada:
glm(Pago = de resultado ~ de la fórmula_inc_casa + de propósito_ + de
la proporción_ + emp_len_ + puntuación_de prestatario, binomio =
"familiar", dato = de préstamo_del dato)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.71430 -1.06806 -0.04482 1.07446 2.11672
Coeficientes:
Estimaci Std. Error z Valor Pr(>|z|)
ón
(Intercepta) 1.269822 0.051929 24.453 < 2e-16 ***
Pago_inc_proporción 0.082443 0.002485 33.177 < 2e-16 ***
Consolidación_de deuda_del 0.252164 0.027409 9.200 < 2e-16 ***
propósito
Mejora_de casa_del 0.343674 0.045951 7.479 7.48e-14 ***
propósito
Propósito_compra_important 0.243728 0.053314 4.572 4.84e-06 ***
e
El propósito_médico 0.675362 0.089803 7.520 5.46e-14 ***
Propósito_otro 0.592678 0.039109 15.154 < 2e-16 ***
Propósito_negocio_pequeño 1.212264 0.062457 19.410 < 2e-16 ***
En casa_PROPIO 0.031320 0.037479 0.836 0.403
ALQUILER_de casa 0.168670 0.021041 8.016 1.09e-15 ***
emp_len_ < 1 Año 0.444892 0.053342 8.340 < 2e-16 ***
Puntuación_de prestatario -4.638902 0.082433 -56.275 < 2e-16 ***
---
Signif. Códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '
para ser 1)
AVISO
Algunos de la producción de la función de resumen eficazmente puede ser ignorada. El
parámetro de dispersión no aplica a logistic regresión y es allí para otros tipos de GLMs. El
residual deviance y el número de puntuar las iteraciones están relacionadas a el máximos
likelihood cabiendo método; ve “Máximo Likelihood Valoración”.
Varias transformaciones están necesitadas para conseguir el modelo a una forma que puede ser
cabido como modelo lineal, con el registro del odds proporción como la variable de respuesta.
Después del modelo lineal es acceso (por un proceso iterativo), el registro odds es mapped atrás a
una probabilidad.
Exactitud
El porcentaje (o proporción) de los casos clasificados correctamente.
Matriz de confusión
Una exhibición tabular (2×2 en el caso binario) de las cuentas récord por su clasificación
pronosticada y real estado.
Sensibilidad
El porcentaje (o proporción) de 1s correctamente clasificado.
Synonym
Recuerda
Especificidad
El porcentaje (o proporción) de 0s correctamente clasificado.
Precisión
El porcentaje (proporción) de pronosticó 1s aquello es de hecho 1s.
ROC Curva
Una parcela de sensibilidad versus especificidad.
Ascensor
Una medida de cómo eficaz el modelo es en identificar (comparitively raro) 1s en probabilidad
diferente cutoffs.
El pronosticó los resultados son columnas y los resultados ciertos son las filas
. Los elementos diagonales de el espectáculo matricial el número de las
predicciones correctas y los elementos fuera diagonales muestran el número de
incorrect predicciones. Por ejemplo, 6,126 defaulted los préstamos eran
correctamente pronosticados como default, pero 17,010 defaulted los
préstamos eran incorrectamente pronosticados tan pagados fuera.
Figura 5-5 espectáculos la relación entre la matriz de confusión para un binario
reponse Y y diferente metrics (ve “Precisión, Recuerda, y Especificidad” para más
en el metrics). Cuando con el ejemplo para el dato de préstamo, la respuesta real
es a lo largo de las filas y la respuesta pronosticada es a lo largo de las
columnas. ( Puedes ver matrices de confusión con este invertidos.) Las cajas
diagonales (izquierda superior, más bajo correcto) espectáculo cuándo las
predicciones Correctamente pronosticar la respuesta. Uno importante métrico
no
Explícitamente llamado fuera es el índice positivo falso (la imagen de espejo de
precisión). Cuándo 1s es raro, la proporción de falso positives a todo pronosticó
positives puede ser alto, dirigiendo a el unintuitive situación donde un
pronosticado 1 es más probablemente un 0. Estas pestes de problema pruebas de
exploración médica (p. ej., mammograms) aquello es ampliamente aplicó: debido
a la rareza relativa de la condición, la prueba positiva resulta más
probablemente no significa cáncer de pecho. Estas ventajas a mucha confusión
en el público.
Figura 5-5. Matriz de confusión para una respuesta binaria y varios metrics
El Problema de Clase Raro
En muchos casos, hay un imbalance en las clases para ser pronosticadas, con
una clase mucho más prevalent que el otro — por ejemplo, reclamaciones de
seguro legítimo versus fraudulentos unos, o navegadores versus compradores en
un sitio web. La clase rara (p. ej., las reclamaciones fraudulentas) es
normalmente la clase de más interés, y es típicamente designó 1, en contraste
a el más prevalent 0s. En el escenario típico, el 1s es el caso más importante, en
el sentido que misclassifying les cuando 0s es más costoso que misclassfying 0s
cuando 1s. Por ejemplo, correctamente identificando una reclamación de seguro
fraudulenta puede salvar miles de dólares. Por otro lado, correctamente
identificando un nonfraudulent la reclamación meramente te salvas el coste y
esfuerzo de pasar por la reclamación a mano con una revisión más prudente
(cuál es qué harías si la reclamación era tagged tan “fraudulento”).
En tales casos, a no ser que las clases son fácilmente separable, la mayoría de
modelo de clasificación cuidadoso puede ser uno que sencillamente clasifica
todo como 0. Por ejemplo, si sólo 0.1% de los navegadores en una tienda de
web acaban adquirir, un modelo que pronostica que cada navegador dejará sin
adquirir será 99.9% cuidadoso. Aun así, sea inútil. En cambio, seríamos felices
con un modelo que es menos cuidadoso en general, pero es bien en elegir fuera
de los compradores, incluso si él misclassifies algún nonpurchasers a lo largo de
la manera.
Precisión, Recal , y Especificidad
Metrics Otro que exactitud pura — metrics aquello es más nuanced — es
generalmente utilizado en evaluar modelos de clasificación. Muchos de estos
tener una historia larga en estadísticas — especialmente biostatistics, donde
suelen describir el rendimiento esperado de pruebas de diagnóstico. La
precisión mide la exactitud de un resultado positivo pronosticado (ve Figura 5-
5):
# Precisión
conf_estera[1,1]/suma(conf_este
ra[,1]) # recuerda
conf_estera[1,1]/suma(conf_este
ra[1,]) # especificidad
conf_estera[2,2]/suma(conf_este
ra[2,])
ROC Curva
Puedes ver que hay un tradeoff entre recordar y especificidad. Capturando más
1s generalmente significa misclassifying más 0s cuando 1s. El ideal classifier
haría un trabajo excelente de clasificar el 1s, sin misclassifying más 0s cuando
1s.
El métrico que capturas este tradeoff es el “Auricular que Opera curva” de
Características, normalmente referido a como el ROC curva. El ROC parcelas
de curva recuerdan (sensibilidad) en el y-axial en contra especificidad en el x-
axial.4 El ROC la curva muestra el comercio-fuera entre recordar y especificidad
cuando cambias el cutoff para determinar cómo para clasificar un registro.
Sensibilidad (recuerda) es plotted en el y-axial, y puedes encontrar dos formas en
qué el x-axiales es labeled:
Especificidad plotted en el x-axial, con 1 en el izquierdo y 0 en la
correcto
La curva mira idéntica whichever manera está hecho. El proceso para computar el
ROC la curva es:
1. Clase los registros por la probabilidad pronosticada de ser un 1,
empezando con el más probable y acabando con el menos
probable.
Suma(roc_df$recordar[-1] * diff(1-
roc_df$especificidad)) [1] 0.5924072
Otro metrics (recuerda, especificidad, precisión) centra encima rendimiento más concreto
características (p. ej., recuerda mide qué bien un modelo es en correctamente identificando
1s).
AUC (Área bajo el ROC curva) es un común métrico para la capacidad de un modelo para
distinguir 1s de 0s..
De modo parecido, el ascensor mide qué eficaz un modelo es en identificar el 1s, y es a menudo
calculado decile por decile, empezando con el más probable 1s.
Lectura más lejana
La evaluación y la valoración son típicamente cubiertas en el contexto de un
modelo particular (p. ej., K-decisión o Vecinos más Cercanos árboles); tres
libros que mango él en su capítulo propio sea:
El dato Minero, 3.º ed., por Ian Whitten, Elbe Frank, y Mark Sala (Morgan
Kaufmann, 2011).
El dato Minero para Empresarial Analytics, 3.º ed., por Galit Shmueli, Peter
Bruce, y Nitin Patel (Wiley, 2016, con variantes para R, Excel, y JMP)..
Undersample
Uso menos del prevalent registros de clase en el modelo de clasificación.
Synonym
Downsample
Oversample
Uso más de los registros de clase raros en el modelo de clasificación, bootstrapping si es
necesario.
Synonym
Upsample
Generación de dato
Como bootstrapping, excepto cada nuevo bootstrapped el registro es ligeramente diferente de su
fuente.
Z-Puntuación
El valor que resultados después de que estandarización.
K
El número de vecinos consideró en el cálculo de vecino más cercano.
Undersampling
Si tienes bastante dato, cuando es el caso con el dato de préstamo, una solución
es a undersample (o downsample) el prevalent clase, así que el dato para ser
modeled es más equilibrado entre 0s y 1s. La idea básica en undersampling es que
el dato para la clase dominante tiene muchos registros redundandos. Tratando un
más pequeño, dato más equilibrado beneficios de cosechas del conjunto en
rendimiento de modelo, y lo hace más fácil de preparar el dato, y para explorar
y modelos pilotos.
Cuánto dato es bastante? Depende de la aplicación, pero en general, habiendo
decenas de miles de los registros para la menos clase dominante es bastante. El
más fácilmente distinguishable el 1s es de el 0s, el menos dato necesitó.
El dato de préstamo analizado en “Logistic la regresión” estuvo basada en un
conjunto de formación equilibrado: medio de los préstamos estuvieron pagados
fuera y la otra mitad era en default. El pronosticó los valores eran similares:
medio de las probabilidades eran menos de 0.5 y a medias era más grande que
0.5. En el conjunto de dato lleno, sólo aproximadamente 5% de los préstamos
eran en default:
Sólo 0.39% de los préstamos están pronosticados para ser en default, o menos
de 1/12 de el número esperado. Los préstamos que estuvo pagado fuera
abrumar los préstamos en default porque el modelo está entrenado utilizando
todo el dato igualmente. Pensando aproximadamente él intuitively, la presencia de
tantos nondefaulting préstamos, coupled con la variabilidad inevitable en
predictor dato, significa que, incluso para un defaulting préstamo, el modelo
probablemente puede encontrar algunos nondefaulting préstamos que es similar
a, por casualidad..
Cuándo una muestra equilibrada estuvo utilizada, aproximadamente 50% de los
préstamos estuvieron pronosticados para ser en default.
Oversampling Y Arriba/Abajo Ponderación
Una crítica de el undersampling el método es que echa fuera dato y no está
utilizando toda la información a mano. Si tienes un dato relativamente pequeño
conjunto, y la clase más rara contiene unos cuantos centenar o unos cuantos
registros de millar, entonces undersampling la clase dominante tiene el riesgo de
tirar información útil. En este caso, en vez de downsampling el caso
dominante, tienes que oversample (upsample) la clase más rara por dibujar
filas adicionales con sustitución (bootstrapping).
Puedes conseguir un efecto similar por ponderación el dato. Muchos algoritmos
de clasificación toman un argumento de peso que te dejará a arriba/abajo peso el
dato. Por ejemplo, aplicar un vector de peso a el dato de préstamo que utiliza el
argumento de peso a glm :
Los pesos para préstamos que default está puesto a Dónde p es la probabilidad
de default. El nondefaulting los préstamos tienen un peso de 1. La suma de los
pesos para el defaulted préstamos y nondefaulted los préstamos son
aproximadamente iguales. El malo de el pronosticó los valores es ahora 43%
en vez de 0.39%..
Nota que la ponderación proporciona un alternativo a ambos upsampling la clase
más rara y downsampling la clase dominante.
ADAPTANDO LA FUNCIÓN de PÉRDIDA
Mucha clasificación y algoritmos de regresión optimizan unos criterios seguros o función de
pérdida. Por ejemplo, logistic intentos de regresión para minimizar el deviance. En la literatura,
algunos proponen para modificar la función de pérdida para evitar los problemas causaron por
una clase rara. En práctica, esto es duro de hacer: algoritmos de clasificación pueden ser
complejos y difíciles de modificar. La ponderación es una manera fácil de cambiar la función
de pérdida, descontando errores para registros con pesos bajos a favor de registros de pesos más
altos.
Generación de dato
Una variación de upsampling vía bootstrapping (ve “Undersampling”) es
generación de dato por perturbar existiendo registros de crear registros nuevos.
La intuición detrás de esta idea es que desde entonces sólo observamos un
conjunto limitado de casos, el algoritmo no tiene un conjunto rico de
información para construir reglas “de clasificación.” Por crear registros nuevos
que es similar pero no idéntico a existir registros, el algoritmo tiene una
posibilidad de aprender un conjunto más robusto de reglas. Esta idea es similar en
espíritu a ensemble modelos estadísticos como aumentar y bagging (ve Capítulo
6).
La idea tracción obtenida con la publicación de el GOLPEÓ algoritmo, el cual
está para “Minoría Sintética Oversampling Técnica.” El GOLPEÓ el algoritmo
encuentra un récord aquello es similar a el ser récord upsampled (ve “K-
Vecinos más Cercanos”) y crea un sintético récord aquello es un aleatoriamente
weighted media de el registro original y el neighboring registro, donde el peso
está generado por separado para cada predictor. El número de sintético
oversampled los registros crearon depende de el oversampling la proporción
requirió para traer el dato puesto a equilibrio aproximado, con respetar a clases
de resultado.
Hay varias implementaciones de GOLPEÓ en R. El paquete más
comprensible para manejar el dato desequilibrado es desequilibrado . Ofrece
una variedad de técnicas, incluyendo un “algoritmo de” Correr para seleccionar
el método mejor. Aun así, el GOLPEÓ el algoritmo es bastante sencillo que lo
puede ser implementado directamente en R utilizando el knn paquete.
Coste-Clasificación Basada
En práctica, exactitud y AUC es la manera de escoger de un hombre pobre una
regla de clasificación. A menudo, un coste estimado puede ser asignado a falso
positives versus falso negatives, y es más apropiado de incorporar estos costes
para determinar el mejores cutoff cuándo clasificando 1s y 0s. Por ejemplo,
suponer el coste esperado de un default de un préstamo nuevo es Y el
regreso esperado de un pagado-fuera el préstamo es .
Entonces el regreso esperado para aquel préstamo es:
Una estrategia es para equilibrar el dato de formación vía undersampling el caso abundante (u
oversampling el caso raro).
Si utilizando todo el 1s hojas quietas tú con demasiado pocos 1s, puedes bootstrap los casos
raros, o el uso GOLPEÓ para crear el dato sintético similar a existir casos raros.
Imbalanced El dato normalmente indica que correctamente clasificando una clase (el 1s) tiene
valor más alto, y que proporción de valor tendría que ser construida a la valoración métrica.
Lectura más lejana
Tom Fawcett, autor de Ciencia de Datos para Empresarial, tiene un
artículo bueno en imbalanced clases.
1 Esto y secciones subsiguientes en este capítulo © 2017 Datastats, LLC, Peter Bruce y Andrew
Bruce, utilizado por permiso.
2 Ciertamente está sorprendiendo que el primer artículo en clasificación estadística estuvo publicado en una
revista dedicó a eugenesia. De hecho, hay una conexión desconcertanda entre el desarrollo temprano de
estadísticas y eugenesia .
3 No todos los métodos proporcionan unbiased estimaciones de probabilidad. En más casos, es
suficiente que el método proporciona un ranking equivalente a el rankings que resultaría de un
unbiased estimación de probabilidad; el cutoff el método es entonces funcionalmente equivalente.
4 El ROC la curva era primero utilizada durante Segunda Guerra mundial para describir el rendimiento
del radar que recibe estaciones, cuyo trabajo era a correctamente identificar (clasifica) reflejó señales de
radar, y fuerzas de defensa de la alerta a incoming aeronave.
Capítulo 6. Aprendizaje de
Máquina estadística
Vecino
Un récord aquello tiene similar predictor valores a otro registro.
Distancia metrics
Medidas que suma arriba en un número solo qué lejos uno récord es de otro.
Estandarización
Restar el malo y dividir por la desviación estándar.
Synonym
Normalización
Z-Puntuación
El valor que resultados después de que estandarización.
K
El número de vecinos consideró en el cálculo de vecino más cercano.
Considerar un modelo muy sencillo con justo dos predictor variables: dti, el
cual es la proporción de pagos de deuda (excluyendo hipoteca) a ingresos, y
pago_inc_proporción , el cual es la proporción de el pago de préstamo a
ingresos. Ambas proporciones están multiplicadas por
100. Utilizando un conjunto pequeño de 200 préstamos, préstamo200, con
resultados binarios sabidos
(default O no-default, especificado en el predictor resultado200 ), y con K
conjunto a 20, el KNN estimación para un préstamo nuevo para ser
pronosticado, newloan, con dti=22.5 y pago_inc_proporción=9 puede ser
calculado en R como sigue:.
Biblioteca(FNN)
knn_pred <- knn(Préstamo=de tren200, prueba=newloan,
cl=resultado200, k=20) knn_pred == 'default'
[1] CIERTO
El KNN la predicción es para el préstamo a default.
Mientras R tiene un nativo knn función, el contribuido R paquete FNN, para
Vecino más Cercano Rápido, balanza al dato grande mejor y proporciona más
flexibilidad.
Figura 6-2 da una exhibición visual de este ejemplo. El préstamo nuevo para ser
pronosticado es la plaza en el medio. Los círculos (default) y triángulos
(pagados fuera) es el dato de formación. La línea negra muestra la frontera de el
más cercano 20 puntos. En este caso, 14 defaulted mentira de préstamos dentro
del círculo cuando comparado con único 6 pagado-de préstamos. De ahí, el
resultado pronosticado de el préstamo es default.
NOTA
Mientras la producción de KNN para la clasificación es típicamente una decisión binaria, como
default o pagó fuera en el dato de préstamo, KNN las rutinas normalmente ofrecen la
oportunidad a producción una probabilidad (propensión) entre 0 y 1. La probabilidad está
basada en la fracción de una clase en el K vecinos más cercanos.
En el ejemplo de preceder, esta probabilidad de default habría sido estimado en O 0.7.
Utilizando una puntuación de probabilidad deja utilizas la clasificación gobierna otro que votos
de mayoría sencilla (probabilidad de 0.5). Esto es especialmente importante en problemas con
imbalanced clases; ve “Estrategias para Imbalanced Dato”. Por ejemplo, si el objetivo es para
identificar miembros de una clase rara, el cutoff típicamente sería puesto abajo 50%. Uno la
aproximación común es para poner el cutoff en la probabilidad del acontecimiento raro.
Figura 6-2. KNN Predicción de prestar default utilizando dos variables: deuda-a-proporción
de ingresos y pago de préstamo-a-proporción de ingresos
Distancia Metrics
Semejanza (nearness) está determinado utilizando una distancia métrica, el cual
es una función que medidas qué lejos dos registros (x1, x2, … xp ) y ( u1, u2, …
up) es de uno otro. La distancia más popular métrica entre dos vectores es
distancia euclidiana . Para medir la distancia euclidiana entre dos vectores, resta
uno de el otro, plaza las diferencias, suma les, y tomar la raíz cuadrada:
1 0 0 0
1 0 0 0
1 0 0 0
1 0 0 0
0 0 0 1
0 0 0 1
NOTA
En lineal y logistic regresión, uno caliente codificando problemas de causas con
multicollinearity; ve “Multicollinearity”. En tales casos, un dummy está omitido (su valor puede
ser inferido de los otros valores). Esto no es un asunto con KNN y otros métodos.
Estandarización (Normalización, Z-Puntuaciones)
En medida, somos a menudo no tanto interesados en “cuánto” pero “qué
diferentes de la media.” Estandarización, normalización llamada también, pone
todas las variables en balanza similar por restar el malo y dividiendo por la
desviación estándar. De este modo, aseguramos que una variable no demasiado
influencia un modelo sencillamente debido a la escala de su medida original.
Estos son generalmente refered a tan z-puntuaciones. Las medidas son entonces
declaradas en plazos de “desviaciones estándares fuera de el malos.” De este
modo, el impacto de una variable en un modelo no es afectado por la escala
de su medida original.
AMONESTACIÓN
Normalización en este contexto estadístico no es para ser confundido con normalización
de base de datos, el cual es la extracción de dato redundando y la verificación de
dependencias de datos.
Para KNN y unos cuantos otros procedimientos (p. ej., análisis de componentes
principales y clustering), es esencial de considerar estandarizando el dato con
anterioridad a aplicar el procedimiento. Para ilustrar esta idea, KNN está
aplicado a el dato de préstamo que utiliza dti y pago_inc_proporción (ve “Un
Ejemplo Pequeño: Pronosticando Préstamo Default”) plus dos otras variables:
revol_bal, el crédito rotativo total disponible a el solicitante en dólares, y
revol_util , el porcentaje de el ser de crédito utilizó. El registro nuevo de ser
pronosticado está mostrado aquí:
newloan
Pago_inc_proporción dti revol_bal
revol_util 1 2.3932 1 1687 9.4
Los cinco vecinos más cercanos son mucho más igualmente en todas las
variables que proporcionan un resultado más sensato. Nota que los resultados
están mostrados en la escala original, pero KNN estuvo aplicado a el scaled
dato y el préstamo nuevo para ser pronosticado.
CONSEJO
Utilizando el z-la puntuación es justo una manera a rescale variables. En vez del malo, una
estimación más robusta de ubicación podría ser utilizada, como el median. Así mismo, una
estimación diferente de escala como el interquartile la gama podría ser utilizada en vez de la
desviación estándar. A veces, las variables son “squashed” a el 0–1 gama. Es también
importante de darse cuenta que scaling cada variable de tener varianza de unidad es un poco
arbitraria. Esto implica que cada variable está pensada para tener la misma importancia en poder
predictivo. Si tienes conocimiento subjetivo que algunas variables son más importantes que
otros, entonces estos podrían ser scaled arriba. Por ejemplo, con el dato de préstamo, es
razonable de esperar que el pago-a-proporción de ingresos es muy importante.
NOTA
Normalización (estandarización) no cambia la forma distribucional del dato; no lo haga
normalmente shaped si no sea ya normalmente shaped (ve “Distribución Normal”).
Escogiendo K
La elección de K es muy importante a el rendimiento de KNN. La elección
más sencilla es para poner , sabido como el 1-vecino más cercano
classifier. La predicción es intuitiva: está basado encima encontrando el
registro de dato en la formación puesta más similar a el registro nuevo de ser
pronosticado. Encuadre Es raramente la elección mejor; casi siempre
obtienes rendimiento superior por utilizar K > 1-vecinos más cercanos.
En general, si K es demasiado abajo, podemos ser overfitting: incluyendo el
ruido en el dato. Valores más altos de K proporciona suavizar que reduce el
riesgo de overfitting en el dato de formación. Por otro lado, si K es
demasiado alto, podemos oversmooth el dato y perder fuera en KNN capacidad
de capturar la estructura local en el dato, uno de sus ventajas principales.
El K que equilibrios mejores entre overfitting y oversmoothing es típicamente
determinado por exactitud metrics y, en particular, exactitud con holdout o dato
de validación. hay no regla general sobre el mejor K — depende mucho en la
naturaleza de el dato. Para dato estructurado altamente con ruido pequeño,
valores más pequeños de K trabajo más. Tomando prestado un plazo de la
comunidad de procesamiento de la señal, este tipo de datos es a veces referido a
cuando habiendo una señal alta-a-proporción de ruido (SNR).
Ejemplos de datos con típicamente altos SNR es letra y reconocimiento de
discurso. Para dato ruidoso con menos estructura (dato con un bajo SNR), como
el dato de préstamo, valores más grandes de K es apropiado. Típicamente,
valores de K caída en la gama 1 a 20. A menudo, un número extraño está
escogido para evitar lazos.
SESGO-VARIANZA TRADEOFF
La tensión entre oversmoothing y overfitting es un caso del sesgo-varianza tradeoff, un
ubiquitous problema en el modelo estadístico que cabe. La varianza refiere a el error de modeling
que ocurre debido a la elección de entrenar dato; aquello es, si eras para escoger un conjunto
diferente de entrenar dato, el modelo resultante sería diferente. El sesgo refiere a el error de
modeling que ocurre porque has no correctamente identificó el subyacente real-escenario
mundial; este error no desaparecería si tú sencillamente añadido más entrenando dato. Cuándo
un modelo flexible es overfit, los aumentos de varianza. Puedes reducir esto por utilizar un
modelo más sencillo, pero el sesgo puede aumentar debido a la pérdida de flexibilidad en
modeling la situación subyacente real. Una aproximación general a manejar este tradeoff es a
través de cruz-validación. Ve “Cross-Validación” para más detalles.
KNN Como Motor de Característica
KNN Obtuvo su popularidad debido a su simplicidad y naturaleza intuitiva. En
plazos de rendimiento, KNN por él es normalmente no competitivo con
clasificación más sofisticada técnicas. En el modelo práctico que cabe, aun así,
KNN puede soler añadir “conocimiento local” en un proceso escenificado con
otras técnicas de clasificación.
1. KNN Está corrido en el dato, y para cada registro, una clasificación
(o quasi- probabilidad de una clase) está derivado.
NOTA
Puedes pensar de este uso escenificado de KNN como forma de ensemble aprendizaje, en qué
métodos de modeling predictivos múltiples están utilizados conjuntamente con uno otro.
También pueda ser considerado como forma de ingeniería de característica donde el objetivo
es para derivar características (predictor variables) aquello tiene poder predictivo. A menudo
esto implica algunos revisión manual del dato; KNN da una manera bastante automática para
hacer este.
Semejanza (distancia) está determinado por Euclidian distancia u otro relacionado metrics.
El número de vecinos más cercanos para comparar un récord a, K, está determinado por
qué bien el algoritmo actúa encima entrenando dato, utilizando valores diferentes para K.
Típicamente, el predictor las variables están estandarizadas de modo que variables de la escala
grande no domina la distancia métrica.
KNN Es a menudo utilizado como primera etapa en modeling predictivo, y el valor pronosticado
está añadido atrás a el dato como predictor para segundo-etapa (no-KNN) modeling.
Modelos de árbol
Modelos de árbol, Clasificación llamada también y Árboles de Regresión
(CARRETA),2 árboles de decisión, o árboles justos, es una clasificación eficaz y
popular (y regresión) el método inicialmente desarrollado por Leo Breiman y
otros en 1984. Modelos de árbol, y su más potentes descendents bosques
aleatorios y aumentando (ve “Bagging y el Bosque Aleatorio” y “Aumentando” ),
forma la base para el más ampliamente utilizado y herramientas de modeling
predictivas potentes en ciencia de datos para ambas regresión y clasificación..
Recursivo partitioning
Repetidamente dividiendo y subdividing el dato con el objetivo de hacer los resultados en
cada subdivisión final como homogeneous como posible.
Valor de ruptura
Un predictor valor que divide los registros a aquellos donde aquello predictor es menos de el
valor de ruptura, y aquellos donde es más.
Nodo
En el árbol de decisión, o en el conjunto de correspondiente branching reglas, un nodo es el
gráfico o representación de regla de un valor de ruptura.
Hoja
El fin de un conjunto de si-entonces reglas, o ramas de un árbol — las reglas que te traes a
aquella hoja proporciona uno de las reglas de clasificación para cualquier registro en un árbol.
Pérd
ida El número de misclassifications en una etapa en el proceso de partir; el más pérdidas, la
más impureza.
Impureza
La extensión al cual una mezcla de clases está encontrada en un subpartition del dato (el más
mixto, el más impuro).
Synonym
Heterogeneidad
Antónimo
Homogeneidad, pureza
Pruning
El proceso de tomar un árbol plenamente crecido y progresivamente cortando sus ramas atrás, para
reducir overfitting.
Un modelo de árbol es un conjunto de “si-entonces-más” gobierna aquello es
fácil de entender y para implementar. En contraste a regresión y logistic
regresión, los árboles tienen la capacidad de descubrir los patrones escondidos
que corresponden a interacciones complejas en el dato.
Aun así, a diferencia de KNN o naive Bayes, modelos de árbol sencillo pueden
ser expresados en plazos de predictor relaciones que es fácilmente interpretable.
ÁRBOLES de DECISIÓN EN BÚSQUEDA de
OPERACIONES
Los árboles de decisión del plazo tiene un diferentes (y más viejos) significado en ciencia de
decisión y búsqueda de operaciones, donde refiere a un proceso de análisis de decisión
humano. En este significado, puntos de decisión, resultados posibles, y su estimó las
probabilidades están puestas fuera en un branching esquema, y el camino de decisión con el
valor esperado máximo está escogido.
Un Ejemplo Sencillo
Los dos paquetes principales para caber modelos de árbol en R es rpart y árbol
. Utilizando el rpart paquete, un modelo está cabido a una muestra de 3,000
registros de el dato de préstamo que utiliza el pago de
variables_inc_proporción y puntuación_de prestatario (ve “K-Vecinos
más Cercanos” para una descripción de el dato).
Biblioteca(rpart)
Árbol_de préstamo <- rpart(pago ~ de puntuación_de prestatario + de
resultado_inc_proporción, dato=de préstamo_del dato,
control = rpart.Control(cp=.005))
Parcela(árbol_de préstamo,
uniforme=CIERTO, margen=.05)
texto(árbol_de préstamo)
Figura 6-3. Las reglas para un modelo de árbol sencillo cabido al dato de préstamo
Típicamente, el árbol es plotted al revés, así que la raíz está al frente y las
hojas son en el fondo. Por ejemplo, si conseguimos un préstamo con
puntuación_de prestatario de 0.6 y
Un pago_inc_proporción de 8.0, acabamos en el leftmost hoja y pronosticar el
préstamo será pagado fuera.
Una versión amablemente imprimida del árbol es también fácilmente produjo:
Árbol_de
préstamo n=
3000
NOTA
Además de un binario 0/1 predicción, modelos de árbol pueden producir una estimación de
probabilidad basada en el número de 0s y 1s en la partición. La estimación es sencillamente la
suma de 0s o 1s en la partición dividida por el número de observaciones en la partición.
Figura 6-5 espectáculos que Gini impureza (rescaled) y medidas de entropía son
similares, con la entropía que da puntuaciones de impureza más alta para exactitud
moderada y alta índices.
Figura 6-5. Gini Impureza y medidas de entropía
GINI COEFICIENTE
Gini La impureza no es para ser confundido con el Gini coeficiente. Representan conceptos
similares, pero el Gini el coeficiente está limitado a el problema de clasificación binario y está
relacionado a el AUC métrico (ve “AUC”).
El primer método implica reglas arbitrarias, y puede ser usful para trabajo
exploratorio, pero podemos no fácilmente determinar valores óptimos (i.e.,
valora que maximize exactitud predictiva con dato nuevo). Con el parámetro de
complejidad, cp, podemos estimar qué árbol de medida actuará más con dato
nuevo.
Si cp es demasiado pequeño, entonces el árbol overfit el dato, cabiendo ruido y
no señalar. Por otro lado, si cp es demasiado grande, entonces el árbol será
demasiado pequeño y ha poco poder predictivo. El default en rpart es 0.01, a
pesar de que para conjuntos de dato más grande, probablemente puedes
encontrar esto es demasiado grande. En el ejemplo anterior, cp estuvo puesto
a 0.005 desde el default dirigió a un árbol con una ruptura sola. En análisis
exploratorio, es suficiente a sencillamente probar unos cuantos valores.
Determinando el óptimo cp es un caso de el sesgo-varianza tradeoff (ve Sesgo-
Varianza Tradeoff). La manera más común para estimar un valor bueno de cp es
vía
Cruz-validación (ve “Cross-Validación”):
1. Partición el dato a entrenar y validación (holdout) conjuntos.
6. Hacer este otra vez y otra vez, y mediano el cps aquello refleja error
mínimo para cada árbol.
IDEAS CLAVES
Árboles de decisión producen un conjunto de reglas para clasificar o pronosticar un resultado.
En cada etapa, el algoritmo de árbol escoge el partido aquello minimiza la impureza de resultado
dentro de cada subpartition.
Cuándo ninguna ruptura más lejana puede ser hecha, el árbol es plenamente crecido y cada
nodo terminal, u hoja, tiene registros de una clase sola; los casos nuevos que siguen que regla
(ruptura) el camino sería asignado que clase.
Un árbol plenamente crecido overfits el dato y tiene que ser pruned atrás de modo que
captura señal y no ruido.
Algoritmos de árbol múltiple como bosques aleatorios y aumentó los árboles ceden rendimiento
predictivo mejor, pero perder el poder comunicativo basado de árboles solos.
Lectura más lejana
Analytics Vidhya Equipo de contenido, “Un Completo Preceptoral encima
Árbol Modeling Basado de Arañazo (en & R Pitón)”, abril 12, 2016.
Ensemble
Formando una predicción por utilizar una colección de modelos.
Synonym
Modelo averaging
Bagging
Una técnica general para formar una colección de modelos por bootstrapping el dato.
Synonym
Bootstrap Agregación
Bosque aleatorio
Un tipo de bagged la estimación basó encima modelos de árbol de la decisión.
Synonym
Bagged Árboles de decisión
Importancia variable
Una medida de la importancia de un predictor variable en el rendimiento del modelo.
Cuántas variables a muestra en cada paso? Una regla de pulgar es para escoger
Dónde P es el número de predictor variables. El paquete randomForest
implementa el bosque aleatorio en R. El siguiente aplica este paquete a el dato de
préstamo (ve “K-Vecinos más Cercanos” para una descripción de el dato).
> Biblioteca(randomForest)
> rf <- randomForest(Pago ~ de puntuación_de prestatario + de resultado_inc_proporción,
Préstamo=de dato3000)
Llamada:
randomForest(Puntuación = de prestatario ~ de resultado_de fórmula +
pago_inc_proporción, préstamo = de dato3000)
Tipo de bosque aleatorio: Número de
clasificación de árboles: 500
El núm. de variables probó en cada ruptura: 1
Por default, 500 árboles están entrenados. Desde entonces hay sólo dos
variables en el predictor conjunto, el algoritmo aleatoriamente selecciona la
variable en qué para partir en cada etapa (i.e., un bootstrap subsample de medida
1).
El fuera-de-bolsa (OOB) la estimación de error es el índice de error para el
entrenó modelos, aplicados a el dato dejó fuera de la formación puesta para
aquel árbol. Utilizando la producción de el modelo, el OOB el error puede ser
plotted versus el número de árboles en el bosque aleatorio:
Llamada:
randomForest(Resultado = de fórmula ~ ., dato = de préstamo_del dato, la
importancia = CIERTA) Tipo de bosque aleatorio:
clasificación
Número de árboles: 500
Núm. de variables probó en cada ruptura: 3
varImpPlot(rf_Todo, tipo=1)
varImpPlot(rf_todo, tipo=2)
Bagging Es un tipo particular de ensemble el modelo basó encima cabiendo muchos modelos a
bootstrapped muestras del dato y averaging los modelos.
Una producción útil del bosque aleatorio es una medida de importancia variable que
rangos el predictors en plazos de su contribución a exactitud de modelo.
El bosque aleatorio tiene un conjunto de hyperparameters que tendría que ser puesto a punto
utilizando cruz-validación para evitar overfitting.
Aumentando
Ensemble Los modelos han devenido una herramienta estándar para modeling
predictivo. Aumentando es una técnica general para crear un ensemble de
modelos. Esté desarrollado alrededor de el mismo tiempo como bagging (ve
“Bagging y el Bosque Aleatorio”). Como bagging, aumentando es más
generalmente utilizado con árboles de decisión. A pesar de sus semejanzas,
aumentando toma una aproximación muy diferente — uno aquello viene con
muchos más campanas y pitos. Como resultado, mientras bagging puede ser
hecho con relativamente poca sintonía, aumentando requiere mucho cuidado más
grande en su aplicación. Si estos dos métodos eran coches , bagging podría ser
considerado un Honda Acuerdo (fiable y firme), mientras que aumentando
podría ser considerado un Porsche (potente pero requiere más cuidado).
En modelos de regresión lineal, el residuals es a menudo examinado para ver si
la acceso puede ser mejorada (ve “Parcelas Residuales Parciales y Nonlinearity”
). Aumentando toma este concepto mucho más lejano y cabe una serie de
modelos con cada modelo sucesivo cabido para minimizar el error de los
modelos anteriores. Varias variantes de el algoritmo son generalmente utilizó:
Adaboost, el gradiente que aumenta, y el gradiente estocástico que aumenta. El
gradiente último, estocástico que aumenta, es el más general y ampliamente
utilizó.
De hecho, con la elección correcta de parámetros, el algoritmo puede emular el
bosque aleatorio.
Ensemble
Formando una predicción por utilizar una colección de modelos.
Synonym
Modelo averaging
Aumentando
Una técnica general para caber una secuencia de modelos por dar más peso a los registros
con grandes residuals para cada ronda sucesiva.
Adaboost
Una versión temprana de aumentar basado en reweighting el dato basado en el residuals.
Regularización
Una técnica para evitar overfitting por añadir un plazo de pena a la función de coste en el
número de parámetros en el modelo.
Hyperparameters
Parámetros que necesidad de ser puesta antes de caber el algoritmo.
El Algoritmo de Aumentar
La idea básica detrás del varios algoritmos de aumentar es esencialmente igual.
El más fácil de entender es Adaboost, el cual procede como sigue:.
1. Inicializa M, el número máximo de modelos para ser cabidos, y poner
el contador de iteración . Inicializar los pesos de observación
Para . Inicializar el ensemble modelo
.
Por creciente los pesos para las observaciones que era misclassified, el
algoritmo fuerza los modelos para entrenar más fuertemente en el dato para qué
actúe mal. El factor Asegura que los modelos con error más bajo tienen un
peso más grande.
El gradiente que aumenta es similar a Adaboost pero lanza el problema como
una optimización de una función de coste. En vez de ajustar pesos, el gradiente
que aumenta modelos de acceso a un pseudo-residuales, el cual tiene el efecto
de entrenar más fuertemente en el más grande residuals. En el espíritu de el
bosque aleatorio, el gradiente estocástico que aumenta añade randomness a el
algoritmo por observaciones de muestreo y predictor variables en cada etapa.
XGBoost
El más dominio público utilizado ampliamente software para aumentar es
XGBoost, una implementación del gradiente estocástico que aumenta
originalmente desarrollado por Tianqi Chen y Carlos Guestrin en la Universidad
de Washington. Una implementación computacionalmente eficaz con muchas
opciones, es disponible como paquete para dato más importante lenguas de
software de la ciencia. En R, XGBoost es disponible como el paquete xgboost.
La función xgboost tiene muchos parámetros que puede, y tener que, ser ajustado
(ve “Hyperparameters y Cross-Validación” ). Dos parámetros muy importantes
son subsample, el cual controla la fracción de observaciones que tendría que ser
sampled en cada iteración, y eta , un factor de encogimiento aplicó a En el
algoritmo de aumentar (ve “El Algoritmo de Aumentar” ). Utilizando subsample
hace aumentar el acto como el bosque aleatorio exceptúa que el muestreo está
hecho sin sustitución. El parámetro de encogimiento eta es útil de impedir
overfitting por reducir el cambio en los pesos (un cambio más pequeño en los
pesos significa el algoritmo es menos probablemente a overfit a el conjunto de
formación). El siguiente aplica xgboost a el dato de préstamo con justo dos
predictor variables:
Biblioteca(xgboost)
predictors <- Datos.Matriz(préstamo3000[, c('puntuación_de prestatario',
'Pago_inc_proporción')])
etiqueta <- cuando.Numérico(préstamo3000[,'resultado'])-1
xgb <- xgboost(Dato=predictors, etiqueta=de etiqueta,
Objetivo = "binario:logistic",
params=lista(subsample=.63, eta=0.1),
nrounds=100)
El valor de determina cuántos los coeficientes están penalizados; modelos de producto de valores más
grandes que es menos probablemente a overfit el dato. El Lasso es similar, exceptúa que utiliza
distancia de Manhattan en vez de distancia euclidiana como plazo de pena:
Cross-la validación sugiere que utilizando árboles más superficiales con un valor
más pequeño de eta cosechas resultados más cuidadosos. Desde estos modelos
son también más estables, los parámetros mejores a uso son eta=0.1 y
max_profundidad=3 (o posiblemente max_profundidad=6).
subsample Y colsample_bytree.
Fracción de los registros a muestra sin sustitución y la fracción de predictors a muestra para
uso en caber los árboles. Estos parámetros, los cuales son similares a aquellos en bosques
aleatorios, la ayuda evita overfitting.
Lambda y alfa.
Los parámetros de regularización para ayudar control overfitting (ve “Regularización:
Evitando Overfitting”).
IDEAS CLAVES PARA B OOSTING
Aumentando es una clase de ensemble los modelos basaron encima cabiendo una secuencia de
modelos, con más el peso dado a registros con errores grandes en rondas sucesivas.
El gradiente estocástico que aumenta es el tipo más general de aumentar y ofrece el rendimiento
mejor. La forma más común del gradiente estocástico que aumenta modelos de árbol de los usos.
1 Esto y secciones subsiguientes en este capítulo © 2017 Datastats, LLC, Peter Bruce y Andrew
Bruce, utilizado por permiso.
2 La CARRETA de plazo es una marca registrada de Salford los sistemas relacionaron a su
implementación concreta de modelos de árbol.
3 El plazo el bosque aleatorio es una marca de Leo Breiman y Adele Cutler y autorizado a Salford
Sistemas. hay no estándar nontrademark nombre, y el plazo el bosque aleatorio es tan sinónimo con el
algoritmo como Kleenex es con tejidos faciales.
Capítulo 7. Unsupervised Aprendizaje
Componente principal
Una combinación lineal del predictor variables.
Loadings
Los pesos que transforma el predictors a los componentes.
Synonym
Pesos
Screeplot
Una parcela de las varianzas de los componentes, mostrando la importancia relativa de los
componentes.
La idea en PCA es para combinar múltiple numérico predictor variables a un
conjunto más pequeño de variables, los cuales son weighted combinaciones
lineales de el conjunto original. El conjunto más pequeño de variables, los
componentes principales, “explica” la mayoría de la variabilidad de el conjunto
lleno de variables, reduciendo la dimensión de el dato. Los pesos utilizaron para
formar los componentes principales revelan las contribuciones relativas de las
variables originales a los componentes principales nuevos.
PCA Era primero propuesto por Karl Pearson. En qué era quizás el primer papel en
unsupervised aprendizaje, Pearson reconoció que en muchos problemas allí es
variabilidad en el predictor variables, así que desarrolle PCA como técnica a
modelo esta variabilidad. PCA Puede ser visto como el unsupervised versión de
lineal discriminant análisis; ve“Discriminant Análisis”.
Un Ejemplo Sencillo
Para dos variables, Y , hay dos componentes principales ( O 2):
NOTA
Es también común de computar componentes principales en desviaciones de el medio del
predictor variables, más que en el los valora.
Loadings:
Comp.1 Comp.2
CVX -0.747 0.665
XOM -0.665 -0.747
Los pesos para CVX y XOM para el primer componente principal es –0.747 y –
0.665 y para el segundo componente principal son 0.665 y –0.747. Cómo para
interpretar esto? El primer componente principal es esencialmente una media de
CVX y XOM, reflejando la correlación entre las dos compañías de energía. El
segundo componente principal medidas cuándo los precios accionarios de CVX
y XOM diverge.
Es instructive a parcela los componentes principales con el dato:
3. PCA Repite este proceso, utilizando las mismas variables, con pesos
diferentes para crear un segundo nuevo predictor, Z2. La ponderación
está hecha tal aquel Z1 y Z 2 es uncorrelated.
Biblioteca(tidyr)
loadings <- sp_pca$loadings[,1:5]
loadings$Símbolo <- fila.Nombres(loadings)
loadings <- Reunir(loadings, "Componente", "Peso", -Símbolo)
ggplot(loadings, aes(x=Símbolo, y=Peso)) +
geom_Barra(stat='identidad') +
Verja_de faceta(Componente ~ ., balanza='libre_y')
El conjunto limitado de los componentes principales entonces pueden ser utilizados en sitio del (más
numeroso) original predictors, reduciendo dimensionality.
Lectura más lejana
Para una mirada detallada en el uso de cruz-validación en componentes
principales, ve Rasmus Bro, K. Kjeldahl, Un.K. Smilde, y Henk Un. L. Kiers,
“Cross-Validación de Modelos de Componente: Una Mirada Crítica en
Métodos Actuales”, Analíticos y Bioanalytical Química 390, núm. 5 (2008).
K-Medios Clustering
Clustering Es una técnica para dividir dato a grupos diferentes, donde los
registros en cada grupo son similares a uno otro. Un objetivo de clustering es
para identificar grupos significativos y significativos de datos. Los grupos pueden
ser utilizados directamente, analizados en más profundidad, o pasado como
característica o un resultado a una regresión predictiva o modelo de clasificación.
K-Los medios es el primer clustering método para ser desarrollado; es todavía
ampliamente utilizado, owing su popularidad a la simplicidad relativa de el
algoritmo y su capacidad a escala a conjuntos de dato grande.
Grupo
Un grupo de registros que es similar.
El grupo malo
El vector de medio variable para los registros en un grupo.
K
El número de grupos.
La parcela resultante, dado por Figura 7-4, muestra las asignaciones de grupo y el
grupo significa.
Figura 7-4. Los grupos de K-los medios aplicaron a dato de precio accionario para ExxonMobil y Galón
(los dos centros de grupo en el área densa son duros de distinguir)
K-Algoritmo de medios
En general, K-los medios pueden ser aplicados a un dato puesto con p variables
. Mientras la solución exacta a K -los medios es computacionalmente
muy difíciles, los algoritmos heurísticos proporcionan una manera eficaz de
computar un localmente optimal solución.
Los inicios de algoritmo con un usuario-especificado K y un conjunto inicial
de grupo significa, entonces itera los pasos siguientes:
1. Asignar cada récord a el grupo más cercano significa tan medido por
distancia cuadrada.
syms <- c( 'AAPL', soySFT', 'CSCO', 'INTC', 'CVX', 'XOM', esLB', 'COP',
'JPM', 'WFC', 'USB', 'AXP', 'WMT', 'TGT', 'HD', 'COSTE')
df <- sp500_px[fila.Nombres(sp500_px)>='2011-01-01',
syms] km <- kmeans(df, centra=5, nstart=10)
Km$medida
[1] 186 106 285 288 266
Centros <-
cuando.Dato.Marco(t(centros))
nombres(centros) <- pasta("Grupo", 1:5)
centros$Símbolo <-
fila.Nombres(centros)
Centros <- reunir(centros, "Grupo", "Malo", -Símbolo)
centros$centros = de Color$Significar > 0
ggplot(Centros, aes(x=Símbolo, y=Malo, llena=Color)) +
geom_barra(stat='identidad', identidad = "de posición",
ancho=.75) + verja_de faceta(Grupo ~ ., balanza='libre_y')
En evaluar cuántos grupos para retener, quizás la prueba más importante es esto :
qué probablemente es los grupos para ser replicated en dato nuevo? Es los grupos
interpretables, y relacionan a una característica general de el dato, o justo
reflejan un caso concreto? Puedes evaluar esto, en parte, utilizando cruz-
Validación; ve “Cross-Validación”.
En general, hay no regla sola que reliably guiar cuántos grupos para producir.
NOTA
Hay muchos maneras más formales para determinar el número de grupos basó en estadístico o
teoría de información. Por ejemplo, Robert Tibshirani, Guenther Walther, y Trevor Hastie
(http://www.stanford.edu/~hastie/vacío/de Papeles.Pdf) propone un “vacío” statistic basó en
teoría estadística para identificar el codo. Para más aplicaciones, una aproximación teórica es
probablemente no necessary, o incluso apropiado.
El algoritmo desarrolla grupos por iteratively asignando registros a el grupo más cercano malo
hasta que asignaciones de grupo no cambian .
Dendrogram
Una representación visual de los registros y la jerarquía de grupos al cual pertenecen.
Distancia
Una medida de cómo cercano uno récord es a otro.
Dissimilarity
Una medida de cómo cercano un grupo es a otro.
Parcela(hcl)
cutree(hcl, k=4)
GOOGL AMZN AAPL MSFT CSCO INTC CVX XOM SLB COP JPM WFC
1 2 3 3 3 3 4 4 4 4 3 3
USB AXP WMT TGT HD COSTÓ
3 3 3 3 3 3
El número de los grupos a extracto está puesto a 4, y puedes ver aquel Google y
Amazona cada cual pertenece a su grupo propio. Los stocks de aceite (XOM,
CVS, SLB, COP) todos pertenecen a otro grupo. Los stocks restantes son en el
cuarto grupo.
El Agglomerative Algoritmo
El algoritmo principal para jerárquico clustering es el agglomerative algoritmo,
el cual iteratively fusiona grupos similares. El agglomerative el algoritmo
empieza con cada récord constituyendo su propio solo-grupo récord, entonces
complexiones arriba de grupos más grandes y más grandes. El primer paso es
para calcular distancias entre todos los pares de registros.
Para cada par de registros Y , medimos la
distancia entre los dos registros, , utilizando una distancia métrica (ve
“Distancia Metrics”). Por ejemplo, podemos utilizar Euclidian distancia:
Esto define el dissimilarity como la diferencia más grande entre todos los
pares. Los pasos principales de el agglomerative el algoritmo es:
1. Crear un conjunto inicial de grupos con cada grupo que consta de un
solo
Récord para todos los registros en el dato.
Los resultados son strikingly diferentes: la medida de conexión sola asigna casi
todo de los puntos a un grupo solo. Excepto el método de varianza mínimo
(Ward.D), todas las medidas acaban con al menos un grupo con justo unos
cuantos outlying puntos. El método de varianza mínimo es más similar a el K-
grupo de medios; compara con Figura 7-4.
Progresivamente, los grupos están unidos a grupos cercanos hasta que todos los registros
pertenecen a un grupo solo (el agglomerative algoritmo).
> Biblioteca(mclust)
> df <- sp500_px[fila.Nombres(sp500_px)>='2011-01-01', c('XOM', 'CVX')]
> mcl <- Mclust(df)
> Resumen(mcl)
Mclust VEE (ellipsoidal, orientación y forma iguales) modelo con 2 componentes:
Clustering Mesa:
1 2
963 168
Si ejecutas este código, notarás que la computación toma significiantly más largo
que otros procedimientos. Extrayendo las asignaciones de grupo que utilizan el
pronosticar función, podemos visualizar los grupos:
La parcela resultante está mostrada en Figura 7-10. Hay dos grupos: un grupo en
medio de el dato, y un segundo grupo en el borde exterior de el dato. Esto es
muy diferente de los grupos obtuvieron utilizar K-medios (Figura 7-4) y
jerárquico clustering (Figura 7-8), los cuales encuentran grupos que es compacto.
Figura 7-10. Dos grupos están obtenidos para dato de regreso accionario que utiliza mclust
XOM CVX
XOM 1.046318 1.066860
CVX 1.066860 1.915799
Las distribuciones tienen correlaciones y medio similares, pero la segunda
distribución ha mucho covarianzas y varianzas más grandes.
Los grupos de mclust puede parecer sorprendente, pero de hecho, ilustran la
naturaleza estadística de el método. El objetivo de modelo-basado clustering es
para encontrar el que cabe mejor puesto de multivariate distribuciones normales.
El dato accionario aparece para tener una forma que mira normal: ver los
contornos de Figura 7-9. De hecho, aun así, los regresos accionarios tienen un
más largos-tailed distribución que una distribución normal. Para manejar esto,
mclust cabe una distribución a el bulk del dato, pero entonces cabe una segunda
distribución con una varianza más grande.
Seleccionando el Número de Grupos
A diferencia de K -medios y jerárquicos clustering, mclust automáticamente
selecciona el número de grupos (en este caso, dos). Él esto por escoger el
número de grupos para qué la Información bayesiana Criterios (BIC) tiene el
valor más grande. BIC (Similar a AIC) es una herramienta general para
encontrar el modelo mejor entre un candidato puesto de modelos. Por ejemplo,
AIC (o BIC) es generalmente utilizado para seleccionar un modelo en stepwise
regresión; ve “Selección de Modelo y Stepwise Regresión”. BIC Trabajos por
seleccionar el modelo que cabe mejor con una pena para el número de
parámetros en el modelo. En el caso de modelo-basado clustering, añadiendo
más los grupos siempre mejorarán la acceso a expensas de introducir
parámetros adicionales en el modelo.
Puedes parcela el BIC valor para cada medida de grupo que utiliza una función
en hclust:
Esta parcela es similar a el uso de parcela del codod para identificar el número de
grupos para escoger para K-medios, excepto el ser de valor plotted es BIC en vez
de porcentaje de la varianza explicada (ve Figura 7-6). Uno la diferencia grande
es que en vez de uno tacha, mclust muestra 14 líneas diferentes! Esto es porque
mclust de hecho está cabiendo 14 modelos diferentes para cada medida de
grupo, y finalmente escoge el que cabe mejor
Modelo.
Por qué hace mclust cabido tantos modelos para determinar el conjunto mejor
de multivariate normals? Es porque hay maneras diferentes a parameterize la
matriz de covarianza Para caber un modelo. Mayoritariamente, no necesitas
para preocuparse sobre los detalles de los modelos y sencillamente puede
utilizar el modelo escogido por mclust. En este ejemplo, según BIC, tres
modelos diferentes (llamados VEE, VEV, y VVE) da la acceso mejor que
utiliza dos componentes.
NOTA
Modelo-basado clustering es una área rica y rápidamente en desarrollo de estudio, y la cobertura
en este texto sólo abarca una parte pequeña del campo. De hecho, el mclust archivo de ayuda es
actualmente 154 páginas mucho tiempo.
Navigating Los matices de modelo-basado clustering es probablemente más esfuerzo que está
necesitado para más los problemas encontraron por científicos de datos.
Los modelos diferentes están cabidos, suponiendo números diferentes de (típicamente normales)
distribuciones.
El método escoge el modelo (y el número asociado de grupos) que acceso el dato bien sin
utilizar demasiados parámetros (i.e., overfitting).
Lectura más lejana
Para más detalle encima modelo-basado clustering, ver el mclust
documentación.
Scaling Y Variables Categóricas
Unsupervised Técnicas de aprendizaje generalmente requieren que los datos ser
apropiadamente scaled. Esto es diferente de muchos de las técnicas para
regresión y clasificación en qué scaling no es importante (una excepción es K-
vecinos más cercanos; ve “K-Vecinos más Cercanos”).
Scaling
Squashing O expandiendo dato, normalmente para traer variables múltiples a la misma escala.
Normalización
Un método de scaling — restando el malo y dividiendo por la desviación estándar.
Synonym
Estandarización
Gower distancia
Un scaling el algoritmo aplicó a mixto numérico y categoprical dato para traer todas las variables a
un 0–1 gama.
Por ejemplo, con el dato de préstamo personal, las variables haber ampliamente
magnitud y unidades diferentes. Algunas variables haber relativamente valores
pequeños (p. ej., número de los años empleados), mientras otros tienen valores
muy grandes (p. ej., cantidad de préstamo en dólares). Si el dato no es scaled,
entonces el PCA, K-medios, y otro clustering los métodos serán dominados por
las variables con valores grandes e ignorar las variables con valores pequeños.
El dato categórico puede posar un problema especial para algún clustering
procedimientos. Cuando con K -vecinos más cercanos, unordered variables de
factor son generalmente convertidas a un conjunto de binario (0/1) las variables
que utilizan un calientes codificando (ve “Uno Caliente Encoder”). No sólo es las
variables binarias probablemente en una escala diferente de otro dato, el hecho
que variables binarias haber sólo dos valores pueden probar problemáticos con
técnicas como PCA y K -medios.
Scaling Las Variables
Variables con escala muy diferente y necesidad de unidades para ser
normalizado apropiadamente antes de que aplicas un clustering procedimiento.
Por ejemplo, dejado es aplica kmeans a un conjunto de datos de préstamo
defaults sin normalizar:
Las variables anuales_inc y revol_bal domina los grupos, y los grupos tienen
medidas muy diferentes. Grupo 1 ha sólo 55 miembros con comparativamente
ingresos altos y equilibrio de crédito rotativo.
Una aproximación común a scaling las variables es para convertirles a z -
puntuaciones por restar el malo y dividiendo por la desviación estándar. Esto está
denominado estandarización o normalización (ve “Estandarización
(Normalización, Z- Puntuaciones)” para más discusión aproximadamente
utilizando z-puntuaciones):
Ver qué pasa a los grupos cuándo kmeans está aplicado a el dato normalizado:
Las medidas de grupo son más equilibradas, y los grupos no son justo
dominados por
Anual_inc y revol_bal , revelando estructura más interesante en el dato. Nota
que los centros son rescaled a las unidades originales en el código de preceder. Si
habíamos dejado les unscaled, los valores resultantes serían en plazos de z-
puntuaciones, y por lo tanto menos interpretables.
NOTA
Scaling Es también importante para PCA. Utilizando el z-las puntuaciones es equivalentes a
utilizar la matriz de correlación (ve “Correlación”) en vez de la matriz de covarianza en
computar los componentes principales.
Software para computar PCA normalmente tiene una opción para utilizar la matriz de correlación
(en R, el princomp
La función tiene el argumento cor).
Variables dominantes
Incluso en casos donde las variables están medidas en la misma escala y con
exactitud reflejar importancia relativa (p. ej., movimiento a precios accionarios), a
veces pueda ser útil a rescale las variables.
Supone añadimos Alfabeto (GOOGL) y Amazona (AMZN) a el análisis en
“Interpretar Componentes Principales”.
syms <- c('AMZN', 'GOOGL' 'AAPL', soySFT', 'CSCO', 'INTC', 'CVX', 'XOM',
EsLB', 'COP', 'JPM', 'WFC', 'USB', 'AXP', 'WMT', 'TGT', 'HD', 'COSTE')
Superior_sp1 <- sp500_px[fila.Nombres(sp500_px)>='2005-01-
01', syms] sp_pca1 <- princomp(superiores_sp1)
screeplot(sp_pca1)
Ronda(sp_pca1$loadings[,1:2], 3)
Comp.1 Comp.2
GOOGL 0.781 0.609
AMZN 0.593 -0.792
AAPL 0.078 0.004
MSFT 0.029 0.002
CSCO 0.017 -0.001
INTC 0.020 -0.001
CVX 0.068 -0.021
XOM 0.053 -0.005
...
Para ilustrar Gower distancia, toma unas cuantas filas de el dato de préstamo:
Todas las distancias son entre 0 y 1. El par de los registros con la distancia más
grande es 2 y 3: tampoco tiene los mismos valores para la casa o el
propósito y ellos tienen niveles muy diferentes de dti (deuda-a-ingresos) y
pago_inc_proporción . Registros 3 y 5 tiene la distancia más pequeña porque
comparten los mismos valores para casa o propósito .
Puedes aplicar jerárquico clustering (ve “Jerárquico Clustering”) a la matriz de
distancia resultante que utiliza hclust a la producción de daisy :
> df[Etiquetas(dnd_corte$bajar[[1]]),]
# Un tibble: 9 × 4
dti Pago_inc_proporci Casa Propósi
<dbl> ón <fctr> to
<dbl> <fctr>
1 24.57 0.83550 ALQUIL Otro
ER
2 34.95 5.02763 ALQUIL Otro
ER
3 1.51 2.97784 ALQUIL Otro
ER
4 8.73 14.42070 ALQUIL Otro
ER
5 12.05 9.96750 ALQUIL Otro
ER
6 10.15 11.43180 ALQUIL Otro
ER
7 19.61 14.04420 ALQUIL Otro
ER
8 20.92 6.90123 ALQUIL Otro
ER
9 22.49 9.36000 ALQUIL Otro
ER
La parte superior cuatro grupos son esencialmente proxies para los niveles
diferentes de las variables de factor. Para evitar este comportamiento, podrías
escala las variables binarias para tener una varianza más pequeña que otras
variables. Alternativamente, para dato muy grande conjuntos, podrías aplicar
clustering a subconjuntos diferentes de los datos que apechugan con valores
categóricos concretos. Por ejemplo, podrías aplicar clustering por separado a
aquellos préstamos hicieron a alguien quién tiene una hipoteca, posee una casa
francamente, o alquileres..
IDEAS CLAVES PARA SCALING DATO
Las variables midieron en necesidad de balanza diferente para ser transformado a balanza
similar, de modo que su impacto en los algoritmos no es determinados principalmente por su
escala.
Otro método es Gower distancia, el cual balanza todas las variables al 0–1 gama ( es a menudo
utilizó
Con dato numérico y categórico mixto).
Resumen
Para reducción de dimensión de dato numérico, las herramientas
principales son cualquier análisis de componentes principal o K -medios
clustering. Ambos requieren atención a apropiado scaling de el dato para
asegurar reducción de dato significativo.
Para clustering con dato estructurado altamente en qué los grupos es bien
separado, todos los métodos probablemente producirán un resultado similar.
Cada método ofrece su ventaja propia. K-Balanza de medios a dato muy grande y
es fácilmente entendió.
Jerárquico clustering puede ser aplicado al dato mixto escribe — numérico y
catego rical — y se deja a una exhibición intuitiva (el dendrogram). Modelo-
basado clustering está fundado en teoría estadística y proporciona una
aproximación más rigurosa, cuando opposed a los métodos heurísticos. Para dato
muy grande, aun así, K- los medios es el método principal utilizó.
Con dato ruidoso, como el préstamo y dato accionario (y mucho de el dato que
un científico de dato afrontará ), la elección es más dura. K-Medios, jerárquicos
clustering, y especialmente modelo-basado clustering todos producen soluciones
muy diferentes. Cómo tener que un científico de dato procede?
Desafortunadamente, hay no regla sencilla de pulgar para guiar la elección.
Finalmente, el método utilizó dependerá de la medida de dato y el objetivo de la
aplicación.
1 Esto y secciones subsiguientes en este capítulo © 2017 Datastats, LLC, Peter Bruce y Andrew
Bruce, utilizado por permiso.
Bibliografía
Un
Un/B testaje, Un/B Testaje-Para Lectura más Lejana
Grupo de control, ventajas de utilizar, Por qué Tener un Grupo
Adaboost, Aumentando
Aumentando algoritmo, El Algoritmo de
Modelo
Descomposición de varianza, F-
ANOVA
AUC
B
backward Eliminación, Selección de Modelo y Stepwise
Regresión
bagging, El Bootstrap, Resampling, Aprendizaje de Máquina Estadística,
Bagging rendimiento predictivo mejor que árboles solos, Cómo los árboles
Son Utilizados
Aumentando vs., Aumentando
Sesgo, Sesgo
Sesgo de selección, Sesgo de Selección-sesgo de
Escogiendo K
Medida?
Cubos
Hexagonal binning, Hexagonal Binning y Contornos (Plotting Numéricos
versus Dato Numérico)
Histogramas.
Distribuciones
XGBoost, XGBoost
Aleatorio
Influyentes
C
Dato categórico, Elementos de Dato Estructurado
Explorando, Explorando Dato Binario y Categórico -
Correlación valor esperado, Valor Esperado
Modo, Modo
Estructurado
Clasificación, Clasificación-Resumen
discriminant Análisis, Discriminant Análisis-matriz de
covarianza de Lectura más Lejana, Matriz de Covarianza
undersampling, Undersampling
Grupos
dendrogram, El Dendrogram
Medios
Puntuaciones)
coeficientes de Modelo
En logistic regresión, Interpretando los Coeficientes y Odds Proporciones
Intervalos de Confianza
más Lejana
Plazos claves para, Correlación
scatterplots, Scatterplots
Matriz de correlación,
Correlación
Ejemplo, correlación entre telecomunicación regresos accionarios,
Correlación
Matriz de covarianza
En discriminant análisis, Matriz de Covarianza
Distancia Metrics
Gráficos de beneficios
acumulables, Ascensor D
d.f. (Grados de libertad), Grados de Libertad , Chi-Prueba
Cuadrada (ve también grados de libertad).
Dato
Tipos de dato
Plazos claves para, Elementos de recursos de
ANOVA, F-Statistic
Dispersión, Estimaciones de
Variabilidad (ve también
variabilidad, estimaciones de)
Factor en Regresión
Representación de variables de factor en regresión, Dummy
Representación de Variables
E
EDA (ve análisis de dato exploratorio)
Estadística
Escenificó utilizado de K-Vecinos más Cercanos, KNN como
Categóricas
Dato Exploratorio
Extrapolación
Peligros de, Los Peligros de definición de
Utiliza Regresión
F
F-statistic, ANOVA, F-Statistic, Evaluando las
Fracaso
Índice de descubrimiento falso, Testaje Múltiple, el
Selección de característica
chi-Pruebas cuadradas en, Pertinencia para
Prueba Exacta
Máquina Estadística
G
Beneficios, Ascensor
(Ve también ascensor)
H
Notación de sombrero, Cupo Valores y Residuals
Homogeneidad o Impureza.
hyperparameters
Y cruz-validación en aumentar, Hyperparameters y Cross-Validación
Null Hipótesis
Yo
Impureza, Modelos de Árbol
Midiendo, Midiendo Homogeneidad o Impureza
Factor en Regresión
Inferencia, Análisis de Dato Exploratorio, Importancia y
Experimentos Estadísticos Testaje
Ecuación de Regresión
Y efectos principales, Interacciones y Efectos Principales
Estructurado
Confianza K
K (En K-Vecinos más Cercanos), K-Vecinos más
Validación
Medios
Escogiendo K
Estimaciones de Densidad
Cercanos)
L
Lambda, en Poisson y relacionó distribuciones, Poisson y Relacionó
Distribuciones
Lasso Regresión, Selección de Modelo y Stepwise Regresión,
Regularización: Evitando Overfitting
Ascensor, Ascensor
Cruz-validación, Cross-Validación
Ponderación M
Aprendizaje de máquina
Estadística vs., Aprendizaje de Máquina Estadística
Ubicación.
Normal N
n (Medida de muestra), Estudiante t-
Grados de Libertad.
más Lejana
Definición de, Polinomio y Spline Regresión nonrectangular
(Normalización, Z-Puntuaciones)
Variables numéricas
Agrupado según una variable categórica, Dato Categórico y Numérico
Variables
O
Representación de objeto (dato espacial), Nonrectangular Estructuras de
Dato
Occam navaja, Selección de Modelo y Stepwise Regresión
Proporciones
Registro-odds proporción y, Interpretando los Coeficientes y Odds
de Variables
P
p-Valores, Importancia Estadística y P-Valores , P-Valora
ajustar, Testaje Múltiple
principales)
Stepwise Regresión
Percentiles
Permiso, obteniendo para testaje subject humano, Por qué Justo Un/B? Por qué
No C, D…?
de Confianza
Solución
Predicción
Explicación vs., en regresión lineal, Predicción versus Explicación
(Profiling)
Puntuaciones)
Q
QQ-Parcelas, Distribución Normal
Ejemplo, regresos para Netflix, Mucho tiempo-Tailed
Normales y QQ-Parcelas.
R
R-Cuadrado, Regresión Lineal Múltiple, Evaluando el Modelo
Bosques aleatorios, Interacciones y Efectos Principales, Modelos de Árbol,
Bosque Aleatorio-
Hyperparameters
Rendimiento predictivo mejor que árboles solos, Cómo los árboles
Aleatoria
Testaje
Pruebas de aleatorización,
Resampling (ve también
pruebas de permutación)
Raro
Correlativos Predictors
multicollinearity, Multicollinearity
splines, Splines
Overfitting
Valor Continuo
Regularización, Aumentando
avoding overfitting Con, Regularización: Evitando Overfitting
Regresión
Robusto, Estimaciones de
Ubicación estimaciones
robustas de ubicación
Ejemplo, población y índice de asesinato por estatales, Ejemplo:
Estimaciones de Ubicación de Población y Índices de Asesinato
Desviación absoluta mala de el median, Desviación Estándar y Relacionó
Estimaciones
S
Sesgo de muestra, Muestra y Muestreo Aleatorios Sesgo, Muestra y
Muestreo Aleatorios Sesgo
Muestras
Definición de, Muestra y Muestreo Aleatorios Sesgo
Dato y Índices.
Distribuciones
scatterplots, Correlación
Ejemplo, regresos para ATT y Verizon,
Prueba Exacta
Búsquedas
Consultas de búsqueda encima Google, Medida versus Calidad: Cuando
Hace Asunto de Medida?
Efecto de búsqueda vasta, Sesgo de Selección
Dato
splines, Splines
ANOVA
withing Suma de grupo de plazas, K-Medios Clustering
Lejana
Estadística y P-Valores.
Aumentando, Aumentando-Resumen
Evitando overfitting utilizando regularización, Regularización: Evitando
Overfitting
XGBoost, XGBoost
Escogiendo K, Escogiendo K
más Lejana
Midiendo homogeneidad o impureza, Midiendo Homogeneidad o
Impureza
Utilizados
Permutación
Lejana
T
t-Distribuciones, Estudiante t-Distribución-Lectura más Lejana, t-
ciencia de dato de las Pruebas y, Estudiante t-Distribución
objetivo de Distribuciones
Múltiples
U
unbiased Estimaciones, Desviación Estándar y Relacionó
Variables
dendrogram, El Dendrogram
Medios
uplift Vs.
ascensor,
Ascensor V
Muestra de validación, Evaluando variabilidad de
Modelos de la Clasificación
en Percentiles
Variables
Explorando dos o más, Explorando Dos o Más Variables-Resumen
dato categórico y numérico, Dato Categórico y Numérico.
Hexagonal binning y contornos, Hexagonales Binning y
Contornos (Plotting Numéricos versus Dato Numérico)
Z-Puntuaciones)
Varianza, Estimaciones de
análisis de Variabilidad de
(ANOVA), ANOVA
W
El método de Ward, Medidas de Dissimilarity
X
XGBoost, XGBoost-Hyperparameters y Cross-Validación
hyperparameters, Hyperparameters y Cross-Validación.
Z
z-Distribución, Estándar Normal y QQ-
Parcelas (ve también distribución normal)
Ejemplos de Código
Contactarnos
Acknowledgments
1. Elementos de Análisis de
Dato exploratorios de Dato
Estructurado
Lectura más lejana
Dato rectangular
Marcos de dato y Índices
Estimaciones de la
ubicación Mala
Estimaciones de Variabilidad
Desviación estándar y Relacionó las
Explorando la Distribución de
Dato Percentiles y
Boxplots.
Mesa de frecuencia y
Histogramas
Valor esperado
Lectura más
Lejana
Correlación
Scatterplots
Lectura más
lejana
Selección aleatoria
Sesgo de selección
Regresión a la
Mala
Distribución de muestreo de un
Statistic Teorema de Límite
Central
Error estándar
Lectura más
Lejana
El Bootstrap
Resampling versus Bootstrapping
Intervalos de
confianza Más
allá Leyendo
Distribución normal
Estándar Normal y QQ-Parcelas
Mucho tiempo-Tailed
Distribuciones Más
allá Leyendo
Estudiantil t-Distribución
Lectura más Lejana
Distribución binomial
Lectura más Lejana
Poisson Y Relacionó
Distribuciones Poisson
Distribuciones
La distribución
Lejana
Resumen
más Lejana
Pruebas de hipótesis
El Null Hipótesis
Hipótesis Alternativa
Resampling
Prueba de permutación
Ejemplo: Web Stickiness
Alfa
Errores Ciencia y P-
Leyendo
t-Pruebas
Lectura más lejana
Testaje múltiple
Lectura más lejana
Grados de Libertad
Lectura más
Lejana
ANOVA
F-Statistic
Dos-Manera ANOVA
Chi-Prueba cuadrada
Chi-Prueba cuadrada: Un Resampling
Lejana
Multi-Algoritmo de Bandido
del brazo Lectura más
Lejana
Power y Medida de
Muestra Medida
de Muestra
Resumen de
4. Regresión y Predicción
Regresión Lineal Sencilla
La Ecuación de Regresión
Menos Plazas
Modelo
Cross-Validación
Extrapolación e Intervalos de
Predicción
Interpretando la Ecuación de
Regresión Correlativa
Predictors
Multicollinearity
Confounding Interacciones de
variables y Efectos
Principales
Valores influyentes
Nonlinearity.
Splines
Modelos Aditivos
Leyendo
Resumen
5. Clasificación
Naive Bayes
Por qué la clasificación bayesiana Exacta Es Poco
Discriminant Matriz de
Covarianza del
análisis
Un Ejemplo Sencillo
Logistic Regresión
Logistic Función de respuesta y Logit
Proporciones
La Precisión de Problema de
AUC
Ascensor
Dato
Undersampling
Oversampling Y Arriba/Abajo
Resumen
6. Aprendizaje de Máquina
estadística K-Vecinos
más Cercanos
Un Ejemplo Pequeño: Pronosticando
Estandarización (Normalización, Z-
Puntuaciones) Escogiendo K
KNN Como Motor de Característica
Modelos de árbol
Un Ejemplo Sencillo
Continuo
Son Utilizados
Bosque aleatorio
Importancia Variable
Hyperparameters
Aumentando
El Algoritmo de
Aumentar XGBoost
Hyperparameters y Cross-Resumen de
Validación
7. Unsupervised Aprendizaje
Análisis de Componentes principales
Un Ejemplo Sencillo
Componentes Principales
K-Medios Clustering
Un Ejemplo
Sencillo K-
Algoritmo de
Medios
Seleccionan el Número de
Grupos.
Jerárquico Clustering
Un Ejemplo
Sencillo
El Dendrogram
El Agglomerative Medidas de
Algoritmo de Dissimilarity
Modelo-Basado Clustering
Multivariate Mezclas de
Distribución normal de
Normals.
Seleccionando el Número de
Grupos Más allá Leyendo
Variables dominantes
Dato categórico y Gower Problemas de
Índice de
Bibliografía del
resumen