Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Artofdatascience-38-61 en Es
Artofdatascience-38-61 en Es
31
Machine Translated by Google
También debe tener alguna expectativa sobre cuáles serán los niveles
de ozono y si el ozono de una región debería ser más alto (o más
bajo) que el de otra. A medida que avanza al paso 3 para comenzar
a responder su pregunta, aplicará nuevamente el epiciclo de análisis
de modo que si, por ejemplo, los niveles de ozono en el conjunto de
datos son más bajos de lo que esperaba al observar los datos
publicados anteriormente, necesitará para hacer una pausa y
determinar si hay un problema con sus datos o si sus expectativas
eran incorrectas. Su expectativa podría ser incorrecta, por ejemplo, si
su fuente de información para establecer sus expectativas sobre los
niveles de ozono fueron datos recopilados hace 20 años (cuando los
niveles probablemente eran más altos) o de una sola ciudad en los
EE. UU. Entraremos en más detalles. con el estudio de caso a
continuación, pero esto debería brindarle una descripción general
sobre el enfoque y los objetivos del análisis de datos exploratorios.
Machine Translated by Google
solución fácil 9.
Seguimiento
Por lo general, es una buena idea dedicar unos minutos a descubrir cuál es
la pregunta que realmente le interesa y reducirla para que sea lo más
específica posible (sin dejar de ser interesante).
Como nota al margen, una de las preguntas más importantes que puede
responder con un análisis de datos exploratorio es "¿Tengo los datos
correctos para responder esta pregunta?" A menudo esta pregunta es
difícil de responder al principio, pero puede volverse más clara a medida
que clasificamos y analizamos los datos.
> biblioteca(readr)
> ozono < read_csv("data/hourly_44201_2014.csv", col_types
+ = "ccccinnccccccncnncccccc")
péselo para ver qué tan pesado es. Así es como debes pensar en tu conjunto
de datos antes de comenzar a analizarlo de verdad.
> nrow(ozono)
[1] 7147884
y columnas.
> ncol(ozono)
[1] 23
> str(ozono)
Clases 'tbl_df', 'tbl' y 'data.frame': 7147884obs . de 23 variables\
les:
$ Código.de.estado : chr "01" "01" "01" "01" ...
En general, contar cosas suele ser una buena forma de saber si algo
anda mal o no. En el caso más simple, si esperas que haya 1000
observaciones y resulta que solo hay 20, sabes que algo debe haber
salido mal en alguna parte. Pero hay otras áreas que puedes
comprobar según tu aplicación. Para hacer esto correctamente,
necesita identificar algunos puntos de referencia que puedan usarse
para comparar sus datos. Por ejemplo, si está recopilando datos sobre
personas, como en una encuesta o ensayo clínico, entonces debe
saber cuántas personas hay en su estudio.
> cabeza(tabla(ozono$Tiempo.Local))
Una cosa que notamos aquí es que si bien casi todas las mediciones en el
conjunto de datos se registran como tomadas en el
hora, algunos se toman en momentos ligeramente diferentes. tan pequeño
número de lecturas se toman en estos momentos libres que
Puede que no quiera que le importe. Pero parece un poco extraño, por lo que podría
Merece la pena echarle un vistazo rápido.
> biblioteca(dplyr)
> filtro(ozono, Hora.Local == "13:14") %>%
+ seleccione (Estado.Nombre, Condado.Nombre, Fecha.Local,
+ Hora.Local, Muestra.Medición)
Fuente: marco de datos local [2 x 5]
Ahora podemos ver que este monitor solo registra sus valores en
horas impares, en lugar de cada hora. Parece que, al mirar
en la salida anterior, que este es el único monitor en el
país que hace esto, por lo que probablemente no sea algo que
debería preocuparse.
conjunto de datos.
> único(ozono$Estado.Nombre)
[1] "Alabama" "Alaska"
[3] "Arizona" "Arkansas"
[5] "California" "Colorado"
[7] "Connecticut" "Delaware"
[9] "Distrito de Columbia" "Florida"
[11] "Georgia" "Hawai"
[13] "Idaho" "Illinois"
[15] "Indiana" "Iowa"
[17] "Kansas" "Kentucky"
[19] "Luisiana" "Maine"
[21] "Maryland" "Massachusetts"
[23] "Míchigan" "Minnesota"
[25] "Mississippi" "Misuri"
[27] "Montaña" "Nebraska"
[29] "Nevada" "Nuevo Hampshire"
[31] "Nueva Jersey" "Nuevo Mexico"
[33] "Nueva York" "Carolina del Norte"
[35] "Dakota del Norte" "Ohio"
[37] "Oklahoma" "Oregón"
[39] "Pensilvania" "Rhode Island"
[41] "Carolina del Sur" "Dakota del Sur"
[43] "Tennessee" "Texas"
[45] "Utah" "Vermont"
[47] "Virginia" "Washington"
[49] "Virginia Occidental" "Wisconsin"
[51] "Wyoming" "Puerto Rico"
Dado que son claramente parte de los EE. UU. (pero no estados oficiales
de la unión), todo parece estar bien.
Es muy importante asegurarse de que sus datos coincidan con algo fuera
del conjunto de datos. Le permite asegurarse de que las mediciones
coincidan aproximadamente con lo que deberían ser y sirve para verificar
qué otras cosas podrían estar mal en su conjunto de datos. La validación
externa a menudo puede ser tan simple como comparar sus datos con un
solo número, como haremos aquí.
2
http://www.epa.gov/ttn/naaqs/standards/ozone/s_o3_history.html
Machine Translated by Google
> resumen(ozono$Muestra.Medición)
Mín. 1er P. Mediana Media 3ª Qu. Máx.
0,00000 0,02000 0,03200 0,03123 0,04200 0,34900
Sabiendo que el estándar nacional para el ozono es algo así como 0,075,
podemos ver en los datos que
• Los datos son al menos del orden de magnitud correcto (es decir,
las unidades son correctas) •
El rango de distribución es más o menos lo que esperaríamos, dada
la regulación sobre los niveles de contaminación ambiental
En las primeras etapas del análisis, es posible que tenga una pregunta/
hipótesis, pero es posible que tenga poca idea de lo que sucede en los
datos. Es posible que haya echado un vistazo a algunos de ellos para
realizar algunas comprobaciones de cordura, pero si su conjunto de
datos es lo suficientemente grande, será difícil simplemente mirar todos los datos.
Por lo tanto, elaborar algún tipo de gráfico, que sirva como resumen,
será una herramienta útil para establecer expectativas sobre cómo
deberían verse los datos.
Una vez que tenga una buena comprensión de los datos, una buena
pregunta/hipótesis y un conjunto de expectativas sobre lo que los datos
deberían decir con respecto a su pregunta, hacer un gráfico puede ser
una herramienta útil para ver qué tan bien los datos coinciden con sus
expectativas. . Las tramas son particularmente buenas para permitirte
ver desviaciones de lo que podrías esperar. Las tablas suelen ser buenas
para resumir datos presentando elementos como medias, medianas u
otras estadísticas. Los gráficos, sin embargo, pueden mostrarle esas
cosas, así como mostrarle cosas que están lejos de la media o la
mediana, para que pueda verificar si se supone que algo está tan lejos.
A menudo, lo que es obvio en una trama puede ocultarse en una tabla.
Aquí hay un diagrama de caja simple3 de los datos de ozono, con un diagrama de
caja para cada estado.
3
https://en.wikipedia.org/wiki/Box_plot
Machine Translated by Google
En el gráfico podemos ver que para la mayoría de los estados los datos
se encuentran dentro de un rango bastante estrecho por debajo de 0,05
ppm. Sin embargo, para Puerto Rico vemos que los valores típicos son
muy bajos, excepto por algunos valores extremadamente altos. De
manera similar, Georgia y Hawaii parecen experimentar un valor muy
alto ocasionalmente. Podría valer la pena explorarlos más a fondo,
dependiendo de su pregunta.
Machine Translated by Google
> biblioteca(mapas)
> mapa("estado")
> abline(v = 100, lwd = 3) >
texto(120, 30, "Oeste") >
texto(75, 30, "Este")
Machine Translated by Google
Aquí creamos una nueva variable llamada región que usamos para indicar
si una medición determinada en el conjunto de datos se registró en el "este"
o el "oeste".
También podemos hacer un diagrama de caja del ozono en las dos regiones.
para ver cómo se comparan.
Podemos ver en los diagramas de caja que la variabilidad del ozono en el este
tiende a ser mucho mayor que la variabilidad en el oeste.
Desafía tu solución
La solución fácil es buena porque es, bueno, fácil, pero nunca debes
permitir que esos resultados duren el día. Siempre debe pensar en formas
de desafiar los resultados, especialmente si esos resultados se ajustan
a sus expectativas anteriores.