Documentos de Académico
Documentos de Profesional
Documentos de Cultura
https://www.dremio.com/tutorials/working-with-your-first-dataset/
LIVE Summer 2021, del 21 al 22 de julio.
Detectar idioma
Aprende Más Español
Los datos
Dremio admite la mayoría de las fuentes de datos y muchos formatos de archivo. En este
tutorial trabajaremos con datos proporcionados por la ciudad y el condado de San Francisco .
La ciudad
10:54
mantiene muchos conjuntos de datos interesantes, incluidos los incidentes policiales
de cada año, a partir de 2003:
Campo Escribe Ejemplo
IncidentNum Cuerda 170512983
Categoría Cuerda ROBO DE VEHICULOS
Descripcion Cuerda AUTOMÓVIL ROBADO
Día de la semana Cuerda sábado
Fecha Cuerda 24/06/2017
Tiempo Cuerda 00:30
PdDistrict Cuerda DEL SUR
Resolución Cuerda NINGUNO
Dirección Cuerda 9TH ST / MISSION ST
X Cuerda -122.414714295579
Y Cuerda 37.7762310404758
Localización Cuerda (37.7762310404758 °,
-122.414714295579 °)
PdId Entero 17051298307021
Usaremos este espacio para trabajar con nuestros conjuntos de datos virtuales (VDS). A
continuación, comencemos a trabajar con los datos de incidentes policiales almacenados en
S3. Navegue a Muestras en la sección Fuentes en la parte inferior izquierda. Luego haga clic en
samples.dremio.com:
El icono de archivo blanco junto a cada archivo indica que Dremio sabe que se trata de un
archivo, pero aún no conoce su formato. A lo largo de esta serie de tutoriales de Dremio,
trabajaremos con un solo año de incidentes (SF_Incidents2016.json) que incluye
aproximadamente 150.000 registros. La ciudad proporciona años de datos históricos en caso
de que desee trabajar con un conjunto de datos más grande en un momento posterior.
Conozca las últimas innovaciones en el ecosistema de datos abiertos en Subsurface ™ ×
LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más
Para identificar el formato, coloque el cursor sobre el archivo y, a la derecha, verá un ícono de
carpeta con una flecha que apunta a otra carpeta con una cuadrícula:
Una vez que haga clic en este icono, verá una muestra de los datos y un cuadro de diálogo
para confirmar el formato:
Dremio admite muchos tipos de archivos, incluidos Excel, JSON, Parquet y otros. Con algunos
formatos de archivo, hay configuraciones requeridas (por ejemplo, delimitador de campo,
delimitador de línea), pero debido a que JSON es autodescriptivo, simplemente podemos hacer
clicConozca
en "Guardar"
las y ver una
últimas muestra deenloseldatos
innovaciones presentados
ecosistema de en el abiertos
datos visor de conjuntos
en de datos
Subsurface ™ ×
de Dremio: LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más
El icono violeta indica que Dremio entiende que se trata de un conjunto de datos físicos.
También significa que ahora podemos consultar este conjunto de datos usando SQL desde
cualquier herramienta. Por ejemplo:
1
SELECT *
2
FROM Samples."samples.dremio.com"."SF_incidents2016.json"
Los datos todavía están en S3 y Dremio no ha realizado una copia ni ningún cambio en el
original, pero con solo unos pocos clics hemos abierto estos datos JSON a una amplia gama de
herramientas analíticas. Exploraremos esto con más detalle más adelante.
UnConozca
objetivo las
esencial de innovaciones
últimas Dremio es queen
loselusuarios
ecosistemapuedandepreparar
datos fácilmente
abiertos en los datos para™
Subsurface
satisfacer sus propias necesidades,
LIVE y hacerlo
Summer 2021,sindelhacer
21 copias
al 22 de gravar al departamento de TI. ×
nijulio.
Comencemos trabajando con tipos de datos y nombres
Aprende Más de columnas.
Ahora, el nombre de esta columna es "Descripción" para todas las consultas. Tenga en cuenta
que esto no hizo cambios en los datos de origen.
También puede notar que el ícono violeta ahora es verde y el nombre es "Nueva consulta". En
lugar de realizar cambios en el conjunto de datos físicos (PDS), estamos creando un conjunto
de datos virtual, donde puede aplicar cualquier cambio a los datos de forma dinámica, sin
alterar los datos originales y sin hacer una copia.
A continuación, la columna llamada "Fecha" es en realidad una cadena, así que cambiemos la
columna Fecha de una cadena a una fecha. En el lado izquierdo del encabezado de la columna,
haga clic en el icono "Abc" para abrir el menú de tipo de datos:
Conozca las últimas innovaciones en el ecosistema de datos abiertos en Subsurface ™ ×
LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más
Haga clic en "Fecha ..." y verá una pantalla con muchas opciones que le ayudarán a convertir
esta cadena en una fecha. De la lista de formatos, la primera opción funciona para esta
columna. A continuación, puede ver una vista previa de los datos con el original en amarillo y la
columna convertida en azul:
Esta vista previa
Conozca las permiteinnovaciones
últimas comentarios inmediatos.
en el Si prueba
ecosistema de algunasabiertos
datos de las otras
en opciones, verá
Subsurface ™ ×
la actualización de la vista LIVE
previa.Summer
Puede asignar
2021, un 21
del nombre
al 22 adela julio.
nueva columna y,
opcionalmente, eliminar la columna original de su conjunto
Aprende Más de datos virtual o conservarla. En
este ejercicio reemplazaremos el original con nuestra nueva columna llamada Fecha que es un
tipo de datos. Haga clic en "Aplicar" y volverá a la pantalla del visor de conjuntos de datos.
Observe que el icono de tipo de datos en la columna Fecha reemplazó "Abc" con un calendario.
Hay algunos cambios más que hacer con este conjunto de datos. Cambie los tipos de las
columnas X e Y a Float y cámbieles el nombre a Lon y Lat, respectivamente. Después de aplicar
estos cambios, su conjunto de datos virtual debería verse así:
Notice along the upper right of the screen there is a series of gray dots with a yellow dot on the
top. This is the version history of your virtual dataset. Hover over each dot to see the changes
made along the way, and click on a dot to return to that step in the event you want to undo the
changes you’ve made to your virtual dataset.
You’ll see a list of spaces. Call this VDS “Incidents,” select the “SFIncidents” space, and then
click “Save.”
Now the upper left displays a green dataset icon with the full name of this virtual dataset,
“SFIncidents.incidents”:
We’Conozca
ve successfully
las created
últimas our first virtual
innovaciones en eldataset, “SFIncidents.incidents.”
ecosistema de datos abiertosWithout
en making a™
Subsurface
copy of the source data or LIVE
writingSummer
any SQL,2021,
we’vdel
e changed
21 al 22thedenames
julio. of some of the columns ×
and changed some of the data types to suit our needs.
Aprende Más
This virtual dataset is a first-class relational object. You can query it with SQL, join it to other
physical or virtual datasets, perform aggregations, and more. For example, you can click the
New Query button at the top and query this virtual dataset with SQL:
1
SELECT Category, count(*) as "incident count"
2
FROM SFIncidents.incidents
3
WHERE DayOfWeek in ('Monday','Tuesday','Wednesday','Thursday')
4
GROUP BY Category
5
ORDER BY "incident count" DESC
6
LIMIT 5
This query asks for and displays the top five most frequent incidents that occur during
weekdays (be sure to click Run instead of Preview):
Conclusion
This tutorial worked with JSON files in Amazon S3, and in just a few minutes we were able to
connect Dremio to a public file and issue a SQL query, all without making a copy of the data or
writing any code. We explored physical and virtual datasets, which allow users to customize the
data they need for their own analytical jobs, without asking IT to first make a copy.
Next Steps
En nuestro próximo tutorial conectaremos una herramienta de BI a Dremio para explorar los
datos de incidentes policiales. Incluso si nunca ha utilizado Tableau, será fácil seguir
Visualizando su conjunto de datos con Tableau .
Conozca las últimas innovaciones en el ecosistema de datos abiertos en Subsurface ™ ×
LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más
PLATAFORMA
Visión general
Nube Dremio
Software Dremio
Motor de consulta
Capa semántica
Seguridad
Innovación de código abierto
POR QUÉ DREMIO CLIENTES
Por qué Dremio Historias de clientes
SOCIOS
Socios de Dremio
APRENDER COMPAÑÍA
Subsuperficie Sobre nosotros
Subsurface Live Liderazgo
Recursos Sala de prensa
Blog Comunicados de prensa
Docs Carreras
Universidad Contáctenos
Comunidad