Está en la página 1de 4

Traducido del inglés al español - www.onlinedoctranslator.

com

Conferencia internacional de 2018 sobre técnicas computacionales y de caracterización en ingeniería y ciencias (CCTES) Universidad
Integral, Lucknow, India, 14 y 15 de septiembre de 2018

Ciencia de datos: minería y modelado de conjuntos de información cósmica

y visualización

Sr. Subhashish Kumar Dr. Namrata Dhanda Sr. Ashutosh Pandey


Departamento de Ingeniería y Ciencias de la Computación Departamento de Ingeniería y Ciencias de la Computación Departamento de Ingeniería y Ciencias de la Computación
Universidad de la amistad, Universidad de la amistad Universidad de la amistad

Uttar Pradesh, Lucknow, India Uttar Pradesh, Lucknow, India Uttar Pradesh, Lucknow, India
funcionarioshubh@outlook.com ndhanda@lko.amity.edu prncpnd94@gmail.com

Abstracto—En este artículo, iluminamos la investigación en el campo de El análisis de datos oscuros y tácticos es confuso. El título del trabajo
experiencia en análisis estadístico, es decir, la ciencia de datos, todo un mundo se ha vuelto muy conocido. En uno de los sitios de empleo más
tecnológico en sí mismo que hoy en día se ha convertido en una palabra de moda utilizados, el número de ofertas de trabajo inclinadas a "científicos de
entre los geeks. Otorgamos la extracción de conjuntos de datos, el modelado y la datos" fue de más del 100 por ciento entre enero de 2010 y julio de
visualización del marcado de big data con la biblioteca de código abierto fácil de 2012. La existencia de científicos de datos ayuda a las empresas a
usar del lenguaje Python experimentando la hoja de datos en tiempo real
tomar decisiones comerciales más sólidas e inteligentes.
enfocándonos en el trabajo de profecía y los tecnicismos que son necesariamente
necesarios para la organización. del mundo de hoypara el alimento de futuras
decisiones y estrategias comerciales. Elaborar las palabras clave proporcionadas, Los datos de Amazon Prime y Netflix extraen patrones de
desde su instalación en caso de ser necesario hasta su importación y su interés de películas para analizar qué tarjetas de películas le
aplicabilidad. Como la ciencia de datos es el quid de la metodología estadística y interesan a un usuario y luego utilizan toda la información para
de análisis de big data, tiene un papel importante en el campo de los datos, predecir y generar las listas de películas.
donde la información de Internet ha tenido una inclinación repentina en los
últimos cuatro años hasta muestras de zettabytes y petabytes, donde se necesita Se dirige a las características, es decir, cuál es el rango
cada vez más investigación para hacer que el mundo se destaque paralelamente principal de clientes dentro de su base y los intereses de
en el campo de mucha información. compra únicos dentro del rango de ese grupo. Esto les
ayuda a guiar el mensaje a diferentes grupos de audiencias
del mercado.
Palabras clave: ciencia de datos, Pandas, seaborn, Numpy, minería de
datos, visualización de datos, modelado de hojas de datos, educación. Gamble and Proctor utiliza modelos de series de tiempo para obtener
estadísticas de necesidades futuras de manera más lúcida e
inteligible, lo que ayuda a planificar niveles de producción óptimos.
yo yoNTRODUCCIÓN
Amazon y Flipkart utilizan motores de recomendación para
La moda del término "Ciencia de datos" ha bombardeado el ámbito detectar los productos, de modo que puedan poner el
técnico, académico y empresarial, como lo indica el aumento en las producto permanezca en la visión del usuario, utilizando
vacantes. Sin embargo, muchos académicos y periodistas críticos no ven algoritmos. Spotify utiliza algoritmos para recomendar
distinciones entre la ciencia de datos y la implementación de estadísticas. canciones al usuario.
Manejando datos estructurados y no estructurados, la ciencia de datos es
El filtro de spam de Gmail funciona con el algoritmo para los
un campo que abarca todo lo relacionado con la limpieza, preparación y
correos basura y coloca en consecuencia el spam, los correos
análisis de datos. Los datos están en todas partes y aumentan a un ritmo
basura y los no basura en carpetas distintas.
infinito. De hecho, la cantidad de datos digitales que existen está
creciendo a un ritmo rápido; de hecho, existen más de 2,7 zettabytes de Los vehículos autónomos utilizan visión por computadora, que también es
datos enuniverso digital de hoy, y que se proyecta que florecer a 180 un producto de datos: el código de aprendizaje automático le permite aprender
zettabytesen 2025. Por eso más organizaciones del nuevo mundo buscan y alertar según los peatones, los semáforos y los automóviles en la carretera,
trabajadores profesionales quién puede dar sentido a todos los datos. es etc., para evitar accidentes. Estos son los requisitos para los científicos de datos
el futuro de desarrollo y presente para el desarrollo sostenible. Para la industriales profesionales.
sostenibilidad y la opulencia del campo de la ciencia de datos, Donoho
proyecta un dominio cada vez mayor para la ciencia abierta donde los A. Experiencia matemática
conjuntos de información cósmica utilizados para publicaciones
Extraer datos y analizarlos estáticamente es el principal
académicas sean accesibles para todos los investigadores académicos e
desafío para los científicos de datos para ver los datos a través
industriales. El Instituto Nacional de Salud de EE.UU. ya ha publicado
de un óculo lógico y cuantitativo. Hay varios atributos de los
planes para ampliar la reproducibilidad y la claridad de los datos de la
datos, como su delicadeza, dimensión y correlación, en los datos
investigación. La ciencia de datos tiene una conformidad que incorpora
que se pueden expresar gráficamente con algunas aplicaciones
grados distintivos de información, método científico, estadística,
matemáticas. Encontrar la panacea analizando los datos,
informática avanzada, visualización, mentalidad de hacker y experiencia
dándoles sentido y prediciendo la próxima audiencia objetivo y la
en el dominio. Una persona con experiencia profesional en el campo de la
estrategia es una técnica desconcertante. La principal solución
ciencia de datos se llama científico de datos. Los científicos de datos
para los problemas relacionados con el negocio involucra
resuelven
técnicas basadas en matemáticas duras, donde poder ver y

978-1-5386-4254-2/18/$31.00 ©2018 IEEE 1


entender inteligentemente es otro mecanismo de esos modelos y scikit-learn. Aún se necesita más trabajo para hacer de
métodos y esa es la clave del éxito en su construcción. Python un entorno de modelado estadístico de clase
extraordinariamente brillante, pero en la actualidad está en camino
B. Fuerte astucia empresarial hacia la meta.

Se espera que el científico de datos que desempeña un papel importante


sea un analizador de negocios astuto, táctico e incondicional. Al trabajar tan A. Instalación
agitadamente con los recursos de la empresa, los científicos de datos están La solución óptima para instalar pandas en el sistema es el
implicados aprender de los datos en diferentes procesos, lo que otros no comando:
pueden hacer. Eso los hace perfectos para observar los datos y reflejarlos de conda instalar pandas
manera gráfica o matemática, y contribuir a la estrategia para resolver
problemas comerciales cruciales. Este establecimiento del proceso hace que
También se puede instalar desde el PyPI donde se
todos los puntos críticos sean inteligibles mediante la visualización de datos. No
cargó usando el comando:
vomitar datos; más bien, presentar una sombra muy clara de interpretación y pip instalar pandas
solución de datos, utilizando la visualización de datos como pilares de
patrocinio que conducen a la orientación. B. Especificaciones y aspectos destacados de la biblioteca

Las herramientas para escribir y leer información entre


C. Tecnología y piratería diferentes formatos como Microsoft Excel, CSV y archivos de texto,
bases de datos SQL y el rápido formato HDF5 son Alineación de datos
Para empezar, debe quedar claro que estamosno hablando de
inteligente y manejo integrado de datos faltantes: obtenga una alta
piratería informática se trata de hacer que la información sea clave al
alineación automatizada basada en etiquetas en tecnologías
ingresar a las computadoras. Nos referimos al significado de piratería de
computacionales y fácilmente influir en los datos desordenados de
la subcultura del codificador técnico, es decir, creatividad e inventiva en el
una manera ordenada y estructurada, división firme basada en
uso de habilidades técnicas para crear o generar cosas y encontrar
etiquetas, indexación elegante y subconfiguración de conjuntos de
soluciones tácticas a problemas, como se expresa en la Figura 1.
datos cósmicos, colaboración de rendimiento clásica y adjuntar
conjuntos de información. Python con pandas se utiliza en una
amplia y distinta variedad de dominios académicos y comerciales,
incluidos finanzas, publicidad, análisis web, economía, neurociencia,
estadística y muchos más.

III. NACIDO EN EL MAR

Seaborn es una biblioteca de visualización interactiva de Python


basada en matplotlib. Proporciona una interfaz de alto nivel para dibujar
gráficos estadísticos interactivos atractivos y fáciles de usar. Muchas
estructuras integradas para diseñar matplotlib del móduloLos gráficos
son aplicables. Existen herramientas para elegir paletas de colores para
crear diferentes gráficos de visualización que revelen patrones en la
información proporcionada. Existen abstracciones de alto nivel para
manipular patrones y cuadrículas de gráficos que le permiten crear
fácilmente modelados y visualizaciones complejos. Seaborn actúa para
apuntar a que la visualización de la producción sea una parte central de la
exploración y comprensión de los datos. Seaborn hace que la trama sea
Fig. 1. Significado del hacking en la subcultura del codificador técnico interactiva para el usuario, productiva e inteligible con menos texto y
paletas de colores más distintas para una mejor comprensión. Matplotlib
II. PAGY COMO hace que las cosas fáciles sean fáciles y las difíciles sean posibles de
Pandas es una biblioteca de código abierto con licencia BSD que interpretar, pero seaborn también hace que un conjunto bien
proporciona una estructura de datos, algoritmos y herramientas de estructurado de cosas difíciles sea fácil. Seaborn nos proporciona
análisis de datos eficientes, eficaces y fáciles de manejar para el formatos gráficos personalizables de los que carece matplotlib. Al utilizar
lenguaje de programación Python. Pandas es un proyecto la biblioteca seaborn de código abierto, ya que está disponible a través del
patrocinado por NumFOCUS. El éxito del desarrollo de la biblioteca espacio de nombres pyplot, es probable que a menudo importe funciones
pandas está garantizado por esta biblioteca como proyecto de código matplotlib para generar gráficos de funciones más fáciles y con menos
abierto de clase mundial y hace posible ofrecerla de forma gratuita al frecuencia. Para una fácil instalación de la última versión de seaborn,
mundo. Menos para el análisis y modelado de datos, sino para la escriba en el símbolo del sistema:
manipulación y preparación de big data, Python ha sido excelente y
pip instalar seaborn / conda instalar seaborn
conocido durante mucho tiempo. La biblioteca Pandas proporciona la
implementación de funciones para llenar este vacío, lo que permite al IV.NÚMERO
usuario continuar con la manipulación y visualización de datos sin
apuntar a otro dominio como el lenguaje de programación R. La extensión NumPy o Numerical Python es el paquete
fundamental para la informática científica con Python. Se usa para un
Agregado y reunido junto con el hábil kit de herramientas de IPython tipo similar de matriz multidimensional, también se usa para hacer
y los módulos, el dominio para trabajar en la implementación de datos en cosas relacionadas con matemáticas o cantidades cósmicas, es decir,
Python es superior en cuanto a puesta en escena, productividad big data. Está escrito en C que'spor qué funciona de forma rápida y
estratégica y posibilidad de agregación. Pandas no proporciona modelado ágil. Generalmente opera en una matriz nD, es decir, una matriz n
de datos significativos ni operaciones en programas fuera de la regresión dimensional. Realiza funciones como la creación de un objeto de
lineal y de panel; para esto, mira las estadísticas matriz N-dimensional, álgebra lineal útil, transformada de Fourier y

2
capacidades de números aleatorios, herramientas para integrar Hoja_de_datos.Nacionalidad.valor_cuentas()
código C/C++ y FORTRAN. NumPy también se puede utilizar como un
> > a = Top10país.cabeza(10)
contenedor multidimensional eficaz y eficiente de datos genéricos. Se
pueden definir tipos de datos arbitrarios. Esto permite que NumPy se > > a.plot(tipo = 'pastel', leyenda = Verdadero, tamaño de figura =
integre rápida y fácilmente con una amplia variedad de bases de (7,7), sombra = Verdadero, explotar = [0,0.7,0,0,0.3,0,0,0,0,0 ])
datos.
> > matplotlib.pyplot.show() Y la
NumPy tiene la licencia BSD, lo que permite la reutilización con
pocas restricciones. Numpy proporciona funciones beneficiosas para
salida se muestra en la Fig. 2.
los juegos numéricos de alteración y visualización de la información
del conjunto de datos.

La instalación de Numpy continúa ejecutando el código en el símbolo


del sistema:instalación de pip numpy.

Las características de funcionamiento básicas de NumPy es su "nd array",


para una estructura de datos de matriz n-dimensional. Estas matrices nd son
vistas de procesos importantes en la memoria. A diferencia de la estructura de
datos de lista incorporada de Python (que, a pesar del nombre, es una matriz
dinámica), estas matrices están codificadas de manera homogénea: todos los
elementos de una única matriz deben ser del mismo tipo.

VDMODELADO DE HOJAS ATA Y VISUALIZACIÓN DE


INFORMACIÓN Y ESTADÍSTICAS

Para una mejor explicación del modelado y la visualización


estática, hemos tomado la hoja de datos completa original del
campeonato de la FIFA que incluye los datos anteriores, las
columnas y filas se pueden analizar ejecutando el código:

> > Hoja_de_datos = pandas.read_csv( 'ubicación://


FIFAdataSheet.csv', low_memory = False)

> > Hoja_de_datos.info ()


Fig. 2. Los diez países potencialmente más fuertes en la FIFA
Pero antes de comenzar, tenemos que importar las bibliotecas necesarias
aquí para que se pueda invocar en el momento de la operación. El código es Con esto el resultado se parece a la Figura 2 rRepresentar al
el siguiente- equipo de 'Inglaterra' como el país con mayor potencial y al
equipo de 'Países Bajos' como el décimo en el potencial.
> > importar pandas
jerarquía. Estas son las únicas técnicas utilizadas en los partidos
> > importar nacido del mar deportivos de clase mundial y también predicen los datos. Otra
investigación realizada por la empresa estadounidense Amazon,
> > importar matplotlib.pyplot
que con estas estadísticas y visualización, profetiza el orden de
> > importar números los elementos de la persona y muestra ese elemento en su
cuenta de manera aleatoria, y también está trabajando en la
Por lo tanto, le proporcionará información sobre toda la hoja predicción de datos, es decir, la profecía. de los pedidos y la
de datos con 17981 x 75 filas y columnas respectivamente. Para entrega antes de que los usuarios los soliciten. Estas
simplificar, haríamos una hoja de datos de muestra de campos investigaciones están llevando al mundo a otro nivel de
particulares que son necesarios para nuestro análisis y tecnicismos y precisión, sin ninguna susceptibilidad, para una
estadísticas ejecutando el comando: planificación del desarrollo saludable y sostenible.
> > pre_columns = ['Nombre', 'Edad', 'Foto', 'Nacionalidad',
'General', 'Potencial', 'Club', 'Valor', 'Wagmi',…………., B. Representación gráfica de la proporcionalidad de la 'Edad'
'Posiciones preferidas'] del Jugador y el 'Potencial General'
Código para la visualización de la proporcionalidad de la edad del
> > Hoja_de_datos = pandas.DataFrame(datos = fl, columnas =
pre_columnas) jugador y su potencial general,la consulta es –

Tomando la función de ayuda de matplotlib.pyplot y la biblioteca > > rbao=Data_sheet.groupby('Edad')['General'].media().


seaborn, que ayuda a proporcionar servicios fáciles de usar. restablecer_índice()
Tomando los datos útiles y visualizándolos gráficamente las > > rbao.sort_values('Edad')
siguientes consultas: > > matplotlib.pyplot.plot(rbao['Edad'], rbao['General'])
> > matplotlib.pyplot.show()
A. Los diez países potencialmente más fuertes en el
campeonato de la FIFA ejecutando el código: Representará el grupo de edad que tiene su potencial de
crecimiento y declive. De la hoja de datos encontramos el gráfico
> > 10 países principales =
expresado en la Fig. 3.

3
Una representación gráfica más de los partidos disputados por los
equipos yd 'ganar por carreras' y el total de partidos puede ser
representado de la siguiente manera en la Fig. 5 -

Figura 5. GRAMOrepresentación gráfica de los partidos jugados por los equipos y 'ganancias
Fig. 3. Representación gráfica de la proporcionalidad de la 'Edad' y el 'Potencial
por carreras' y partidos totales
general' del jugador

VI. CONCLUSIÓN
C. Total de partidos de FIFA jugados por un país desde que se utilizó el
gráfico de conteo de Seaborn.
Estos son solo una muestra de lo que puede hacer un campo de la
ciencia de datos, está más allá de nuestra imaginación, en el que los
A partir del año de ignición, el número total de coincidencias se
científicos y expertos en datos están trabajando y se están llevando a cabo
traza con la ayuda de la biblioteca Python Seaborn titulada,
más investigaciones que definitivamente ayudarán mucho al mundo en
'Nacionalidad' como etiqueta X- y 'contar' como Y-La etiqueta se
celeridad. Todos los datos cósmicos almacenados se pueden utilizar para
puede visualizar mediante el código.
el estudio general y para planificar el desarrollo y las estrategias para
> > matplotlib.pyplot.figure(tamaño de figura = (40, 30)) fines futuros. Este mundo lleno de datos es realmente enorme, el Lo que
> > seaborn.countplot(x = 'Nacionalidad', datos = importa es cómo lo abordamos y diseñamos estrategias, eso es Por qué la

Hoja_de_datos) demanda de manejadores de datos o científicos aumenta día a día en las


empresas para que la información tenga sentido.
> > matplotlib.pyplot.show()

La salida generada se expresa en la Fig. 4.


REFERENCIAS
[1] Marcha, Salvatore T. y Gerald F. Smith. "Diseño e investigación en ciencias
naturales sobre tecnologías de la información". Sistemas de apoyo a la
decisión 15.4 (1995).
[2] Peffers, Ken, et al. "Una metodología de investigación en ciencias del diseño para la
investigación de sistemas de información". Revista de sistemas de información de
gestión 24.3 (2007)

[3] https://www.simplilearn.com/data-science-vs-big-data-vs-
dataanalytics-article.
[4] Baker, Ryan SJD y Kalina Yacef. "El estado de la minería de datos educativos
en 2009: una revisión y visiones de futuro". JEDM| Revista de minería de
datos educativos 1.1 (2009).
[5] https://en.wikipedia.org/wiki/Data_scienceI.S. Jacobs y CP Bean, “Partículas
finas, películas delgadas y anisotropía de intercambio”, en Magnetismo,
vol. III, GT Rado y H. Suhl, Eds. Nueva York: Academic, 1963, págs.
271-350.
[6] https://datajobs.com/what-is-data-science
[7] https://pandas.pydata.org/
Fig. 4. Partidos de FIFA jugados por un país desde que se utilizó el diagrama de conteo de
[8] http://www.numpy.org/
Seaborn
[9] https://seaborn.pydata.org/

Este gráfico proporciona los datos en serie comenzando desde la parte [10] https://en.wikipedia.org/wiki/Data_science

superior, es decir, la primera fila, y avanzando hacia la parte inferior. El número [11] https://docs.python.org/3/tutorial/

de partidos jugados varía porque no están estructurados de forma ordenada.


Por lo tanto, obtenemos un gráfico estructurado y fácil de usar bien
representado utilizando la paleta I de la biblioteca seaborn de código abierto.

También podría gustarte