Está en la página 1de 133

Agradecimientos

Transmitir mi agradecimiento a todos aquellos que me han ayudado a lo largo


de esta etapa y han colaborado en esta investigación.

En primer lugar, a mi tutor José María Serrano Chica, por su ayuda en la


planificación, información y organización en este Trabajo de Fin de Grado.

Quiero agradecer a mi madre, a mi padre y a mi hermana el apoyo


incondicional que me han dado a lo largo de toda mi vida y formarme lo mejor
posible para afrontar la vida.

También, expresar mi más sentido agradecimiento a la Universidad de Jaén


por acogerme dentro de sus aulas y hacerme sentir como en casa. Quiero
agradecer a todos los profesores que he tenido, tanto en la universidad como fuera
de ella, por haberme formado como profesional.

Desarrollar este proyecto ha tenido un gran valor para mi porque me ha


ayudado a introducirme al mundo de Big Data y de la minería de datos y quiero
agradecer a mi profesor y mis compañeros por haberme propuesto ideas para
introducir y desarrollar el proyecto.

Página | 1
RESUMEN
Estudio y análisis de las principales arquitecturas y herramientas en el
mercado para la creación de un sistema Big Data que sea el que más se ajuste a los
objetivos del proyecto. Los objetivos son el análisis del mercado financiero de la
industria informática para la resolución de los problemas actuales del mercado
informático como es la escasez de semiconductores.

Para el tratamiento de los datos y evitar así datos repetidos o incompletos


dentro de la herramienta Big Data que hayamos seleccionado como la más óptima
para el proyecto usaremos los lenguajes de programación Scala y Python.

ABSTRACT
Study and analysis of the main architectures and tools on the market for the
creation of a Big Data system that best suits the objectives of the project. The
objectives are the analysis of the financial market of the computer industry for the
resolution of the current problems of the computer market such as the shortage of
semiconductors.

To process the data and thus avoid repeated or incomplete data within the Big
Data tool that we have selected as the most optimal for the project, we will use the
programming languages Scala and Python.

Página | 2
BLOQUE I

Introducción

Página | 3
1. Introducción y objetivos
En esta sección hablaremos de todos los motivos que me han llevado a
realizar mi TFG sobre el estado actual del mercado de componentes de aparatos
informáticos tanto para explicar como se ha llegado a la situación actual de escasez
de componentes como analizar cómo va a evolucionar el mercado en los próximos
años con los datos actuales.

1.1. Contexto y motivación

Desde que se inició este milenio gracias a la globalización se ha notado un


crecimiento muy notable en el número de dispositivos informáticos incluyendo aquí
los ordenadores y los móviles. Actualmente el 68% de la población mundial tiene un
teléfono lo que supone que hay alrededor de 5.320 millones de dispositivos móviles,
también en 2021 y 2022 se vendieron 240 y 238 millones de portátiles
respectivamente. A continuación se muestra una gráfica en la que se observa el
número de móviles y ordenadores(tanto ordenadores portátiles como sobremesa)
que se han vendido desde 2008 al 2022.

Página | 4
Ilustración 1:Ventas de ordenadores y móviles entre las fechas 2008-2022.

El incremento del número ventas de dispositivos,como se muestra en la


gráfica anterior ha provocado un aumento de la demanda de los componentes y
materias primas necesarias para la fabricación de dichos dispositivos, ha hecho que
no haya los suficientes como para satisfacer todo el mercado provocando que el
precio de los mismos aumente significativamente.

A la alta demanda de componentes y de materias de primas para satisfacer la


demanda de aparatos informáticos hay que sumar eventos globales como lo son la
pandemia de COVID,las guerras y las políticas realizadas por los países
productores de los componentes necesarios para la fabricación de los aparatos
informáticos, haciendo que la oferta de dichos aparatos sea menor y provocando así
que los precios de los productos aumenten.

A partir de las necesidades anteriores, este proyecto se enmarca dentro del


sector informático, analizando la demanda de dispositivos informáticos tanto en el
pasado como en el presente para realizar una estimación de la demanda a futuro.
Este análisis tiene como objetivo de que las empresas se puedan preparar para la
demanda a futuro y que por lo tanto existan existencias para que no haya más
demanda que oferta y por lo tanto que no haya inflación de los productos en el
mercado.

Para realizar el proyecto nos hemos apoyado en un sistema Big Data


implementado sobre dos arquitecturas diferentes como lo son sobre un cluster y una
arquitectura pseudo-distribuida.

Página | 5
Con los datos obtenidos de distintas fuentes web accedemos al sistema Big
Data que hemos creado para el proyecto para poder así cargar los datos y proceder
al análisis de dichos datos. Después de realizar el análisis obtendremos unos
resultados con lo cuales nos ayudaran a buscar relaciones entre ellos y a ver cómo
le ha afectado ciertos acontecimientos significativos como puede ser la cuarentena
para así poder tomar hipótesis de cómo se pueden comportar los distintos datos si
sucede otra vez el mismo acontecimiento o alguno similar en el futuro.

En la Ilustración 2 se puede observar la visión general del proyecto a


desarrollar .

Ilustración 2:Esquema bloques fundamentales sistema Big Data.

1.2 Origen del término “Big Data”

Antes de seguir con el proyecto se va a dar una pequeña introducción del


concepto “Big Data” explicando su origen y de evolución que ha tenido hasta llegar a
nuestros días. Esta explicación sirve para introducir al lector el concepto de Big
Data,concepto fundamental para realizar el proyecto que se explicara con más
detalle en el Bloque 2 en el apartado 2.1 Big Data.

A continuación se va a describir toda la evolución que ha tenido el término


Big Data desde su origen en los años 50 hasta la actualidad:

En los años 50[1] se crea la memoria virtual, una memoria capaz de procesar
datos sin la limitación del tamaño de la memoria principal de los dispositivos. La
memoria virtual permitía solucionar el problema de la memoria física de los
ordenadores de la época por el cual se hacía imposible almacenar la suficiente
cantidad de datos como para poder realizar un Big Data de forma eficiente.

El Big Data empieza a tener cierta importancia en los años 90 con el


nacimiento del primer navegador web y con la apertura de internet. Esta apertura

Página | 6
supuso que se pudiera compartir todo tipo de datos globalmente de una forma muy
sencilla dando así lugar a la primera generación de datos masivos.

En 1996 los precios del almacenamiento de datos empiezan a ser accesibles


con un coste eficiente en lo que es una de las grandes revoluciones en la historia
del big data llegando en 2003 como primer año en el que el almacenamiento digital
más barato que el papel.

En la década de los años 2000 empiezan a surgir empresas que generan y


almacenan de forma segura grandes cantidades de datos para dar facilidades a
otras empresas a cambio de un pequeño alquiler que supone menos gastos que si
las propias empresas almacenarán sus datos.

Una de las primeras veces que se usa el Big Data para la recolección de
datos por parte de un gobierno y no de una empresa es en 2009 cuando el gobierno
indio decidió tomar un escáner de iris, una huella digital y una fotografía de sus
1.200 millones de habitantes[2].

1.3. Objetivos

El objetivo principal del TFG es el diseño e implementación de un sistema Big


Data eficiente,escalable que permita hacer un análisis del ecosistema informático
orientado a las empresas para ayudar adaptarse a lo que sucederá en el futuro si se
producen hechos como el COVID o sanciones como las hechas por EEUU a China.
Con este objetivo se pretende que las empresas puedan cumplir con la demanda de
productos informáticos sin tener que realizar sobrecostes en su fabricación. Para
cumplir dichos objetivos vamos a seguir los siguientes pasos:

● Análisis y estudio de las diferentes tecnologías necesarias para implementar


el sistema.

● Recolección de datos.

● Implementación en diferentes entornos del sistema Big Data diseñado.

● Análisis de la eficiencia del sistema diseñado.

● Conclusiones con los datos obtenidos del análisis.

● Realizar un presupuesto que nos permita saber cuánto costaría llevar a cabo
el proyecto.

Página | 7
Para cumplir con los objetivos de realizar un análisis de los problemas
actuales de demanda de componentes electrónicos para aparatos informáticos, este
proyecto va a responder a 3 preguntas relacionadas con dichos problemas para
poder así buscar soluciones para que no existan en el futuro. Las preguntas
realizadas son:

● ¿Cuánto afecta las políticas de ciertos países al mercado internacional?


● ¿Cuántas fábricas serían necesarias para satisfacer la demanda?
● ¿Cómo afecta la escasez de materias primas a la producción de
semiconductores y otros componentes informáticos?

1.4 Presupuesto

En este apartado se va a enumerar todos los gastos que hay que realizar
para llevar a cabo el proyecto.

1.4.1 Herramientas usadas

Las herramientas que se va ha usar a lo largo del proyecto se puede


clasificar en dos grandes grupos:

Recursos humanos.

En el desarrollo del proyecto solo ha participado una persona que es el autor


de este trabajo de final de grado y es Pedro Martinez Marín como ingeniero junior.

Recursos Software y hardware.

Para realizar el proyecto se va a necesitar una serie de recursos tanto


hardware como software, es el caso de hardware se van a necesitar 4 ordenadores
para componer el cluster y con respecto a recursos software se mostrarán qué
precio tiene las aplicaciones se han usado durante todo el desarrollo del proyecto.

Los recursos hardware que vamos a usar en el proyecto son:

● 4 Ordenador sobremesa Lenovo.

○ 8GB de RAM.
○ AMD Ryzen 5 3500U.
○ AMD Radeon Graphics.

Página | 8
○ 512GB SSD

● 4 Monitor 19" LCD HD Dell E1914HEF.

● Teclado y ratón.

Los recursos software que vamos a usar en el proyecto son:

● 4 Ubuntu 21.0.

● 1 Apache Hadoop 2.7.2

● 1 Apache Hive 3.1.2

● 1 Apache Spark. 3.2.3

● 1 Python 3.1.0

1.4.2 Presupuesto

El presupuesto se ha creado a partir de las herramientas comentadas en el


apartado anterior.

Recursos humanos

Cuando hay personas que participan en el desarrollo de un proyecto hay que


incluir su salario dentro del presupuesto para saber cuánto costaría crear y
desarrollar el proyecto al 100%. En nuestro caso solo participa una persona que
trabaja como Ingeniero Junior a 15 euros la hora.

En la siguiente tabla se muestra la duración en días y horas que se han


necesitado para la implementación de cada fase de desarrollo del proyecto, en el
apartado 1.5.1 Fases de desarrollo se hace una pequeña descripción de en qué
consiste cada una de estas fases.

Fase de desarrollo Días Horas

Identificación de las necesidades y planteamiento del 5 30


problema

Búsqueda de aplicaciones y herramientas para el 10 50


proyecto

Diseño del sistema 8 40

Página | 9
Estudio y selección de las herramientas para el 8 400
proyecto

Obtención y análisis del sistema. 20 150

Análisis de los resultados de los datos 10 60

Conclusiones 5 50

Desarrollo de la memoria 53

TOTAL 126 500


Tabla 1: Recursos humanos.

En total se ha necesitado unas 500 horas para hacer que la persona


desarrolle el proyecto esto supone unos 5000 euros.

Hardware y Software

En lo que se respecta a las herramientas hardware y software del proyecto he


creado un presupuesto independiente para cada tipo de herramienta para que se
pueda observar de forma más clara y sencilla cuales son las herramientas que están
relacionadas al hardware o al software.

Herramientas Software usadas en el proyecto:

Cant. Descripción Meses de Uso Precio/Mes Importe

1 Statista 3 39 117

1 Apache Hadoop 3.2.4 6 0 0

1 Apache Spark 3.2.3 6 0 0

1 Ubuntu 21.0 6 0 0

1 Python 3.1.0 6 0 0

Total 117
Tabla 2: Herramientas Software.

Página | 10
Herramientas Hardware usadas en el proyecto:

Cant. Descripción Precio/Und. Importe


(IVA 21% incluido)

4 Ordenadores sobremesa 399 1596

4 Monitores 49 196

4 Teclado y ratón 20 80

Total 1872
Tabla 3: Herramientas Hardware.

Uniendo ambos presupuestos se obtiene el siguiente presupuesto general de


lo que va a costar llevar a cabo el proyecto.

Descripción Importe

Desarrolladores 5000

Hardware 1872

Software 117

Total 6989
Tabla 4: Herramientas Hardware.

1.5 Planificación

En este apartado hablaremos de la planificación del proyecto en la que se


incluye el desglose de todas las tareas.

1.5.1. Fases de desarrollo

Nuestro proyecto como cualquier otro proyecto cuenta con distintas fases de
desarrollo que las vamos a explicar a continuación:

1. Identificación de las necesidades y planteamiento del problema

El objetivo de esta sección es explicar las razones por las cuales nos ha
llevado a realizar el TFG y de enumerar todos los recursos que se necesitan para

Página | 11
llevar a cabo el proyecto tanto humanos como software y hardware.Tiempo de
ejecución: 5 días.

2. Búsqueda de aplicaciones y herramientas para el proyecto

El objetivo de esta sección es buscar información sobre herramientas y


aplicaciones que se encuentran en el mercado que satisfagan los requisitos del
proyecto. Tiempo de ejecución: 10 días.

3. Diseño del sistema

En esta sección el objetivo es analizar entre las distintas arquitecturas de


sistemas que existen y analizar cuál es la que mejor se adapta a los requisitos
planteados en el apartado 1.3 Objetivos.Tiempo de ejecución: 11 días.

4. Estudio y selección de las herramientas para el proyecto

El objetivo de esta sección es la de hacer un estudio de las herramientas y


las aplicaciones del mercado relacionadas con los objetivos que queremos
conseguir con el TFG,para poder así elegir las herramientas que mejor se ajusten a
nuestras necesidades.Tiempo de ejecución: 8 días.

5. Obtención y análisis del sistema

En esta sección el objetivo es describir de donde se va a obtener la


información que se va a usar para realizar el Big Data y que pasos hay que realizar
para que dicha información se pueda usar como herramienta para analizar el
mercado informático.Tiempo de ejecución: 20 días.

6. Análisis de los resultados de los datos

En esta sección el objetivo es realizar el análisis de los datos obtenidos del


sistema Big Data respondiendo a las preguntas que nos hicimos al inicio del
proyecto para poder así obtener ideas claras de como solucionar el problema actual
del gran desequilibrio entre la alta demanda y poca ofertas de componentes
informáticos.Tiempo de ejecución: 15 días.

Página | 12
7. Conclusiones

En esta sección daremos a conocer nuestras conclusiones finales sobre el


problema de la falta de semiconductores y de otros componentes informáticos
ayudándonos de la información obtenida en la sección anterior Análisis de los
resultados de los datos.Tiempo de ejecución: 5 días.

8. Redacción de la memoria

Documentación de todo el trabajo realizado en el proyecto. Tiempo de


ejecución: Desarrollo continuo desde la fase de desarrollo inicial hasta.

Fases críticas del proyecto

Durante el desarrollo del proyecto me he encontrado una fase crítica, que en


el caso de que haya problemas en dicha fase se retrasaría la duración total del
proyecto ya que afectaría a otras fases del proyecto. La fase crítica es la siguiente:

Instalación y Configuración de las herramientas usadas en el proyecto:


En caso de producirse retrasos en la configuración del sistema no se podrá seguir
con los plazos de tiempo descritos anteriormente a partir de la “Fase 5” que es la
que se corresponde con la Configuración del sistema.

Página | 13
1.5.2 Diagrama de Gantt

Ilustración 3:Diagrama de Gantt.

Página | 14
1.6. Estructura del documento

En este apartado de la introducción vamos hablar sobre cómo hemos dividido


el documento en capítulos para poder dar así al lector una idea general de la
información y facilitar así el seguimiento.

Capítulo I: Introducción

En este capítulo vamos a hablar de él porque de este proyecto,de los


objetivos que pretendemos conseguir al realizar el proyecto, del presupuesto total
para llevarlo a cabo y del calendario con la duración de cada fase del desarrollo del
proyecto.

Capítulo II: Planteamiento del problema

En este capítulo se explica en qué consiste el concepto principal de este


trabajo de final de grado que es: “big data” y se explica el concepto de “minería de
datos” que se va a usar superficialmente en el proyecto.

Capítulo III: Estudio de las herramientas Big Data

En este capítulo se describen y comparan las distintas arquitecturas que


puede tener un sistema Big Data y las herramientas para la creación y
funcionamiento de un sistema Big Data que hay en el mercado.

Capítulo IV: Obtención y análisis de datos

En este capítulo se explica cómo se obtienen,almacenan y procesan los


datos que se van a usar para el sistema Big data. También en este capítulo se
explican los procedimientos que hemos usado para hacer el análisis de los datos.

Capítulo V: Conclusiones y líneas futuras de trabajo

En este capítulo se van a dar las conclusiones obtenidas del análisis de datos
obtenidos del Big Data del capítulo anterior y se van a comentar algunas líneas
futuras donde el trabajo realizado en este TFG resultará útil.

Página | 15
Capítulo VI: Anexos

En este capítulo se incluyen todos los anexos del proyecto (Se incluye la
instalación de todos los componentes necesarios para el funcionamiento del sistema
diseñado. Incluye también el procedimiento de obtención, transformación y análisis
de datos).

Página | 16
BLOQUE II

Planteamiento del problema.

Página | 17
2. Análisis de datos

2.1. Big Data

2.1.1 Introducción

Big data[3] hace referencia a conjuntos de datos tan grandes y complejos que
precisan de aplicaciones informáticas no convencionales para procesarlos
adecuadamente. Este aumento del volumen de datos,las empresas lo utilizan para
identificar patrones y comportamiento de las personas y así poder adaptar sus
productos a las necesidades de la población.

Cuando se habla de big data una pregunta común es ¿Cúal es el volumen de


datos mínimo para que se pueda considerar que estamos hablando de Big Data?
Siguiendo la idea de la mayoría de expertos un volumen de datos se considera que
es Big Data cuando supera los 30-50 TB de información.

En 2010 Eric Schmidt[2] en la conferencia Techonomy en Lake comentó “que


la información creada hasta el 2003 fue de 5 exabytes” y en 2020 se generaron 64
zettabytes de información unas 12800 veces más de información que la que se
generó hasta el 2003. En la gráfica que se muestra a continuación se puede
observar que se espera que se generen 181 zettabytes en 2025 unas 36200 veces
más de información que toda la información generada hasta el 2003.

Página | 18
Ilustración 4: Previsión de crecimiento mundo Big Data.[4]

2.1.2 Funcionamiento General de un sistema Big Data

Hay 5 pasos a seguir para crear y hacer funcionar un sistema Big Data desde
cero que son[5]:

1. Establecer una estrategia de Big Data

Llamamos estrategia de big data al paso que consiste en la unión de los


objetivos que quiere conseguir la empresa con el sistema Big Data y el estudio de
las tecnologías existentes relacionadas con los sistemas Big Data para saber cuál
de ellas se adapta mejor a los objetivos de la empresa.

2.Conocer las fuentes del Big Data

Es importante saber de donde se pueden obtener los datos para crear


nuestro sistema Big Data, las fuentes más comunes son:

● De datos que provienen del Internet de las Cosas (IoT) y su mayor ventajas
es que puede ser analizados en tiempo real permitiendo saber si son útiles
para el sistema o no.

● De datos procedentes de medios sociales como puede ser YouTube e


Instagram y los datos pueden ser imágenes,videos y texto.

Página | 19
● De datos que son públicos como puede ser data.gov del gobierno de los
Estados Unidos y datos financieros en Yahoo Finance.

3. Acceder,gestionar y almacenar Big Data

Una parte importante del funcionamiento correcto de un sistema Big Data es


la velocidad y la potencia para acceder rápidamente a los datos almacenados en
ellas, sobre todo. Otra parte importante que la empresa tiene que decidir es cómo se
va almacenar los datos.

4. Analizar el Big Data

En este paso se incluyen todos los procedimientos que se usan para el


análisis de los datos big data del sistema big data. Como resultado de este paso se
obtiene la información que quiere la empresa para tomar las decisiones
empresariales.

5. Tomar decisiones inteligentes

En este paso las empresas toman las decisiones a partir de los resultados
obtenidos tras el paso anterior.

2.1.3 Tipos de Big Data

Cuando hablamos de Big Data podemos clasificarlos en dos tipos: según su


origen y según su estructura[6].

En función de su origen los datos tenemos:

Biométricos

En esta sección se incluyen los datos que aportan los seres humanos a partir
de las características físicas,por ejemplo, la retina y las huellas dactilares. Cada uno
de estos identificadores se considera únicos para cada persona y se pueden usar
por ejemplo en el reconocimiento de la población civil en la calle para poder detectar
así a delincuentes y unos de los primeros países que introdujo el Big Data
biométricos con la función antes comentada fue China.

Página | 20
Transacciones

En esta sección se incluyen los datos que se generan en grandes


transacciones, por ejemplo, todos los registros de la facturación de una empresa, de
las compras hechas por tarjeta y online.

Web y redes sociales

En esta sección se incluyen todos los datos que se obtienen de las


interacciones de los usuarios en las redes sociales y de los clics que se realizan en
las páginas web. Entre los datos que se obtienen los más comunes son: las
publicaciones que compartimos,cada comentario y like que le damos a una
publicación,etc.

Datos generados por los seres humanos

En esta sección se incluyen todos los datos que el ser humano genera en su
vida cotidiana, por ejemplo, emails y mensajes.

Datos entre máquinas

En esta sección se incluyen los datos que se obtienen a través de


tecnologías que conectan a unos dispositivos con otros. Por ejemplo, cuando un
usuario accede a nuestra wifi se conecta a nuestros dispositivos mediante el
bluetooth o a través de otras redes inalámbricas.

Ilustración 5: Tipos de Big Data según el origen de los datos.[7]

Página | 21
En función de su estructura, los datos pueden ser:

Estructurados

Los datos estructurados son datos ordenados. Aquí se agrupa los datos cuyo
formato está definido, al igual que su tamaño y su longitud. Ejemplos de datos
estructurados son: Hoja de Excel,SQL.

No estructurados

La característica más importante de los datos no estructurados es que hay


que ordenar, identificar y almacenar los datos antes de poder tratarlos aunque los
datos obtenidos tras realizar los procedimientos antes mencionados dan muchísimo
valor. Ejemplos de datos no estructurados son: el contenido multimedia y PDF.

Datos híbridos

Cuando se habla de datos híbridos nos referimos a datos que no son


regulares y que no se pueden gestionar de forma estandarizada. Un ejemplo de
datos híbridos son los datos que están en formato XML,HTML,JSON.

Ilustración 6: Tipos de Big Data según su estructura.[5]

Página | 22
2.1.4 Aplicaciones de Big Data

En esta sección hablaremos de algunas de las muchas aplicaciones que


tiene Big Data en la actualidad[6].

Educación

Mediante el análisis de información de los alumnos, un profesor podría


descubrir si su alumno progresa adecuadamente o no, por qué no lo hace y, lo más
importante, poner una solución en tiempo real.

Marketing y las relaciones con clientes

Es uno de los que ha experimentado una mayor aplicación práctica del Big
Data en los últimos años.Las aplicaciones del Big Data permiten:

● Hacer recomendaciones de compra personalizadas con un menor margen de


error.

● Mejorar el impacto de acciones publicitarias.

Salud

Las aplicaciones de Big Data en el campo de la salud permitirán:

● Mejorar la prevención de patologías.

● Detectar patologías de forma temprana.

● Facilitar el diseño y la aplicación de tratamientos personalizados, lo que


conducirá a una medicina más precisa.

Ciberseguridad

El Big Data es esencial en la ciberseguridad, por ejemplo para protegernos


de posibles ciberataques o comprender en qué barrios los ciudadanos están más
expuestos a ciertos delitos.

Página | 23
Ilustración 7: Aplicaciones de Big Data[8]

2.1.5. Características de los sistemas Big Data

Todos los sistemas Big Data tienen las siguientes características:

-Volumen: Se refiere al tamaño de las cantidades de datos que se generan y


provienen de dispositivos móviles e informáticos por ejemplo portátiles.Estos datos
se generan de manera automática por lo que el volumen siempre va creciendo.

-Velocidad: Los datos se generan y almacenan a una velocidad muy rápida


que provoca que los datos queden desfasados rápidamente y por lo tanto deben
reaccionar muy rápido para poder recopilarlos, almacenarlos y procesarlos.

-Variedad: El origen de los datos es altamente heterogéneo. Provienen de


múltiples sitios: cámaras, sistemas GPS, redes sociales, etc.

-Veracidad: El gran volumen de datos que se genera puede provocar que


dudemos sobre si los datos son verdaderos o falsos ya que pueden llegar
incompletos. Para los datos incompletos hay que limpiarlos y analizarlos aunque sea
una tarea infinita ya que la generación de datos incompletos es continua.

-Valor: Esta es la característica más importante de un sistema Big Data


porque es la razón por la que se crea dicho sistema y consiste en obtener el valor
que generan los datos.

Página | 24
Ilustración 8: Esquema de las 5V. [9]

2.1.6 Ventajas y Desventajas de Big Data

Ventajas.

Las principales ventajas del Big Data son las siguientes:

1. Velocidad en la toma de decisiones

Podremos asumir decisiones inteligentes y veloces que ayuden a favorecer a


nuestro negocio.

2. Feedback a tiempo real

La tecnología Big Data permite no solo almacenar y procesar datos, si no que


también permite recibir datos a tiempo real y así poder ajustarse mejor a las
demandas que quiere el usuario en cada momento.

3. Mejora en la eficiencia y en costes

El manejo del Big Data puede impulsar la velocidad a la que evoluciona un


producto o servicio gracias a la información que nos da el mercado,esto provoca
que el gasto de desarrollo se reduzca debido a que se ha reducido el tiempo de
desarrollo.

Página | 25
Desventajas.

Las principales desventajas del Big Data son las siguientes:

1. El exceso de datos.

Aunque la principal utilidad del Big Data es la capacidad de extraer


información de los datos, si esto se realiza de forma indiscriminadamente los datos
se convierten en ruido que ralentiza y obstaculiza las tareas del sistema Big Data.

2. Ciberseguridad.

La seguridad es el mayor reto para la tecnología Big Data. La vulnerabilidad


de esta enorme cantidad de datos almacenados es el objetivo de los nuevos
ciberataques.

2.2. Minería de datos

2.2.1 Introducción

El término de “minería de datos” consiste en intentar descubrir patrones en


grandes volúmenes de conjuntos de datos.

La minería de datos tiene 3 pilares fundamentales que son:

● Estadística: es la que se encarga del estudio numérico de las


relaciones de datos.

● Inteligencia artificial:sirve para encontrar patrones en la base de datos.

● Machine learning: sirve para aprender a partir de los datos de la base


de datos y poder hacer predicciones.

La metodología que hay que seguir en un proceso de minería de datos es el


siguiente:

Página | 26
Ilustración 9: Metodología presente en un proceso de minería de datos. [10]

Diferencia entre Big Data y Minería de Datos.

Las principales diferencias entre Big Data y minería de datos son las
siguientes:

● La minería de datos se centra en trabajar con un solo tipo de datos, por


ejemplo los estructurados, mientras que el big data puede trabajar con varios
tipos de datos a la vez.

● La minería de datos es una herramienta fundamental para el análisis de


grandes volúmenes de datos, ya que obtiene patrones de los mismos lo que
facilita su entendimiento. Los datos que se manejan en la minería pueden ser
tanto grandes como pequeños, sin embargo, el Big Data se relaciona más
con el procesamiento de grandes volúmenes de datos.

2.2.2 Ventajas y desventajas del minado de datos

Algunas de las ventajas de la minería de datos son:

● Es capaz de analizar bases de datos que tienen una gran cantidad de datos.

● Los resultados son muy fáciles de interpretar y no es necesario tener


conocimientos en ingeniería informática.

● Da a las empresas la posibilidad de ofrecer a los clientes los productos o


servicios que necesitan.

Página | 27
Una de las desventajas de la minería de datos es que dependiendo del tipo
de datos que se quiera recopilar, nos puede llevar mucho trabajo realizar el análisis
para obtener patrones que nos facilite el entendimiento de dichos datos .

2.2.3 Técnicas para el minado de datos.

Las técnicas de minería de datos más utilizadas en el mundo del Big Data
son [11]:

1. Árboles de decisión

Un árbol de decisión es una forma gráfica y analítica de representar todos los


eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto
momento. El objetivo del árbol de decisiones es poder comparar diferentes
alternativas ante una acción. Permite desplegar visualmente un problema y
organizar el trabajo de cálculos que deben realizarse. El árbol de decisión está
compuesto por nodos que pueden ser de distintos tipos:

● Cuadrado: Se utiliza para representar un nodo de decisión. Es la decisión


que se va a evaluar.

● Líneas: Cada una se desprende del nodo de decisión.Nos muestra los


distintos caminos que se pueden emprender cuando tomamos una decisión o bien
ocurre algún evento.

● Círculo: Representa a los nodos de oportunidad. Son las probabilidades


del
nodo de decisión.

● Triángulo: Cada uno es el resultado final de una decisión.

Página | 28
Ilustración 10 :Árbol de decisión.

Pasos para el Análisis del Árbol de Decisión

Los pasos a seguir para realizar un análisis en un árbol de decisión son los
siguientes:

● Definir el problema.

● Dibujar el árbol de decisión.

● Asignar probabilidades a los eventos aleatorios.

● Estimar los resultados para cada combinación posible de alternativas.

● Resolver el problema obteniendo como solución la ruta que proporcione la


política óptima.

Usos y aplicaciones de los árboles de decisiones

En la minería de datos, un árbol de decisión sirve para abordar problemas


tales como la clasificación, la predicción y la segmentación de datos con la finalidad
de obtener información que pueda ser analizada para tomar decisiones futuras.

Si quiere saber más información sobre los árboles de decisión como por es
un ejemplo práctica del uso de árboles de decisión en la minería de datos consulte
los siguientes enlaces:

● https://www.cs.us.es/~jalonso/cursos/ra-00/temas/tema-12.pdf.

● https://www.conectasoftware.com/magazine/analytics/arboles-de-decisiones-e
n-la-mineria-de-datos/ .

Página | 29
2. Redes neuronales

Las redes neuronales se engloban dentro de las técnicas predictivas de minería de


datos en el que es preciso entrenarlas con distintos datasets con los que ir
matizando los pesos de las neuronas para asegurar la fiabilidad de sus respuestas.

Hay tres partes normalmente en una red neuronal : una capa de entrada(input
layer), con unidades que representan los campos de entrada; una o varias capas
ocultas(hidden layer), y una capa de salida(output layer). Las unidades se
conectan con fuerzas de conexión variables (ponderaciones).

Todas las ponderaciones son aleatorias y las respuestas que resultan de la suelen
ser dispares por ello la red neuronal debe llevar a cabo un proceso de aprendizaje
para ajustar los valores de las ponderaciones este proceso se llama entrenamiento.

Ilustración 11 : Redes neuronales.

Si quiere saber más información sobre las redes neuronales relacionadas a la


minería de datos, consulte los siguientes enlaces:

● https://acortar.link/60nxJv

● https://oa.upm.es/21834/1/ANGEL_LUIS_CASTELLANOS.pdf

● http://www.cs.us.es/~fsancho/?e=165

3. Regresión lineal

La regresión lineal intenta trazar un gráfico lineal entre dos variables de


datos, x e y. Las variables independientes también se denominan variables

Página | 30
explicativas o variables predictivas. La variable dependiente, y, se traza en el eje
vertical.

¿Qué es la regresión lineal en el machine learning?

Se analizan grandes conjuntos de datos y trabajar hacia atrás a partir de esos


datos para calcular la ecuación de regresión lineal. El siguiente paso que hay que
realizar es entrenar el algoritmo en conjuntos de datos conocidos o etiquetados y, a
continuación, utilizan el algoritmo para predecir valores desconocidos.

La relación se obtendrá con una ecuación que representará el diagrama de


dispersión como el mostrado a continuación.

Ilustración 12: Regresión lineal. Ilustración 13: Fórmulas de regresión lineal

Si quiere saber más información sobre la regresión lineal relacionadas a la


minería de datos consulte los siguientes enlaces:

● https://aws.amazon.com/es/what-is/linear-regression/ .

● https://carlosaguero.gitbooks.io/resumen-mineria-de-datos-1/content/regresion.html .

4. Clustering

El clustering consiste en agrupar ítems en grupos con características


similares que se conocen como clústeres, generalmente con el objetivo de ayudar
en el descubrimiento de conocimiento a través de identificar patrones y también se
usa para la detección de anomalías.

Página | 31
Ilustración 14: Clustering.

Los resultados del análisis de datos se muestran mediante gráficos para


ayudar a los usuarios a visualizar la distribución de datos.

Actualmente existen diferentes algoritmos de clustering, pero uno de los


más extendidos es k-medias.

En este método se determina un número de grupos y el algoritmo se encarga


de buscar los mejores centroides para realizar el agrupamiento, de manera que los
elementos de cada grupo estén lo más cerca posible de sus centroides. Como el
algoritmo funciona iterativamente, va actualizando el centro de los clústeres para ir
reduciendo las distancias entre los elementos de cada clúster y el centro.

Si quiere saber más información sobre el algoritmo “k-medias" consulte los


siguientes enlaces:

● https://www.unioviedo.es/compnum/laboratorios_py/kmeans/kmeans.html.

● https://www.universidadviu.com/es/actualidad/nuestros-expertos/claustering-q
ue-es-y-que-aplicaciones-tiene

2.3 Conclusiones

En este capítulo hemos introducido y explicado los conceptos principales en


los que se basa este proyecto que son la Minería de Datos y el Big Data. Gracias a
este capítulo hemos podido ver las ventajas y desventajas de cada uno de los 2
conceptos,algunas de sus aplicaciones actuales y saber cómo funcionan, todo esto

Página | 32
con el objetivo de mostrar porque se han seleccionado estos conceptos como
puntos clave para el desarrollo del TFG.

Página | 33
BLOQUE III

Estudio de herramientas Big Data

Página | 34
3. Arquitecturas Big Data

En esta sección se va a describir distintas arquitecturas que hay en el


mercado que puede tener nuestro sistema Big Data y decidiremos según nuestros
requisitos que arquitecturas se adaptan mejor al sistema.

3.1 Computación pseudo-distribuida

Es un subtipo de arquitectura distribuida en el que tanto el nodo maestro y el


nodo esclavo se encuentran en la misma máquina.

Ventajas

● La instalación se realiza en una sola máquina, por lo que es más sencillo y


rápido de instalar que otras arquitecturas distribuidas o una arquitectura
cluster.

● El mantenimiento es menos costoso al tratarse de una sola máquina.

Página | 35
Desventaja

● La capacidad de computación de una sola máquina es mucho menor que la


de un cluster.

3.2 Computación distribuida

En computación distribuida cada problema es dividido en muchas tareas,


cada una de las cuales son resueltas por uno o más ordenadores que se comunican
mediante un intercambio de mensajes aunque para el usuario este intercambio de
mensajes se realiza de forma invisible y para él solo existe un único ordenador.

Ilustración 15: Esquema general del funcionamiento de Computación distribuida[12].

Las ventajas y desventajas de la computación distribuida son:

Ventajas.

● Velocidad: la necesidad de acelerar los cálculos más complejos se satisface


dividiendo problemas grandes en pequeños fragmentos.

● Seguridad frente a fallos: un sistema en torno a una única máquina puede


colapsar en caso de que el procesador falle. Sin embargo, en la computación
distribuida, los procesadores verifican mutuamente los puntos de control.

Página | 36
Desventaja.

● Sincronización: es una parte crítica de los sistemas distribuidos y cuanto


más nodos tenga el sistema más complejo es sincronizar los mensajes ya
que en la entrega de las tareas al usuario se tiene que ordenar todas las
subtareas que se hicieron para que se ejecutase en cada nodo del sistema.

3.3 Cluster

Llamamos cluster a un sistema de procesamiento distribuido que está


formado por un conjunto de computadoras independientes, interconectadas entre sí,
de tal manera que funcionan como un solo recurso computacional. A cada uno de
los elementos del cluster se le conoce como nodo.

Ilustración 16: Esquema general del funcionamiento de un Cluster. [13]

Ventaja

● La capacidad de computación es mayor que la de una sola máquina.

Desventajas

● La posibilidad de que el software del cluster falle o produzca un fallo en otro


subsistema que no habría tenido ese fallo si la operación fuese
independiente.

Página | 37
● Aumento de la complejidad de gestión y mayor probabilidad de error de un
operador al realizar tareas de gestión.

● El mantenimiento es más costoso al tratarse de más máquinas.

3.4 Computación elástica

La computación elástica es una tecnología del Cloud Computing en la que el


sistema tiene la capacidad de expandir o reducir rápidamente los recursos de
almacenamiento, memoria y procesamiento de la computadora para adaptarse a la
demanda de datos sin que el usuario tenga que cambiar algún parámetro del
sistema Big Data.

Ilustración 17: Aplicaciones de Computación Elástica. [14]

Ventajas

● Una empresa evita pagar por capacidad no utilizada o recursos inactivos y no


tiene que preocuparse del mantenimiento de recursos y equipos adicionales.

● La computación elástica es más eficiente que su infraestructura de TI típica


ya que está automatizada y no se depende de administradores humanos las
24 horas del día.

Página | 38
● Inexistencia prácticamente de una inversión en hardware.

Desventajas

● Aunque las máquinas pueden activar a pedido cuando se aumente la


demanda de recursos este aumento puede tardar varios minutos en estar
disponible para su uso y en ocasiones la organización no dispone de ese
tiempo.

● Control de datos a terceros y depender de un proveedor externo.

3.5 Conclusiones

Tras ver las ventajas y desventajas de cada una de las posibles estructuras
que puede tener el sistema Big Data me he decidido por tener 2 arquitecturas
distintas para adaptarse a diferentes necesidades que son: una arquitectura
pseudo-distribuida y un cluster. No hemos elegido implementar una arquitectura de
computación elástica porque no quiero que ninguna empresa que no sea la empresa
donde se implemente el sistema Big Data tenga acceso a los datos aunque la
computación elástica sea más eficiente y barata que las opciones elegidas.

Ilustración 18: Esquema de los tipos de sistema Big Data planteados.

Página | 39
4. Aplicaciones utilizadas en el proyecto.

En este apartado hablaremos de las aplicaciones que hay en el mercado


relacionadas con el Big Data y haremos una comparación entre ellas.

Como se muestra en la siguiente imagen las herramientas más usadas en


Big Data son:

Ilustración 19: Herramientas Big Data. [15]

Página | 40
4.1 Apache Hadoop.

4.1.1 Introducción.

Apache Hadoop es un entorno para programar


aplicaciones distribuidas bajo licencia libre que
manejen grandes volúmenes de datos.​Permite a
las aplicaciones trabajar con miles de nodos.
Está diseñado para escalar desde servidores
individuales a miles de máquinas.

Ilustración 20: Apache Hadoop. [16]

Apache Hadoop tiene cuatro módulos principales:

Ilustración 21: Módulos de Apache Hadoop. [17]

● Hadoop Common: Es el encargado de administrar el acceso a la serie de


bibliotecas y servicios que posee Hadoop.

● Sistema de archivos distribuidos de Hadoop(HDFS): Un sistema de


archivos distribuidos que proporciona acceso de alto rendimiento a los datos
de la aplicación.

● YARN: Un marco para la programación de trabajos y la gestión de recursos


de clúster.

● MapReduce: Un sistema basado en YARN para el procesamiento paralelo de


grandes conjuntos de datos.

Página | 41
Ventajas

● Hadoop puede mover datos dinámicamente entre nodos y asegurar el


equilibrio dinámico de cada nodo La velocidad de procesamiento es muy
rápida y altamente eficiente.

● Hadoop puede guardar automáticamente múltiples copias de datos y puede


distribuir automáticamente las tareas fallidas, con alta tolerancia a fallas.

● Hadoop distribuye datos a través de los clústeres de computadoras


disponibles, estos clústeres se pueden expandir fácilmente a miles de nodos.

Desventajas

● Hadoop no es adecuado para el acceso a datos de baja latencia.

● Hadoop no puede almacenar una gran cantidad de archivos pequeños de


manera eficiente.

4.1.2. Hadoop Distributed File System(HDFS)

HDFS es un sistema de ficheros perteneciente a Hadoop cuyas


características principales son:

● Tiene una tolerancia a errores muy alta.

● Está diseñado para funcionar en hardware de bajo coste.

● Está optimizado para la lectura de cantidades de datos muy grandes con el


objetivo de reducir al máximo la latencia.

Página | 42
Ilustración 22: Visión general arquitectura HDFS. [18]

HDFS tiene un modelo Write once read many ,es decir, escribe una vez lee
muchas veces.

Escritura: el cliente envía la instrucción de escritura al NameNode, este


verifica los permisos del cliente y si la operación está autorizada le envía los
DataNodes en los que el cliente tiene que escribir. El primer DataNode copiará el
bloque a otro DataNode, que entonces lo copiará a un tercero. Una vez que se han
completado estas réplicas se enviará al cliente la confirmación de escritura.

Ilustración 23: Proceso de escritura en HDFS.

Lectura: El cliente pide al NameNode la localización de un fichero. Una vez


que se han comprobado los permisos del cliente, el NameNode envía la localización
de los DataNodes que contienen los bloques que componen el fichero al cliente.

Página | 43
Ilustración 24: Proceso de lectura en HDFS.

MapReduce.

MapReduce es un modelo de programación fuertemente orientado a la


ejecución paralela y distribuida entre múltiples computadoras, que se utiliza para
trabajar con grandes colecciones de datos.

HDFS proporciona la división previa de los datos en bloques que necesita


MapReduce para ejecutar.

Ilustración 25: Esquema general del funcionamiento de Mapreduce. [19]

La fase Map se ejecuta en subtareas llamadas mappers. Estos componentes


son los responsables de generar pares clave-valor filtrando, agrupando, ordenando
o transformando los datos originales.

Página | 44
La fase Shuffle es el paso intermedio entre Map y Reduce que ayuda a
recoger los datos y ordenarlos de manera conveniente para el procesamiento.

La fase Reduce gestiona la agregación de los valores producidos por todos


los mappers del sistema de tipo clave-valor en función de su clave.

4.2. Apache Spark

4.2.1 Introducción

Apache Spark es un framework de computación en clúster de


código abierto para ser rápido y de propósito general.
Proporciona APIs en Java, Scala, Python y R.

Ilustración 26: Apache Spark. [20]

La principal diferencia con Apache Hadoop es que Apache Spark no


almacena datos sino que tiene el foco puesto en el procesamiento. Este problema
se puede solucionar añadiendo el sistema de archivos distribuidos(HDFS) de
Hadoop al sistema Spark.

Apache Spark consta de 5 componentes claves para el funcionamiento de


Spark:

Ilustración 27:Componentes de Apache Spark.[21]

Página | 45
● Spark Core: Es un motor distribuido de uso general para procesar datos.

● Spark SQL: Es una librería de Spark que permite utilizar datos estructurados.
Ofrece un método común para acceder a fuentes de datos diversas.

● Spark Streaming: Es una librería que facilita la creación de soluciones de


streaming escalables y tolerantes a fallos.

● MLlib: Es la biblioteca escalable de aprendizaje automático de Spark.

● GraphX: Es la API de Spark para grafos y computación en paralelo de


grafos.

Ventajas de Apache Spark

Las principales ventajas de Apache Spark son:

● Ejecuta las cargas de trabajo 100 veces más rápido que con Hadoop
MapReduce.

● Spark permite usar las librerías antes explicadas para poder realizar sobre
Spark muchas tareas.

● Puede compenetrarse con otra arquitectura Big Data: Puede utilizar ficheros
de HDFS o procesos de YARN entre otras.

● Tiene una consola interactiva para poder trabajar con mayor facilidad.

Desventajas de Apache Spark

Las principales desventajas de Apache Spark son:

● Spark necesita ejecutarse en HDFS para acceder a permisos de nivel de


archivo y, además, para obtener beneficios de seguridad ha de recurrir a
Hadoop YARN.

● Necesita más memoria de almacenamiento.

4.2.2 Arquitectura de Apache Spark

Apache Spark sigue una arquitectura maestro/esclavo con un administrador


de clúster (Cluster Manager). Un cluster spark tiene un solo maestro y cualquier
número de esclavos o workers.

Página | 46
Los componentes que forman Apache Spark son[22]:

● Program Driver: Es un proceso responsable de la ejecución de las tareas y


reside en el nodo maestro.

● Nodo Trabajador: Los nodos trabajadores se encargan mediante el ejecutor


de realizar las tareas que le ha suministrado el Gestor del Cluster. Estos
nodos trabajadores se pueden alojar en el mismo nodo (servidor) o en
diferentes nodos.

● Ejecutores: Es el proceso en el que realizan la carga de trabajo, obtienen


sus tareas desde el Gestor del Cluster.

● Gestor de Clúster: Es responsable de asignar recursos a través de la


aplicación de Spark.

● Bloque RDD: Es la representación de Spark de un array de datos y son los


elementos básicos de cualquier aplicación Spark. RDD significa:

○ Resiliente: es tolerante a fallos y es capaz de reconstruir datos en


caso de fallo.

○ Distribuido: los datos se distribuyen entre los múltiples nodos de un


clúster.

○ Datasest(Conjuntos de Datos):colección de datos particionados con


valores.

Ilustración 28: Funcionamiento de un bloque RDD. [22]

Página | 47
Las transformaciones en RDD crean nuevos bloques RDD y la única forma
de obtener resultados de los RDD es aplicando acciones como se muestra en la
imagen de arriba.

Ilustración 29: Visión general de la arquitectura Apache Spark. [23]

4.2.3 Notebook para Spark

El concepto de “notebook” fue introducido por iPython, que marca la


diferencia ya que en vez de trabajar sobre la Shell directamente, se accede a una
interfaz web donde se crea el entorno de trabajo.

El notebook que vamos a usar en el proyecto con Python es el más popular


en Apache Spark y es Jupyter.

Jupyter

Creado a partir de IPython en 2014, Jupyter Notebook es un


REPL(consola de lenguaje) basado en navegador que contiene una
lista ordenada de celdas de entrada/salida que pueden contener
código, texto, ecuaciones matemáticas entre otras muchas cosas.

Ilustración 30:Jupyter. [24]

Jupyter Notebook es similar a la interfaz de notebook de otros programas


como Mathematica.

Página | 48
En este proyecto se va a usar Jupyter con el lenguaje de programación
Python para usar la librería PySpark para trabajar en Spark.

Ilustración 31: Ejemplo del REPL de Jupyter.

Jupyter nos proporciona las siguientes características:

● Desde el navegador, creación e inclusión de código.

● Posibilita compartir mediante GitHub y Dropbox.

● Interfaz intuitiva.

4.3 Lenguaje R

R es un entorno y lenguaje de programación de software libre


con un enfoque al análisis estadístico.Se trata de uno de los
lenguajes de programación más utilizados en investigación
científica, siendo además muy popular en los campos de
aprendizaje automático, minería de datos.

Ilustración 32: Lenguaje R. [25]

Los principales motivos por los que R es ideal para el Big Data son:

● Comunidad: Tiene una gran cantidad de usuarios que apoyan este lenguaje
y que crean recursos relacionados con R.

● Simplicidad: Permite ver datos gráficamente para facilitar su entendimiento y


tiene un código simple que reduce el tiempo que lleva analizar los datos .

Se utiliza en todas las fases de análisis de datos:

Página | 49
● Adquisición de los datos: bases de datos, archivos de texto, etc.

● Preparación de los datos: eliminación de duplicados, datos incorrectos,


valores extremos, etc.

● Análisis de los datos: construcción de modelos predictivos, de clasificación,


de agrupamiento.

● Comunicación de los resultados: realización de informes para presentación


de los resultados y conclusiones.

4.4 Python
Python es un lenguaje de programación de software libre
ampliamente utilizado en las aplicaciones web,la ciencia de datos y
el machine learning. Los desarrolladores utilizan Python porque es
eficiente y fácil de aprender, además de que se puede ejecutar en
muchas plataformas diferentes.

Ilustración 33: Python. [26]

La razones para elegir Python para los proyectos relacionados con Big Data
son:

● Compatibilidad con diversos entornos: Python es compatible con


numerosas plataformas y se puede ejecutar en distintos sistemas operativos
como Windows o Linux.

● Buen soporte de biblioteca: Contiene un gran número de bibliotecas que le


permiten ser una herramienta de gran ayuda en diferentes campos, por
ejemplo en machine learning o Big Data.

● Aprendizaje rápido: Es mucho más sencillo que otros lenguajes de


programación que se usan en Big Data. Además cuenta con un código
sencillo, una gran variedad de recursos de programación y una gran
comunidad que crea recursos relacionados con el lenguaje.

La desventaja principal de usar Python es:

● El consumo de memoria de Python es muy alto, y esto se debe a la


flexibilidad de los tipos de datos.

Página | 50
Uso

● Una de las aplicaciones es el data science que consiste en una disciplina


científica centrada en el análisis de grandes fuentes de datos para extraer
información y descubrir patrones con los que tomar decisiones.

4.5 Elasticsearch

Elasticsearch permite el procesamiento de grandes cantidades de


datos y ver la evolución de éstos en tiempo real. Además,
proporciona gráficos que ayudan a comprender con más facilidad
la información obtenida. Los datos sin procesar fluyen hacia
Elasticsearch desde una variedad de fuentes, incluidos logs y
aplicaciones web.

Ilustración 34: Elasticsearch. [27]

Ventajas

● Al estar desarrollado en Java, es compatible en todas las plataformas donde


Java lo sea.

● Tiene una gran velocidad de respuesta.

Desventajas

● Sólo soporta como tipos de respuesta JSON, lo que lo limita al no soportar


otros lenguajes, como CSV o XML.

● El proceso de aprendizaje para dominar Elasticsearch puede tomar su


tiempo.

Usos.

● Búsqueda de sitio web.

● Logging y analíticas de log.

● Monitoreo de rendimiento de aplicaciones.

Página | 51
● Analítica de Seguridad.

4.6 Comparación de aplicaciones

En esta sección se hará una comparación entre las distintas herramientas y


lenguajes de programación explicados en los apartados anteriores.El objetivo es
descubrir qué herramientas se adaptan mejor a nuestro proyecto compradoras entre
ellas mediante tablas.

4.6.1 Elasticsearch vs Apache Hadoop

En la siguiente tabla se muestra las principales diferencias entre las


herramientas Elasticsearch y Apache Hadoop[28]:

Elasticsearch Apache Hadoop


Utilizado principalmente como motor Se utiliza para analizar un gran
de búsqueda. volumen de datos.

Proporciona DSL de consulta completa Utiliza el modelo de programación


basado en JSON. MapReduce para el procesamiento
de grandes grupos de datos.

Motor de búsqueda de texto completo, Se utiliza como herramienta para


pero también se puede utilizar como almacenar datos y ejecutar
marco de análisis. aplicaciones en clústeres.

Compatible con todos los sistemas Compatible con Linux, Unix y


operativos con Java VM. Windows.

Lenguaje de consulta similar a SQL. Utiliza Hive para el procesamiento


de consultas.
Tabla 5: Diferencias entre Elasticsearch vs Apache Hadoop.

4.6.2 Apache Hadoop vs Apache Spark.

En la siguiente tabla se muestra las principales diferencias entre las


herramientas Apache Hadoop y Apache Spark:

Página | 52
Apache Hadoop Apache Spark
Trabaja con MapReduce que almacena Trabaja en memoria RAM.
los resultados en disco.

Es compatible principalmente con Java y Es compatible con Java,Python,


cuenta con compatibilidad con otros Scala y R.
lenguajes.

Requiere un cluster que cuente con más Necesita un cluster que cuente
discos y que sean más rápidos para el con mucha memoria RAM.
procesamiento.

Sigue una metodología concreta lo que Resulta más sencillo de


hace que haya que modelar los programar en la actualidad
problemas acorde a esta manera de gracias al enorme esfuerzo de la
trabajar. comunidad por mejorar este
framework.
Tabla 6: Diferencias entre Apache Hadoop vs Apache Spark.

4.6.3 R vs Python.

En la siguiente tabla se muestra las principales diferencias entre el lenguaje


de programación R y Python:

R Python
Es un lenguaje orientado al análisis Es un lenguaje de alto nivel multipro-
estadístico. pósito utilizado en muchos campos.

Es más potente en visualización de Es un lenguaje más rápido para ma-


información y datos nejo de grandes cantidades de datos
Es un ecosistema robusto de paquetes Realizar tareas no estadísticas como
estadísticos guardar datos en bases de datos
Tabla 7: Diferencias entre R vs Python.

4.6.4 Elasticsearch vs Apache Spark.

En la siguiente tabla se muestra las principales diferencias entre las


herramientas Elasticsearch y Apache Spark[29]:

Página | 53
Elasticsearch Apache Spark
Utilizado principalmente como motor Se utiliza para analizar un gran volumen
de búsqueda. de datos.

Motor de búsqueda de texto completo, Se utiliza como herramienta para


pero también se puede utilizar como almacenar datos y ejecutar
marco de análisis. aplicaciones en clústeres

Está implementado sobre Java Está implementado sobre Scala

Soporta lenguaje de programación Soporta los siguientes lenguajes de


como .Net,Groovy,Ruby,PHP,Java, programación: Scala,Python,R y Java.
JavaScript,Perl,Python.

Se accede a través de la Java API y Se accede a través de JDBC y OCBC.


RESTful HTTP/JSON API.
Tabla 8: Diferencias entre Elasticsearch vs Apache Spark.

4.7 Conclusiones.

Hemos elegido usar Apache Spark para nuestro proyecto porque es la mejor
herramienta para realizar un análisis Big Data en una infraestructura de clusters
aunque lo vamos a combinar con Apache Hadoop para usar el Hadoop Distributed
File System(HDFS) ya que sistema de distribución de fichero hadoop es más
eficiente que el sistema de distribución de ficheros que tiene Apache Spark por
defecto que es ninguno.

Por otro lado usaremos Scala y Python para programar sobre Apache Spark
ya que son dos lenguajes de programación muy comunes para el análisis de datos a
gran escala, son compatibles con Apache Spark y la información que hay en internet
sobre ambos lenguajes de programación en el ámbito del análisis de datos es mayor
que el que tiene R.

Página | 54
BLOQUE IV

Obtención y Análisis de datos

´´

Página | 55
5. Recogida de datos

5.1 Introducción

Para este capítulo tendremos que tener instalado todas las herramientas
necesarias para el desarrollo del proyecto, los pasos a seguir para instalar y
configurar todas las herramientas que vamos a usar en el proyecto se encuentran
descriptas en el Anexo 7. INSTALACIÓN Y CONFIGURACIÓN. En el anexo a parte
de instalar y configurar herramientas también viene los pasos que hay que seguir
para crear un cluster que contenga todas las herramientas que vamos a usar en el
proyecto.

Una vez realizada toda la instalación de la arquitectura, ahora nos


centraremos en la obtención de los datos procedentes de los mercados financieros
como por ejemplo puede ser la bolsa de Taiwan y la bolsa de Nueva York y de bases
de datos de páginas web gratuitas.

5.1.1. Obtención de los datos

El objetivo principal a la hora de buscar los datos es encontrar fuentes fiables


y actualizadas para que si en un futuro se quiere utilizar se pueda añadir los nuevos
datos sin tener que buscar nuevas fuentes de datos para completar los espacios

Página | 56
vacíos que hay desde la fechas que hemos elegido en el proyecto para hacer el
análisis hasta la fecha que buscamos para hacer el nuevo análisis.

Para obtener los datos necesarios del proyecto se ha hecho una búsqueda
por internet de distintas páginas web con datos financieros de la mayoría de
empresas tecnológicas del sector informático y he decidido quedarme con los datos
obtenidos de la página web Yahoo Finance.

Yahoo Finance[32] es una página web que tiene los datos de los valores de
las acciones de la gran mayoría de empresas en cada una de las bolsas donde está
dicha empresa. Los datos de las empresas que hay en página web están muy
completos y es poco común que te encuentres algún campo vacío de una empresa
en un día en concreto. Además de lo dicho anteriormente Yahoo Finance tiene otra
ventaja y es que puedes descargar la información en un formato compatible con
Apache Spark como es el formato ‘.csv’.

El procedimiento para obtener los datos es entrar en la página de Yahoo


Finance buscar la empresa de la que quieres obtener los datos financieros, elegir la
pestaña de “datos históricos” y pulsar sobre el link que pone” descarga”. Yahoo
Finance te da la posibilidad de descargar datos financieros de una empresa en
concreto entre 2 fechas que tu elijas.

Fuentes de información.

La tabla que se muestra a continuación muestra la información de cada


fichero .csv que se va a usar durante todo el proyecto entre la información que
incluye es el tamaño del fichero,el número de filas,el periodo de tiempo que
comprenden esos datos, y el nombre del fichero.

En esta tabla se muestra los .csv con datos agrupados en días de las
empresas que vamos a usar durante el proyecto:

Nombre de fichero Tamaño del Año NºFilas


fichero(KB)

Intel_Nasdasq 258 2008-2022 3778

Samsung_Korea 306 2008-2022 3716

Mediatek_Taiwan 269 2008-2022 3696

AMD_Nasdasq 249 2008-2022 3778

Página | 57
TSMC_NYSE 264 2008-2022 3696

Infineon_Alemania 249 2008-2022 3811

Qualcomm_Nasda 260 2008-2022 3778


q

Apple_Nasdaq 259 2008-2022 3778

GlobalWafers_Tai 142 2014-2022 2002


wan

Sumco_Japon 238 2008-2022 3686

United 236 2008-2022 3778


Microelectronics
Corporaion_Nasda
sq

SMIC_HKD 238 2008-2022 3706


Tabla 9: Csv con los datos usados en el proyecto.

5.1.2 Transformación y almacenamiento de los datos

Tras tener todos los ficheros con los datos del proyecto vamos a analizar qué
estructura tiene los ficheros .csv que hemos descargado para poder así crear las
tablas donde se insertará los datos de dichos ficheros para que tras tenerlos
cargados en las tablas podamos transformar y analizarlos mediante las
herramientas que nos hemos instalado.

Cabecera Descripción

Date Fecha que corresponde a los datos.

Open Precio de la acción en el inicio del


mercado.

High Precio más alto de la acción en el


mercado.

Low Precio más bajo de la acción en el


mercado.

Close Precio de la acción en el final del


mercado.

Página | 58
Volume Cantidad de transacciones de las
acciones sobre el mercado.

Adj Close Ajuste del valor del mercado posterior al


cierre del mercado.
Tabla 10: Columnas que forman los ficheros .Csv usados en el proyecto.

De la tabla anterior las columnas que nos interesa para el proyecto son la
columna “Date” y la columna “Close”, por lo tanto vamos a filtrar dichas columnas y
crear un nuevo excel que contenga las columnas. Tras obtener el nuevo excel y que
los valores contenidos en la columna Close tenga los valores según el valor que
tenga la moneda Dollar. La estructura de los ficheros .csv resultantes son:

Cabecera Descripción

Date Fecha que corresponde a los datos.

Close Precio de la acción en el final del mercado


en la moneda dollar.
Tabla 11: Columnas que forman los ficheros .Csv filtrados usados en el proyecto.

5.2 Situación actual

Antes de empezar a analizar los datos que hay en el sistema Big Data vamos
a enseñar la situación actual del mercado tecnológico y las preguntas que
intentaremos responder con el análisis de datos hechos con el sistema Big Data.

En la siguiente imagen se muestran datos globales sobre la capacidad y


demanda de obleas hecha por la empresa SUMCO Corporation una de las
principales empresas en la fabricación de obleas de silicio para fabricantes de
semiconductores de todo el mundo que suministra obleas a empresas tan
importantes como TSMC y Samsung. En la gráfica se puede ver cómo a partir del
2020 la demanda de obleas es mayor a la capacidad de las empresas para la
fabricación de las obleas.

Página | 59
Ilustración 35: Demanda de obleas desde 2006-2026. [33]

Estos datos van acompañados de esfuerzos por producir 24/7 para intentar
satisfacer la demanda y de la creación de nuevas fábricas llegando las primeras
fábricas de SUMCO en 2024 y el resto de sus fábricas en 2025.

Ilustración 36: Producción de Obleas por año desde 2008-2025. [34]

Para saber a qué se debe la falta de semiconductores hay que saber qué
empresas son las encargadas de fabricar los semiconductores más avanzados
como lo son 10 nm, 7 nm y 5 nm que se usan actualmente en los dispositivos
informáticos.

Página | 60
En la siguiente imagen muestra qué empresas han fabricado
semiconductores desde el 2000-2022 y cual es el tamaño de los semiconductores
que fabrican o fabricaban a lo largo de esas fechas. En la imagen también se
muestra cómo a lo largo del tiempo las empresas encargadas de la fabricación de
semiconductores han dejado de fabricar semiconductores más avanzados debido al
coste de las tecnologías para la fabricación de dichos semiconductores.

Ilustración 37: Fabricantes de semiconductores.

Con toda la información mencionada anteriormente sobre la situación de la


industria informática, me he realizado las siguientes preguntas para saber mejor las
causas del estado actual de la industria de la informática y sobre todo a todo lo
relacionado con los semiconductores ya que es uno de los sectores más importante
dentro del sector de la informática y que ha sido el más afectado en los últimos
años. Las preguntas son:

● ¿Qué políticas afectaron o han afectado a la producción de semiconductores


y en qué porcentaje?

● ¿Cuántas fábricas se tendrían que construir para satisfacer la demanda de


semiconductores?

Página | 61
● ¿Cómo afecta la escasez de materias primas a la producción de
semiconductores y otros componentes para la fabricación de productos
informáticos?

5.3. Análisis y tratamiento de datos

Antes de que se produzca el análisis de datos hay que hacer cambios en los
csv que contiene dichos datos, los cambios son:

● Crear una nueva columna en el .csv con los valores de la columna “Close”
adaptados a la moneda del Dólar.

● Eliminar del csv todas las columnas menos la columna que corresponde a las
fechas de los datos y la columna que acabamos de crear.

● Crear un nuevo fichero csv en el que van almacenar todos los cambios que
se han realizado.

import findspark
findspark.init()

import pandas as pd
import pyspark

from pyspark.sql import SparkSession


spark = SparkSession.builder\
.master("local[*]")\
.appName('Proyecto')\
.getOrCreate()

csv_df = spark.read.csv ("data/Infineon.csv",


inferSchema = True,
header = True)

csv_mof=csv_df.withColumn(“Close_Mod”,(csv_df[“Close”]*IntercambioMoneda))
csv_result=csv_mof.select(‘Date’,’Close_Mod’)

csv_result.write.option(“header”,True).csv(“data/InfineonModificado”)

En el cuadro anterior se muestra todo el código que tienes que introducir en


el Jupyter Notebook para realizar las modificaciones comentadas previamente. El
cuadro se tiene que ejecutar por cada csv que aparece en la Tabla 9: Csv con los
datos usados en el proyecto en la que los datos no estén en la moneda dólar.

Página | 62
Los comandos que se tiene que ejecutar para modificar los .csv en los que los datos
ya están en dollar son idénticos a los que hemos mencionando anteriormente habría
que eliminar la línea donde se calcula la nueva columna “Result” con los datos de la
columna “Close” y modificar el select para que se haga select de la columna “Date”
y de la columna “Close”. El código final sería:

import findspark
findspark.init()

import pandas as pd
import pyspark

from pyspark.sql import SparkSession


spark = SparkSession.builder\
.master("local[*]")\
.appName('Proyecto')\
.getOrCreate()

csv_df = spark.read.csv ("data/Infineon.csv",


inferSchema = True,
header = True)

csv_result=csv_df.select(‘Date’,’Close’)

csv_result.write.option(“header”,True).csv(“data/InfineonModificado”)

5.4 Conclusiones

En este bloque hemos explicado cómo hemos obtenido los datos que se van
a usar y cómo lo hemos transformado para poder obtener solo los datos útiles para
este proyecto. También hemos descrito la situación actual del mercado de los
semiconductores y de los problemas de escasez que está viviendo para que gracias
y nos hemos realizado algunas preguntas para saber como se ha llegado a la
situación y cómo darles solución, esto gracias a los datos transformados
mencionados anteriormente.

Página | 63
BLOQUE V
Resultados de los Datos

Página | 64
6. Conclusiones del proceso de análisis.

6.1 Introducción

En este bloque se van a responder a las preguntas realizadas en el bloque


anterior cuando se hablaba del porque se ha llegado a la situación actual de
escasez de semiconductores. El objetivo al responder estas preguntas gracias a los
datos transformados previamente es buscar una solución al problema de la escasez
de semiconductores y evitar que suceda otro periodo de escasez de
semiconductores.

6.2 ¿Qué políticas afectarán o han afectado a la


producción y en qué porcentaje?

Antes de que veamos que leyes están afectando o van afectar a la


producción mundial vamos a mostrar qué países eran los mayores productores de
semiconductores en 1990, que países lo son en el año 2020 y una estimación de
quién serían los mayores productores para el año 20230, para saber así las razones
del porque se han puesto las leyes en ciertos países que hacen que el mercado no
se estabilice.

Página | 65
Ilustración 38: Producción global de semiconductores. [35]

La primera de las leyes que ha afectado al mercado de semiconductores es


la ley que en Marzo de 2018 Donald Trump[36] que impuso aranceles con un valor
de 50.000 millones de dólares a los productos procedentes de China y también
impedían enviar maquinas de alta tecnología para fabricar semiconductores en las
fábricas situadas dentro del país. En el siguiente gráfico se va a mostrar las
acciones de distintas empresas del sector durante los 2 primeros años tras la leyes
impuestas por Trump para averiguar cual fueron las más perjudicadas o las más
beneficiadas.

Ilustración 39: Valor de empresas de fabricación de semiconductores durante la guerra comercial.

Página | 66
En la imagen se puede observar que la mayoría de empresas relacionadas
con la fabricación de semiconductores se vieron afectadas en el primer año de las
sanciones ya que aunque el gobierno EEUU dio ayudas a las empresas para que
hicieron su producción en el país, muchas de las empresas tenían las fábricas en
EEUU al 100% de su capacidad y no habían podido construir nuevas fábricas en un
periodo de tiempo tan pequeños(una fábrica tarda entre 3 a 4 años en construirse).

A las sanciones de inicios de Marzo del gobierno de Donald Trump se


añadieron nuevas sanciones en Junio de ese mismo año sobre productos chinos de
«tecnología industrialmente importante» con un 25% de aranceles más a los 50.000
millones de dólares anunciados en Marzo esto afectó más a las empresas que
tenían sus fábricas en China provocando que los semiconductores aumentarán de
precio. El aumento de los semiconductores provocó un aumento en el precio final de
los productos informáticos como lo son ordenadores y smartphone esto debido a
que las empresas no se hicieron responsable del sobrecoste que se generó gracias
a los nuevos aranceles esto provocó que el usuario final no actualizase sus aparatos
informáticos tanto como las empresas pronosticaron a principios del año provocando
que sus ganancias menguaran y su valor en la bolsa decayera.

Las empresas más afectadas debido a la ley de Donald Trump fueron las
empresas que tenían muchas fábricas en China como Samsung, Intel y en menor
medida TSMC y entre las empresas chinas de fabricación de semiconductores fue
SMIC.

Los resultados de la ley de Trump para las empresas en los dos primeros
años de la implementación fueron:

SMIC: En las sanciones de marzo las acciones de la empresa pasaron de


valor 1,48 dólares a caer un 17% y valer 1,23 dólares después de un mes de la
sanción y en la sanción realizada en junio sus acciones pasaron de valer 1,49
dólares a caer aproximadamente 48,44%y valer 0,77 dólares.

UMC: En las sanciones de marzo las acciones de la empresa pasaron de


valor 2,73 dólares a caer un 8% y valer 2,53 dólares después de un mes de la
sanción y en la sanción realizada en junio sus acciones pasaron de valer 2,99
dólares a caer aproximadamente 43,82%y valer 1,68 dólares.

TSMC: En las sanciones de marzo las acciones de la empresa pasaron de


valor 8,224 dólares a caer un 14.21% y valer 7,056 dólares después de un mes de
la sanción y en la sanción realizada en junio sus acciones pasaron de valer 7,36
dólares a caer aproximadamente 8,4%y valer 6,816 dólares.

Página | 67
Samsung: En las sanciones de marzo las acciones de la empresa pasaron
de valor 38,91 dólares a caer un 14.21% y valer 35,42 dólares después de un mes
de la sanción y en la sanción realizada en junio sus acciones pasaron de valer 36,2
dólares a caer aproximadamente 8,37%y valer 33,1 dólares.

Intel: En las sanciones de marzo las acciones de la empresa pasaron de


valor 51,52 dólares a caer un 6.3% y valer 48,79 dólares después de un mes de la
sanción y en la sanción realizada en junio sus acciones pasaron de valer 56,53
dólares a caer aproximadamente 26% y valer 44,93 dólares.

En medio de la guerra comercial entre China y EEUU sucede un


acontecimiento mundial que hará que la guerra comercial entre ambos países se
detenga y es el brote del COVID 19 que comenzó en China a finales de 2019 y que
se convirtió en pandemia en Febrero del 2022. Esta nueva pandemia hace que todo
el mundo tenga que quedarse en casa por seguridad y evitar aglomeraciones de
personas por lo que resulta en teletrabajo y en que las fábricas que no fueran
esenciales cerrarán o redujese su producción para evitar que no hubieran personas
que se enfermarán. Este acontecimiento provocó que la producción de
semiconductores disminuyese pero que la demanda aumentará debido a que las
personas que tenían que realizar el teletrabajo no tenían los medios para realizar el
trabajo.

Esta situación de teletrabajo provocó que las personas comprarán todo tipo
de aparatos informáticos relacionados con el teletrabajo como puede ser
ordenadores, smartphones y tablets aunque los productos estuvieran en un precio
superior al precio de venta al público. Este aumento de ventas se refleja por ejemplo
en España ya que las ventas en ordenadores portátiles aumentaron en torno a un
27% con respecto a 2019, lo que se traduce en unas 450.000 unidades más
vendidas qué 2019.

Este aumento de ventas provocó que todas las empresas relacionadas con
los semiconductores se pudieran recuperar de las caídas de beneficios en 2018 y
2019 que les supusieron todas leyes de Donald Trump comentadas anteriormente
este aumento de ventas se produjo principalmente entre el año 2020 y 2021.

Como consecuencia al gran aumento de las ventas comentado anteriormente


varias empresas obtuvieron unos ingresos similares a los que tenían antes de que
empezara la crisis de los semiconductores o que ciertas empresas como Intel y
Samsung consiguieron unos ingresos en sus secciones de semiconductores
históricos(las imágenes donde se muestra los ingresos de cada una de las

Página | 68
compañías relacionadas a la fabricación de semiconductores y los chips entre los
años 2017 a 2022 se encuentra en el 9.3 Gráficos relacionados a los ingresos y
beneficios brutos de las empresas entre 2017-2022).

En 2022 sucedió la invasión de Rusia a Ucrania que provocó varios


acontecimientos que redujeron la producción de semiconductores y por lo
consiguiente aumentaron los precios de los aparatos informáticos,los
acontecimientos son:

● La guerra provocó que el neón, un gas esencial para el proceso de litografía


encargado de crear los chips, se redujera en los primeros meses del conflicto
ya que Ucrania es responsable del 70% de las exportaciones mundiales de
neón.

● La guerra también provocó que la oferta de gas natural y petróleo aumentará


debido a que las sanciones impuesta a Rusia provocaron que no se le
pudiera comprar ninguna de esas dos materias lo que resultó en que se les
tuviera que comprar a países cuyo precio es mayor al que tenía Rusia como
puede ser EEUU y los países del golfo pérsico. Estas sanciones hicieron que
el precio del barril de petróleo llegará a costar de media 85,4 dólares,
convirtiéndose en unos de los años con el precio por barril más alto de la
historia y lo mismo sucesión con el precio del gas natural.

En la siguiente imagen se muestra el valor de las empresas durante el


periodo de covid y la guerra de Ucrania contra Rusia.

Ilustración 40: Valor de empresas de fabricación de semiconductores durante el COVID.

Página | 69
En la siguiente imagen se muestran los ingresos de las compañías antes
mencionadas durante el periodo entre 2017 al 2022 para que se pueda observar
cómo las leyes de Donald Trump, el Covid 19 y la guerra de Ucrania les han
afectado a los ingresos [37].

Ilustración 41: Ingresos globales entre los años 2018-2022.

Como se observa en la ilustración 73 las empresas más perjudicadas en los


ingresos en 2022 fueron Intel y Samsung esto es debido a la falta del gas neón
necesario para la creación de los chip como se han explicado anteriormente ya que
no almacenaron el suficiente gas como reserva para producir chips como sí hizo
TSMC y también debido a que esta última a obtenido semiconductores con mejor
calidad que los creados por las compañías Intel y Samsung, por lo que estas han
tenido que pagar a TSMC para poder usar sus semiconductores en ciertos
productos que fabrican haciendo que los ingresos de TSMC aumenten en un 40% y
que los ingresos de Intel y Samsung caían.

6.3 ¿Cuántas fábricas se tendrían que construir para


satisfacer la demanda de semiconductores?

Antes de saber cuántas fábricas hay que crear para satisfacer las demanda
de semiconductores vamos a mostrar donde están situadas las fábricas de
producción de semiconductores de los 6 mayores fabricantes del sector. Esto para
saber qué empresas son más propensas a invertir en construir plantas de
fabricación y en qué países son los más seleccionados para crear dichas fábricas.

Página | 70
Ilustración 42: Mapa de fábricas de semiconductores .[38]

Página | 71
En la siguiente tabla se muestra la cantidad de fábricas que tiene cada una
de las empresas que aparecen en la imagen anterior[39], su localización y datos
sobre la producción de obleas de la empresa(Si quiere obtener información más
detallada sobre la producción de cada fábrica de cada empresa visite el apartado
Producción de obleas según su tamaño en el Anexo II).

Empresa Cantidad Localización Tamaño de Capacidad de


de de las fábricas la oblea producción(obl
fábricas (mm) eas/mes)

TSMC [40] 13 Taiwán,China y 300,200,150 1.517.000


EEUU

Intel 9 EEUU, China, 300


Israel,Irlanda

Samsung 7 Korea y EEUU 300,200,100 1.019.000

SMIC 7 China 300,200 343.000

UMC 12 Taiwán,China, 150,200,300 549.000


Singapur,Japón

GlobalFoundries 6 Alemania,EEU 200,300 450.000


U,Singapur
Tabla 12: Producción de los 6 mayores fabricantes de semiconductores.

La cantidad de chips que pueden salir de una oblea de silicio depende del
tamaño de la oblea y del nodo de fabricación en el que queramos crear el chip.Los
chips que pueden ser obtenidos de una oblea con un proceso de fabricación más
avanzados pueden llegar a los miles aunque el porcentaje de chips defectuosos es
mayor que los chip cuyo proceso de fabricación es más antiguo ya que este último
está más pulido que pueden producir centenares de chips en una misma oblea por
ejemplo cuando salio el chip Apple A14 el primer chip con nodo de fabricación de 5
nm el nodo no estaba muy pulido y se obtenía de una oblea 600 chips[41].

La fabricación de los chip más avanzados son los que su demanda va a


aumentar de forma exponencial debido a que para las empresas informáticas
buscan chip más eficientes y baratos,esto requiere que las empresas que fabrican
los chips tengan que construir plantas de fabricación que requieren de una gran
cantidad de maquinaria y dispositivos altamente costosos para fabricarlos. El coste
de construir una planta de fabricación que fabrique los semiconductores más
avanzados como son los semiconductores de 4 y 3 nanómetros puede costar varios
miles de millones de dólares.

Página | 72
Debido al alto coste de la creación de las fábricas y a la gran dependencia de
las fábricas taiwanesas, países como China y Estados Unidos y la Unión Europea
han aprobado ayudas a las empresas que fabrican semiconductores para que
construyan sus fábricas en sus países. Las ayudas antes mencionadas están
creadas con el objetivo de que si Taiwán es invadida por China tenga
semiconductores suficientes para satisfacer su demanda tanto en el ámbito de lo
civil como en el armamentístico.

Las ayudas anunciadas por los países son:

● Estados Unidos aprobó en el año 2022 la “Ley de Chips y Ciencia” cuyos


objetivos son competir en términos científicos y tecnológicos con dos de los
líderes mundiales en este sector Taiwán y China. Esta ley contempla una
inversión total de 280.000 millones de dólares en 10 años, en los que 52.000
millones de dólares servirán como ayudas a la construcción o renovación de
fábricas a corto plazo y otros 100.000 millones de dólares en investigación y
desarrollo de semiconductores durante los próximos cinco años.

● China aprobó un poco después de Estados Unidos un programa similar a la


“Ley de Chips y Ciencia” de EEUU con una inversión en la industria de
semiconductores de alrededor de 150.000 millones de dólares en total para el
2030 con el objetivo de mejorar la investigación y desarrollo de
semiconductores más avanzados con el fin de ofrecer semiconductores de la
misma calidad que los que vende su vecino y principal competidor Taiwan.

● Europa también aprobó una ley similar a la de Estados Unidos y China en el


que se invertirá 43.000 millones de euros con el objetivo de aumentar su
cuota de mercado pasando del 10% al 20% y reducir su dependencia de
otros países como son China,Taiwán y Corea del Sur que acaparan en 2022
el 87% de la producción mundial.

En el siguiente gráfico se muestra el porqué hay tan pocas empresas


actualmente fabricando semiconductores avanzados(los semiconductores de 7 nm o
inferior) necesarios para la fabricación de los aparatos informáticos más modernos
como se mostraba en la Ilustración 30.

Página | 73
Ilustración 43: Gasto en equipos de fabricación entre 2014-2020.

Como se muestra en la imagen superior nos encontramos con un aumento


significativo en el gasto entre los años 2016-2017 y entre los años 2020-2021, que
corresponde a un aumento 61,51% y de 39,11% respectivamente. El aumento del
gasto en 2017 y 2018 es debido a que Samsung y TSMC empezaron a sustituir a
sus maquinaria de fabricación de chips de 14nm a 10 nm a gran escala y
construyeron nuevas fábricas y el resto de empresas también realizando una
actualización de su maquinaria a una que produjera chips de 14nm más pulidos y
por último, de pasar de fabricar los chips en obleas con un diámetro de 150 nm a
200 y 300 nm. El otro aumento de gasto significativo es entre el 2020-2021 es
debido a la construcción de 5 nuevas fábricas construidas entre varias empresas
entre ellas las 3 empresas líderes del sector(Intel,Samsung,TSMC) en la que TSMC
y Samsung las construyeron para fabricar semiconductores con un tamaños de 5
nm e Intel para fabricar semiconductores de 10 nm.

Todas estas nuevas fábricas y la actualización de las máquinas existentes


para fabricar semiconductores más pequeños no son baratas y por ejemplo una
máquina para construir chips de 7 nm cuestan 120 a 200 millones de dólares cada
una estas máquinas son principalmente construidas por una sola empresa llamada
ASML en el que se usan la litografía más avanzadas como es la ultravioleta
extrema o tambíen conocida por su siglas EUV, la máquina más cara se llama
NXE:3400C y puede fabricar 170 obleas por hora en nodos fabricación de 7 y 5
nm[42]. A partir de 2024 también habrá un aumento de gasto en la compra de
equipos de fabricación debido a que será necesario la máquina TwinScan EXE:5200
para fabricar chips con nodos de 3 nm e inferiores, estas nuevas máquinas costarán
más de 400 millones de dólares cada una[43].

Página | 74
Un ejemplo del alto precio de las máquinas ASML y de la importancias que
tiene las máquinas de ASML para la fabricación de semiconductores que Samsung
ha invertido 11.000 millones de dólares este año en máquinas tanto para aumentar
su producción de chips de 7 y 5 nm como para empezar la fabricación de los chips
de tamaño de 5 nm. Otra empresa que se ha gastado recientemente mucho dinero
en máquinas con litografía de EUV ha sido TSM que compró en 2021,13 máquinas
para ampliar su producción de 7nm y las máquinas más avanzadas para el proceso
de fabricación de 3 nm que anunciaron la producción de chips en masa para el
2024.

En la siguiente imagen se muestra como han sido los ingresos anuales de las
3 mayores empresas de fabricación de máquinas para la litografía.

Ilustración 44: Ingresos de las principales empresas fabricantes de maquinas litograficas.

TSMC en total se va gastar en los próximos 3 años alrededor de 100.000


millones de dólares en nuevas fábricas para aumentar su capacidad de producción.
Por ejemplo, ha comenzado con las obras de una nueva planta en Arizona por el
valor de 12.000 millones de dólares cerca de su otra fábrica en Arizona y dentro de
poco se construirá otra en Japón por 7.000 millones de dólares.

Intel está invirtiendo mucho dinero en construir nuevas fábricas para


satisfacer la demanda de sus productos, por ejemplo se ha gastado 20.000 mil
millones de euros en crear 2 megafábricas, para potenciar la fabricación de los chip
con los nodos de fabricación más avanzados. También se ha gastado 4.500 millones
de euros en una fábrica de semiconductores en Italia que se encuentra dentro de la
ley mencionada en el apartado anterior proyecto de Intel y de la Unión Europea para
evitar la dependencia de semiconductores con un valor de 80.000 millones de euros
para construir más fábricas en la próxima década.

Página | 75
SMIC la empresa de fabricación de semiconductores más grande de China
también está realizando una inversión de 40 mil millones de dólares en fábricas para
la creación de chip con nodo de fabricación a 24 nm con el objetivo que en un futuro
tras las finalización de las sanciones de EEUU a China pueda comprar la
maquinaria necesaria para la puesta en marcha de las fábricas ya que China
actualmente solo puede construir el 40% de las máquinas necesarias para la
fabricación de chips con nodos más avanzados como son los 10 nm.

Samsung también es una de las grandes compañías que está invirtiendo


mucho dinero en la construcción de nuevas fábricas para poder satisfacer toda la
demanda actual y futura de chip, construyendo 5 nuevas megafábricas para la
creación de memorias y chip con los nodos de fabricación más avanzados en la
actualidad esto supondrá un gasto de 215 mil millones de dólares que está dentro
de la inversión de 550 billones de wones (393.988 millones de euros) hasta 2026
anunciada por el gobierno de Corea. También se están planeando construir 11
fábricas en EEUU cuya primeras fábricas empezarían a funcionar a partir del año
2036 y en las que se espera que todas las fábricas estén en funcionamiento para el
años 2042 estas fábricas supondría una inversión de 192.000 millones de dólares y
creará 10.000 puestos de trabajo en los distritos de Taylor y Mano, Texas. También
se está acabando la construcción de una fábrica en Texas en la que fabricará
semiconductores de 5 nm e inferiores en 2024.

GlobalFoundries ha invertido 4 mil millones de dólares en la construcción de


una nueva fábrica en Singapur para obtener un aumento en producción de obleas
de 300 mm de 450.000 obleas por mes y en 2026 habría otra fábrica en Francia
junto a la empresa STMicroelectronics valorada en 5.700 millones de euros en que
se fabricará 620.000 obleas de 300 mm al año de la cuales el 58% será para
GlobalFoundries.

Para el año 2025 la demanda de ordenadores, gráficas, móviles,coches


inteligentes, … van ha aumentar llegando por ejemplo a un nuevo pico en el caso
de los móviles y coches inteligentes y es que se espera que la cantidad de
dispositivos móviles vendidos alcance los 18.220 millones y que la ventas de
coches autónomos será del 7.3% y la de los coches eléctricos de un 14.5% para ese
mismo año(actualmente el porcentaje de ventas de este tipo de coches es de 1.7%
y 5% respectivamente).

Página | 76
Ilustración 45: Porcentajes de ventas de tipos de coches hasta el 2025.

El crecimiento de las ventas de móviles para el año 2025 se va a realizar de


forma homogénea en todos los mercados aunque el crecimiento de ventas de
móviles en Latinoamérica,Asia-Páficio, Medio Oriente,África van a superar la media
de ventas de resto de mercados por lo que se tiene que tener en cuenta para elegir
el lugar donde se van a situar las nuevas fábricas ya que cuanto más cerca estén de
estos lugares el coste final del producto será menor y más gente podrá acceder a
dichos móviles.

Ilustración 46: Comparación de ventas de móviles según la región en el año 2019 y 2025.

Página | 77
Por lo tanto, la demanda de semiconductores aumentará con respecto a la
actualidad por lo que es muy importante construir nuevas fábricas a medio y largo
plazo para poder satisfacer dicha demanda de semiconductores y que no suceda la
escasez que afecta al sector desde 2018 a 2023.

Debido a la información anterior se puede observar que se necesitaría las 10


fábricas que quiere construir Samsung en EEUU en Europa para poder satisfacer la
demanda de semiconductores para tanto en Europa como la regiones de África y
Medio Oriente ya que estas últimas son regiones que se están desarrollando poco a
poco y que requieren cada vez más de semiconductores para poder fabricar los
productos informáticos más avanzados para consumo propio. Esta necesidad de
satisfacer la demanda de semiconductores ha provocado que Europa hable con la
mayoría compañías de fabricación de chips para que construye sus fábricas dentro
de la región ofreciendo para ello ayudas fiscales y pagar porcentajes de la
construcción de las propias fábricas, entre las empresas con la que Europa ha
hablado son Intel,Samsung y GlobalFoundries.

La siguiente tabla se muestra cuántas fábricas y una producción aproximada


de obleas que tendría las empresas mencionadas anteriormente en 2026:

Empresa Cantidad Localización de Tamaño de la Capacidad de


de las fábricas oblea (mm) producción(ob
fábricas leas/mes)

TSMC 14 Taiwán,China, 300,200,150 1.800.000


EEUU,Japón

Intel 14 EEUU, China, 300


Israel,Irlanda

Samsung 13 Korea y EEUU 300,200,100 1.708.000

SMIC 11 China 300,200 718.000

UMC 13 Taiwán,China, 150,200,300 600.000


Singapur,Japón

GlobalFoundries 11 Alemania,EEUU, 200,300 1.300.000


Singapur,Francia
Tabla 13: Producción de obleas al mes de los fabricantes en 2026.

Página | 78
Si quieres saber más información sobre qué nodo de fabricación usa cada
empresa de fabricación de chip mencionada y sobre qué tamaño de oblea se fabrica
dicho chip consulte el anexo.

6.4 ¿Cómo afecta la escasez de materias primas a la


producción de semiconductores y a otros componentes
informáticos?

La fabricación chip no solo depende de la capacidad de producción de las


empresas que fabrican semiconductores comentadas en el apartado anterior si no
que depende también de las materias primas que intervienen en todo el proceso de
fabricación de los chips como lo son el agua,la energía,las obleas. En esta sección
hablaremos sobre cómo afecta las materias primas a la producción de los chips,
para ello usaremos los propios reportes CSR( Corporate Social Responsibility)
de las empresas que vamos a usar para el análisis.

6.4.1 Electricidad

La electricidad es un pilar fundamental para la fabricación de cualquier


producto y lo es más en la fabricación de semiconductores debido a la gran cantidad
que se necesita para hacer funcionar las máquinas que crean los semiconductores.

Las máquinas con la tecnología EUV de ASML son necesarias para


fabricar los semiconductores más avanzados de la actualidad pero estas máquinas
consumen mucha electricidad para poder crear dichos semiconductores alrededor
de un megavatio, 10 veces más que las máquinas de anteriores generaciones. Un
ejemplo del alto consumo de energía que provocan estas máquinas se puede
observar en que TSMC se espera que para el 2025 consuma el 12,5% del consumo
energético de Taiwán,un consumo similar al que producen los 21 millones de
personas que viven en Sri Lanka. En la siguiente imagen se va a mostrar el gasto
total de electricidad de la 6 mayores fabricantes de chip:

Página | 79
Ilustración 47:Consumo de energía de los 6 principales fabricantes de chips.

Como se puede observar en el gráfico el consumo de energía de las mayores


empresas fabricantes de chips siguen un crecimiento constante a lo largos de los
últimos 7 años y no hay planes a corto plazo que el gasto de energía se reduzca si
no que aumente de forma exponencial debido a la construcción de fábricas cada vez
más grande con maquinaria que consume cada vez más energía. La obtención de la
energía de las empresas viene en un más del 60% de media del gas natural y del
petróleo, materias primas que están sufriendo un periodo de inestabilidad tanto en la
parte del dinero como en la reducción de oferta, todo esto debido al aumento de la
demanda de energía en otras secciones económicas y a la sanciones realizadas
sobre el gas ruso que hacen que la compra de este sea más difícil y caro.

Esta inestabilidad ha provocado que el precio final de la fabricación de chips


suba de precio y que muchas empresas inviertan dinero en mejorar sus fábricas
para que resulten más eficientes en el consumo de electricidad y reducir así el gasto
total necesario para la fabricación de chips. Entre las medidas tomadas por las
empresas para reducir el gasto de energía o reducir el consumo de energía no
renovable a renovable son las siguientes:

● Construir baterías u otros recursos para reutilizar la electricidad.

● Llegar acuerdo a largo plazo con empresas energéticas que producen


energía renovable como es el caso de TSMC con ARK Power de 20 años en
la cual esta última se compromete a suministrar 500 gigavatios-hora de
energía renovable. [44]

En las siguientes imágenes se muestran los precios de los barriles desde el año
2000 hasta el año 2022 y el precio del gas entre 2013 y 2022 para que se pueda

Página | 80
observar de una forma sencilla como el precio de ambos combustibles han
aumentado los precios estos últimos años.

Ilustración 48:Precio de los barriles de petróleo entre los años 2000-2022. [45]

Ilustración 49: Precio del gas natural entre los años 2013-2022.

En la imagen superior se puede observar como los precios del gas en los 3
principales mercados sufrió un aumento exponencial y también sufrió un aumento el
precio del petróleo ambos debido a las razones que ya hemos descripto
previamente.

Débito a todo lo descrito en esta sección las empresas se han puesto como
objetivo que en 2050 todas sus fábricas sean 0% contaminantes para reducir el
gasto de energía usando energías renovables que son más baratas que el petróleo
y gas natural y la otra razón es evitar un aumento de residuos a la atmósfera.

Página | 81
6.4.2 Agua

El agua también es un recurso principal en la industria de la fabricación de


semiconductores y que provoca que de una forma indirecta que la producción de
chip se reduzca debido a las sequías ya que se necesita gran cantidad de agua
durante el proceso de fabricación de los chips.El agua está siendo un problema
actualmente para las empresas ya que debido al cambió climático ha provocado que
las sequías sean más comunes y esto ha provocado que exista el peligro de que la
fabricación se detenga. Debido a lo anterior, las empresas fabricantes de chips
invierten muchos miles de millones de dólares en plantas de tratamiento de agua
para poder reutilizar el agua usada para volver a utilizarlo o para consumo de la
población y a medidas que permiten reducir el consumo del agua.

En la siguiente imagen se muestra el consumo total de agua realizado por las


6 mayores empresas fabricantes de chip(TSMC,Intel,Samsung,GlobalFoundries,
UMC,SMIC) del mundo entre los años 2015 al 2021:

Ilustración 50: Gasto anual de agua en los mayores fabricantes de chips entre 2015 y 2021.

El problema del agua va a ir a peor debido a que las nuevas fábricas con las
nuevas máquinas para fabricar mejores semiconductores van a provocar un
consumo mayor de agua y el periodo de sequías va a aumentar a lo largo de los
próximos años como se muestra en la siguiente imagen:

Página | 82
Ilustración 51:Comparación del porcentaje de sequía entre el año 1995 y el 2025. [46]

Ilustración 52:Mapa de con el peligro por sequías para el año 2030.

Como se observa en las ilustraciones el riesgo de sequía va aumentar en


gran medida a lo largo de los próximos años y un ejemplo de ello es TSMC que
debido a las sequías de 2021 en Taiwán tuvo que utilizar agua transportada en
camiones para poder continuar con su producción. Para solucionar los problemas de
abastecimiento de agua debido a las sequías, todas las empresas tienen distintas
políticas ambientales para reducir el consumo de agua y de métodos para reutilizar
el agua y no depender del agua de las lluvias,ríos o embalses. Las medidas
tomadas por las 3 principales empresas de creación de chips(Samsung,Intel y
TSMC), que son aquellas que requieren más agua para poder funcionar son las
siguientes:

TSMC en 2021 gracias a su sistema de control de ahorro de agua y a la


implementación 6 planes de ahorro de agua y energía TSMC consiguió que en su
GiGAFAB en Taiwán se ahorra más de 10 millones de toneladas de agua pura y

Página | 83
tiene como objetivo ahorrar 28 millones de toneladas de agua pura para 2030.
También en 2022 se puso en marcha en STSP (Parque Científico del Sur de Taiwán)
la primera planta de agua exclusiva en la que se reutiliza el agua residual de otras
fábricas de la compañía para convertirla otra vez en agua útil para la fabricación de
chips, esta fábrica proporciona 10.000 toneladas de agua diaria y tiene como
objetivo proporcionar 36.000 toneladas de agua en 2026. Actualmente el consumo
de agua diaria supera las 60 piscinas olímpicas(156.000 toneladas de agua) esto es
debido a que es necesaria para limpiar las docenas de capas de metal que forman
un semiconductor.

Intel también es una compañía muy concienciada con el uso responsable del
agua y tiene como objetivo la restauración de agua en toda sus fábricas para el
2030. Debido al objetivo mencionado Intel anunció en 2022 que las fábricas situadas
en la India,Estados Unidos,Costa Rica tenían un balance neto positivo del consumo
de agua.

Samsung también se ha propuesto ser más responsable en el uso y desecho


del agua que se usa en sus fábricas y se ha puesto como objetivo ser una empresa
100% sostenible para el medio ambiente en el año 2050.

En la siguiente imagen se muestra el porcentaje de reutilización de agua que


tienen las compañías antes mencionadas para que observe que todavía queda
mucha agua sin ser reutilizada y sobre todo en el caso de Intel y Samsung.

Ilustración 53: Porcentaje de reutilización del agua usada en las fábricas de semiconductores.

Página | 84
6.4.3 Obtención de obleas para la fabricación de chips

Igual que en los apartados anteriores un componente primordial para la


fabricación de semiconductores son las obleas donde se fabrican estos y es que su
demanda va aumentando al mismo ritmo que se mejoran y crean nuevas fábricas.
Este aumento de la demanda de obleas por parte de los fabricantes de
semiconductores ha provocado que las empresas trabajen a máxima capacidad, las
24 horas de día para poder satisfacer las demandas del resto de empresas. Un
ejemplo de lo anterior es el caso de SUMCO Corporation en el como se mostró en la
Ilustración 28.como tiene reservadas las obleas hasta el año 2026 y aun así no puede
satisfacer la demanda actual y futura de obleas con una producción actual de las 24
horas/día como se muestra en la Ilustración 29.

Esta situación ha provocado que las empresas relacionadas con la creación


de obleas tenga que realizar un gran inversión en aumentar sus fábricas ya
existentes o crear nuevas fábricas para aumentar así la creación de obleas de 8 y 6
pulgadas por ejemplo:

● SUMCO ha invertido 2.100 millones de dólares para construir una


fábrica que finalizara su construcción en 2024.

● SK Siltron ha invertido 300 millones de dólares en la construcción de 2


fábricas que finalizan su construcción en 2024, una en Corea del Sur y
otra en EEUU.

● GlobalWafers también ha invertido mucho dinero en mejorar su


producción de obleas y es por eso que el año pasado tras la compra
fallida de Siltronic AG anunciaron una inversión de casi 3.000 millones
de dólares(100 mil millones de TWD). El 45% de esta inversión va a ser
usado para mejorar las fábricas existentes y también se construirá una
fábrica para producir obleas de 8 pulgadas en Texas, EEUU que
iniciará su producción en 2025 dicha fábrica producirá 1,2 millones de
obleas de 8 pulgadas (300 mm).

● En 2019 se realizó una inversión de 211.000 millones de dólares(30


billones de yenes) en mejoras en sus fábricas en Taiwán y Japón para
aumentar la capacidad de producción de obleas de silicio,acabando de
construir una nueva fábrica en Japón en 2022 Naoetsu y la incursión

Página | 85
en 2021 de nuevos edificios en las plantas para aumentar la
producción.

En la siguiente imagen se muestra los ingresos mundiales que ha tenido el


sector de obleas de silicio solo en el sector de los semiconductores en los últimos 10
años:

Ilustración 54: Número de pulgadas de obleas(MSI) vendidas por año.

Ilustración 55: Ganancias de los fabricantes de obleas de silicio entre los años 2012 al 2022.

En la ilustraciones se pueden observar que aunque en la gráfica de las


ganancias de las empresas fabricantes de obleas de silicio ha habido épocas donde
las ganancias han menguado con respecto años anteriores 2014-2015 o que se han
mantenido constante en años con en 2019-2020 el único año en el que la
producción de obleas ha sido menor con respecto años anteriores fue en 2019 y es
que los fabricantes fueron afectados por las sanciones realizadas de EEUU a China
en medio de la guerra comercial que hubo entre ambos países.

Página | 86
Las consecuencias de las sanciones fueron que los compradores de obleas
de silicio de China tuvieran muy difícil poder seguir comprando la misma cantidad de
obleas a las empresas que actualmente se las vendía debido al miedo de estas
últimas de poder vender obleas a empresas EEUU como es Intel. Este miedo lo que
provocó que las empresas China tuvieran que buscar vendedores de obleas dentro
de su propio país aunque les fue difícil poder comprar todas las obleas necesarias
para la producción del 100% de sus fábricas debido a que China no estaba
preparada para satisfacer la nueva gran demanda de obleas en un periodo tan a
corto plazo.

6.5 Conclusiones

Las conclusiones obtenidas del TFG son que el mayor cuello de botella en la
fabricación de chip no se encuentra en las fábricas que se dedican a fabricarlas si
no en la empresa que se dedican a fabricar la maquinaría necesaria para crear los
semiconductores más avanzados que son los necesarios para la fabricación de los
ordenadores y portátiles más avanzados, tarjetas gráficas, automóviles, las armas
militares más avanzadas,etc. La empresa es ASML y es la que tiene el monopolio
de la creación de las máquinas que usan la litografía EUV para fabricar los
semiconductores con un nodo de fabricación igual o menor a los 10 nm y es que
debido a que tiene el monopolio, la obtención de las máquinas suele ser muy
compleja. Son tan importantes las máquinas de la compañía ASML que debido a la
prohibición de la compañía por parte de EEUU de hacer negocios con China, está a
tenido que paralizar gran parte de su estrategía para no tener que depender de los
semiconductores de otros países(principalmente Taiwán) y utilizar máquinas menos
avanzadas tecnológicamente para las fábricas que se estaban construyendo para
albergar las máquinas de ASML como es el caso de la empresa SMIC.

Las razones para que las máquinas ASML sean muy difíciles de obtener son:

1. Debido a la poca capacidad de producción que tienen de dichas máquinas


(alrededor de unas 400 anualmente) que hace que tengan una lista de espera
de varios años.

2. El sobrecoste que tienen las máquinas debido a que no tienen competencia


que hagan que estén obligados a poner un precio competitivo.

Las soluciones para este problema de abastecimiento de máquinas con la


litografía EUV son las siguientes:

Página | 87
Ayudas económicas de la Unión Europea para que ASML construya nuevas
fábricas con el objetivo que puedan aumentar su producción en un futuro a
medio-largo plazo y ser un socio preferente a la hora de comprar las máquinas que
fabriquen en un futuro.

Realizar grandes inversiones en I+D para poder fabricar máquinas tan


tecnológicamente avanzadas como son las máquinas EUV que vende ASML, esto
para incentivar a las empresas a dar el paso a procesos de fabricación más
avanzados debido al mayor número de máquinas disponibles en el mercado
haciendo que la demanda de semiconductores se reduzca. Esta creación de
empresas puede servir para incentivar la creación de fábricas de semiconductores
en la región haciendo que las máquinas sean mucho más baratas de comprar si la
vas a usar dentro del país o en caso de Europa dentro de los países que forman la
Unión Europea. Un ejemplo de esto es China que financia una parte de lo que
cuesta cada máquina litográfica.

Otra de las conclusiones que se obtiene de este TFG es que el mercado de


los semiconductores es muy dependiente de EEUU y de las leyes que ellos
publiquen como puede ser las sanciones a China. Estas sanciones han provocado
que empresas aunque no sean americanas no comercialicen con China debido al
miedo de no poder hacer negocios dentro del país americano y también provocando
que empresas que tienen fábricas en dicho país tengan la incertidumbre de si va a
poder seguir comercializando con las empresas más consumidoras de
semiconductores como son Intel,AMD,Nvidia,Apple,etc... Un ejemplo de empresa
“no americana” que por parte de EEUU ha sido amenazada de sanciones para que
no venda sus productos a China ha sido ASML que se le ha amenazado de no
poder vender máquinas de EUV a empresas Chinas como SMIC para que no
produzcan chips con nodos de fabricación avanzados como lo son los de 10 nm.

Esta situación hace que sea urgente que la Unión Europa tome medidas para
hacer que a las empresas relacionadas al sector del semiconductores como son
empresas de encapsulación,fabricantes de semiconductores y fabricantes de obleas
decida invertir su dinero en construir fábricas dentro del territorio europeo y para ello
habría que darle facilidades fiscales a las empresas durante varios años por ejemplo
una década y ayudar en la construcción de las fábricas a las empresas pagando un
porcentaje de dichas construcciones. Estas medidas las están ya realizando países
dentro de la Unión Europea como lo son Francia,Alemanía e Italia para llamar la
atención a las empresas de este sector y consiguiendo que empresas como Intel y
GlobalFoundries.

Página | 88
Para conseguir Europa lo antes mencionado la inversión que tendría que
realizar sería mínimo el tiple a la inversión anunciada el año pasado de 43.000
millones de euros y es que Europa es de entre los mercados principales en el
consumo de semiconductores el que tiene una peor situación en lo que respecto a la
creación desde 0 de semiconductores hasta su venta a otra empresas para fabricar
productos como gráficas o para venderlo al público general. Esta situación queda
reflejada en que no haya el suficiente número de fabricantes de obleas para
satisfacer la demanda propia si por alguna razón EEUU sanciona a Europa sin
poder comprar dicho producto y tampoco existe el número necesario de fábricas de
creación de semiconductores para satisfacer el objetivo de Europa de aumentar su
cuota de mercado pasando del 10% al 20%.

China tiene como objetivo reducir la brecha entre la demanda de chips


mundial y la oferta que existe actualmente siendo autosuficiente para ello como se
comentó en la sección 6.3¿Cuántas fábricas se tendrían que construir para
satisfacer la demanda de semiconductores? invertirá 150.000 millones de dólares en
total hasta 2030 en la investigación de los semiconductores para poder obtener
mejores semiconductores. Esta inversión tiene como principal objetivo poder fabricar
de forma autosuficiente la maquinaría necesaria para obtener semiconductores
avanzados ya que debido a las sanciones que se le ha impuesto le resulta muy
difícil obtener la maquinaria necesaria para poder fabricar los semiconductores y
prueba de ello es la empresa SMIC en la que está última ha construido 3 fábricas
que servirían para obtener semiconductores con un nodo fabricación de 10 nm e
inferiores pero que le ha resultado imposible comprar la maquinaria necesaria para
su fabricación ha ASML debido a EEUU.

Página | 89
7. Líneas futuras.

7.1. Introducción.

Hablaremos de las que conclusiones hemos llegado gracias al desarrollo de


tfg y daremos ejemplos de aplicaciones donde el proyecto realizado sería útil.

7.2. Líneas futuras.

Gracias al proyecto hemos podido observar las ventajas que proporciona


Apache Spark para poder realizar labores de Big Data con respecto a otras
aplicaciones en el mercado como es Apache Hadoop, como es una mayor tolerancia
a los errores y la posibilidad de usar un margen mayor de lenguajes de
programación.

Al realizar un estudio de distintas herramientas y arquitecturas que podría


tener nuestro proyecto y seleccionar las que mejor se adapta al proyecto hemos

Página | 90
podido cumplir el objetivo de diseñar e implementar un sistema Big Data eficiente,
escalable que permita hacer un análisis del ecosistema informático.

Tras cumplir el objetivo antes mencionado, pudimos cumplir de forma


satisfactoria el objetivo propuesto inicialmente en el TFG que consistía en buscar
soluciones para que las empresas pudieran cumplir con la demanda actual y futura y
que no vuelva a suceder otro periodo largo de escasez de semiconductores.

Los únicos pasos que no se cumplieron con respecto a los descritos en el


inicio del TFG son los siguientes:

● Implementación en diferentes entornos del sistema Big Data diseñado.

● Análisis de la eficiencia del sistema diseñado.

No se ha cumplido con estos pasos es debido a que solo se ha implementado


sobre un solo entorno y este es Ubuntu y tampoco se ha realizado un análisis de
profundidad sobre la eficiencia del sistema en grandes volúmenes de datos, esto es
debido al período(2008-2022) que se ha seleccionado como muestra de datos para
realizar el proyecto.

Teniendo en cuenta que se ha configurado el proyecto para realizar pruebas


tanto en una arquitectura clúster como en una arquitectura pseudo-distribuido se ha
comprobado, que cuando se trata de grande cantidades de datos es mucho más
eficiente utilizar la arquitectura cluster debido a que la repartición de trabajo entre
máquinas y no la realiza todo el análisis una sola máquina como se realizada en una
arquitectura pseudo-distribuida.

En nuestro proyecto al realizar un análisis de datos entre las fechas 2008 al


2022 la cantidad de datos no es significativa para quedarte con una u otra
arquitectura,aunque si quiere llevar el trabajo a un periodo más largo o trabajar
sobre otro productos distinto a los semiconductores es recomendable usar la
arquitectura cluster debido a su facilidad de escalabilidad y tambíen porque si el
trabajo se requiere se puede trabajar sobre una máquina solamente convirtiéndose
entonces en una arquitectura pseudo-distribuida por lo que la arquitectura cluster es
la mejor alternativa ya que no solo puede escalar si no también reducir su capacidad
de procesamiento si se requiere la circunstancias.

Página | 91
Las líneas futuras del proyecto pueden ser varias:

● Aumentar los datos al realizar el análisis considerando periodos de fechas


más largas o tomar más parámetros en consideración para responder a
preguntas que no se han realizado en este proyecto.

● Orientar el trabajo hacia otros componentes relacionado con el sector de la


informática como es por ejemplo las memorias NAND o añadir la información
relacionada a las memorias NAND al trabajo para tener una visión más
general del sector.

● Usar la minería de datos para obtener patrones del comportamiento a través


de los datos obtenidos del Big Data y poder obtener unas mejores respuestas
a los problemas planteados en el proyecto.

Página | 92
BLOQUE VI

Anexos

Página | 93
ANEXO I: Instalación y configuración
1. Introducción

A continuación, en este apartado se llevará a cabo la explicación paso a paso


de la instalación de todos los servicios y tecnologías necesarios tanto en la
arquitectura cluster como en la pseudo-distribuida.

2. Preparación del entorno de trabajo

El sistema operativo elegido para realizar la instalación de todos los


programas relacionados con el proyecto es Ubuntu. La elección de Ubuntu es
debido a que la comunidad existente de Spark y Hadoop es mayor en Ubuntu que
en otros sistemas operativos.

2.1. Instalación Linux

2.1.1. Requisitos previos

Para poder instalar Ubuntu en una máquina, hace falta cumplir una serie de
requisitos mínimos de hardware proporcionados por la misma Ubuntu:

● Procesador de doble núcleo de 2 GHz o superior


● 4 GB de memoria ram
● 25 GB libres en el disco duro
● Lector de DVD o puerto Usb para poder instalar el sistema
● Acceso a internet

2.1.2. Descarga del Sistema operativo

Para descargar Ubuntu en VirtualBox tendremos que ir a la página principal


de Ubuntu: https://ubuntu.com/download/desktop y descargar la imagen específica
para máquinas virtuales.

La versión con la que trabajaremos en la solución propuesta en este proyecto


es la 20.04.4. LTS con la cual tendremos soporte por parte de Ubuntu hasta 2025.

Página | 94
2.1.3. Creación de la máquina virtual

Una vez descargado VirtualBox y la imagen de Ubuntu se comienza el


proceso de creación de las máquinas virtuales para la creación de un sistema Big
Data con una arquitectura cluster y otra pseudo-distribuida.

La arquitectura del cluster que vamos a usar en el proyecto va a ser de 4


máquinas virtuales, en la que como cualquier cluster existente una máquina hará de
la función de nodo maestro y el resto de máquinas virtuales hacen la función de
nodos esclavos.

La arquitectura pseudo-distribuida como se explicó en el apartado 3.1


Computación pseudo-distribuida el sistema Big Data solo tendrá una máquina virtual
que hará de función de nodo maestro y nodo esclavo a la vez.

Las máquinas virtuales que formarán las arquitecturas del proyecto tienen
las mismas características que son:

● Tipo: Linux.
● Versión: Ubuntu.
● Tamaño de memoria: 6GB de memoria RAM a cada máquina.
● Disco duro: es necesario crear un disco duro virtual VDI (VirtualBox Disk
Image) reservado dinámicamente el tamaño para que la memoria de la
máquina virtual aumente según lo requiera el proyecto evitando así que se
desperdicie memoria del dispositivo e inicialmente cada máquina virtual
tendrá un tamaño de 30GB.

Los pasos que hay que seguir para la creación de de la máquina virtual son:

Página | 95
Ilustración 56:Instalación máquina virtual

Ilustración 57:Selección del tamaño de memoria.

Página | 96
Ilustración 58: Selección de disco duro.

Ilustración 59: Selección del tipo de archivo.

Página | 97
Ilustración 60:Selección del tipo de almacenamiento.

Ilustración 61:Selección del tamaño de la memoria de disco de la máquina virtual.

Página | 98
Ilustración 62: Arranque Ubuntu cargado.

Ilustración 63: Instalación de Ubuntu.

2.1.4. Configuración máquina virtual

La primera configuración que vamos a modificar sería el número de


procesadores asignados a la máquina virtual que está por defecto a 1 a 4 para
mejorar así la eficiencia con el uso de Hadoop y Spark.

Página | 99
Ilustración 64: Cambio del número de procesadores.

La segunda configuración va a ser un cambio en el controlador gráfico para


que la máquina virtual se pueda adaptar al tamaño de la pantalla que ocupa en el
dispositivo que hace host la máquina virtual esto con el objetivo de facilitar la
visualización de todo el proyecto, esto se realiza poniendo “VBoxSVGA” en las
opciones que te da el contrado gráfico de VirtualBox.

Ilustración 65: Cambio del contador gráfico a VBoxSVGA.

Página |
100
2.2. Topología de red

Ahora debemos asignar las direcciones IP y los nombres a cada una de las
máquinas que deseamos que conforman nuestra red, para ello, añadimos los
nombres de todos los nodos en /etc/hosts en todas las máquinas que vayamos a
emplear. La siguiente tabla muestra los nombres que van a tener cada maquina del
proyecto con su ip y función asociada:

Hostname IP Funcion

Master 192.168.2.101 Nodo master

Esclavo1 192.168.2.102 Nodo esclavo

Esclavo2 192.168.2.103 Nodo esclavo

Esclavo3 192.168.2.104 Nodo esclavo

Master-Esclavo 192.168.2.105 Nodo pseudo-distribuido


Tabla 14: Topología de la red del proyecto.

Para finalizar habrá que configurar las direcciones IP manualmente accediendo al


apartado configuraciones de red en Linux en cada una de las máquinas de la
siguiente manera:

Ilustración 66: Configuración de las IP de las máquinas virtuales.

Página |
101
3. Instalación programas auxiliares

En esta sección se van a dar todos los pasos necesarios para la instalación
de todos los programas necesarios para el funcionamiento de Apache Spark y
Hadoop.

3.1. Java

En este paso se instalará Java esto porque Hadoop está escrito en Java. Vale tanto
la versión openJDK como la de Oracle. La versiones 3.XX de Hadoop son
compatibles en tiempo de ejecución con Java 11 y Java 8.

sudo apt update


sudo apt install openjdk-8-jdk

Se elige usar Java JDK 8 porque es el mínimo que se requiere para hacer funcionar
cualquier versión de Hadoop 3.XX que es la que hemos elegido y para que si se
quiere cambiar a una versión inferior de Hadoop no surjan problemas con la versión
de Java.

Para comprobar si Java se ha instalado correctamente en la máquina se ejecuta el


siguiente comando:

java -version

Ilustración 67: Comprobación de la instalación de java.

3.2. Instalación Anaconda

Instalaremos Anaconda[30] ya que contiene los paquetes más importantes


para tratamiento de grandes volúmenes de datos, cálculos científicos y análisis de
predicciones y viene integrado con python qué es lenguaje de programación que
vamos a usar durante todo el proyecto. Anaconda se puede descargar desde esta
página: https://www.anaconda.com/download/.

Página |
102
Comando para instalar Anaconda:

$ bash ./ Anaconda3-2023.03.sh

Tras instalar Anaconda comprobaremos si se nos ha descargado python y si


es así qué versión tiene,para comprobar todo esto se usa el siguiente comando:

python3 –version

Ilustración 68: Versión de python.

Actualizamos conda a la versión más nueva,esto se consigue ejecutando el


siguiente comando:

conda update --all --yes


conda –version

Ilustración 69: Versión de conda.

Tras comprobar que se ha instalado correctamente conda y python, se va a


instalar la extensión nb_conda_kernels, esta extensión permite que una aplicación
Jupyter acceda a kernels para Python, R.Esto le permite utilizar diferentes
versiones de Python, R y otros lenguajes desde una sola instalación de Jupyter.

conda install nb_conda_kernels


conda list

Página |
103
Ilustración 70: Instalación de nb_conda_kernels.

4. Instalación de Apache Spark

4.1. Descarga de Apache Spark

Ahora que hemos instalado las herramientas necesarias para usar Spark
vamos a descargar Spark[32] en nuestra máquina desde la página web
https://Spark.apache.org/downloads.html y descomprimimos el contenido en nuestro
directorio.

Ilustración 71: Página de descarga de Apache Spark.

Comando para descomprimir el archivo en formato .tgz:

tar -xvf spark-3.2.4-bin-hadoop3.2.tgz

Cambiamos el nombre de la carpeta para poder trabajar mejor:

Página |
104
mv ~/spark-3.2.4-bin-without-hadoop ~/spark

4.2. Configuración Spark

● Fichero de configuración del usuario hadoop: nano ~/.bashrc

export SPARK_HOME="/home/master/spark/”

Ilustración 72; Archivo .bashrc Spark.

Tras esto aplicamos los cambios con el siguiente comando:

source ~/.bashrc

Por último verificamos que se ha realizado correctamente la instalación de


Spark.

cd spark
bin/pySpark

Ilustración 73: Arrancamos la instalación de Spark.

Página |
105
5. Instalación Hadoop

Normalmente no se encuentra instalado por defecto en el sistema, por lo que


se debe instalar ejecutando los siguientes comandos desde la terminal:

5.1 Descarga de Hadoop

Para descargar Apache Hadoop en nuestra máquina lo haremos desde la


página web oficial: https://hadoop.apache.org/releases.html.

Ilustración 74: Página web de Apache hadoop.

Tras descargar Apache Hadoop se descomprime la carpeta, renombramos la


carpeta para que sea más fácil de manipular y la trasladamos a la misma ruta donde
esta la carpeta de Apache Spark:

tar xvf hadoop-3.3.2.tar.gz


mv hadoop-2.9.0.tar.gz /home/master/hadoop

5.2 Configuración de Apache.

Una vez instalado Hadoop, procedemos a actualizar el fichero de


configuración del usuario para hacer que Apache Hadoop funcione correctamente.

● Fichero de configuración del usuario: nano ~/.bashrc

export HADOOP_HOME="/home/master/hadoop-2.9.0"
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native:$LD_LIBRARY_PATH

Página |
106
Ilustración 75: Archivo .bashrc con la configuración de Apache Hadoop.

Tras esto aplicamos los cambios con el siguiente comando:

source ~/.bashrc

6. Acceso SSH

Primero,cambiaremos los nombres de las maquinas a “esclavo1”,“esclavo2” y


“esclavo”, ya que todas se llaman actualmente “master” los pasos a seguir son:

Primer paso,entrar en modo root.

sudo su

Segundo paso,ejecutar el siguiente comando:

nmcli general hostname [nombre-usuario]

Tercer paso reiniciar el equipo para aplicar los cambios:

reboot

Ahora debemos asignar las direcciones IP y los nombres a cada una de las
máquinas que deseamos que conforman nuestra red, para ello, añadimos los

Página |
107
nombres de todos los nodos en /etc/hosts en todas las máquinas que vayamos a
emplear.

192.168.2.101 master
192.168.2.102 esclavo1
192.168.2.103 esclavo2
192.168.2.104 esclavo3

Ilustración 76: Fichero hosts de las máquinas virtuales.

Comprobamos que “ifconfig” se encuentra instalado en la máquina virtual


porque es una herramienta que vamos a usar para dar acceso ssh entre máquinas,
si no está instalado ejecutar el siguiente comando:

sudo apt install net-tools

En el cuarto paso,vamos a instalar en las máquinas cuya función sea la de


esclavo ssh server.

sudo apt-get install openssh-server

En el quinto paso, se va a generar la clave RSA para el acceso remoto de los


esclavos.

ssh-keygen

Página |
108
Ilustración 77: SSH clave RSA.

En el sexto paso es enviar la clave RSA de la máquina master a cada uno de los
esclavos que van a componer el cluster para que se pueda realizar la comunicación
entre las máquinas virtuales. El comando para enviar la clave RSA a las máquinas
esclavas es el siguiente:

ssh-copy-id -i ~/id_rsa.pub master@esclavo1


ssh-copy-id -i ~/id_rsa.pub master@esclavo2
ssh-copy-id -i ~/id_rsa.pub master@esclavo3

Ilustración 78: Enviar clave RSA a MV esclavas.

Página |
109
7. FindSpark

FindSpark es una biblioteca de Python que permite usar PySpark .El


comando para instalar FindSpark es el siguiente comando:

pip install findSpark

8. Py4j

Instalar Py4J para que los programas de Python se ejecuten y accedan


directamente a los objetos Java.

pip install py4j

9. Jupyter Notebook

Comando que ejecuta Jupyter notebook:

jupyter notebook

Ilustración 79: Ejecución de Jupyter Notebook.

Página | 110
Ilustración 80 :Entorno Jupyter navegador.

Página | 111
ANEXO II: Pasos para iniciar el cluster.
1. Introducción.

A continuación, en este apartado se van a resumir todos los comandos que


se tendrán que ejecutar en cada máquina para poner en marcha el cluster
previamente creado y configurado del anexo anterior. También se mostrarán los
comandos necesarios para finalizar la ejecución del cluster.

2. Iniciar clúster

En esta sección se enumera todos los comandos para ejecutar el cluster,los


comandos se tienen que ejecutar desde la carpeta donde esté instalado Apache
Spark, en nuestro caso /home/master/spark:

2.1. Iniciar el servidor maestro

Para iniciar el servidor maestro se tiene que ejecutar la máquina virtual cuya
función en el cluster es la de maestro, el siguiente comando se tiene que ejecutar
dentro del directorio donde se encuesta Apache Spark:

./sbin/start-master.sh -h 192.168.2.101

Ilustración 81: Iniciar servidor maestro.

Página | 112
-

Ilustración 82: Interfaz web de la máquina master de Apache Spark.

Se puede apreciar en la interfaz de la máquina master de apache Spark una


URL que será nuestra “dirección master” y será la encargada de conectar los
esclavos al clúster.

2.2.Conectar esclavos

Para iniciar las máquinas esclavas que van a componer el cluster Spark se
tiene que ejecutar el siguiente comando dentro del directorio Spark :

./sbin/start-slave.sh spark://192.168.2.101:7077

Ilustración 83: Inicial la máquina esclava.

3. Finalizar clúster

En esta sección se enumera todos los comandos para detener el cluster, los
comandos se tienen que ejecutar desde la carpeta donde esté instalado Apache
Spark, en nuestro caso /home/master/spark:

#Ejecutar en cada máquina esclava el siguiente comando para eliminarlo del cluster

./sbin/stop-slave.sh spark://192.168.2.101:7077

Página | 113
#Detener la máquina master
./sbin/stop-master.sh

Página | 114
ANEXO III:Gráficos
1. Introducción

A continuación, en este apartado se mostrarán todos los gráficos que hemos


usado para la realización del proyecto.

2. Relacionados al valor de las empresas en la bolsa

Se van a mostrar los gráficos relacionados al valor de las empresas que


hemos estudiado para el proyecto a lo largo de los años 2008 al 2022,todos los
valores que se van a mostrar van a estar en la moneda oficial de EEUU que es el
dólar,esto es para que resulte más fácil la comparativa entre las empresas y obtener
resultados de una forma más clara y rápida.

● Intel

Ilustración 84:Valor histórico de las acciones de Intel.

● AMD

Ilustración 85: Valor histórico de las acciones de AMD.

Página | 115
● Samsung

Ilustración 87: Valor histórico de las acciones de Samsung.

● SMIC

Ilustración 88: Valor histórico de las acciones de SMIC.

● Sumco

Ilustración 89: Valor histórico de las acciones de Sumco.

Página | 116
● GlobalWafers

Ilustración 90: Valor histórico de las acciones de GlobalWafers.

● UMC

Ilustración 91:Valor histórico de las acciones de UMC.


● TSMC

Ilustración 92: Valor histórico de las acciones de TSMC.

Página | 117
3. Relacionados a los ingresos de las empresas
fabricantes de semiconductores

Se van a mostrar los gráficos relacionados a los ingresos de las empresas que
hemos estudiado para el proyecto a lo largo de los años 20089 al 2022,todos los
valores que se van a mostrar van a estar en la moneda oficial de EEUU que es el
dólar,esto es para que resulte más fácil la comparativa entre las empresas y obtener
resultados de una forma más clara y rápida.

● Intel

Ilustración 93: Ingresos anuales de semiconductores de intel.

● Qualcomm

Ilustración 94: Ingresos anuales de Qualcomn.

● Samsung

Página | 118
Ilustración 95: Ingresos anuales de Samsung.

● SMIC

Ilustración 96: Ingresos anuales de SMIC.

● TSMC

Ilustración 97: Ingresos anuales de TSMC.

Página | 119
● UMC

Ilustración 98: Ingresos anuales de UMC.

4. Relacionados al consumo de energía de las empresas


fabricantes de semiconductores

● Intel

Ilustración 99: Consumo total de energía de las fábricas de Intel entre 2015 y 2022.

● TSMC

Página |
120
Ilustración 100: Consumo total de energía de las fábricas de TSMC entre 2015 y 2021.

● Samsung

Ilustración 101: Consumo total de energía de las fábricas de Samsung entre 2015 y 2021.

● GlobalFoundries.

Ilustración 102: Consumo total de energía de las fábricas de GlobalFoundries entre 2015 y 2021.

● UMC.

Página |
121
Ilustración 103: Consumo total de energía de las fábricas de UMC entre 2015 y 2021.

● SMIC.

Ilustración 104: Consumo total de energía de las fábricas de SMIC entre 2015 y 2021.

5. Relacionados al consumo de agua de los fabricantes de


semiconductores

● TSMC

Página |
122
Ilustración 105: Consumo total de agua de las fábricas de TSMC entre 2015 y 2021.

● Intel

Ilustración 106: Consumo total de agua de las fábricas de Intel entre 2015 y 2021.

● Samsung

Página |
123
Ilustración 107: Consumo total de agua de las fábricas de Samsung entre 2015 y 2021.

● GlobalFoundries

Ilustración 108: Consumo total de agua de las fábricas de GlobalFoundries entre 2015 y 2021.

● UMC

Ilustración 109: Consumo total de agua de las fábricas de UMC entre 2015 y 2021.

Página |
124
● SMIC

Ilustración 110:Consumo total de agua de las fábricas de SMIC entre 2015 y 2021.

ANEXO IV:Tablas
1. Introducción

Página |
125
A continuación, en este apartado se mostrarán tablas relacionadas con
información dada en el proyecto para complementar dicha información.

2. Producción de obleas según su tamaño

Se va a mostrar a continuación una tabla por cada empresa fabricante de


semiconductores en que se va mostrar la producción de obleas por cada nodo de
fabricación que tenga la empresa y sobre qué tamaño de oblea se ha realizado la
fabricación del chip.

● TSMC

Cantidad de Tamaño de la Nodo de Capacidad de


fábricas oblea(mm) tecnología de producción(obleas
procesos(nm) /mes)

40, 28, 20,16,10,7 750.000

6 300

5, 3 240,000

500, 350, 250 100.000

350, 250, 180 48.000

6 200 180 99.000

250, 180 85.000

350,250,180,160 107.000

1 150 800, 600, 500 88.000


Tabla 15: Lista de fábricas y producción de obleas de TSMC.

● Intel

Cantidad de Tamaño de la Nodo de Capacidad de


fábricas oblea(mm) tecnología de producción(obleas

Página |
126
procesos(nm) /mes)

22, 14, 10

9 300
43, 32

14

22

10

Intel 4(previamente
7 nm)
Tabla 16: Lista con los nodos de fabricación y el tamaño de obleas que se utilizan en Intel.

● Samsung

Cantidad de Tamaño de la Nodo de Capacidad de


fábricas oblea(mm) tecnología de producción(obleas
procesos(nm) /mes)

3 200.000

65-28 50.000

6 300 65-11 92.000

65-8 62.000

5 350.000

1 100,150,200 180–65 265.000


Tabla 17: Lista de fábricas y producción de obleas de Samsung.

● GlobalFoundries

Cantidad de Tamaño de la Nodo de Capacidad de

Página |
127
fábricas oblea(mm) tecnología de producción(obleas
procesos(nm) /mes)

12 133.000
3 300
130-40 70.000

14, 12 60.000

600-350 56.000
3 200
350-180 54.000

350-90 50.000
Tabla 18: Lista de fábricas y producción de obleas de GlobalFoundries.

● SMIC

Cantidad de Tamaño de la Nodo de Capacidad de


fábricas oblea(mm) tecnología de producción(obleas
procesos(nm) /mes)

180–55 52,000

40–28 71,000

7 300

28 340.000

3 200 350–90 220.000

Tabla 19: Lista de fábricas y producción de obleas de SMIC.

● UMC

Cantidad de Tamaño de la Nodo de Capacidad de


fábricas oblea(mm) tecnología de producción(obleas

Página |
128
procesos(nm) /mes)

28,14 87.000

3 300 130–40 53.000

55–28 25.000

4000–1000, 500, 77.000


350, 250, 180, 110

250 67.000

350–110 37.000
7 200
90 31.000

180 37.000

150 40.000

350–250 31.000

1 150 450 31.000

1 150, 200, 300 90–40 33.000


Tabla 20: Lista de fábricas y producción de obleas de UMC.

Bibliografía

Página |
129
[1] Origen de Big Data. (Marzo de 2022). Obtenido de
https://ayudaleyprotecciondatos.es/big-data/#Origen_e_historia

[2] Origen de Big Data. (Mayo de 2023). Obtenido de


https://www.egosbi.com/historia-del-big-data/

[3] Macrodatos. (Febrero de 2023). Obtenido de


https://es.wikipedia.org/wiki/Macrodatos

[4] Previsión de crecimiento mundo Big Data. Obtenido de


https://consensodelmercado.com/es/gestores/asml-samsung-y-tsmc-empresas-tecnologicas
-que-pueden-beneficiarse-de-las-nuevas-tendencias-del-ecosistema-tecnologico

[5] Funcionamiento General de un sistema Big Data. (Febrero de 2023). Obtenido de


https://ceupe.com.ar/blog/como-es-el-funcionamiento-del-big-data/#:~:text=El%20Big%20Da
ta%20es%20un,aprendizaje%20e%20inclusive%20inteligencia%20artificial.

[6] Big Data: tipología y fuentes de datos. (Febrero de 2023). Obtenido de


https://nuestrosdatosseguros.es/big-data-tipologia-y-fuentes-de-datos/

[7] Tipos de Big Data según el origen de los datos. Obtenido de


https://es.slideshare.net/smillerodatox/big-data-nn

[8] Aplicaciones de Big Data. Obtenido de


https://www.questionpro.com/es/que-es-big-data.html

[9] Esquema de las 5V. Obtenido de


https://forum.huawei.com/enterprise/es/las-5vs-del-big-data/thread/846137-100759

[10] Metodología presente en un proceso de minería de datos. Obtenido de


https://cmigestion.es/2012/12/13/los-principios-del-data-mining/

[11] Técnicas para la minería de datos. (Febrero de 2023) Obtenido de


https://www.astera.com/es/type/blog/top-10-data-mining-techniques/

[12] Esquema general del funcionamiento de Computación distribuida. Obtenido de


http://cienciasfera.com/materiales/informatica/tecnologiainformacion/tema02/12_informtica_
distribuida.html

[12] Computación Distribuida. (Febrero de 2016).Obtenido de


https://news.sap.com/spain/2021/04/computacion-distribuida-que-es-como-funciona-ventaja
s-y-desventajas/

Página |
130
[13] Esquema general del funcionamiento de un Cluster.Obtenido de
http://www.saber.ula.ve/bitstream/handle/123456789/16051/articuloberticlusters.pdf?sequence=1&isA
llowed=y

[14] Aplicaciones de Computación Elástica. Obtenido de


https://www.xtb.com/lat/analisis-y-noticias/analisis-de-mercado/computacion-en-la-nube-el-futuro-de-l
a-digitalizacion

[15] Herramientas Big Data. Obtenido de


https://forum.huawei.com/enterprise/es/la-importancia-de-las-herramientas-del-big-data-util-
para-mejorar-sus-resultados-parte-1/thread/977349-100325?from=latestPostsReplies

[16] Apache Hadoop. Obtenido de https://es.m.wikipedia.org/wiki/Archivo:Hadoop_logo.svg

[17] Módulos de Apache Hadoop. Obtenido de


https://medium.com/codex/what-is-apache-hadoop-in-big-data-1c542e32d3df

[18] Visión general arquitectura HDFS. Obtenido de


https://medium.com/@aexarahi/un-vistazo-al-hdfs-de-hadoop-e9d72b37b1ed

[19] Esquema general del funcionamiento de Mapreduce. Obtenido de


https://aprenderbigdata.com/hadoop-mapreduce/

[20] Apache Spark. Obtenido de https://en.wikipedia.org/wiki/Apache_Spark

[21] Componentes de Apache Spark. Obtenido de


https://sitiobigdata.com/2019/12/24/apache-spark-introduccion-para-principiantes/#

[22] Funcionamiento de un bloque RDD. Obtenido de


https://blog.knoldus.com/things-to-know-about-spark-rdd/

[23] Visión general de la arquitectura Apache Spark. Obtenido de


https://www.adictosaltrabajo.com/2015/11/16/introduccion-a-apache-spark-batch-y-streaming/

[24] Jupyter. Obtenido de https://commons.wikimedia.org/wiki/File:Jupyter_logo.svg

[25] Lenguaje R. Obtenido de


https://mappinggis.com/2019/02/r-y-gis-que-es-r-y-su-relacion-con-los-sig/

[26] Python. Obtenido de https://es.wikipedia.org/wiki/Historia_de_Python

[27] Elasticsearch. Obtenido de


https://picodotdev.github.io/blog-bitix/2014/04/introduccion-a-elasticsearch/

[28] Diferencias entre Hadoop y elasticsearch. (Abril de 2022). Obtenido de


https://www-geeksforgeeks-org.translate.goog/difference-between-hadoop-and-elasticsearch
/?_x_tr_sl=en&_x_tr_tl=es&_x_tr_hl=es&_x_tr_pto=sc

Página |
131
[29] Diferencias entre Spark y Elasticsearch (Noviembre de 2022). Obtenido de
https://db-engines.com/en/system/Elasticsearch%3BSpark+SQL

[30] Michael Galarnyk. Install Anaconda on Ubuntu (Python) [en línea]. (Marzo de 2023)
Obtenido de: https://www.youtube.com/watch?v=jo4RMiM-ihs

[31] Michael Galarnyk. Install Spark on Ubuntu (PySpark) + Configure Jupyter Notebook [en
línea]. (Marzo de 2023). Obtenido de:
https://www.youtube.com/watch?v=uhVYTNEe_-A&t=16

[32] Yahoo Finanzas. (Mayo de 2022). Obtenido de https://es.finance.yahoo.com/

[33] Demanda de obleas desde 2006-2026. Obtenido de


https://hardzone.es/noticias/procesadores/obleas-produccion-reservada-2026/

[34] Producción de Obleas por mes desde 2008-2025. Obtenido de


https://hardzone.es/noticias/procesadores/obleas-produccion-reservada-2026/

[35] Producción global de semiconductores. Obtenido de


https://motor.elpais.com/actualidad/la-industria-ante-el-error-estrategico-de-los-microchips/

[36] Guerra comercial entre China y EEUU. (Febrero de 2023). Obtenido de


https://es.wikipedia.org/wiki/Guerra_comercial_entre_China_y_Estados_Unidos

[37] Ganancias de las empresas del sector de los semiconductores. (Marzo de 2023).
Obtenido de https://www.macrotrends.net/

[38] Mapa de fábricas de semiconductores. Obtenido de


https://www.xataka.com/componentes/industria-manos-tsmc-fabricas-asiaticas-mapa-produccion-mun
dial-chips

[39] Lista con las fábricas de semiconductores de todas las empresas del sector de los
semiconductores. (Febrero de 2023). Obtenido de
https://en.wikipedia.org/wiki/List_of_semiconductor_fabrication_plants

[40] Lista con las fábricas y la producción de chips de la empresa TSMC. (Febrero de
2023). Obtenido de
https://hardzone.es/noticias/procesadores/tsmc-fabricas-obleas-semiconductores/

[41] Calcular el número de chips en una oblea. (Marzo de 2023). Obtenido de


https://www.profesionalreview.com/2022/12/04/chips-oblea/#:~:text=C%C3%B3mo%20calcu
lar%20los%20chips%20por%20oblea,-El%20%C3%A1rea%20de&text=Para%20hacerte%2
0una%20idea%2C%20en,dependiendo%20del%20tama%C3%B1o%20del%20chip.

Página |
132
[42] Información sobre ASML. (Abril de 2023). Obtenido de
https://polaridad.es/descubre-el-precio-de-una-maquina-de-asml-guia-actualizada/

[43] Especificaciones de las nuevas máquinas de ASML. (Abril de 2023). Obtenido de


https://elchapuzasinformatico.com/2022/06/precios-cpu-2025-escaneres-asml/

[44] Contrato de TSMC para conseguir electricidad renovable durante 20 años . (Marzo de
2023). Obtenido de https://pr.tsmc.com/english/news/3018

[45] Histórico del precio del barril de petróleo entre 2000-2022 (Febrero de 2023)
Obtenido de
https://es.statista.com/estadisticas/635114/precio-medio-del-crudo-fijado-por-la-opep/

[46] Comparación del porcentaje de sequía entre el año 1995 y el 2025. (Mayo de 2023).
Obtenido de
https://espanol.libretexts.org/Biologia/Ecolog%C3%ADa/Biolog%C3%ADa_Ambiental_(Fish
er)/07%3A_Disponibilidad_y_uso_del_agua/7.02%3A_Problemas_y_soluciones_de_suminis
tro_de_agua

Página |
133

También podría gustarte