Agradecimientos: Página - 1

Agradecimientos
Transmitir mi agradecimiento a todos aquellos que me han ayudado a lo largo

de esta etapa y han colaborado en esta investigación.
En primer lugar, a mi tutor José María Serrano Chica, por su ayuda en la

planificación, información y organización en este Trabajo de Fin de Grado.
Quiero agradecer a mi madre, a mi padre y a mi hermana el apoyo

incondicional que me han dado a lo largo de toda mi vida y formarme lo mejor
posible para afrontar la vida.
También, expresar mi más sentido agradecimiento a la Universidad de Jaén

por acogerme dentro de sus aulas y hacerme sentir como en casa. Quiero
agradecer a todos los profesores que he tenido, tanto en la universidad como fuera
de ella, por haberme formado como profesional.
Desarrollar este proyecto ha tenido un gran valor para mi porque me ha

ayudado a introducirme al mundo de Big Data y de la minería de datos y quiero
agradecer a mi profesor y mis compañeros por haberme propuesto ideas para
introducir y desarrollar el proyecto.
Página | 1
RESUMEN
Estudio y análisis de las principales arquitecturas y herramientas en el
mercado para la creación de un sistema Big Data que sea el que más se ajuste a los
objetivos del proyecto. Los objetivos son el análisis del mercado financiero de la
industria informática para la resolución de los problemas actuales del mercado
informático como es la escasez de semiconductores.
Para el tratamiento de los datos y evitar así datos repetidos o incompletos

dentro de la herramienta Big Data que hayamos seleccionado como la más óptima
para el proyecto usaremos los lenguajes de programación Scala y Python.
ABSTRACT
Study and analysis of the main architectures and tools on the market for the
creation of a Big Data system that best suits the objectives of the project. The
objectives are the analysis of the financial market of the computer industry for the
resolution of the current problems of the computer market such as the shortage of
semiconductors.
To process the data and thus avoid repeated or incomplete data within the Big
Data tool that we have selected as the most optimal for the project, we will use the
programming languages Scala and Python.
Página | 2
BLOQUE I
Introducción
Página | 3
1. Introducción y objetivos
En esta sección hablaremos de todos los motivos que me han llevado a
realizar mi TFG sobre el estado actual del mercado de componentes de aparatos
informáticos tanto para explicar como se ha llegado a la situación actual de escasez
de componentes como analizar cómo va a evolucionar el mercado en los próximos
años con los datos actuales.
1.1. Contexto y motivación
Desde que se inició este milenio gracias a la globalización se ha notado un

crecimiento muy notable en el número de dispositivos informáticos incluyendo aquí
los ordenadores y los móviles. Actualmente el 68% de la población mundial tiene un
teléfono lo que supone que hay alrededor de 5.320 millones de dispositivos móviles,
también en 2021 y 2022 se vendieron 240 y 238 millones de portátiles
respectivamente. A continuación se muestra una gráfica en la que se observa el
número de móviles y ordenadores(tanto ordenadores portátiles como sobremesa)
que se han vendido desde 2008 al 2022.
Página | 4
Ilustración 1:Ventas de ordenadores y móviles entre las fechas 2008-2022.
El incremento del número ventas de dispositivos,como se muestra en la

gráfica anterior ha provocado un aumento de la demanda de los componentes y
materias primas necesarias para la fabricación de dichos dispositivos, ha hecho que
no haya los suficientes como para satisfacer todo el mercado provocando que el
precio de los mismos aumente significativamente.
A la alta demanda de componentes y de materias de primas para satisfacer la

demanda de aparatos informáticos hay que sumar eventos globales como lo son la
pandemia de COVID,las guerras y las políticas realizadas por los países
productores de los componentes necesarios para la fabricación de los aparatos
informáticos, haciendo que la oferta de dichos aparatos sea menor y provocando así
que los precios de los productos aumenten.
A partir de las necesidades anteriores, este proyecto se enmarca dentro del

sector informático, analizando la demanda de dispositivos informáticos tanto en el
pasado como en el presente para realizar una estimación de la demanda a futuro.
Este análisis tiene como objetivo de que las empresas se puedan preparar para la
demanda a futuro y que por lo tanto existan existencias para que no haya más
demanda que oferta y por lo tanto que no haya inflación de los productos en el
mercado.
Para realizar el proyecto nos hemos apoyado en un sistema Big Data

implementado sobre dos arquitecturas diferentes como lo son sobre un cluster y una
arquitectura pseudo-distribuida.
Página | 5
Con los datos obtenidos de distintas fuentes web accedemos al sistema Big
Data que hemos creado para el proyecto para poder así cargar los datos y proceder
al análisis de dichos datos. Después de realizar el análisis obtendremos unos
resultados con lo cuales nos ayudaran a buscar relaciones entre ellos y a ver cómo
le ha afectado ciertos acontecimientos significativos como puede ser la cuarentena
para así poder tomar hipótesis de cómo se pueden comportar los distintos datos si
sucede otra vez el mismo acontecimiento o alguno similar en el futuro.
En la Ilustración 2 se puede observar la visión general del proyecto a

desarrollar .
Ilustración 2:Esquema bloques fundamentales sistema Big Data.
1.2 Origen del término “Big Data”
Antes de seguir con el proyecto se va a dar una pequeña introducción del

concepto “Big Data” explicando su origen y de evolución que ha tenido hasta llegar a
nuestros días. Esta explicación sirve para introducir al lector el concepto de Big
Data,concepto fundamental para realizar el proyecto que se explicara con más
detalle en el Bloque 2 en el apartado 2.1 Big Data.
A continuación se va a describir toda la evolución que ha tenido el término

Big Data desde su origen en los años 50 hasta la actualidad:
En los años 50[1] se crea la memoria virtual, una memoria capaz de procesar
datos sin la limitación del tamaño de la memoria principal de los dispositivos. La
memoria virtual permitía solucionar el problema de la memoria física de los
ordenadores de la época por el cual se hacía imposible almacenar la suficiente
cantidad de datos como para poder realizar un Big Data de forma eficiente.
El Big Data empieza a tener cierta importancia en los años 90 con el

nacimiento del primer navegador web y con la apertura de internet. Esta apertura
Página | 6
supuso que se pudiera compartir todo tipo de datos globalmente de una forma muy
sencilla dando así lugar a la primera generación de datos masivos.
En 1996 los precios del almacenamiento de datos empiezan a ser accesibles

con un coste eficiente en lo que es una de las grandes revoluciones en la historia
del big data llegando en 2003 como primer año en el que el almacenamiento digital
más barato que el papel.
En la década de los años 2000 empiezan a surgir empresas que generan y

almacenan de forma segura grandes cantidades de datos para dar facilidades a
otras empresas a cambio de un pequeño alquiler que supone menos gastos que si
las propias empresas almacenarán sus datos.
Una de las primeras veces que se usa el Big Data para la recolección de
datos por parte de un gobierno y no de una empresa es en 2009 cuando el gobierno
indio decidió tomar un escáner de iris, una huella digital y una fotografía de sus
1.200 millones de habitantes[2].
1.3. Objetivos
El objetivo principal del TFG es el diseño e implementación de un sistema Big

Data eficiente,escalable que permita hacer un análisis del ecosistema informático
orientado a las empresas para ayudar adaptarse a lo que sucederá en el futuro si se
producen hechos como el COVID o sanciones como las hechas por EEUU a China.
Con este objetivo se pretende que las empresas puedan cumplir con la demanda de
productos informáticos sin tener que realizar sobrecostes en su fabricación. Para
cumplir dichos objetivos vamos a seguir los siguientes pasos:
● Análisis y estudio de las diferentes tecnologías necesarias para implementar

el sistema.
● Recolección de datos.
● Implementación en diferentes entornos del sistema Big Data diseñado.
● Análisis de la eficiencia del sistema diseñado.
● Conclusiones con los datos obtenidos del análisis.
● Realizar un presupuesto que nos permita saber cuánto costaría llevar a cabo
el proyecto.
Página | 7
Para cumplir con los objetivos de realizar un análisis de los problemas
actuales de demanda de componentes electrónicos para aparatos informáticos, este
proyecto va a responder a 3 preguntas relacionadas con dichos problemas para
poder así buscar soluciones para que no existan en el futuro. Las preguntas
realizadas son:
● ¿Cuánto afecta las políticas de ciertos países al mercado internacional?

● ¿Cuántas fábricas serían necesarias para satisfacer la demanda?
● ¿Cómo afecta la escasez de materias primas a la producción de
semiconductores y otros componentes informáticos?
1.4 Presupuesto
En este apartado se va a enumerar todos los gastos que hay que realizar
para llevar a cabo el proyecto.
1.4.1 Herramientas usadas
Las herramientas que se va ha usar a lo largo del proyecto se puede

clasificar en dos grandes grupos:
Recursos humanos.
En el desarrollo del proyecto solo ha participado una persona que es el autor

de este trabajo de final de grado y es Pedro Martinez Marín como ingeniero junior.
Recursos Software y hardware.
Para realizar el proyecto se va a necesitar una serie de recursos tanto

hardware como software, es el caso de hardware se van a necesitar 4 ordenadores
para componer el cluster y con respecto a recursos software se mostrarán qué
precio tiene las aplicaciones se han usado durante todo el desarrollo del proyecto.
Los recursos hardware que vamos a usar en el proyecto son:
● 4 Ordenador sobremesa Lenovo.
○ 8GB de RAM.
○ AMD Ryzen 5 3500U.
○ AMD Radeon Graphics.
Página | 8
○ 512GB SSD
● 4 Monitor 19" LCD HD Dell E1914HEF.
● Teclado y ratón.
Los recursos software que vamos a usar en el proyecto son:
● 4 Ubuntu 21.0.
● 1 Apache Hadoop 2.7.2
● 1 Apache Hive 3.1.2
● 1 Apache Spark. 3.2.3
● 1 Python 3.1.0
1.4.2 Presupuesto
El presupuesto se ha creado a partir de las herramientas comentadas en el

apartado anterior.
Recursos humanos
Cuando hay personas que participan en el desarrollo de un proyecto hay que

incluir su salario dentro del presupuesto para saber cuánto costaría crear y
desarrollar el proyecto al 100%. En nuestro caso solo participa una persona que
trabaja como Ingeniero Junior a 15 euros la hora.
En la siguiente tabla se muestra la duración en días y horas que se han

necesitado para la implementación de cada fase de desarrollo del proyecto, en el
apartado 1.5.1 Fases de desarrollo se hace una pequeña descripción de en qué
consiste cada una de estas fases.
Fase de desarrollo Días Horas
Identificación de las necesidades y planteamiento del 5 30

problema
Búsqueda de aplicaciones y herramientas para el 10 50

proyecto
Diseño del sistema 8 40
Página | 9
Estudio y selección de las herramientas para el 8 400
proyecto
Obtención y análisis del sistema. 20 150
Análisis de los resultados de los datos 10 60
Conclusiones 5 50
Desarrollo de la memoria 53
TOTAL 126 500

Tabla 1: Recursos humanos.
En total se ha necesitado unas 500 horas para hacer que la persona

desarrolle el proyecto esto supone unos 5000 euros.
Hardware y Software
En lo que se respecta a las herramientas hardware y software del proyecto he

creado un presupuesto independiente para cada tipo de herramienta para que se
pueda observar de forma más clara y sencilla cuales son las herramientas que están
relacionadas al hardware o al software.
Herramientas Software usadas en el proyecto:
Cant. Descripción Meses de Uso Precio/Mes Importe
1 Statista 3 39 117
1 Apache Hadoop 3.2.4 6 0 0
1 Apache Spark 3.2.3 6 0 0
1 Ubuntu 21.0 6 0 0
1 Python 3.1.0 6 0 0
Total 117
Tabla 2: Herramientas Software.
Página | 10
Herramientas Hardware usadas en el proyecto:
Cant. Descripción Precio/Und. Importe

(IVA 21% incluido)
4 Ordenadores sobremesa 399 1596
4 Monitores 49 196
4 Teclado y ratón 20 80
Total 1872
Tabla 3: Herramientas Hardware.
Uniendo ambos presupuestos se obtiene el siguiente presupuesto general de

lo que va a costar llevar a cabo el proyecto.
Descripción Importe
Desarrolladores 5000
Hardware 1872
Software 117
Total 6989
Tabla 4: Herramientas Hardware.
1.5 Planificación
En este apartado hablaremos de la planificación del proyecto en la que se

incluye el desglose de todas las tareas.
1.5.1. Fases de desarrollo
Nuestro proyecto como cualquier otro proyecto cuenta con distintas fases de
desarrollo que las vamos a explicar a continuación:
1. Identificación de las necesidades y planteamiento del problema
El objetivo de esta sección es explicar las razones por las cuales nos ha
llevado a realizar el TFG y de enumerar todos los recursos que se necesitan para
Página | 11
llevar a cabo el proyecto tanto humanos como software y hardware.Tiempo de
ejecución: 5 días.
2. Búsqueda de aplicaciones y herramientas para el proyecto
El objetivo de esta sección es buscar información sobre herramientas y

aplicaciones que se encuentran en el mercado que satisfagan los requisitos del
proyecto. Tiempo de ejecución: 10 días.
3. Diseño del sistema
En esta sección el objetivo es analizar entre las distintas arquitecturas de

sistemas que existen y analizar cuál es la que mejor se adapta a los requisitos
planteados en el apartado 1.3 Objetivos.Tiempo de ejecución: 11 días.
4. Estudio y selección de las herramientas para el proyecto
El objetivo de esta sección es la de hacer un estudio de las herramientas y

las aplicaciones del mercado relacionadas con los objetivos que queremos
conseguir con el TFG,para poder así elegir las herramientas que mejor se ajusten a
nuestras necesidades.Tiempo de ejecución: 8 días.
5. Obtención y análisis del sistema
En esta sección el objetivo es describir de donde se va a obtener la

información que se va a usar para realizar el Big Data y que pasos hay que realizar
para que dicha información se pueda usar como herramienta para analizar el
mercado informático.Tiempo de ejecución: 20 días.
6. Análisis de los resultados de los datos
En esta sección el objetivo es realizar el análisis de los datos obtenidos del

sistema Big Data respondiendo a las preguntas que nos hicimos al inicio del
proyecto para poder así obtener ideas claras de como solucionar el problema actual
del gran desequilibrio entre la alta demanda y poca ofertas de componentes
informáticos.Tiempo de ejecución: 15 días.
Página | 12
7. Conclusiones
En esta sección daremos a conocer nuestras conclusiones finales sobre el

problema de la falta de semiconductores y de otros componentes informáticos
ayudándonos de la información obtenida en la sección anterior Análisis de los
resultados de los datos.Tiempo de ejecución: 5 días.
8. Redacción de la memoria
Documentación de todo el trabajo realizado en el proyecto. Tiempo de

ejecución: Desarrollo continuo desde la fase de desarrollo inicial hasta.
Fases críticas del proyecto
Durante el desarrollo del proyecto me he encontrado una fase crítica, que en

el caso de que haya problemas en dicha fase se retrasaría la duración total del
proyecto ya que afectaría a otras fases del proyecto. La fase crítica es la siguiente:
Instalación y Configuración de las herramientas usadas en el proyecto:

En caso de producirse retrasos en la configuración del sistema no se podrá seguir
con los plazos de tiempo descritos anteriormente a partir de la “Fase 5” que es la
que se corresponde con la Configuración del sistema.
Página | 13
1.5.2 Diagrama de Gantt
Ilustración 3:Diagrama de Gantt.
Página | 14
1.6. Estructura del documento
En este apartado de la introducción vamos hablar sobre cómo hemos dividido

el documento en capítulos para poder dar así al lector una idea general de la
información y facilitar así el seguimiento.
Capítulo I: Introducción
En este capítulo vamos a hablar de él porque de este proyecto,de los

objetivos que pretendemos conseguir al realizar el proyecto, del presupuesto total
para llevarlo a cabo y del calendario con la duración de cada fase del desarrollo del
proyecto.
Capítulo II: Planteamiento del problema
En este capítulo se explica en qué consiste el concepto principal de este

trabajo de final de grado que es: “big data” y se explica el concepto de “minería de
datos” que se va a usar superficialmente en el proyecto.
Capítulo III: Estudio de las herramientas Big Data
En este capítulo se describen y comparan las distintas arquitecturas que

puede tener un sistema Big Data y las herramientas para la creación y
funcionamiento de un sistema Big Data que hay en el mercado.
Capítulo IV: Obtención y análisis de datos
En este capítulo se explica cómo se obtienen,almacenan y procesan los

datos que se van a usar para el sistema Big data. También en este capítulo se
explican los procedimientos que hemos usado para hacer el análisis de los datos.
Capítulo V: Conclusiones y líneas futuras de trabajo
En este capítulo se van a dar las conclusiones obtenidas del análisis de datos
obtenidos del Big Data del capítulo anterior y se van a comentar algunas líneas
futuras donde el trabajo realizado en este TFG resultará útil.
Página | 15
Capítulo VI: Anexos
En este capítulo se incluyen todos los anexos del proyecto (Se incluye la
instalación de todos los componentes necesarios para el funcionamiento del sistema
diseñado. Incluye también el procedimiento de obtención, transformación y análisis
de datos).
Página | 16
BLOQUE II
Planteamiento del problema.
Página | 17
2. Análisis de datos
2.1. Big Data
2.1.1 Introducción
Big data[3] hace referencia a conjuntos de datos tan grandes y complejos que
precisan de aplicaciones informáticas no convencionales para procesarlos
adecuadamente. Este aumento del volumen de datos,las empresas lo utilizan para
identificar patrones y comportamiento de las personas y así poder adaptar sus
productos a las necesidades de la población.
Cuando se habla de big data una pregunta común es ¿Cúal es el volumen de

datos mínimo para que se pueda considerar que estamos hablando de Big Data?
Siguiendo la idea de la mayoría de expertos un volumen de datos se considera que
es Big Data cuando supera los 30-50 TB de información.
En 2010 Eric Schmidt[2] en la conferencia Techonomy en Lake comentó “que

la información creada hasta el 2003 fue de 5 exabytes” y en 2020 se generaron 64
zettabytes de información unas 12800 veces más de información que la que se
generó hasta el 2003. En la gráfica que se muestra a continuación se puede
observar que se espera que se generen 181 zettabytes en 2025 unas 36200 veces
más de información que toda la información generada hasta el 2003.
Página | 18
Ilustración 4: Previsión de crecimiento mundo Big Data.[4]
2.1.2 Funcionamiento General de un sistema Big Data
Hay 5 pasos a seguir para crear y hacer funcionar un sistema Big Data desde
cero que son[5]:
1. Establecer una estrategia de Big Data
Llamamos estrategia de big data al paso que consiste en la unión de los

objetivos que quiere conseguir la empresa con el sistema Big Data y el estudio de
las tecnologías existentes relacionadas con los sistemas Big Data para saber cuál
de ellas se adapta mejor a los objetivos de la empresa.
2.Conocer las fuentes del Big Data
Es importante saber de donde se pueden obtener los datos para crear

nuestro sistema Big Data, las fuentes más comunes son:
● De datos que provienen del Internet de las Cosas (IoT) y su mayor ventajas
es que puede ser analizados en tiempo real permitiendo saber si son útiles
para el sistema o no.
● De datos procedentes de medios sociales como puede ser YouTube e

Instagram y los datos pueden ser imágenes,videos y texto.
Página | 19
● De datos que son públicos como puede ser data.gov del gobierno de los
Estados Unidos y datos financieros en Yahoo Finance.
3. Acceder,gestionar y almacenar Big Data
Una parte importante del funcionamiento correcto de un sistema Big Data es

la velocidad y la potencia para acceder rápidamente a los datos almacenados en
ellas, sobre todo. Otra parte importante que la empresa tiene que decidir es cómo se
va almacenar los datos.
4. Analizar el Big Data
En este paso se incluyen todos los procedimientos que se usan para el

análisis de los datos big data del sistema big data. Como resultado de este paso se
obtiene la información que quiere la empresa para tomar las decisiones
empresariales.
5. Tomar decisiones inteligentes
En este paso las empresas toman las decisiones a partir de los resultados
obtenidos tras el paso anterior.
2.1.3 Tipos de Big Data
Cuando hablamos de Big Data podemos clasificarlos en dos tipos: según su

origen y según su estructura[6].
En función de su origen los datos tenemos:
Biométricos
En esta sección se incluyen los datos que aportan los seres humanos a partir
de las características físicas,por ejemplo, la retina y las huellas dactilares. Cada uno
de estos identificadores se considera únicos para cada persona y se pueden usar
por ejemplo en el reconocimiento de la población civil en la calle para poder detectar
así a delincuentes y unos de los primeros países que introdujo el Big Data
biométricos con la función antes comentada fue China.
Página | 20
Transacciones
En esta sección se incluyen los datos que se generan en grandes

transacciones, por ejemplo, todos los registros de la facturación de una empresa, de
las compras hechas por tarjeta y online.
Web y redes sociales
En esta sección se incluyen todos los datos que se obtienen de las

interacciones de los usuarios en las redes sociales y de los clics que se realizan en
las páginas web. Entre los datos que se obtienen los más comunes son: las
publicaciones que compartimos,cada comentario y like que le damos a una
publicación,etc.
Datos generados por los seres humanos
En esta sección se incluyen todos los datos que el ser humano genera en su
vida cotidiana, por ejemplo, emails y mensajes.
Datos entre máquinas
En esta sección se incluyen los datos que se obtienen a través de

tecnologías que conectan a unos dispositivos con otros. Por ejemplo, cuando un
usuario accede a nuestra wifi se conecta a nuestros dispositivos mediante el
bluetooth o a través de otras redes inalámbricas.
Ilustración 5: Tipos de Big Data según el origen de los datos.[7]
Página | 21
En función de su estructura, los datos pueden ser:
Estructurados
Los datos estructurados son datos ordenados. Aquí se agrupa los datos cuyo
formato está definido, al igual que su tamaño y su longitud. Ejemplos de datos
estructurados son: Hoja de Excel,SQL.
No estructurados
La característica más importante de los datos no estructurados es que hay

que ordenar, identificar y almacenar los datos antes de poder tratarlos aunque los
datos obtenidos tras realizar los procedimientos antes mencionados dan muchísimo
valor. Ejemplos de datos no estructurados son: el contenido multimedia y PDF.
Datos híbridos
Cuando se habla de datos híbridos nos referimos a datos que no son

regulares y que no se pueden gestionar de forma estandarizada. Un ejemplo de
datos híbridos son los datos que están en formato XML,HTML,JSON.
Ilustración 6: Tipos de Big Data según su estructura.[5]
Página | 22
2.1.4 Aplicaciones de Big Data
En esta sección hablaremos de algunas de las muchas aplicaciones que

tiene Big Data en la actualidad[6].
Educación
Mediante el análisis de información de los alumnos, un profesor podría

descubrir si su alumno progresa adecuadamente o no, por qué no lo hace y, lo más
importante, poner una solución en tiempo real.
Marketing y las relaciones con clientes
Es uno de los que ha experimentado una mayor aplicación práctica del Big
Data en los últimos años.Las aplicaciones del Big Data permiten:
● Hacer recomendaciones de compra personalizadas con un menor margen de

error.
● Mejorar el impacto de acciones publicitarias.
Salud
Las aplicaciones de Big Data en el campo de la salud permitirán:
● Mejorar la prevención de patologías.
● Detectar patologías de forma temprana.
● Facilitar el diseño y la aplicación de tratamientos personalizados, lo que

conducirá a una medicina más precisa.
Ciberseguridad
El Big Data es esencial en la ciberseguridad, por ejemplo para protegernos

de posibles ciberataques o comprender en qué barrios los ciudadanos están más
expuestos a ciertos delitos.
Página | 23
Ilustración 7: Aplicaciones de Big Data[8]
2.1.5. Características de los sistemas Big Data
Todos los sistemas Big Data tienen las siguientes características:
-Volumen: Se refiere al tamaño de las cantidades de datos que se generan y

provienen de dispositivos móviles e informáticos por ejemplo portátiles.Estos datos
se generan de manera automática por lo que el volumen siempre va creciendo.
-Velocidad: Los datos se generan y almacenan a una velocidad muy rápida

que provoca que los datos queden desfasados rápidamente y por lo tanto deben
reaccionar muy rápido para poder recopilarlos, almacenarlos y procesarlos.
-Variedad: El origen de los datos es altamente heterogéneo. Provienen de

múltiples sitios: cámaras, sistemas GPS, redes sociales, etc.
-Veracidad: El gran volumen de datos que se genera puede provocar que

dudemos sobre si los datos son verdaderos o falsos ya que pueden llegar
incompletos. Para los datos incompletos hay que limpiarlos y analizarlos aunque sea
una tarea infinita ya que la generación de datos incompletos es continua.
-Valor: Esta es la característica más importante de un sistema Big Data

porque es la razón por la que se crea dicho sistema y consiste en obtener el valor
que generan los datos.
Página | 24
Ilustración 8: Esquema de las 5V. [9]
2.1.6 Ventajas y Desventajas de Big Data
Ventajas.
Las principales ventajas del Big Data son las siguientes:
1. Velocidad en la toma de decisiones
Podremos asumir decisiones inteligentes y veloces que ayuden a favorecer a

nuestro negocio.
2. Feedback a tiempo real
La tecnología Big Data permite no solo almacenar y procesar datos, si no que

también permite recibir datos a tiempo real y así poder ajustarse mejor a las
demandas que quiere el usuario en cada momento.
3. Mejora en la eficiencia y en costes
El manejo del Big Data puede impulsar la velocidad a la que evoluciona un

producto o servicio gracias a la información que nos da el mercado,esto provoca
que el gasto de desarrollo se reduzca debido a que se ha reducido el tiempo de
desarrollo.
Página | 25
Desventajas.
Las principales desventajas del Big Data son las siguientes:
1. El exceso de datos.
Aunque la principal utilidad del Big Data es la capacidad de extraer

información de los datos, si esto se realiza de forma indiscriminadamente los datos
se convierten en ruido que ralentiza y obstaculiza las tareas del sistema Big Data.
2. Ciberseguridad.
La seguridad es el mayor reto para la tecnología Big Data. La vulnerabilidad

de esta enorme cantidad de datos almacenados es el objetivo de los nuevos
ciberataques.
2.2. Minería de datos
2.2.1 Introducción
El término de “minería de datos” consiste en intentar descubrir patrones en

grandes volúmenes de conjuntos de datos.
La minería de datos tiene 3 pilares fundamentales que son:
● Estadística: es la que se encarga del estudio numérico de las

relaciones de datos.
● Inteligencia artificial:sirve para encontrar patrones en la base de datos.
● Machine learning: sirve para aprender a partir de los datos de la base

de datos y poder hacer predicciones.
La metodología que hay que seguir en un proceso de minería de datos es el

siguiente:
Página | 26
Ilustración 9: Metodología presente en un proceso de minería de datos. [10]
Diferencia entre Big Data y Minería de Datos.
Las principales diferencias entre Big Data y minería de datos son las
siguientes:
● La minería de datos se centra en trabajar con un solo tipo de datos, por

ejemplo los estructurados, mientras que el big data puede trabajar con varios
tipos de datos a la vez.
● La minería de datos es una herramienta fundamental para el análisis de

grandes volúmenes de datos, ya que obtiene patrones de los mismos lo que
facilita su entendimiento. Los datos que se manejan en la minería pueden ser
tanto grandes como pequeños, sin embargo, el Big Data se relaciona más
con el procesamiento de grandes volúmenes de datos.
2.2.2 Ventajas y desventajas del minado de datos
Algunas de las ventajas de la minería de datos son:
● Es capaz de analizar bases de datos que tienen una gran cantidad de datos.
● Los resultados son muy fáciles de interpretar y no es necesario tener

conocimientos en ingeniería informática.
● Da a las empresas la posibilidad de ofrecer a los clientes los productos o

servicios que necesitan.
Página | 27
Una de las desventajas de la minería de datos es que dependiendo del tipo
de datos que se quiera recopilar, nos puede llevar mucho trabajo realizar el análisis
para obtener patrones que nos facilite el entendimiento de dichos datos .
2.2.3 Técnicas para el minado de datos.
Las técnicas de minería de datos más utilizadas en el mundo del Big Data
son [11]:
1. Árboles de decisión
Un árbol de decisión es una forma gráfica y analítica de representar todos los

eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto
momento. El objetivo del árbol de decisiones es poder comparar diferentes
alternativas ante una acción. Permite desplegar visualmente un problema y
organizar el trabajo de cálculos que deben realizarse. El árbol de decisión está
compuesto por nodos que pueden ser de distintos tipos:
● Cuadrado: Se utiliza para representar un nodo de decisión. Es la decisión

que se va a evaluar.
● Líneas: Cada una se desprende del nodo de decisión.Nos muestra los

distintos caminos que se pueden emprender cuando tomamos una decisión o bien
ocurre algún evento.
● Círculo: Representa a los nodos de oportunidad. Son las probabilidades

del
nodo de decisión.
● Triángulo: Cada uno es el resultado final de una decisión.
Página | 28
Ilustración 10 :Árbol de decisión.
Pasos para el Análisis del Árbol de Decisión
Los pasos a seguir para realizar un análisis en un árbol de decisión son los
siguientes:
● Definir el problema.
● Dibujar el árbol de decisión.
● Asignar probabilidades a los eventos aleatorios.
● Estimar los resultados para cada combinación posible de alternativas.
● Resolver el problema obteniendo como solución la ruta que proporcione la

política óptima.
Usos y aplicaciones de los árboles de decisiones
En la minería de datos, un árbol de decisión sirve para abordar problemas

tales como la clasificación, la predicción y la segmentación de datos con la finalidad
de obtener información que pueda ser analizada para tomar decisiones futuras.
Si quiere saber más información sobre los árboles de decisión como por es
un ejemplo práctica del uso de árboles de decisión en la minería de datos consulte
los siguientes enlaces:
● https://www.cs.us.es/~jalonso/cursos/ra-00/temas/tema-12.pdf.
● https://www.conectasoftware.com/magazine/analytics/arboles-de-decisiones-e
n-la-mineria-de-datos/ .
Página | 29
2. Redes neuronales
Las redes neuronales se engloban dentro de las técnicas predictivas de minería de

datos en el que es preciso entrenarlas con distintos datasets con los que ir
matizando los pesos de las neuronas para asegurar la fiabilidad de sus respuestas.
Hay tres partes normalmente en una red neuronal : una capa de entrada(input
layer), con unidades que representan los campos de entrada; una o varias capas
ocultas(hidden layer), y una capa de salida(output layer). Las unidades se
conectan con fuerzas de conexión variables (ponderaciones).
Todas las ponderaciones son aleatorias y las respuestas que resultan de la suelen
ser dispares por ello la red neuronal debe llevar a cabo un proceso de aprendizaje
para ajustar los valores de las ponderaciones este proceso se llama entrenamiento.
Ilustración 11 : Redes neuronales.
Si quiere saber más información sobre las redes neuronales relacionadas a la

minería de datos, consulte los siguientes enlaces:
● https://acortar.link/60nxJv
● https://oa.upm.es/21834/1/ANGEL_LUIS_CASTELLANOS.pdf
● http://www.cs.us.es/~fsancho/?e=165
3. Regresión lineal
La regresión lineal intenta trazar un gráfico lineal entre dos variables de

datos, x e y. Las variables independientes también se denominan variables
Página | 30
explicativas o variables predictivas. La variable dependiente, y, se traza en el eje
vertical.
¿Qué es la regresión lineal en el machine learning?
Se analizan grandes conjuntos de datos y trabajar hacia atrás a partir de esos

datos para calcular la ecuación de regresión lineal. El siguiente paso que hay que
realizar es entrenar el algoritmo en conjuntos de datos conocidos o etiquetados y, a
continuación, utilizan el algoritmo para predecir valores desconocidos.
La relación se obtendrá con una ecuación que representará el diagrama de

dispersión como el mostrado a continuación.
Ilustración 12: Regresión lineal. Ilustración 13: Fórmulas de regresión lineal
Si quiere saber más información sobre la regresión lineal relacionadas a la

minería de datos consulte los siguientes enlaces:
● https://aws.amazon.com/es/what-is/linear-regression/ .
● https://carlosaguero.gitbooks.io/resumen-mineria-de-datos-1/content/regresion.html .
4. Clustering
El clustering consiste en agrupar ítems en grupos con características

similares que se conocen como clústeres, generalmente con el objetivo de ayudar
en el descubrimiento de conocimiento a través de identificar patrones y también se
usa para la detección de anomalías.
Página | 31
Ilustración 14: Clustering.
Los resultados del análisis de datos se muestran mediante gráficos para

ayudar a los usuarios a visualizar la distribución de datos.
Actualmente existen diferentes algoritmos de clustering, pero uno de los

más extendidos es k-medias.
En este método se determina un número de grupos y el algoritmo se encarga

de buscar los mejores centroides para realizar el agrupamiento, de manera que los
elementos de cada grupo estén lo más cerca posible de sus centroides. Como el
algoritmo funciona iterativamente, va actualizando el centro de los clústeres para ir
reduciendo las distancias entre los elementos de cada clúster y el centro.
Si quiere saber más información sobre el algoritmo “k-medias" consulte los

siguientes enlaces:
● https://www.unioviedo.es/compnum/laboratorios_py/kmeans/kmeans.html.
● https://www.universidadviu.com/es/actualidad/nuestros-expertos/claustering-q
ue-es-y-que-aplicaciones-tiene
2.3 Conclusiones
En este capítulo hemos introducido y explicado los conceptos principales en

los que se basa este proyecto que son la Minería de Datos y el Big Data. Gracias a
este capítulo hemos podido ver las ventajas y desventajas de cada uno de los 2
conceptos,algunas de sus aplicaciones actuales y saber cómo funcionan, todo esto
Página | 32
con el objetivo de mostrar porque se han seleccionado estos conceptos como
puntos clave para el desarrollo del TFG.
Página | 33
BLOQUE III
Estudio de herramientas Big Data
Página | 34
3. Arquitecturas Big Data
En esta sección se va a describir distintas arquitecturas que hay en el

mercado que puede tener nuestro sistema Big Data y decidiremos según nuestros
requisitos que arquitecturas se adaptan mejor al sistema.
3.1 Computación pseudo-distribuida
Es un subtipo de arquitectura distribuida en el que tanto el nodo maestro y el

nodo esclavo se encuentran en la misma máquina.
Ventajas
● La instalación se realiza en una sola máquina, por lo que es más sencillo y

rápido de instalar que otras arquitecturas distribuidas o una arquitectura
cluster.
● El mantenimiento es menos costoso al tratarse de una sola máquina.
Página | 35
Desventaja
● La capacidad de computación de una sola máquina es mucho menor que la

de un cluster.
3.2 Computación distribuida
En computación distribuida cada problema es dividido en muchas tareas,

cada una de las cuales son resueltas por uno o más ordenadores que se comunican
mediante un intercambio de mensajes aunque para el usuario este intercambio de
mensajes se realiza de forma invisible y para él solo existe un único ordenador.
Ilustración 15: Esquema general del funcionamiento de Computación distribuida[12].
Las ventajas y desventajas de la computación distribuida son:
Ventajas.
● Velocidad: la necesidad de acelerar los cálculos más complejos se satisface

dividiendo problemas grandes en pequeños fragmentos.
● Seguridad frente a fallos: un sistema en torno a una única máquina puede

colapsar en caso de que el procesador falle. Sin embargo, en la computación
distribuida, los procesadores verifican mutuamente los puntos de control.
Página | 36
Desventaja.
● Sincronización: es una parte crítica de los sistemas distribuidos y cuanto

más nodos tenga el sistema más complejo es sincronizar los mensajes ya
que en la entrega de las tareas al usuario se tiene que ordenar todas las
subtareas que se hicieron para que se ejecutase en cada nodo del sistema.
3.3 Cluster
Llamamos cluster a un sistema de procesamiento distribuido que está

formado por un conjunto de computadoras independientes, interconectadas entre sí,
de tal manera que funcionan como un solo recurso computacional. A cada uno de
los elementos del cluster se le conoce como nodo.
Ilustración 16: Esquema general del funcionamiento de un Cluster. [13]
Ventaja
● La capacidad de computación es mayor que la de una sola máquina.
Desventajas
● La posibilidad de que el software del cluster falle o produzca un fallo en otro

subsistema que no habría tenido ese fallo si la operación fuese
independiente.
Página | 37
● Aumento de la complejidad de gestión y mayor probabilidad de error de un
operador al realizar tareas de gestión.
● El mantenimiento es más costoso al tratarse de más máquinas.
3.4 Computación elástica
La computación elástica es una tecnología del Cloud Computing en la que el

sistema tiene la capacidad de expandir o reducir rápidamente los recursos de
almacenamiento, memoria y procesamiento de la computadora para adaptarse a la
demanda de datos sin que el usuario tenga que cambiar algún parámetro del
sistema Big Data.
Ilustración 17: Aplicaciones de Computación Elástica. [14]
Ventajas
● Una empresa evita pagar por capacidad no utilizada o recursos inactivos y no

tiene que preocuparse del mantenimiento de recursos y equipos adicionales.
● La computación elástica es más eficiente que su infraestructura de TI típica

ya que está automatizada y no se depende de administradores humanos las
24 horas del día.
Página | 38
● Inexistencia prácticamente de una inversión en hardware.
Desventajas
● Aunque las máquinas pueden activar a pedido cuando se aumente la

demanda de recursos este aumento puede tardar varios minutos en estar
disponible para su uso y en ocasiones la organización no dispone de ese
tiempo.
● Control de datos a terceros y depender de un proveedor externo.
3.5 Conclusiones
Tras ver las ventajas y desventajas de cada una de las posibles estructuras
que puede tener el sistema Big Data me he decidido por tener 2 arquitecturas
distintas para adaptarse a diferentes necesidades que son: una arquitectura
pseudo-distribuida y un cluster. No hemos elegido implementar una arquitectura de
computación elástica porque no quiero que ninguna empresa que no sea la empresa
donde se implemente el sistema Big Data tenga acceso a los datos aunque la
computación elástica sea más eficiente y barata que las opciones elegidas.
Ilustración 18: Esquema de los tipos de sistema Big Data planteados.
Página | 39
4. Aplicaciones utilizadas en el proyecto.
En este apartado hablaremos de las aplicaciones que hay en el mercado

relacionadas con el Big Data y haremos una comparación entre ellas.
Como se muestra en la siguiente imagen las herramientas más usadas en

Big Data son:
Ilustración 19: Herramientas Big Data. [15]
Página | 40
4.1 Apache Hadoop.
4.1.1 Introducción.
Apache Hadoop es un entorno para programar

aplicaciones distribuidas bajo licencia libre que
manejen grandes volúmenes de datos.Permite a
las aplicaciones trabajar con miles de nodos.
Está diseñado para escalar desde servidores
individuales a miles de máquinas.
Ilustración 20: Apache Hadoop. [16]
Apache Hadoop tiene cuatro módulos principales:
Ilustración 21: Módulos de Apache Hadoop. [17]
● Hadoop Common: Es el encargado de administrar el acceso a la serie de

bibliotecas y servicios que posee Hadoop.
● Sistema de archivos distribuidos de Hadoop(HDFS): Un sistema de

archivos distribuidos que proporciona acceso de alto rendimiento a los datos
de la aplicación.
● YARN: Un marco para la programación de trabajos y la gestión de recursos

de clúster.
● MapReduce: Un sistema basado en YARN para el procesamiento paralelo de

grandes conjuntos de datos.
Página | 41
Ventajas
● Hadoop puede mover datos dinámicamente entre nodos y asegurar el

equilibrio dinámico de cada nodo La velocidad de procesamiento es muy
rápida y altamente eficiente.
● Hadoop puede guardar automáticamente múltiples copias de datos y puede

distribuir automáticamente las tareas fallidas, con alta tolerancia a fallas.
● Hadoop distribuye datos a través de los clústeres de computadoras

disponibles, estos clústeres se pueden expandir fácilmente a miles de nodos.
Desventajas
● Hadoop no es adecuado para el acceso a datos de baja latencia.
● Hadoop no puede almacenar una gran cantidad de archivos pequeños de

manera eficiente.
4.1.2. Hadoop Distributed File System(HDFS)
HDFS es un sistema de ficheros perteneciente a Hadoop cuyas

características principales son:
● Tiene una tolerancia a errores muy alta.
● Está diseñado para funcionar en hardware de bajo coste.
● Está optimizado para la lectura de cantidades de datos muy grandes con el

objetivo de reducir al máximo la latencia.
Página | 42
Ilustración 22: Visión general arquitectura HDFS. [18]
HDFS tiene un modelo Write once read many ,es decir, escribe una vez lee
muchas veces.
Escritura: el cliente envía la instrucción de escritura al NameNode, este

verifica los permisos del cliente y si la operación está autorizada le envía los
DataNodes en los que el cliente tiene que escribir. El primer DataNode copiará el
bloque a otro DataNode, que entonces lo copiará a un tercero. Una vez que se han
completado estas réplicas se enviará al cliente la confirmación de escritura.
Ilustración 23: Proceso de escritura en HDFS.
Lectura: El cliente pide al NameNode la localización de un fichero. Una vez

que se han comprobado los permisos del cliente, el NameNode envía la localización
de los DataNodes que contienen los bloques que componen el fichero al cliente.
Página | 43
Ilustración 24: Proceso de lectura en HDFS.
MapReduce.
MapReduce es un modelo de programación fuertemente orientado a la

ejecución paralela y distribuida entre múltiples computadoras, que se utiliza para
trabajar con grandes colecciones de datos.
HDFS proporciona la división previa de los datos en bloques que necesita

MapReduce para ejecutar.
Ilustración 25: Esquema general del funcionamiento de Mapreduce. [19]
La fase Map se ejecuta en subtareas llamadas mappers. Estos componentes

son los responsables de generar pares clave-valor filtrando, agrupando, ordenando
o transformando los datos originales.
Página | 44
La fase Shuffle es el paso intermedio entre Map y Reduce que ayuda a
recoger los datos y ordenarlos de manera conveniente para el procesamiento.
La fase Reduce gestiona la agregación de los valores producidos por todos

los mappers del sistema de tipo clave-valor en función de su clave.
4.2. Apache Spark
4.2.1 Introducción
Apache Spark es un framework de computación en clúster de

código abierto para ser rápido y de propósito general.
Proporciona APIs en Java, Scala, Python y R.
Ilustración 26: Apache Spark. [20]
La principal diferencia con Apache Hadoop es que Apache Spark no

almacena datos sino que tiene el foco puesto en el procesamiento. Este problema
se puede solucionar añadiendo el sistema de archivos distribuidos(HDFS) de
Hadoop al sistema Spark.
Apache Spark consta de 5 componentes claves para el funcionamiento de

Spark:
Ilustración 27:Componentes de Apache Spark.[21]
Página | 45
● Spark Core: Es un motor distribuido de uso general para procesar datos.
● Spark SQL: Es una librería de Spark que permite utilizar datos estructurados.
Ofrece un método común para acceder a fuentes de datos diversas.
● Spark Streaming: Es una librería que facilita la creación de soluciones de

streaming escalables y tolerantes a fallos.
● MLlib: Es la biblioteca escalable de aprendizaje automático de Spark.
● GraphX: Es la API de Spark para grafos y computación en paralelo de

grafos.
Ventajas de Apache Spark
Las principales ventajas de Apache Spark son:
● Ejecuta las cargas de trabajo 100 veces más rápido que con Hadoop
MapReduce.
● Spark permite usar las librerías antes explicadas para poder realizar sobre
Spark muchas tareas.
● Puede compenetrarse con otra arquitectura Big Data: Puede utilizar ficheros
de HDFS o procesos de YARN entre otras.
● Tiene una consola interactiva para poder trabajar con mayor facilidad.
Desventajas de Apache Spark
Las principales desventajas de Apache Spark son:
● Spark necesita ejecutarse en HDFS para acceder a permisos de nivel de

archivo y, además, para obtener beneficios de seguridad ha de recurrir a
Hadoop YARN.
● Necesita más memoria de almacenamiento.
4.2.2 Arquitectura de Apache Spark
Apache Spark sigue una arquitectura maestro/esclavo con un administrador

de clúster (Cluster Manager). Un cluster spark tiene un solo maestro y cualquier
número de esclavos o workers.
Página | 46
Los componentes que forman Apache Spark son[22]:
● Program Driver: Es un proceso responsable de la ejecución de las tareas y

reside en el nodo maestro.
● Nodo Trabajador: Los nodos trabajadores se encargan mediante el ejecutor

de realizar las tareas que le ha suministrado el Gestor del Cluster. Estos
nodos trabajadores se pueden alojar en el mismo nodo (servidor) o en
diferentes nodos.
● Ejecutores: Es el proceso en el que realizan la carga de trabajo, obtienen

sus tareas desde el Gestor del Cluster.
● Gestor de Clúster: Es responsable de asignar recursos a través de la

aplicación de Spark.
● Bloque RDD: Es la representación de Spark de un array de datos y son los

elementos básicos de cualquier aplicación Spark. RDD significa:
○ Resiliente: es tolerante a fallos y es capaz de reconstruir datos en

caso de fallo.
○ Distribuido: los datos se distribuyen entre los múltiples nodos de un

clúster.
○ Datasest(Conjuntos de Datos):colección de datos particionados con

valores.
Ilustración 28: Funcionamiento de un bloque RDD. [22]
Página | 47
Las transformaciones en RDD crean nuevos bloques RDD y la única forma
de obtener resultados de los RDD es aplicando acciones como se muestra en la
imagen de arriba.
Ilustración 29: Visión general de la arquitectura Apache Spark. [23]
4.2.3 Notebook para Spark
El concepto de “notebook” fue introducido por iPython, que marca la

diferencia ya que en vez de trabajar sobre la Shell directamente, se accede a una
interfaz web donde se crea el entorno de trabajo.
El notebook que vamos a usar en el proyecto con Python es el más popular

en Apache Spark y es Jupyter.
Jupyter
Creado a partir de IPython en 2014, Jupyter Notebook es un

REPL(consola de lenguaje) basado en navegador que contiene una
lista ordenada de celdas de entrada/salida que pueden contener
código, texto, ecuaciones matemáticas entre otras muchas cosas.
Ilustración 30:Jupyter. [24]
Jupyter Notebook es similar a la interfaz de notebook de otros programas

como Mathematica.
Página | 48
En este proyecto se va a usar Jupyter con el lenguaje de programación
Python para usar la librería PySpark para trabajar en Spark.
Ilustración 31: Ejemplo del REPL de Jupyter.
Jupyter nos proporciona las siguientes características:
● Desde el navegador, creación e inclusión de código.
● Posibilita compartir mediante GitHub y Dropbox.
● Interfaz intuitiva.
4.3 Lenguaje R
R es un entorno y lenguaje de programación de software libre

con un enfoque al análisis estadístico.Se trata de uno de los
lenguajes de programación más utilizados en investigación
científica, siendo además muy popular en los campos de
aprendizaje automático, minería de datos.
Ilustración 32: Lenguaje R. [25]
Los principales motivos por los que R es ideal para el Big Data son:
● Comunidad: Tiene una gran cantidad de usuarios que apoyan este lenguaje
y que crean recursos relacionados con R.
● Simplicidad: Permite ver datos gráficamente para facilitar su entendimiento y

tiene un código simple que reduce el tiempo que lleva analizar los datos .
Se utiliza en todas las fases de análisis de datos:
Página | 49
● Adquisición de los datos: bases de datos, archivos de texto, etc.
● Preparación de los datos: eliminación de duplicados, datos incorrectos,

valores extremos, etc.
● Análisis de los datos: construcción de modelos predictivos, de clasificación,

de agrupamiento.
● Comunicación de los resultados: realización de informes para presentación

de los resultados y conclusiones.
4.4 Python
Python es un lenguaje de programación de software libre
ampliamente utilizado en las aplicaciones web,la ciencia de datos y
el machine learning. Los desarrolladores utilizan Python porque es
eficiente y fácil de aprender, además de que se puede ejecutar en
muchas plataformas diferentes.
Ilustración 33: Python. [26]
La razones para elegir Python para los proyectos relacionados con Big Data
son:
● Compatibilidad con diversos entornos: Python es compatible con

numerosas plataformas y se puede ejecutar en distintos sistemas operativos
como Windows o Linux.
● Buen soporte de biblioteca: Contiene un gran número de bibliotecas que le

permiten ser una herramienta de gran ayuda en diferentes campos, por
ejemplo en machine learning o Big Data.
● Aprendizaje rápido: Es mucho más sencillo que otros lenguajes de

programación que se usan en Big Data. Además cuenta con un código
sencillo, una gran variedad de recursos de programación y una gran
comunidad que crea recursos relacionados con el lenguaje.
La desventaja principal de usar Python es:
● El consumo de memoria de Python es muy alto, y esto se debe a la

flexibilidad de los tipos de datos.
Página | 50
Uso
● Una de las aplicaciones es el data science que consiste en una disciplina

científica centrada en el análisis de grandes fuentes de datos para extraer
información y descubrir patrones con los que tomar decisiones.
4.5 Elasticsearch
Elasticsearch permite el procesamiento de grandes cantidades de

datos y ver la evolución de éstos en tiempo real. Además,
proporciona gráficos que ayudan a comprender con más facilidad
la información obtenida. Los datos sin procesar fluyen hacia
Elasticsearch desde una variedad de fuentes, incluidos logs y
aplicaciones web.
Ilustración 34: Elasticsearch. [27]
Ventajas
● Al estar desarrollado en Java, es compatible en todas las plataformas donde

Java lo sea.
● Tiene una gran velocidad de respuesta.
Desventajas
● Sólo soporta como tipos de respuesta JSON, lo que lo limita al no soportar

otros lenguajes, como CSV o XML.
● El proceso de aprendizaje para dominar Elasticsearch puede tomar su

tiempo.
Usos.
● Búsqueda de sitio web.
● Logging y analíticas de log.
● Monitoreo de rendimiento de aplicaciones.
Página | 51
● Analítica de Seguridad.
4.6 Comparación de aplicaciones
En esta sección se hará una comparación entre las distintas herramientas y

lenguajes de programación explicados en los apartados anteriores.El objetivo es
descubrir qué herramientas se adaptan mejor a nuestro proyecto compradoras entre
ellas mediante tablas.
4.6.1 Elasticsearch vs Apache Hadoop
En la siguiente tabla se muestra las principales diferencias entre las

herramientas Elasticsearch y Apache Hadoop[28]:
Elasticsearch Apache Hadoop

Utilizado principalmente como motor Se utiliza para analizar un gran
de búsqueda. volumen de datos.
Proporciona DSL de consulta completa Utiliza el modelo de programación

basado en JSON. MapReduce para el procesamiento
de grandes grupos de datos.
Motor de búsqueda de texto completo, Se utiliza como herramienta para

pero también se puede utilizar como almacenar datos y ejecutar
marco de análisis. aplicaciones en clústeres.
Compatible con todos los sistemas Compatible con Linux, Unix y

operativos con Java VM. Windows.
Lenguaje de consulta similar a SQL. Utiliza Hive para el procesamiento

de consultas.
Tabla 5: Diferencias entre Elasticsearch vs Apache Hadoop.
4.6.2 Apache Hadoop vs Apache Spark.

herramientas Apache Hadoop y Apache Spark:
Página | 52
Apache Hadoop Apache Spark
Trabaja con MapReduce que almacena Trabaja en memoria RAM.
los resultados en disco.
Es compatible principalmente con Java y Es compatible con Java,Python,

cuenta con compatibilidad con otros Scala y R.
lenguajes.
Requiere un cluster que cuente con más Necesita un cluster que cuente
discos y que sean más rápidos para el con mucha memoria RAM.
procesamiento.
Sigue una metodología concreta lo que Resulta más sencillo de

hace que haya que modelar los programar en la actualidad
problemas acorde a esta manera de gracias al enorme esfuerzo de la
trabajar. comunidad por mejorar este
framework.
Tabla 6: Diferencias entre Apache Hadoop vs Apache Spark.
4.6.3 R vs Python.
En la siguiente tabla se muestra las principales diferencias entre el lenguaje

de programación R y Python:
R Python
Es un lenguaje orientado al análisis Es un lenguaje de alto nivel multipro-
estadístico. pósito utilizado en muchos campos.
Es más potente en visualización de Es un lenguaje más rápido para ma-

información y datos nejo de grandes cantidades de datos
Es un ecosistema robusto de paquetes Realizar tareas no estadísticas como
estadísticos guardar datos en bases de datos
Tabla 7: Diferencias entre R vs Python.
4.6.4 Elasticsearch vs Apache Spark.

herramientas Elasticsearch y Apache Spark[29]:
Página | 53
Elasticsearch Apache Spark
Utilizado principalmente como motor Se utiliza para analizar un gran volumen
de búsqueda. de datos.
Motor de búsqueda de texto completo, Se utiliza como herramienta para

pero también se puede utilizar como almacenar datos y ejecutar
marco de análisis. aplicaciones en clústeres
Está implementado sobre Java Está implementado sobre Scala
Soporta lenguaje de programación Soporta los siguientes lenguajes de

como .Net,Groovy,Ruby,PHP,Java, programación: Scala,Python,R y Java.
JavaScript,Perl,Python.
Se accede a través de la Java API y Se accede a través de JDBC y OCBC.

RESTful HTTP/JSON API.
Tabla 8: Diferencias entre Elasticsearch vs Apache Spark.
4.7 Conclusiones.
Hemos elegido usar Apache Spark para nuestro proyecto porque es la mejor
herramienta para realizar un análisis Big Data en una infraestructura de clusters
aunque lo vamos a combinar con Apache Hadoop para usar el Hadoop Distributed
File System(HDFS) ya que sistema de distribución de fichero hadoop es más
eficiente que el sistema de distribución de ficheros que tiene Apache Spark por
defecto que es ninguno.
Por otro lado usaremos Scala y Python para programar sobre Apache Spark
ya que son dos lenguajes de programación muy comunes para el análisis de datos a
gran escala, son compatibles con Apache Spark y la información que hay en internet
sobre ambos lenguajes de programación en el ámbito del análisis de datos es mayor
que el que tiene R.
Página | 54
BLOQUE IV
Obtención y Análisis de datos
´´
Página | 55
5. Recogida de datos
5.1 Introducción
Para este capítulo tendremos que tener instalado todas las herramientas
necesarias para el desarrollo del proyecto, los pasos a seguir para instalar y
configurar todas las herramientas que vamos a usar en el proyecto se encuentran
descriptas en el Anexo 7. INSTALACIÓN Y CONFIGURACIÓN. En el anexo a parte
de instalar y configurar herramientas también viene los pasos que hay que seguir
para crear un cluster que contenga todas las herramientas que vamos a usar en el
proyecto.
Una vez realizada toda la instalación de la arquitectura, ahora nos

centraremos en la obtención de los datos procedentes de los mercados financieros
como por ejemplo puede ser la bolsa de Taiwan y la bolsa de Nueva York y de bases
de datos de páginas web gratuitas.
5.1.1. Obtención de los datos
El objetivo principal a la hora de buscar los datos es encontrar fuentes fiables

y actualizadas para que si en un futuro se quiere utilizar se pueda añadir los nuevos
datos sin tener que buscar nuevas fuentes de datos para completar los espacios
Página | 56
vacíos que hay desde la fechas que hemos elegido en el proyecto para hacer el
análisis hasta la fecha que buscamos para hacer el nuevo análisis.
Para obtener los datos necesarios del proyecto se ha hecho una búsqueda
por internet de distintas páginas web con datos financieros de la mayoría de
empresas tecnológicas del sector informático y he decidido quedarme con los datos
obtenidos de la página web Yahoo Finance.
Yahoo Finance[32] es una página web que tiene los datos de los valores de
las acciones de la gran mayoría de empresas en cada una de las bolsas donde está
dicha empresa. Los datos de las empresas que hay en página web están muy
completos y es poco común que te encuentres algún campo vacío de una empresa
en un día en concreto. Además de lo dicho anteriormente Yahoo Finance tiene otra
ventaja y es que puedes descargar la información en un formato compatible con
Apache Spark como es el formato ‘.csv’.
El procedimiento para obtener los datos es entrar en la página de Yahoo

Finance buscar la empresa de la que quieres obtener los datos financieros, elegir la
pestaña de “datos históricos” y pulsar sobre el link que pone” descarga”. Yahoo
Finance te da la posibilidad de descargar datos financieros de una empresa en
concreto entre 2 fechas que tu elijas.
Fuentes de información.
La tabla que se muestra a continuación muestra la información de cada

fichero .csv que se va a usar durante todo el proyecto entre la información que
incluye es el tamaño del fichero,el número de filas,el periodo de tiempo que
comprenden esos datos, y el nombre del fichero.
En esta tabla se muestra los .csv con datos agrupados en días de las
empresas que vamos a usar durante el proyecto:
Nombre de fichero Tamaño del Año NºFilas

fichero(KB)
Intel_Nasdasq 258 2008-2022 3778
Samsung_Korea 306 2008-2022 3716
Mediatek_Taiwan 269 2008-2022 3696
AMD_Nasdasq 249 2008-2022 3778
Página | 57
TSMC_NYSE 264 2008-2022 3696
Infineon_Alemania 249 2008-2022 3811
Qualcomm_Nasda 260 2008-2022 3778

q
Apple_Nasdaq 259 2008-2022 3778
GlobalWafers_Tai 142 2014-2022 2002

wan
Sumco_Japon 238 2008-2022 3686
United 236 2008-2022 3778

Microelectronics
Corporaion_Nasda
sq
SMIC_HKD 238 2008-2022 3706

Tabla 9: Csv con los datos usados en el proyecto.
5.1.2 Transformación y almacenamiento de los datos
Tras tener todos los ficheros con los datos del proyecto vamos a analizar qué
estructura tiene los ficheros .csv que hemos descargado para poder así crear las
tablas donde se insertará los datos de dichos ficheros para que tras tenerlos
cargados en las tablas podamos transformar y analizarlos mediante las
herramientas que nos hemos instalado.
Cabecera Descripción
Date Fecha que corresponde a los datos.
Open Precio de la acción en el inicio del

mercado.
High Precio más alto de la acción en el

mercado.
Low Precio más bajo de la acción en el

mercado.
Close Precio de la acción en el final del

mercado.
Página | 58
Volume Cantidad de transacciones de las
acciones sobre el mercado.
Adj Close Ajuste del valor del mercado posterior al

cierre del mercado.
Tabla 10: Columnas que forman los ficheros .Csv usados en el proyecto.
De la tabla anterior las columnas que nos interesa para el proyecto son la
columna “Date” y la columna “Close”, por lo tanto vamos a filtrar dichas columnas y
crear un nuevo excel que contenga las columnas. Tras obtener el nuevo excel y que
los valores contenidos en la columna Close tenga los valores según el valor que
tenga la moneda Dollar. La estructura de los ficheros .csv resultantes son:
Cabecera Descripción
Date Fecha que corresponde a los datos.
Close Precio de la acción en el final del mercado

en la moneda dollar.
Tabla 11: Columnas que forman los ficheros .Csv filtrados usados en el proyecto.
5.2 Situación actual
Antes de empezar a analizar los datos que hay en el sistema Big Data vamos
a enseñar la situación actual del mercado tecnológico y las preguntas que
intentaremos responder con el análisis de datos hechos con el sistema Big Data.
En la siguiente imagen se muestran datos globales sobre la capacidad y

demanda de obleas hecha por la empresa SUMCO Corporation una de las
principales empresas en la fabricación de obleas de silicio para fabricantes de
semiconductores de todo el mundo que suministra obleas a empresas tan
importantes como TSMC y Samsung. En la gráfica se puede ver cómo a partir del
2020 la demanda de obleas es mayor a la capacidad de las empresas para la
fabricación de las obleas.
Página | 59
Ilustración 35: Demanda de obleas desde 2006-2026. [33]
Estos datos van acompañados de esfuerzos por producir 24/7 para intentar
satisfacer la demanda y de la creación de nuevas fábricas llegando las primeras
fábricas de SUMCO en 2024 y el resto de sus fábricas en 2025.
Ilustración 36: Producción de Obleas por año desde 2008-2025. [34]
Para saber a qué se debe la falta de semiconductores hay que saber qué
empresas son las encargadas de fabricar los semiconductores más avanzados
como lo son 10 nm, 7 nm y 5 nm que se usan actualmente en los dispositivos
informáticos.
Página | 60
En la siguiente imagen muestra qué empresas han fabricado
semiconductores desde el 2000-2022 y cual es el tamaño de los semiconductores
que fabrican o fabricaban a lo largo de esas fechas. En la imagen también se
muestra cómo a lo largo del tiempo las empresas encargadas de la fabricación de
semiconductores han dejado de fabricar semiconductores más avanzados debido al
coste de las tecnologías para la fabricación de dichos semiconductores.
Ilustración 37: Fabricantes de semiconductores.
Con toda la información mencionada anteriormente sobre la situación de la

industria informática, me he realizado las siguientes preguntas para saber mejor las
causas del estado actual de la industria de la informática y sobre todo a todo lo
relacionado con los semiconductores ya que es uno de los sectores más importante
dentro del sector de la informática y que ha sido el más afectado en los últimos
años. Las preguntas son:
● ¿Qué políticas afectaron o han afectado a la producción de semiconductores

y en qué porcentaje?
● ¿Cuántas fábricas se tendrían que construir para satisfacer la demanda de

semiconductores?
Página | 61
● ¿Cómo afecta la escasez de materias primas a la producción de
semiconductores y otros componentes para la fabricación de productos
informáticos?
5.3. Análisis y tratamiento de datos
Antes de que se produzca el análisis de datos hay que hacer cambios en los
csv que contiene dichos datos, los cambios son:
● Crear una nueva columna en el .csv con los valores de la columna “Close”
adaptados a la moneda del Dólar.
● Eliminar del csv todas las columnas menos la columna que corresponde a las
fechas de los datos y la columna que acabamos de crear.
● Crear un nuevo fichero csv en el que van almacenar todos los cambios que
se han realizado.
import findspark
findspark.init()
import pandas as pd
import pyspark
from pyspark.sql import SparkSession

spark = SparkSession.builder\
.master("local[*]")\
.appName('Proyecto')\
.getOrCreate()
csv_df = spark.read.csv ("data/Infineon.csv",

inferSchema = True,
header = True)
csv_mof=csv_df.withColumn(“Close_Mod”,(csv_df[“Close”]*IntercambioMoneda))
csv_result=csv_mof.select(‘Date’,’Close_Mod’)
csv_result.write.option(“header”,True).csv(“data/InfineonModificado”)
En el cuadro anterior se muestra todo el código que tienes que introducir en

el Jupyter Notebook para realizar las modificaciones comentadas previamente. El
cuadro se tiene que ejecutar por cada csv que aparece en la Tabla 9: Csv con los
datos usados en el proyecto en la que los datos no estén en la moneda dólar.
Página | 62
Los comandos que se tiene que ejecutar para modificar los .csv en los que los datos
ya están en dollar son idénticos a los que hemos mencionando anteriormente habría
que eliminar la línea donde se calcula la nueva columna “Result” con los datos de la
columna “Close” y modificar el select para que se haga select de la columna “Date”
y de la columna “Close”. El código final sería:
import findspark
findspark.init()
import pandas as pd
import pyspark
from pyspark.sql import SparkSession

spark = SparkSession.builder\
.master("local[*]")\
.appName('Proyecto')\
.getOrCreate()
csv_df = spark.read.csv ("data/Infineon.csv",

inferSchema = True,
header = True)
csv_result=csv_df.select(‘Date’,’Close’)
csv_result.write.option(“header”,True).csv(“data/InfineonModificado”)
5.4 Conclusiones
En este bloque hemos explicado cómo hemos obtenido los datos que se van
a usar y cómo lo hemos transformado para poder obtener solo los datos útiles para
este proyecto. También hemos descrito la situación actual del mercado de los
semiconductores y de los problemas de escasez que está viviendo para que gracias
y nos hemos realizado algunas preguntas para saber como se ha llegado a la
situación y cómo darles solución, esto gracias a los datos transformados
mencionados anteriormente.
Página | 63
BLOQUE V
Resultados de los Datos
Página | 64
6. Conclusiones del proceso de análisis.
6.1 Introducción
En este bloque se van a responder a las preguntas realizadas en el bloque

anterior cuando se hablaba del porque se ha llegado a la situación actual de
escasez de semiconductores. El objetivo al responder estas preguntas gracias a los
datos transformados previamente es buscar una solución al problema de la escasez
de semiconductores y evitar que suceda otro periodo de escasez de
semiconductores.
6.2 ¿Qué políticas afectarán o han afectado a la

producción y en qué porcentaje?
Antes de que veamos que leyes están afectando o van afectar a la

producción mundial vamos a mostrar qué países eran los mayores productores de
semiconductores en 1990, que países lo son en el año 2020 y una estimación de
quién serían los mayores productores para el año 20230, para saber así las razones
del porque se han puesto las leyes en ciertos países que hacen que el mercado no
se estabilice.
Página | 65
Ilustración 38: Producción global de semiconductores. [35]
La primera de las leyes que ha afectado al mercado de semiconductores es

la ley que en Marzo de 2018 Donald Trump[36] que impuso aranceles con un valor
de 50.000 millones de dólares a los productos procedentes de China y también
impedían enviar maquinas de alta tecnología para fabricar semiconductores en las
fábricas situadas dentro del país. En el siguiente gráfico se va a mostrar las
acciones de distintas empresas del sector durante los 2 primeros años tras la leyes
impuestas por Trump para averiguar cual fueron las más perjudicadas o las más
beneficiadas.
Ilustración 39: Valor de empresas de fabricación de semiconductores durante la guerra comercial.
Página | 66
En la imagen se puede observar que la mayoría de empresas relacionadas
con la fabricación de semiconductores se vieron afectadas en el primer año de las
sanciones ya que aunque el gobierno EEUU dio ayudas a las empresas para que
hicieron su producción en el país, muchas de las empresas tenían las fábricas en
EEUU al 100% de su capacidad y no habían podido construir nuevas fábricas en un
periodo de tiempo tan pequeños(una fábrica tarda entre 3 a 4 años en construirse).
A las sanciones de inicios de Marzo del gobierno de Donald Trump se

añadieron nuevas sanciones en Junio de ese mismo año sobre productos chinos de
«tecnología industrialmente importante» con un 25% de aranceles más a los 50.000
millones de dólares anunciados en Marzo esto afectó más a las empresas que
tenían sus fábricas en China provocando que los semiconductores aumentarán de
precio. El aumento de los semiconductores provocó un aumento en el precio final de
los productos informáticos como lo son ordenadores y smartphone esto debido a
que las empresas no se hicieron responsable del sobrecoste que se generó gracias
a los nuevos aranceles esto provocó que el usuario final no actualizase sus aparatos
informáticos tanto como las empresas pronosticaron a principios del año provocando
que sus ganancias menguaran y su valor en la bolsa decayera.
Las empresas más afectadas debido a la ley de Donald Trump fueron las
empresas que tenían muchas fábricas en China como Samsung, Intel y en menor
medida TSMC y entre las empresas chinas de fabricación de semiconductores fue
SMIC.
Los resultados de la ley de Trump para las empresas en los dos primeros
años de la implementación fueron:
SMIC: En las sanciones de marzo las acciones de la empresa pasaron de

valor 1,48 dólares a caer un 17% y valer 1,23 dólares después de un mes de la
sanción y en la sanción realizada en junio sus acciones pasaron de valer 1,49
dólares a caer aproximadamente 48,44%y valer 0,77 dólares.
UMC: En las sanciones de marzo las acciones de la empresa pasaron de

valor 2,73 dólares a caer un 8% y valer 2,53 dólares después de un mes de la
TSMC: En las sanciones de marzo las acciones de la empresa pasaron de

valor 8,224 dólares a caer un 14.21% y valer 7,056 dólares después de un mes de
la sanción y en la sanción realizada en junio sus acciones pasaron de valer 7,36
Página | 67
Samsung: En las sanciones de marzo las acciones de la empresa pasaron
de valor 38,91 dólares a caer un 14.21% y valer 35,42 dólares después de un mes
de la sanción y en la sanción realizada en junio sus acciones pasaron de valer 36,2
Intel: En las sanciones de marzo las acciones de la empresa pasaron de

valor 51,52 dólares a caer un 6.3% y valer 48,79 dólares después de un mes de la
dólares a caer aproximadamente 26% y valer 44,93 dólares.
En medio de la guerra comercial entre China y EEUU sucede un

acontecimiento mundial que hará que la guerra comercial entre ambos países se
detenga y es el brote del COVID 19 que comenzó en China a finales de 2019 y que
se convirtió en pandemia en Febrero del 2022. Esta nueva pandemia hace que todo
el mundo tenga que quedarse en casa por seguridad y evitar aglomeraciones de
personas por lo que resulta en teletrabajo y en que las fábricas que no fueran
esenciales cerrarán o redujese su producción para evitar que no hubieran personas
que se enfermarán. Este acontecimiento provocó que la producción de
semiconductores disminuyese pero que la demanda aumentará debido a que las
personas que tenían que realizar el teletrabajo no tenían los medios para realizar el
trabajo.
Esta situación de teletrabajo provocó que las personas comprarán todo tipo
de aparatos informáticos relacionados con el teletrabajo como puede ser
ordenadores, smartphones y tablets aunque los productos estuvieran en un precio
superior al precio de venta al público. Este aumento de ventas se refleja por ejemplo
en España ya que las ventas en ordenadores portátiles aumentaron en torno a un
27% con respecto a 2019, lo que se traduce en unas 450.000 unidades más
vendidas qué 2019.
Este aumento de ventas provocó que todas las empresas relacionadas con
los semiconductores se pudieran recuperar de las caídas de beneficios en 2018 y
2019 que les supusieron todas leyes de Donald Trump comentadas anteriormente
este aumento de ventas se produjo principalmente entre el año 2020 y 2021.
Como consecuencia al gran aumento de las ventas comentado anteriormente

varias empresas obtuvieron unos ingresos similares a los que tenían antes de que
empezara la crisis de los semiconductores o que ciertas empresas como Intel y
Samsung consiguieron unos ingresos en sus secciones de semiconductores
históricos(las imágenes donde se muestra los ingresos de cada una de las
Página | 68
compañías relacionadas a la fabricación de semiconductores y los chips entre los
años 2017 a 2022 se encuentra en el 9.3 Gráficos relacionados a los ingresos y
beneficios brutos de las empresas entre 2017-2022).
En 2022 sucedió la invasión de Rusia a Ucrania que provocó varios

acontecimientos que redujeron la producción de semiconductores y por lo
consiguiente aumentaron los precios de los aparatos informáticos,los
acontecimientos son:
● La guerra provocó que el neón, un gas esencial para el proceso de litografía

encargado de crear los chips, se redujera en los primeros meses del conflicto
ya que Ucrania es responsable del 70% de las exportaciones mundiales de
neón.
● La guerra también provocó que la oferta de gas natural y petróleo aumentará

debido a que las sanciones impuesta a Rusia provocaron que no se le
pudiera comprar ninguna de esas dos materias lo que resultó en que se les
tuviera que comprar a países cuyo precio es mayor al que tenía Rusia como
puede ser EEUU y los países del golfo pérsico. Estas sanciones hicieron que
el precio del barril de petróleo llegará a costar de media 85,4 dólares,
convirtiéndose en unos de los años con el precio por barril más alto de la
historia y lo mismo sucesión con el precio del gas natural.
En la siguiente imagen se muestra el valor de las empresas durante el

periodo de covid y la guerra de Ucrania contra Rusia.
Ilustración 40: Valor de empresas de fabricación de semiconductores durante el COVID.
Página | 69
En la siguiente imagen se muestran los ingresos de las compañías antes
mencionadas durante el periodo entre 2017 al 2022 para que se pueda observar
cómo las leyes de Donald Trump, el Covid 19 y la guerra de Ucrania les han
afectado a los ingresos [37].
Ilustración 41: Ingresos globales entre los años 2018-2022.
Como se observa en la ilustración 73 las empresas más perjudicadas en los

ingresos en 2022 fueron Intel y Samsung esto es debido a la falta del gas neón
necesario para la creación de los chip como se han explicado anteriormente ya que
no almacenaron el suficiente gas como reserva para producir chips como sí hizo
TSMC y también debido a que esta última a obtenido semiconductores con mejor
calidad que los creados por las compañías Intel y Samsung, por lo que estas han
tenido que pagar a TSMC para poder usar sus semiconductores en ciertos
productos que fabrican haciendo que los ingresos de TSMC aumenten en un 40% y
que los ingresos de Intel y Samsung caían.
6.3 ¿Cuántas fábricas se tendrían que construir para

satisfacer la demanda de semiconductores?
Antes de saber cuántas fábricas hay que crear para satisfacer las demanda
de semiconductores vamos a mostrar donde están situadas las fábricas de
producción de semiconductores de los 6 mayores fabricantes del sector. Esto para
saber qué empresas son más propensas a invertir en construir plantas de
fabricación y en qué países son los más seleccionados para crear dichas fábricas.
Página | 70
Ilustración 42: Mapa de fábricas de semiconductores .[38]
Página | 71
En la siguiente tabla se muestra la cantidad de fábricas que tiene cada una
de las empresas que aparecen en la imagen anterior[39], su localización y datos
sobre la producción de obleas de la empresa(Si quiere obtener información más
detallada sobre la producción de cada fábrica de cada empresa visite el apartado
Producción de obleas según su tamaño en el Anexo II).
Empresa Cantidad Localización Tamaño de Capacidad de

de de las fábricas la oblea producción(obl
fábricas (mm) eas/mes)
TSMC [40] 13 Taiwán,China y 300,200,150 1.517.000

EEUU
Intel 9 EEUU, China, 300

Israel,Irlanda
Samsung 7 Korea y EEUU 300,200,100 1.019.000
SMIC 7 China 300,200 343.000
UMC 12 Taiwán,China, 150,200,300 549.000

Singapur,Japón
GlobalFoundries 6 Alemania,EEU 200,300 450.000

U,Singapur
Tabla 12: Producción de los 6 mayores fabricantes de semiconductores.
La cantidad de chips que pueden salir de una oblea de silicio depende del
tamaño de la oblea y del nodo de fabricación en el que queramos crear el chip.Los
chips que pueden ser obtenidos de una oblea con un proceso de fabricación más
avanzados pueden llegar a los miles aunque el porcentaje de chips defectuosos es
mayor que los chip cuyo proceso de fabricación es más antiguo ya que este último
está más pulido que pueden producir centenares de chips en una misma oblea por
ejemplo cuando salio el chip Apple A14 el primer chip con nodo de fabricación de 5
nm el nodo no estaba muy pulido y se obtenía de una oblea 600 chips[41].
La fabricación de los chip más avanzados son los que su demanda va a

aumentar de forma exponencial debido a que para las empresas informáticas
buscan chip más eficientes y baratos,esto requiere que las empresas que fabrican
los chips tengan que construir plantas de fabricación que requieren de una gran
cantidad de maquinaria y dispositivos altamente costosos para fabricarlos. El coste
de construir una planta de fabricación que fabrique los semiconductores más
avanzados como son los semiconductores de 4 y 3 nanómetros puede costar varios
miles de millones de dólares.
Página | 72
Debido al alto coste de la creación de las fábricas y a la gran dependencia de
las fábricas taiwanesas, países como China y Estados Unidos y la Unión Europea
han aprobado ayudas a las empresas que fabrican semiconductores para que
construyan sus fábricas en sus países. Las ayudas antes mencionadas están
creadas con el objetivo de que si Taiwán es invadida por China tenga
semiconductores suficientes para satisfacer su demanda tanto en el ámbito de lo
civil como en el armamentístico.
Las ayudas anunciadas por los países son:
● Estados Unidos aprobó en el año 2022 la “Ley de Chips y Ciencia” cuyos

objetivos son competir en términos científicos y tecnológicos con dos de los
líderes mundiales en este sector Taiwán y China. Esta ley contempla una
inversión total de 280.000 millones de dólares en 10 años, en los que 52.000
millones de dólares servirán como ayudas a la construcción o renovación de
fábricas a corto plazo y otros 100.000 millones de dólares en investigación y
desarrollo de semiconductores durante los próximos cinco años.
● China aprobó un poco después de Estados Unidos un programa similar a la

“Ley de Chips y Ciencia” de EEUU con una inversión en la industria de
semiconductores de alrededor de 150.000 millones de dólares en total para el
2030 con el objetivo de mejorar la investigación y desarrollo de
semiconductores más avanzados con el fin de ofrecer semiconductores de la
misma calidad que los que vende su vecino y principal competidor Taiwan.
● Europa también aprobó una ley similar a la de Estados Unidos y China en el

que se invertirá 43.000 millones de euros con el objetivo de aumentar su
cuota de mercado pasando del 10% al 20% y reducir su dependencia de
otros países como son China,Taiwán y Corea del Sur que acaparan en 2022
el 87% de la producción mundial.
En el siguiente gráfico se muestra el porqué hay tan pocas empresas

actualmente fabricando semiconductores avanzados(los semiconductores de 7 nm o
inferior) necesarios para la fabricación de los aparatos informáticos más modernos
como se mostraba en la Ilustración 30.
Página | 73
Ilustración 43: Gasto en equipos de fabricación entre 2014-2020.
Como se muestra en la imagen superior nos encontramos con un aumento

significativo en el gasto entre los años 2016-2017 y entre los años 2020-2021, que
corresponde a un aumento 61,51% y de 39,11% respectivamente. El aumento del
gasto en 2017 y 2018 es debido a que Samsung y TSMC empezaron a sustituir a
sus maquinaria de fabricación de chips de 14nm a 10 nm a gran escala y
construyeron nuevas fábricas y el resto de empresas también realizando una
actualización de su maquinaria a una que produjera chips de 14nm más pulidos y
por último, de pasar de fabricar los chips en obleas con un diámetro de 150 nm a
200 y 300 nm. El otro aumento de gasto significativo es entre el 2020-2021 es
debido a la construcción de 5 nuevas fábricas construidas entre varias empresas
entre ellas las 3 empresas líderes del sector(Intel,Samsung,TSMC) en la que TSMC
y Samsung las construyeron para fabricar semiconductores con un tamaños de 5
nm e Intel para fabricar semiconductores de 10 nm.
Todas estas nuevas fábricas y la actualización de las máquinas existentes

para fabricar semiconductores más pequeños no son baratas y por ejemplo una
máquina para construir chips de 7 nm cuestan 120 a 200 millones de dólares cada
una estas máquinas son principalmente construidas por una sola empresa llamada
ASML en el que se usan la litografía más avanzadas como es la ultravioleta
extrema o tambíen conocida por su siglas EUV, la máquina más cara se llama
NXE:3400C y puede fabricar 170 obleas por hora en nodos fabricación de 7 y 5
nm[42]. A partir de 2024 también habrá un aumento de gasto en la compra de
equipos de fabricación debido a que será necesario la máquina TwinScan EXE:5200
para fabricar chips con nodos de 3 nm e inferiores, estas nuevas máquinas costarán
más de 400 millones de dólares cada una[43].
Página | 74
Un ejemplo del alto precio de las máquinas ASML y de la importancias que
tiene las máquinas de ASML para la fabricación de semiconductores que Samsung
ha invertido 11.000 millones de dólares este año en máquinas tanto para aumentar
su producción de chips de 7 y 5 nm como para empezar la fabricación de los chips
de tamaño de 5 nm. Otra empresa que se ha gastado recientemente mucho dinero
en máquinas con litografía de EUV ha sido TSM que compró en 2021,13 máquinas
para ampliar su producción de 7nm y las máquinas más avanzadas para el proceso
de fabricación de 3 nm que anunciaron la producción de chips en masa para el
2024.
En la siguiente imagen se muestra como han sido los ingresos anuales de las
3 mayores empresas de fabricación de máquinas para la litografía.
Ilustración 44: Ingresos de las principales empresas fabricantes de maquinas litograficas.
TSMC en total se va gastar en los próximos 3 años alrededor de 100.000

millones de dólares en nuevas fábricas para aumentar su capacidad de producción.
Por ejemplo, ha comenzado con las obras de una nueva planta en Arizona por el
valor de 12.000 millones de dólares cerca de su otra fábrica en Arizona y dentro de
poco se construirá otra en Japón por 7.000 millones de dólares.
Intel está invirtiendo mucho dinero en construir nuevas fábricas para

satisfacer la demanda de sus productos, por ejemplo se ha gastado 20.000 mil
millones de euros en crear 2 megafábricas, para potenciar la fabricación de los chip
con los nodos de fabricación más avanzados. También se ha gastado 4.500 millones
de euros en una fábrica de semiconductores en Italia que se encuentra dentro de la
ley mencionada en el apartado anterior proyecto de Intel y de la Unión Europea para
evitar la dependencia de semiconductores con un valor de 80.000 millones de euros
para construir más fábricas en la próxima década.
Página | 75
SMIC la empresa de fabricación de semiconductores más grande de China
también está realizando una inversión de 40 mil millones de dólares en fábricas para
la creación de chip con nodo de fabricación a 24 nm con el objetivo que en un futuro
tras las finalización de las sanciones de EEUU a China pueda comprar la
maquinaria necesaria para la puesta en marcha de las fábricas ya que China
actualmente solo puede construir el 40% de las máquinas necesarias para la
fabricación de chips con nodos más avanzados como son los 10 nm.
Samsung también es una de las grandes compañías que está invirtiendo

mucho dinero en la construcción de nuevas fábricas para poder satisfacer toda la
demanda actual y futura de chip, construyendo 5 nuevas megafábricas para la
creación de memorias y chip con los nodos de fabricación más avanzados en la
actualidad esto supondrá un gasto de 215 mil millones de dólares que está dentro
de la inversión de 550 billones de wones (393.988 millones de euros) hasta 2026
anunciada por el gobierno de Corea. También se están planeando construir 11
fábricas en EEUU cuya primeras fábricas empezarían a funcionar a partir del año
2036 y en las que se espera que todas las fábricas estén en funcionamiento para el
años 2042 estas fábricas supondría una inversión de 192.000 millones de dólares y
creará 10.000 puestos de trabajo en los distritos de Taylor y Mano, Texas. También
se está acabando la construcción de una fábrica en Texas en la que fabricará
semiconductores de 5 nm e inferiores en 2024.
GlobalFoundries ha invertido 4 mil millones de dólares en la construcción de

una nueva fábrica en Singapur para obtener un aumento en producción de obleas
de 300 mm de 450.000 obleas por mes y en 2026 habría otra fábrica en Francia
junto a la empresa STMicroelectronics valorada en 5.700 millones de euros en que
se fabricará 620.000 obleas de 300 mm al año de la cuales el 58% será para
GlobalFoundries.
Para el año 2025 la demanda de ordenadores, gráficas, móviles,coches

inteligentes, … van ha aumentar llegando por ejemplo a un nuevo pico en el caso
de los móviles y coches inteligentes y es que se espera que la cantidad de
dispositivos móviles vendidos alcance los 18.220 millones y que la ventas de
coches autónomos será del 7.3% y la de los coches eléctricos de un 14.5% para ese
mismo año(actualmente el porcentaje de ventas de este tipo de coches es de 1.7%
y 5% respectivamente).
Página | 76
Ilustración 45: Porcentajes de ventas de tipos de coches hasta el 2025.
El crecimiento de las ventas de móviles para el año 2025 se va a realizar de

forma homogénea en todos los mercados aunque el crecimiento de ventas de
móviles en Latinoamérica,Asia-Páficio, Medio Oriente,África van a superar la media
de ventas de resto de mercados por lo que se tiene que tener en cuenta para elegir
el lugar donde se van a situar las nuevas fábricas ya que cuanto más cerca estén de
estos lugares el coste final del producto será menor y más gente podrá acceder a
dichos móviles.
Ilustración 46: Comparación de ventas de móviles según la región en el año 2019 y 2025.
Página | 77
Por lo tanto, la demanda de semiconductores aumentará con respecto a la
actualidad por lo que es muy importante construir nuevas fábricas a medio y largo
plazo para poder satisfacer dicha demanda de semiconductores y que no suceda la
escasez que afecta al sector desde 2018 a 2023.
Debido a la información anterior se puede observar que se necesitaría las 10

fábricas que quiere construir Samsung en EEUU en Europa para poder satisfacer la
demanda de semiconductores para tanto en Europa como la regiones de África y
Medio Oriente ya que estas últimas son regiones que se están desarrollando poco a
poco y que requieren cada vez más de semiconductores para poder fabricar los
productos informáticos más avanzados para consumo propio. Esta necesidad de
satisfacer la demanda de semiconductores ha provocado que Europa hable con la
mayoría compañías de fabricación de chips para que construye sus fábricas dentro
de la región ofreciendo para ello ayudas fiscales y pagar porcentajes de la
construcción de las propias fábricas, entre las empresas con la que Europa ha
hablado son Intel,Samsung y GlobalFoundries.
La siguiente tabla se muestra cuántas fábricas y una producción aproximada

de obleas que tendría las empresas mencionadas anteriormente en 2026:
Empresa Cantidad Localización de Tamaño de la Capacidad de

de las fábricas oblea (mm) producción(ob
fábricas leas/mes)
TSMC 14 Taiwán,China, 300,200,150 1.800.000

EEUU,Japón
Intel 14 EEUU, China, 300

Israel,Irlanda
Samsung 13 Korea y EEUU 300,200,100 1.708.000
SMIC 11 China 300,200 718.000
UMC 13 Taiwán,China, 150,200,300 600.000

Singapur,Japón
GlobalFoundries 11 Alemania,EEUU, 200,300 1.300.000

Singapur,Francia
Tabla 13: Producción de obleas al mes de los fabricantes en 2026.
Página | 78
Si quieres saber más información sobre qué nodo de fabricación usa cada
empresa de fabricación de chip mencionada y sobre qué tamaño de oblea se fabrica
dicho chip consulte el anexo.
6.4 ¿Cómo afecta la escasez de materias primas a la

producción de semiconductores y a otros componentes
informáticos?
La fabricación chip no solo depende de la capacidad de producción de las

empresas que fabrican semiconductores comentadas en el apartado anterior si no
que depende también de las materias primas que intervienen en todo el proceso de
fabricación de los chips como lo son el agua,la energía,las obleas. En esta sección
hablaremos sobre cómo afecta las materias primas a la producción de los chips,
para ello usaremos los propios reportes CSR( Corporate Social Responsibility)
de las empresas que vamos a usar para el análisis.
6.4.1 Electricidad
La electricidad es un pilar fundamental para la fabricación de cualquier

producto y lo es más en la fabricación de semiconductores debido a la gran cantidad
que se necesita para hacer funcionar las máquinas que crean los semiconductores.
Las máquinas con la tecnología EUV de ASML son necesarias para

fabricar los semiconductores más avanzados de la actualidad pero estas máquinas
consumen mucha electricidad para poder crear dichos semiconductores alrededor
de un megavatio, 10 veces más que las máquinas de anteriores generaciones. Un
ejemplo del alto consumo de energía que provocan estas máquinas se puede
observar en que TSMC se espera que para el 2025 consuma el 12,5% del consumo
energético de Taiwán,un consumo similar al que producen los 21 millones de
personas que viven en Sri Lanka. En la siguiente imagen se va a mostrar el gasto
total de electricidad de la 6 mayores fabricantes de chip:
Página | 79
Ilustración 47:Consumo de energía de los 6 principales fabricantes de chips.
Como se puede observar en el gráfico el consumo de energía de las mayores

empresas fabricantes de chips siguen un crecimiento constante a lo largos de los
últimos 7 años y no hay planes a corto plazo que el gasto de energía se reduzca si
no que aumente de forma exponencial debido a la construcción de fábricas cada vez
más grande con maquinaria que consume cada vez más energía. La obtención de la
energía de las empresas viene en un más del 60% de media del gas natural y del
petróleo, materias primas que están sufriendo un periodo de inestabilidad tanto en la
parte del dinero como en la reducción de oferta, todo esto debido al aumento de la
demanda de energía en otras secciones económicas y a la sanciones realizadas
sobre el gas ruso que hacen que la compra de este sea más difícil y caro.
Esta inestabilidad ha provocado que el precio final de la fabricación de chips

suba de precio y que muchas empresas inviertan dinero en mejorar sus fábricas
para que resulten más eficientes en el consumo de electricidad y reducir así el gasto
total necesario para la fabricación de chips. Entre las medidas tomadas por las
empresas para reducir el gasto de energía o reducir el consumo de energía no
renovable a renovable son las siguientes:
● Construir baterías u otros recursos para reutilizar la electricidad.
● Llegar acuerdo a largo plazo con empresas energéticas que producen

energía renovable como es el caso de TSMC con ARK Power de 20 años en
la cual esta última se compromete a suministrar 500 gigavatios-hora de
energía renovable. [44]
En las siguientes imágenes se muestran los precios de los barriles desde el año
2000 hasta el año 2022 y el precio del gas entre 2013 y 2022 para que se pueda
Página | 80
observar de una forma sencilla como el precio de ambos combustibles han
aumentado los precios estos últimos años.
Ilustración 48:Precio de los barriles de petróleo entre los años 2000-2022. [45]
Ilustración 49: Precio del gas natural entre los años 2013-2022.
En la imagen superior se puede observar como los precios del gas en los 3
principales mercados sufrió un aumento exponencial y también sufrió un aumento el
precio del petróleo ambos debido a las razones que ya hemos descripto
previamente.
Débito a todo lo descrito en esta sección las empresas se han puesto como
objetivo que en 2050 todas sus fábricas sean 0% contaminantes para reducir el
gasto de energía usando energías renovables que son más baratas que el petróleo
y gas natural y la otra razón es evitar un aumento de residuos a la atmósfera.
Página | 81
6.4.2 Agua
El agua también es un recurso principal en la industria de la fabricación de

semiconductores y que provoca que de una forma indirecta que la producción de
chip se reduzca debido a las sequías ya que se necesita gran cantidad de agua
durante el proceso de fabricación de los chips.El agua está siendo un problema
actualmente para las empresas ya que debido al cambió climático ha provocado que
las sequías sean más comunes y esto ha provocado que exista el peligro de que la
fabricación se detenga. Debido a lo anterior, las empresas fabricantes de chips
invierten muchos miles de millones de dólares en plantas de tratamiento de agua
para poder reutilizar el agua usada para volver a utilizarlo o para consumo de la
población y a medidas que permiten reducir el consumo del agua.
En la siguiente imagen se muestra el consumo total de agua realizado por las

6 mayores empresas fabricantes de chip(TSMC,Intel,Samsung,GlobalFoundries,
UMC,SMIC) del mundo entre los años 2015 al 2021:
Ilustración 50: Gasto anual de agua en los mayores fabricantes de chips entre 2015 y 2021.
El problema del agua va a ir a peor debido a que las nuevas fábricas con las
nuevas máquinas para fabricar mejores semiconductores van a provocar un
consumo mayor de agua y el periodo de sequías va a aumentar a lo largo de los
próximos años como se muestra en la siguiente imagen:
Página | 82
Ilustración 51:Comparación del porcentaje de sequía entre el año 1995 y el 2025. [46]
Ilustración 52:Mapa de con el peligro por sequías para el año 2030.
Como se observa en las ilustraciones el riesgo de sequía va aumentar en

gran medida a lo largo de los próximos años y un ejemplo de ello es TSMC que
debido a las sequías de 2021 en Taiwán tuvo que utilizar agua transportada en
camiones para poder continuar con su producción. Para solucionar los problemas de
abastecimiento de agua debido a las sequías, todas las empresas tienen distintas
políticas ambientales para reducir el consumo de agua y de métodos para reutilizar
el agua y no depender del agua de las lluvias,ríos o embalses. Las medidas
tomadas por las 3 principales empresas de creación de chips(Samsung,Intel y
TSMC), que son aquellas que requieren más agua para poder funcionar son las
siguientes:
TSMC en 2021 gracias a su sistema de control de ahorro de agua y a la

implementación 6 planes de ahorro de agua y energía TSMC consiguió que en su
GiGAFAB en Taiwán se ahorra más de 10 millones de toneladas de agua pura y
Página | 83
tiene como objetivo ahorrar 28 millones de toneladas de agua pura para 2030.
También en 2022 se puso en marcha en STSP (Parque Científico del Sur de Taiwán)
la primera planta de agua exclusiva en la que se reutiliza el agua residual de otras
fábricas de la compañía para convertirla otra vez en agua útil para la fabricación de
chips, esta fábrica proporciona 10.000 toneladas de agua diaria y tiene como
objetivo proporcionar 36.000 toneladas de agua en 2026. Actualmente el consumo
de agua diaria supera las 60 piscinas olímpicas(156.000 toneladas de agua) esto es
debido a que es necesaria para limpiar las docenas de capas de metal que forman
un semiconductor.
Intel también es una compañía muy concienciada con el uso responsable del
agua y tiene como objetivo la restauración de agua en toda sus fábricas para el
2030. Debido al objetivo mencionado Intel anunció en 2022 que las fábricas situadas
en la India,Estados Unidos,Costa Rica tenían un balance neto positivo del consumo
de agua.
Samsung también se ha propuesto ser más responsable en el uso y desecho

del agua que se usa en sus fábricas y se ha puesto como objetivo ser una empresa
100% sostenible para el medio ambiente en el año 2050.
En la siguiente imagen se muestra el porcentaje de reutilización de agua que

tienen las compañías antes mencionadas para que observe que todavía queda
mucha agua sin ser reutilizada y sobre todo en el caso de Intel y Samsung.
Ilustración 53: Porcentaje de reutilización del agua usada en las fábricas de semiconductores.
Página | 84
6.4.3 Obtención de obleas para la fabricación de chips
Igual que en los apartados anteriores un componente primordial para la

fabricación de semiconductores son las obleas donde se fabrican estos y es que su
demanda va aumentando al mismo ritmo que se mejoran y crean nuevas fábricas.
Este aumento de la demanda de obleas por parte de los fabricantes de
semiconductores ha provocado que las empresas trabajen a máxima capacidad, las
24 horas de día para poder satisfacer las demandas del resto de empresas. Un
ejemplo de lo anterior es el caso de SUMCO Corporation en el como se mostró en la
Ilustración 28.como tiene reservadas las obleas hasta el año 2026 y aun así no puede
satisfacer la demanda actual y futura de obleas con una producción actual de las 24
horas/día como se muestra en la Ilustración 29.
Esta situación ha provocado que las empresas relacionadas con la creación

de obleas tenga que realizar un gran inversión en aumentar sus fábricas ya
existentes o crear nuevas fábricas para aumentar así la creación de obleas de 8 y 6
pulgadas por ejemplo:
● SUMCO ha invertido 2.100 millones de dólares para construir una

fábrica que finalizara su construcción en 2024.
● SK Siltron ha invertido 300 millones de dólares en la construcción de 2

fábricas que finalizan su construcción en 2024, una en Corea del Sur y
otra en EEUU.
● GlobalWafers también ha invertido mucho dinero en mejorar su

producción de obleas y es por eso que el año pasado tras la compra
fallida de Siltronic AG anunciaron una inversión de casi 3.000 millones
de dólares(100 mil millones de TWD). El 45% de esta inversión va a ser
usado para mejorar las fábricas existentes y también se construirá una
fábrica para producir obleas de 8 pulgadas en Texas, EEUU que
iniciará su producción en 2025 dicha fábrica producirá 1,2 millones de
obleas de 8 pulgadas (300 mm).
● En 2019 se realizó una inversión de 211.000 millones de dólares(30

billones de yenes) en mejoras en sus fábricas en Taiwán y Japón para
aumentar la capacidad de producción de obleas de silicio,acabando de
construir una nueva fábrica en Japón en 2022 Naoetsu y la incursión
Página | 85
en 2021 de nuevos edificios en las plantas para aumentar la
producción.
En la siguiente imagen se muestra los ingresos mundiales que ha tenido el

sector de obleas de silicio solo en el sector de los semiconductores en los últimos 10
años:
Ilustración 54: Número de pulgadas de obleas(MSI) vendidas por año.
Ilustración 55: Ganancias de los fabricantes de obleas de silicio entre los años 2012 al 2022.
En la ilustraciones se pueden observar que aunque en la gráfica de las

ganancias de las empresas fabricantes de obleas de silicio ha habido épocas donde
las ganancias han menguado con respecto años anteriores 2014-2015 o que se han
mantenido constante en años con en 2019-2020 el único año en el que la
producción de obleas ha sido menor con respecto años anteriores fue en 2019 y es
que los fabricantes fueron afectados por las sanciones realizadas de EEUU a China
en medio de la guerra comercial que hubo entre ambos países.
Página | 86
Las consecuencias de las sanciones fueron que los compradores de obleas
de silicio de China tuvieran muy difícil poder seguir comprando la misma cantidad de
obleas a las empresas que actualmente se las vendía debido al miedo de estas
últimas de poder vender obleas a empresas EEUU como es Intel. Este miedo lo que
provocó que las empresas China tuvieran que buscar vendedores de obleas dentro
de su propio país aunque les fue difícil poder comprar todas las obleas necesarias
para la producción del 100% de sus fábricas debido a que China no estaba
preparada para satisfacer la nueva gran demanda de obleas en un periodo tan a
corto plazo.
6.5 Conclusiones
Las conclusiones obtenidas del TFG son que el mayor cuello de botella en la
fabricación de chip no se encuentra en las fábricas que se dedican a fabricarlas si
no en la empresa que se dedican a fabricar la maquinaría necesaria para crear los
semiconductores más avanzados que son los necesarios para la fabricación de los
ordenadores y portátiles más avanzados, tarjetas gráficas, automóviles, las armas
militares más avanzadas,etc. La empresa es ASML y es la que tiene el monopolio
de la creación de las máquinas que usan la litografía EUV para fabricar los
semiconductores con un nodo de fabricación igual o menor a los 10 nm y es que
debido a que tiene el monopolio, la obtención de las máquinas suele ser muy
compleja. Son tan importantes las máquinas de la compañía ASML que debido a la
prohibición de la compañía por parte de EEUU de hacer negocios con China, está a
tenido que paralizar gran parte de su estrategía para no tener que depender de los
semiconductores de otros países(principalmente Taiwán) y utilizar máquinas menos
avanzadas tecnológicamente para las fábricas que se estaban construyendo para
albergar las máquinas de ASML como es el caso de la empresa SMIC.
Las razones para que las máquinas ASML sean muy difíciles de obtener son:
1. Debido a la poca capacidad de producción que tienen de dichas máquinas

(alrededor de unas 400 anualmente) que hace que tengan una lista de espera
de varios años.
2. El sobrecoste que tienen las máquinas debido a que no tienen competencia

que hagan que estén obligados a poner un precio competitivo.
Las soluciones para este problema de abastecimiento de máquinas con la

litografía EUV son las siguientes:
Página | 87
Ayudas económicas de la Unión Europea para que ASML construya nuevas
fábricas con el objetivo que puedan aumentar su producción en un futuro a
medio-largo plazo y ser un socio preferente a la hora de comprar las máquinas que
fabriquen en un futuro.
Realizar grandes inversiones en I+D para poder fabricar máquinas tan

tecnológicamente avanzadas como son las máquinas EUV que vende ASML, esto
para incentivar a las empresas a dar el paso a procesos de fabricación más
avanzados debido al mayor número de máquinas disponibles en el mercado
haciendo que la demanda de semiconductores se reduzca. Esta creación de
empresas puede servir para incentivar la creación de fábricas de semiconductores
en la región haciendo que las máquinas sean mucho más baratas de comprar si la
vas a usar dentro del país o en caso de Europa dentro de los países que forman la
Unión Europea. Un ejemplo de esto es China que financia una parte de lo que
cuesta cada máquina litográfica.
Otra de las conclusiones que se obtiene de este TFG es que el mercado de

los semiconductores es muy dependiente de EEUU y de las leyes que ellos
publiquen como puede ser las sanciones a China. Estas sanciones han provocado
que empresas aunque no sean americanas no comercialicen con China debido al
miedo de no poder hacer negocios dentro del país americano y también provocando
que empresas que tienen fábricas en dicho país tengan la incertidumbre de si va a
poder seguir comercializando con las empresas más consumidoras de
semiconductores como son Intel,AMD,Nvidia,Apple,etc... Un ejemplo de empresa
“no americana” que por parte de EEUU ha sido amenazada de sanciones para que
no venda sus productos a China ha sido ASML que se le ha amenazado de no
poder vender máquinas de EUV a empresas Chinas como SMIC para que no
produzcan chips con nodos de fabricación avanzados como lo son los de 10 nm.
Esta situación hace que sea urgente que la Unión Europa tome medidas para
hacer que a las empresas relacionadas al sector del semiconductores como son
empresas de encapsulación,fabricantes de semiconductores y fabricantes de obleas
decida invertir su dinero en construir fábricas dentro del territorio europeo y para ello
habría que darle facilidades fiscales a las empresas durante varios años por ejemplo
una década y ayudar en la construcción de las fábricas a las empresas pagando un
porcentaje de dichas construcciones. Estas medidas las están ya realizando países
dentro de la Unión Europea como lo son Francia,Alemanía e Italia para llamar la
atención a las empresas de este sector y consiguiendo que empresas como Intel y
GlobalFoundries.
Página | 88
Para conseguir Europa lo antes mencionado la inversión que tendría que
realizar sería mínimo el tiple a la inversión anunciada el año pasado de 43.000
millones de euros y es que Europa es de entre los mercados principales en el
consumo de semiconductores el que tiene una peor situación en lo que respecto a la
creación desde 0 de semiconductores hasta su venta a otra empresas para fabricar
productos como gráficas o para venderlo al público general. Esta situación queda
reflejada en que no haya el suficiente número de fabricantes de obleas para
satisfacer la demanda propia si por alguna razón EEUU sanciona a Europa sin
poder comprar dicho producto y tampoco existe el número necesario de fábricas de
creación de semiconductores para satisfacer el objetivo de Europa de aumentar su
cuota de mercado pasando del 10% al 20%.
China tiene como objetivo reducir la brecha entre la demanda de chips

mundial y la oferta que existe actualmente siendo autosuficiente para ello como se
comentó en la sección 6.3¿Cuántas fábricas se tendrían que construir para
satisfacer la demanda de semiconductores? invertirá 150.000 millones de dólares en
total hasta 2030 en la investigación de los semiconductores para poder obtener
mejores semiconductores. Esta inversión tiene como principal objetivo poder fabricar
de forma autosuficiente la maquinaría necesaria para obtener semiconductores
avanzados ya que debido a las sanciones que se le ha impuesto le resulta muy
difícil obtener la maquinaria necesaria para poder fabricar los semiconductores y
prueba de ello es la empresa SMIC en la que está última ha construido 3 fábricas
que servirían para obtener semiconductores con un nodo fabricación de 10 nm e
inferiores pero que le ha resultado imposible comprar la maquinaria necesaria para
su fabricación ha ASML debido a EEUU.
Página | 89
7. Líneas futuras.
7.1. Introducción.
Hablaremos de las que conclusiones hemos llegado gracias al desarrollo de

tfg y daremos ejemplos de aplicaciones donde el proyecto realizado sería útil.
7.2. Líneas futuras.
Gracias al proyecto hemos podido observar las ventajas que proporciona

Apache Spark para poder realizar labores de Big Data con respecto a otras
aplicaciones en el mercado como es Apache Hadoop, como es una mayor tolerancia
a los errores y la posibilidad de usar un margen mayor de lenguajes de
programación.
Al realizar un estudio de distintas herramientas y arquitecturas que podría

tener nuestro proyecto y seleccionar las que mejor se adapta al proyecto hemos
Página | 90
podido cumplir el objetivo de diseñar e implementar un sistema Big Data eficiente,
escalable que permita hacer un análisis del ecosistema informático.
Tras cumplir el objetivo antes mencionado, pudimos cumplir de forma

satisfactoria el objetivo propuesto inicialmente en el TFG que consistía en buscar
soluciones para que las empresas pudieran cumplir con la demanda actual y futura y
que no vuelva a suceder otro periodo largo de escasez de semiconductores.
Los únicos pasos que no se cumplieron con respecto a los descritos en el

inicio del TFG son los siguientes:
● Implementación en diferentes entornos del sistema Big Data diseñado.
● Análisis de la eficiencia del sistema diseñado.
No se ha cumplido con estos pasos es debido a que solo se ha implementado

sobre un solo entorno y este es Ubuntu y tampoco se ha realizado un análisis de
profundidad sobre la eficiencia del sistema en grandes volúmenes de datos, esto es
debido al período(2008-2022) que se ha seleccionado como muestra de datos para
realizar el proyecto.
Teniendo en cuenta que se ha configurado el proyecto para realizar pruebas

tanto en una arquitectura clúster como en una arquitectura pseudo-distribuido se ha
comprobado, que cuando se trata de grande cantidades de datos es mucho más
eficiente utilizar la arquitectura cluster debido a que la repartición de trabajo entre
máquinas y no la realiza todo el análisis una sola máquina como se realizada en una
arquitectura pseudo-distribuida.
En nuestro proyecto al realizar un análisis de datos entre las fechas 2008 al

2022 la cantidad de datos no es significativa para quedarte con una u otra
arquitectura,aunque si quiere llevar el trabajo a un periodo más largo o trabajar
sobre otro productos distinto a los semiconductores es recomendable usar la
arquitectura cluster debido a su facilidad de escalabilidad y tambíen porque si el
trabajo se requiere se puede trabajar sobre una máquina solamente convirtiéndose
entonces en una arquitectura pseudo-distribuida por lo que la arquitectura cluster es
la mejor alternativa ya que no solo puede escalar si no también reducir su capacidad
de procesamiento si se requiere la circunstancias.
Página | 91
Las líneas futuras del proyecto pueden ser varias:
● Aumentar los datos al realizar el análisis considerando periodos de fechas

más largas o tomar más parámetros en consideración para responder a
preguntas que no se han realizado en este proyecto.
● Orientar el trabajo hacia otros componentes relacionado con el sector de la

informática como es por ejemplo las memorias NAND o añadir la información
relacionada a las memorias NAND al trabajo para tener una visión más
general del sector.
● Usar la minería de datos para obtener patrones del comportamiento a través

de los datos obtenidos del Big Data y poder obtener unas mejores respuestas
a los problemas planteados en el proyecto.
Página | 92
BLOQUE VI
Anexos
Página | 93
ANEXO I: Instalación y configuración
1. Introducción
A continuación, en este apartado se llevará a cabo la explicación paso a paso

de la instalación de todos los servicios y tecnologías necesarios tanto en la
arquitectura cluster como en la pseudo-distribuida.
2. Preparación del entorno de trabajo
El sistema operativo elegido para realizar la instalación de todos los

programas relacionados con el proyecto es Ubuntu. La elección de Ubuntu es
debido a que la comunidad existente de Spark y Hadoop es mayor en Ubuntu que
en otros sistemas operativos.
2.1. Instalación Linux
2.1.1. Requisitos previos
Para poder instalar Ubuntu en una máquina, hace falta cumplir una serie de
requisitos mínimos de hardware proporcionados por la misma Ubuntu:
● Procesador de doble núcleo de 2 GHz o superior

● 4 GB de memoria ram
● 25 GB libres en el disco duro
● Lector de DVD o puerto Usb para poder instalar el sistema
● Acceso a internet
2.1.2. Descarga del Sistema operativo
Para descargar Ubuntu en VirtualBox tendremos que ir a la página principal

de Ubuntu: https://ubuntu.com/download/desktop y descargar la imagen específica
para máquinas virtuales.
La versión con la que trabajaremos en la solución propuesta en este proyecto

es la 20.04.4. LTS con la cual tendremos soporte por parte de Ubuntu hasta 2025.
Página | 94
2.1.3. Creación de la máquina virtual
Una vez descargado VirtualBox y la imagen de Ubuntu se comienza el

proceso de creación de las máquinas virtuales para la creación de un sistema Big
Data con una arquitectura cluster y otra pseudo-distribuida.
La arquitectura del cluster que vamos a usar en el proyecto va a ser de 4

máquinas virtuales, en la que como cualquier cluster existente una máquina hará de
la función de nodo maestro y el resto de máquinas virtuales hacen la función de
nodos esclavos.
La arquitectura pseudo-distribuida como se explicó en el apartado 3.1

Computación pseudo-distribuida el sistema Big Data solo tendrá una máquina virtual
que hará de función de nodo maestro y nodo esclavo a la vez.
Las máquinas virtuales que formarán las arquitecturas del proyecto tienen
las mismas características que son:
● Tipo: Linux.
● Versión: Ubuntu.
● Tamaño de memoria: 6GB de memoria RAM a cada máquina.
● Disco duro: es necesario crear un disco duro virtual VDI (VirtualBox Disk
Image) reservado dinámicamente el tamaño para que la memoria de la
máquina virtual aumente según lo requiera el proyecto evitando así que se
desperdicie memoria del dispositivo e inicialmente cada máquina virtual
tendrá un tamaño de 30GB.
Los pasos que hay que seguir para la creación de de la máquina virtual son:
Página | 95
Ilustración 56:Instalación máquina virtual
Ilustración 57:Selección del tamaño de memoria.
Página | 96
Ilustración 58: Selección de disco duro.
Ilustración 59: Selección del tipo de archivo.
Página | 97
Ilustración 60:Selección del tipo de almacenamiento.
Ilustración 61:Selección del tamaño de la memoria de disco de la máquina virtual.
Página | 98
Ilustración 62: Arranque Ubuntu cargado.
Ilustración 63: Instalación de Ubuntu.
2.1.4. Configuración máquina virtual
La primera configuración que vamos a modificar sería el número de

procesadores asignados a la máquina virtual que está por defecto a 1 a 4 para
mejorar así la eficiencia con el uso de Hadoop y Spark.
Página | 99
Ilustración 64: Cambio del número de procesadores.
La segunda configuración va a ser un cambio en el controlador gráfico para

que la máquina virtual se pueda adaptar al tamaño de la pantalla que ocupa en el
dispositivo que hace host la máquina virtual esto con el objetivo de facilitar la
visualización de todo el proyecto, esto se realiza poniendo “VBoxSVGA” en las
opciones que te da el contrado gráfico de VirtualBox.
Ilustración 65: Cambio del contador gráfico a VBoxSVGA.
Página |
100
2.2. Topología de red
Ahora debemos asignar las direcciones IP y los nombres a cada una de las
máquinas que deseamos que conforman nuestra red, para ello, añadimos los
nombres de todos los nodos en /etc/hosts en todas las máquinas que vayamos a
emplear. La siguiente tabla muestra los nombres que van a tener cada maquina del
proyecto con su ip y función asociada:
Hostname IP Funcion
Master 192.168.2.101 Nodo master
Esclavo1 192.168.2.102 Nodo esclavo
Master-Esclavo 192.168.2.105 Nodo pseudo-distribuido

Tabla 14: Topología de la red del proyecto.
Para finalizar habrá que configurar las direcciones IP manualmente accediendo al

apartado configuraciones de red en Linux en cada una de las máquinas de la
siguiente manera:
Ilustración 66: Configuración de las IP de las máquinas virtuales.
Página |
101
3. Instalación programas auxiliares
En esta sección se van a dar todos los pasos necesarios para la instalación
de todos los programas necesarios para el funcionamiento de Apache Spark y
Hadoop.
3.1. Java
En este paso se instalará Java esto porque Hadoop está escrito en Java. Vale tanto
la versión openJDK como la de Oracle. La versiones 3.XX de Hadoop son
compatibles en tiempo de ejecución con Java 11 y Java 8.
sudo apt update

sudo apt install openjdk-8-jdk
Se elige usar Java JDK 8 porque es el mínimo que se requiere para hacer funcionar
cualquier versión de Hadoop 3.XX que es la que hemos elegido y para que si se
quiere cambiar a una versión inferior de Hadoop no surjan problemas con la versión
de Java.
Para comprobar si Java se ha instalado correctamente en la máquina se ejecuta el

siguiente comando:
java -version
Ilustración 67: Comprobación de la instalación de java.
3.2. Instalación Anaconda
Instalaremos Anaconda[30] ya que contiene los paquetes más importantes

para tratamiento de grandes volúmenes de datos, cálculos científicos y análisis de
predicciones y viene integrado con python qué es lenguaje de programación que
vamos a usar durante todo el proyecto. Anaconda se puede descargar desde esta
página: https://www.anaconda.com/download/.
Página |
102
Comando para instalar Anaconda:
$ bash ./ Anaconda3-2023.03.sh
Tras instalar Anaconda comprobaremos si se nos ha descargado python y si

es así qué versión tiene,para comprobar todo esto se usa el siguiente comando:
python3 –version
Ilustración 68: Versión de python.
Actualizamos conda a la versión más nueva,esto se consigue ejecutando el

siguiente comando:
conda update --all --yes

conda –version
Ilustración 69: Versión de conda.
Tras comprobar que se ha instalado correctamente conda y python, se va a

instalar la extensión nb_conda_kernels, esta extensión permite que una aplicación
Jupyter acceda a kernels para Python, R.Esto le permite utilizar diferentes
versiones de Python, R y otros lenguajes desde una sola instalación de Jupyter.
conda install nb_conda_kernels

conda list
Página |
103
Ilustración 70: Instalación de nb_conda_kernels.
4. Instalación de Apache Spark
4.1. Descarga de Apache Spark
Ahora que hemos instalado las herramientas necesarias para usar Spark
vamos a descargar Spark[32] en nuestra máquina desde la página web
https://Spark.apache.org/downloads.html y descomprimimos el contenido en nuestro
directorio.
Ilustración 71: Página de descarga de Apache Spark.
Comando para descomprimir el archivo en formato .tgz:
tar -xvf spark-3.2.4-bin-hadoop3.2.tgz
Cambiamos el nombre de la carpeta para poder trabajar mejor:
Página |
104
mv ~/spark-3.2.4-bin-without-hadoop ~/spark
4.2. Configuración Spark
● Fichero de configuración del usuario hadoop: nano ~/.bashrc
export SPARK_HOME="/home/master/spark/”
Ilustración 72; Archivo .bashrc Spark.
Tras esto aplicamos los cambios con el siguiente comando:
source ~/.bashrc
Por último verificamos que se ha realizado correctamente la instalación de

Spark.
cd spark
bin/pySpark
Ilustración 73: Arrancamos la instalación de Spark.
Página |
105
5. Instalación Hadoop
Normalmente no se encuentra instalado por defecto en el sistema, por lo que

se debe instalar ejecutando los siguientes comandos desde la terminal:
5.1 Descarga de Hadoop
Para descargar Apache Hadoop en nuestra máquina lo haremos desde la

página web oficial: https://hadoop.apache.org/releases.html.
Ilustración 74: Página web de Apache hadoop.
Tras descargar Apache Hadoop se descomprime la carpeta, renombramos la

carpeta para que sea más fácil de manipular y la trasladamos a la misma ruta donde
esta la carpeta de Apache Spark:
tar xvf hadoop-3.3.2.tar.gz

mv hadoop-2.9.0.tar.gz /home/master/hadoop
5.2 Configuración de Apache.
Una vez instalado Hadoop, procedemos a actualizar el fichero de

configuración del usuario para hacer que Apache Hadoop funcione correctamente.
● Fichero de configuración del usuario: nano ~/.bashrc
export HADOOP_HOME="/home/master/hadoop-2.9.0"
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native:$LD_LIBRARY_PATH
Página |
106
Ilustración 75: Archivo .bashrc con la configuración de Apache Hadoop.
Tras esto aplicamos los cambios con el siguiente comando:
source ~/.bashrc
6. Acceso SSH
Primero,cambiaremos los nombres de las maquinas a “esclavo1”,“esclavo2” y

“esclavo”, ya que todas se llaman actualmente “master” los pasos a seguir son:
Primer paso,entrar en modo root.
sudo su
Segundo paso,ejecutar el siguiente comando:
nmcli general hostname [nombre-usuario]
Tercer paso reiniciar el equipo para aplicar los cambios:
reboot
Ahora debemos asignar las direcciones IP y los nombres a cada una de las
máquinas que deseamos que conforman nuestra red, para ello, añadimos los
Página |
107
nombres de todos los nodos en /etc/hosts en todas las máquinas que vayamos a
emplear.
192.168.2.101 master
192.168.2.102 esclavo1
192.168.2.103 esclavo2
192.168.2.104 esclavo3
Ilustración 76: Fichero hosts de las máquinas virtuales.
Comprobamos que “ifconfig” se encuentra instalado en la máquina virtual

porque es una herramienta que vamos a usar para dar acceso ssh entre máquinas,
si no está instalado ejecutar el siguiente comando:
sudo apt install net-tools
En el cuarto paso,vamos a instalar en las máquinas cuya función sea la de

esclavo ssh server.
sudo apt-get install openssh-server
En el quinto paso, se va a generar la clave RSA para el acceso remoto de los

esclavos.
ssh-keygen
Página |
108
Ilustración 77: SSH clave RSA.
En el sexto paso es enviar la clave RSA de la máquina master a cada uno de los
esclavos que van a componer el cluster para que se pueda realizar la comunicación
entre las máquinas virtuales. El comando para enviar la clave RSA a las máquinas
esclavas es el siguiente:
ssh-copy-id -i ~/id_rsa.pub master@esclavo1

Ilustración 78: Enviar clave RSA a MV esclavas.
Página |
109
7. FindSpark
FindSpark es una biblioteca de Python que permite usar PySpark .El

comando para instalar FindSpark es el siguiente comando:
pip install findSpark
8. Py4j
Instalar Py4J para que los programas de Python se ejecuten y accedan

directamente a los objetos Java.
pip install py4j
9. Jupyter Notebook
Comando que ejecuta Jupyter notebook:
jupyter notebook
Ilustración 79: Ejecución de Jupyter Notebook.
Página | 110
Ilustración 80 :Entorno Jupyter navegador.
Página | 111
ANEXO II: Pasos para iniciar el cluster.
1. Introducción.
A continuación, en este apartado se van a resumir todos los comandos que

se tendrán que ejecutar en cada máquina para poner en marcha el cluster
previamente creado y configurado del anexo anterior. También se mostrarán los
comandos necesarios para finalizar la ejecución del cluster.
2. Iniciar clúster
En esta sección se enumera todos los comandos para ejecutar el cluster,los

comandos se tienen que ejecutar desde la carpeta donde esté instalado Apache
Spark, en nuestro caso /home/master/spark:
2.1. Iniciar el servidor maestro
Para iniciar el servidor maestro se tiene que ejecutar la máquina virtual cuya
función en el cluster es la de maestro, el siguiente comando se tiene que ejecutar
dentro del directorio donde se encuesta Apache Spark:
./sbin/start-master.sh -h 192.168.2.101
Ilustración 81: Iniciar servidor maestro.
Página | 112
-
Ilustración 82: Interfaz web de la máquina master de Apache Spark.
Se puede apreciar en la interfaz de la máquina master de apache Spark una

URL que será nuestra “dirección master” y será la encargada de conectar los
esclavos al clúster.
2.2.Conectar esclavos
Para iniciar las máquinas esclavas que van a componer el cluster Spark se
tiene que ejecutar el siguiente comando dentro del directorio Spark :
./sbin/start-slave.sh spark://192.168.2.101:7077
Ilustración 83: Inicial la máquina esclava.
3. Finalizar clúster
En esta sección se enumera todos los comandos para detener el cluster, los
comandos se tienen que ejecutar desde la carpeta donde esté instalado Apache
Spark, en nuestro caso /home/master/spark:
#Ejecutar en cada máquina esclava el siguiente comando para eliminarlo del cluster
./sbin/stop-slave.sh spark://192.168.2.101:7077
Página | 113
#Detener la máquina master
./sbin/stop-master.sh
Página | 114
ANEXO III:Gráficos
1. Introducción
A continuación, en este apartado se mostrarán todos los gráficos que hemos

usado para la realización del proyecto.
2. Relacionados al valor de las empresas en la bolsa
Se van a mostrar los gráficos relacionados al valor de las empresas que

hemos estudiado para el proyecto a lo largo de los años 2008 al 2022,todos los
valores que se van a mostrar van a estar en la moneda oficial de EEUU que es el
dólar,esto es para que resulte más fácil la comparativa entre las empresas y obtener
resultados de una forma más clara y rápida.
● Intel
Ilustración 84:Valor histórico de las acciones de Intel.
● AMD
Ilustración 85: Valor histórico de las acciones de AMD.
Página | 115
● Samsung
Ilustración 87: Valor histórico de las acciones de Samsung.
● SMIC
Ilustración 88: Valor histórico de las acciones de SMIC.
● Sumco
Ilustración 89: Valor histórico de las acciones de Sumco.
Página | 116
● GlobalWafers
Ilustración 90: Valor histórico de las acciones de GlobalWafers.
● UMC
Ilustración 91:Valor histórico de las acciones de UMC.

● TSMC
Ilustración 92: Valor histórico de las acciones de TSMC.
Página | 117
3. Relacionados a los ingresos de las empresas
fabricantes de semiconductores
Se van a mostrar los gráficos relacionados a los ingresos de las empresas que
hemos estudiado para el proyecto a lo largo de los años 20089 al 2022,todos los
valores que se van a mostrar van a estar en la moneda oficial de EEUU que es el
dólar,esto es para que resulte más fácil la comparativa entre las empresas y obtener
resultados de una forma más clara y rápida.
● Intel
Ilustración 93: Ingresos anuales de semiconductores de intel.
● Qualcomm
Ilustración 94: Ingresos anuales de Qualcomn.
● Samsung
Página | 118
Ilustración 95: Ingresos anuales de Samsung.
● SMIC
Ilustración 96: Ingresos anuales de SMIC.
● TSMC
Ilustración 97: Ingresos anuales de TSMC.
Página | 119
● UMC
Ilustración 98: Ingresos anuales de UMC.
4. Relacionados al consumo de energía de las empresas

fabricantes de semiconductores
● Intel
Ilustración 99: Consumo total de energía de las fábricas de Intel entre 2015 y 2022.
● TSMC
Página |
120
Ilustración 100: Consumo total de energía de las fábricas de TSMC entre 2015 y 2021.
● Samsung
Ilustración 101: Consumo total de energía de las fábricas de Samsung entre 2015 y 2021.
● GlobalFoundries.
Ilustración 102: Consumo total de energía de las fábricas de GlobalFoundries entre 2015 y 2021.
● UMC.
Página |
121
Ilustración 103: Consumo total de energía de las fábricas de UMC entre 2015 y 2021.
● SMIC.
Ilustración 104: Consumo total de energía de las fábricas de SMIC entre 2015 y 2021.
5. Relacionados al consumo de agua de los fabricantes de

semiconductores
● TSMC
Página |
122
Ilustración 105: Consumo total de agua de las fábricas de TSMC entre 2015 y 2021.
● Intel
Ilustración 106: Consumo total de agua de las fábricas de Intel entre 2015 y 2021.
● Samsung
Página |
123
Ilustración 107: Consumo total de agua de las fábricas de Samsung entre 2015 y 2021.
● GlobalFoundries
Ilustración 108: Consumo total de agua de las fábricas de GlobalFoundries entre 2015 y 2021.
● UMC
Ilustración 109: Consumo total de agua de las fábricas de UMC entre 2015 y 2021.
Página |
124
● SMIC
Ilustración 110:Consumo total de agua de las fábricas de SMIC entre 2015 y 2021.
ANEXO IV:Tablas
1. Introducción
Página |
125
A continuación, en este apartado se mostrarán tablas relacionadas con
información dada en el proyecto para complementar dicha información.
2. Producción de obleas según su tamaño
Se va a mostrar a continuación una tabla por cada empresa fabricante de

semiconductores en que se va mostrar la producción de obleas por cada nodo de
fabricación que tenga la empresa y sobre qué tamaño de oblea se ha realizado la
fabricación del chip.
● TSMC
Cantidad de Tamaño de la Nodo de Capacidad de

fábricas oblea(mm) tecnología de producción(obleas
procesos(nm) /mes)
40, 28, 20,16,10,7 750.000
6 300
5, 3 240,000
500, 350, 250 100.000
350, 250, 180 48.000
6 200 180 99.000
250, 180 85.000
350,250,180,160 107.000
1 150 800, 600, 500 88.000

Tabla 15: Lista de fábricas y producción de obleas de TSMC.
● Intel

Página |
126
procesos(nm) /mes)
22, 14, 10
9 300
43, 32
14
22
10
Intel 4(previamente
7 nm)
Tabla 16: Lista con los nodos de fabricación y el tamaño de obleas que se utilizan en Intel.
● Samsung

procesos(nm) /mes)
3 200.000
65-28 50.000
6 300 65-11 92.000
65-8 62.000
5 350.000
1 100,150,200 180–65 265.000

Tabla 17: Lista de fábricas y producción de obleas de Samsung.
● GlobalFoundries
Página |
127
procesos(nm) /mes)
12 133.000
3 300
130-40 70.000
14, 12 60.000
600-350 56.000
3 200
350-180 54.000
350-90 50.000
Tabla 18: Lista de fábricas y producción de obleas de GlobalFoundries.
● SMIC

procesos(nm) /mes)
180–55 52,000
40–28 71,000
7 300
28 340.000
3 200 350–90 220.000
Tabla 19: Lista de fábricas y producción de obleas de SMIC.
● UMC

Página |
128
procesos(nm) /mes)
28,14 87.000
3 300 130–40 53.000
55–28 25.000
4000–1000, 500, 77.000

350, 250, 180, 110
250 67.000
350–110 37.000
7 200
90 31.000
180 37.000
150 40.000
350–250 31.000
1 150 450 31.000
1 150, 200, 300 90–40 33.000

Tabla 20: Lista de fábricas y producción de obleas de UMC.
Bibliografía
Página |
129
[1] Origen de Big Data. (Marzo de 2022). Obtenido de
https://ayudaleyprotecciondatos.es/big-data/#Origen_e_historia
[2] Origen de Big Data. (Mayo de 2023). Obtenido de

https://www.egosbi.com/historia-del-big-data/
[3] Macrodatos. (Febrero de 2023). Obtenido de

https://es.wikipedia.org/wiki/Macrodatos
[4] Previsión de crecimiento mundo Big Data. Obtenido de

https://consensodelmercado.com/es/gestores/asml-samsung-y-tsmc-empresas-tecnologicas
-que-pueden-beneficiarse-de-las-nuevas-tendencias-del-ecosistema-tecnologico
[5] Funcionamiento General de un sistema Big Data. (Febrero de 2023). Obtenido de

https://ceupe.com.ar/blog/como-es-el-funcionamiento-del-big-data/#:~:text=El%20Big%20Da
ta%20es%20un,aprendizaje%20e%20inclusive%20inteligencia%20artificial.
[6] Big Data: tipología y fuentes de datos. (Febrero de 2023). Obtenido de

https://nuestrosdatosseguros.es/big-data-tipologia-y-fuentes-de-datos/
[7] Tipos de Big Data según el origen de los datos. Obtenido de

https://es.slideshare.net/smillerodatox/big-data-nn
[8] Aplicaciones de Big Data. Obtenido de

https://www.questionpro.com/es/que-es-big-data.html
[9] Esquema de las 5V. Obtenido de

https://forum.huawei.com/enterprise/es/las-5vs-del-big-data/thread/846137-100759
[10] Metodología presente en un proceso de minería de datos. Obtenido de

https://cmigestion.es/2012/12/13/los-principios-del-data-mining/
[11] Técnicas para la minería de datos. (Febrero de 2023) Obtenido de

https://www.astera.com/es/type/blog/top-10-data-mining-techniques/
[12] Esquema general del funcionamiento de Computación distribuida. Obtenido de

http://cienciasfera.com/materiales/informatica/tecnologiainformacion/tema02/12_informtica_
distribuida.html
[12] Computación Distribuida. (Febrero de 2016).Obtenido de

https://news.sap.com/spain/2021/04/computacion-distribuida-que-es-como-funciona-ventaja
s-y-desventajas/
Página |
130
[13] Esquema general del funcionamiento de un Cluster.Obtenido de
http://www.saber.ula.ve/bitstream/handle/123456789/16051/articuloberticlusters.pdf?sequence=1&isA
llowed=y
[14] Aplicaciones de Computación Elástica. Obtenido de

https://www.xtb.com/lat/analisis-y-noticias/analisis-de-mercado/computacion-en-la-nube-el-futuro-de-l
a-digitalizacion
[15] Herramientas Big Data. Obtenido de

https://forum.huawei.com/enterprise/es/la-importancia-de-las-herramientas-del-big-data-util-
para-mejorar-sus-resultados-parte-1/thread/977349-100325?from=latestPostsReplies
[16] Apache Hadoop. Obtenido de https://es.m.wikipedia.org/wiki/Archivo:Hadoop_logo.svg
[17] Módulos de Apache Hadoop. Obtenido de

https://medium.com/codex/what-is-apache-hadoop-in-big-data-1c542e32d3df
[18] Visión general arquitectura HDFS. Obtenido de

https://medium.com/@aexarahi/un-vistazo-al-hdfs-de-hadoop-e9d72b37b1ed
[19] Esquema general del funcionamiento de Mapreduce. Obtenido de

https://aprenderbigdata.com/hadoop-mapreduce/
[20] Apache Spark. Obtenido de https://en.wikipedia.org/wiki/Apache_Spark
[21] Componentes de Apache Spark. Obtenido de

https://sitiobigdata.com/2019/12/24/apache-spark-introduccion-para-principiantes/#
[22] Funcionamiento de un bloque RDD. Obtenido de

https://blog.knoldus.com/things-to-know-about-spark-rdd/
[23] Visión general de la arquitectura Apache Spark. Obtenido de

https://www.adictosaltrabajo.com/2015/11/16/introduccion-a-apache-spark-batch-y-streaming/
[24] Jupyter. Obtenido de https://commons.wikimedia.org/wiki/File:Jupyter_logo.svg
[25] Lenguaje R. Obtenido de

https://mappinggis.com/2019/02/r-y-gis-que-es-r-y-su-relacion-con-los-sig/
[26] Python. Obtenido de https://es.wikipedia.org/wiki/Historia_de_Python
[27] Elasticsearch. Obtenido de

https://picodotdev.github.io/blog-bitix/2014/04/introduccion-a-elasticsearch/
[28] Diferencias entre Hadoop y elasticsearch. (Abril de 2022). Obtenido de

https://www-geeksforgeeks-org.translate.goog/difference-between-hadoop-and-elasticsearch
/?_x_tr_sl=en&_x_tr_tl=es&_x_tr_hl=es&_x_tr_pto=sc
Página |
131
[29] Diferencias entre Spark y Elasticsearch (Noviembre de 2022). Obtenido de
https://db-engines.com/en/system/Elasticsearch%3BSpark+SQL
[30] Michael Galarnyk. Install Anaconda on Ubuntu (Python) [en línea]. (Marzo de 2023)
Obtenido de: https://www.youtube.com/watch?v=jo4RMiM-ihs
[31] Michael Galarnyk. Install Spark on Ubuntu (PySpark) + Configure Jupyter Notebook [en
línea]. (Marzo de 2023). Obtenido de:
https://www.youtube.com/watch?v=uhVYTNEe_-A&t=16
[32] Yahoo Finanzas. (Mayo de 2022). Obtenido de https://es.finance.yahoo.com/
[33] Demanda de obleas desde 2006-2026. Obtenido de

https://hardzone.es/noticias/procesadores/obleas-produccion-reservada-2026/
[34] Producción de Obleas por mes desde 2008-2025. Obtenido de

https://hardzone.es/noticias/procesadores/obleas-produccion-reservada-2026/
[35] Producción global de semiconductores. Obtenido de

https://motor.elpais.com/actualidad/la-industria-ante-el-error-estrategico-de-los-microchips/
[36] Guerra comercial entre China y EEUU. (Febrero de 2023). Obtenido de

https://es.wikipedia.org/wiki/Guerra_comercial_entre_China_y_Estados_Unidos
[37] Ganancias de las empresas del sector de los semiconductores. (Marzo de 2023).
Obtenido de https://www.macrotrends.net/
[38] Mapa de fábricas de semiconductores. Obtenido de

https://www.xataka.com/componentes/industria-manos-tsmc-fabricas-asiaticas-mapa-produccion-mun
dial-chips
[39] Lista con las fábricas de semiconductores de todas las empresas del sector de los
semiconductores. (Febrero de 2023). Obtenido de
https://en.wikipedia.org/wiki/List_of_semiconductor_fabrication_plants
[40] Lista con las fábricas y la producción de chips de la empresa TSMC. (Febrero de
2023). Obtenido de
https://hardzone.es/noticias/procesadores/tsmc-fabricas-obleas-semiconductores/
[41] Calcular el número de chips en una oblea. (Marzo de 2023). Obtenido de

https://www.profesionalreview.com/2022/12/04/chips-oblea/#:~:text=C%C3%B3mo%20calcu
lar%20los%20chips%20por%20oblea,-El%20%C3%A1rea%20de&text=Para%20hacerte%2
0una%20idea%2C%20en,dependiendo%20del%20tama%C3%B1o%20del%20chip.
Página |
132
[42] Información sobre ASML. (Abril de 2023). Obtenido de
https://polaridad.es/descubre-el-precio-de-una-maquina-de-asml-guia-actualizada/
[43] Especificaciones de las nuevas máquinas de ASML. (Abril de 2023). Obtenido de

https://elchapuzasinformatico.com/2022/06/precios-cpu-2025-escaneres-asml/
[44] Contrato de TSMC para conseguir electricidad renovable durante 20 años . (Marzo de
2023). Obtenido de https://pr.tsmc.com/english/news/3018
[45] Histórico del precio del barril de petróleo entre 2000-2022 (Febrero de 2023)
Obtenido de
https://es.statista.com/estadisticas/635114/precio-medio-del-crudo-fijado-por-la-opep/
[46] Comparación del porcentaje de sequía entre el año 1995 y el 2025. (Mayo de 2023).
Obtenido de
https://espanol.libretexts.org/Biologia/Ecolog%C3%ADa/Biolog%C3%ADa_Ambiental_(Fish
er)/07%3A_Disponibilidad_y_uso_del_agua/7.02%3A_Problemas_y_soluciones_de_suminis
tro_de_agua
Página |
133

Agradecimientos: Página - 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Agradecimientos: Página - 1

Cargado por

Copyright:

Formatos disponibles

Agradecimientos

Transmitir mi agradecimiento a todos aquellos que me han ayudado a lo largo

En primer lugar, a mi tutor José María Serrano Chica, por su ayuda en la

Quiero agradecer a mi madre, a mi padre y a mi hermana el apoyo

También, expresar mi más sentido agradecimiento a la Universidad de Jaén

Desarrollar este proyecto ha tenido un gran valor para mi porque me ha

Para el tratamiento de los datos y evitar así datos repetidos o incompletos

1.1. Contexto y motivación

Desde que se inició este milenio gracias a la globalización se ha notado un

El incremento del número ventas de dispositivos,como se muestra en la

A la alta demanda de componentes y de materias de primas para satisfacer la

A partir de las necesidades anteriores, este proyecto se enmarca dentro del

Para realizar el proyecto nos hemos apoyado en un sistema Big Data

En la Ilustración 2 se puede observar la visión general del proyecto a

Ilustración 2:Esquema bloques fundamentales sistema Big Data.

1.2 Origen del término “Big Data”

Antes de seguir con el proyecto se va a dar una pequeña introducción del

A continuación se va a describir toda la evolución que ha tenido el término

El Big Data empieza a tener cierta importancia en los años 90 con el

En 1996 los precios del almacenamiento de datos empiezan a ser accesibles

En la década de los años 2000 empiezan a surgir empresas que generan y

El objetivo principal del TFG es el diseño e implementación de un sistema Big

● Análisis y estudio de las diferentes tecnologías necesarias para implementar

● Implementación en diferentes entornos del sistema Big Data diseñado.

● Análisis de la eficiencia del sistema diseñado.

● Conclusiones con los datos obtenidos del análisis.

● ¿Cuánto afecta las políticas de ciertos países al mercado internacional?

1.4.1 Herramientas usadas

Las herramientas que se va ha usar a lo largo del proyecto se puede

En el desarrollo del proyecto solo ha participado una persona que es el autor

Recursos Software y hardware.

Para realizar el proyecto se va a necesitar una serie de recursos tanto

Los recursos hardware que vamos a usar en el proyecto son:

● 4 Ordenador sobremesa Lenovo.

● 4 Monitor 19" LCD HD Dell E1914HEF.

Los recursos software que vamos a usar en el proyecto son:

● 1 Apache Hadoop 2.7.2

● 1 Apache Hive 3.1.2

● 1 Apache Spark. 3.2.3

El presupuesto se ha creado a partir de las herramientas comentadas en el

Cuando hay personas que participan en el desarrollo de un proyecto hay que

En la siguiente tabla se muestra la duración en días y horas que se han

Fase de desarrollo Días Horas

Identificación de las necesidades y planteamiento del 5 30

Búsqueda de aplicaciones y herramientas para el 10 50

Diseño del sistema 8 40

Obtención y análisis del sistema. 20 150

Análisis de los resultados de los datos 10 60

TOTAL 126 500

En total se ha necesitado unas 500 horas para hacer que la persona

En lo que se respecta a las herramientas hardware y software del proyecto he

Herramientas Software usadas en el proyecto:

Cant. Descripción Meses de Uso Precio/Mes Importe

1 Apache Hadoop 3.2.4 6 0 0

1 Apache Spark 3.2.3 6 0 0

Cant. Descripción Precio/Und. Importe

4 Ordenadores sobremesa 399 1596

Uniendo ambos presupuestos se obtiene el siguiente presupuesto general de

En este apartado hablaremos de la planificación del proyecto en la que se

1.5.1. Fases de desarrollo

1. Identificación de las necesidades y planteamiento del problema

2. Búsqueda de aplicaciones y herramientas para el proyecto

El objetivo de esta sección es buscar información sobre herramientas y