Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Página | 1
RESUMEN
Estudio y análisis de las principales arquitecturas y herramientas en el
mercado para la creación de un sistema Big Data que sea el que más se ajuste a los
objetivos del proyecto. Los objetivos son el análisis del mercado financiero de la
industria informática para la resolución de los problemas actuales del mercado
informático como es la escasez de semiconductores.
ABSTRACT
Study and analysis of the main architectures and tools on the market for the
creation of a Big Data system that best suits the objectives of the project. The
objectives are the analysis of the financial market of the computer industry for the
resolution of the current problems of the computer market such as the shortage of
semiconductors.
To process the data and thus avoid repeated or incomplete data within the Big
Data tool that we have selected as the most optimal for the project, we will use the
programming languages Scala and Python.
Página | 2
BLOQUE I
Introducción
Página | 3
1. Introducción y objetivos
En esta sección hablaremos de todos los motivos que me han llevado a
realizar mi TFG sobre el estado actual del mercado de componentes de aparatos
informáticos tanto para explicar como se ha llegado a la situación actual de escasez
de componentes como analizar cómo va a evolucionar el mercado en los próximos
años con los datos actuales.
Página | 4
Ilustración 1:Ventas de ordenadores y móviles entre las fechas 2008-2022.
Página | 5
Con los datos obtenidos de distintas fuentes web accedemos al sistema Big
Data que hemos creado para el proyecto para poder así cargar los datos y proceder
al análisis de dichos datos. Después de realizar el análisis obtendremos unos
resultados con lo cuales nos ayudaran a buscar relaciones entre ellos y a ver cómo
le ha afectado ciertos acontecimientos significativos como puede ser la cuarentena
para así poder tomar hipótesis de cómo se pueden comportar los distintos datos si
sucede otra vez el mismo acontecimiento o alguno similar en el futuro.
En los años 50[1] se crea la memoria virtual, una memoria capaz de procesar
datos sin la limitación del tamaño de la memoria principal de los dispositivos. La
memoria virtual permitía solucionar el problema de la memoria física de los
ordenadores de la época por el cual se hacía imposible almacenar la suficiente
cantidad de datos como para poder realizar un Big Data de forma eficiente.
Página | 6
supuso que se pudiera compartir todo tipo de datos globalmente de una forma muy
sencilla dando así lugar a la primera generación de datos masivos.
Una de las primeras veces que se usa el Big Data para la recolección de
datos por parte de un gobierno y no de una empresa es en 2009 cuando el gobierno
indio decidió tomar un escáner de iris, una huella digital y una fotografía de sus
1.200 millones de habitantes[2].
1.3. Objetivos
● Recolección de datos.
● Realizar un presupuesto que nos permita saber cuánto costaría llevar a cabo
el proyecto.
Página | 7
Para cumplir con los objetivos de realizar un análisis de los problemas
actuales de demanda de componentes electrónicos para aparatos informáticos, este
proyecto va a responder a 3 preguntas relacionadas con dichos problemas para
poder así buscar soluciones para que no existan en el futuro. Las preguntas
realizadas son:
1.4 Presupuesto
En este apartado se va a enumerar todos los gastos que hay que realizar
para llevar a cabo el proyecto.
Recursos humanos.
○ 8GB de RAM.
○ AMD Ryzen 5 3500U.
○ AMD Radeon Graphics.
Página | 8
○ 512GB SSD
● Teclado y ratón.
● 4 Ubuntu 21.0.
● 1 Python 3.1.0
1.4.2 Presupuesto
Recursos humanos
Página | 9
Estudio y selección de las herramientas para el 8 400
proyecto
Conclusiones 5 50
Desarrollo de la memoria 53
Hardware y Software
1 Statista 3 39 117
1 Ubuntu 21.0 6 0 0
1 Python 3.1.0 6 0 0
Total 117
Tabla 2: Herramientas Software.
Página | 10
Herramientas Hardware usadas en el proyecto:
4 Monitores 49 196
4 Teclado y ratón 20 80
Total 1872
Tabla 3: Herramientas Hardware.
Descripción Importe
Desarrolladores 5000
Hardware 1872
Software 117
Total 6989
Tabla 4: Herramientas Hardware.
1.5 Planificación
Nuestro proyecto como cualquier otro proyecto cuenta con distintas fases de
desarrollo que las vamos a explicar a continuación:
El objetivo de esta sección es explicar las razones por las cuales nos ha
llevado a realizar el TFG y de enumerar todos los recursos que se necesitan para
Página | 11
llevar a cabo el proyecto tanto humanos como software y hardware.Tiempo de
ejecución: 5 días.
Página | 12
7. Conclusiones
8. Redacción de la memoria
Página | 13
1.5.2 Diagrama de Gantt
Página | 14
1.6. Estructura del documento
Capítulo I: Introducción
En este capítulo se van a dar las conclusiones obtenidas del análisis de datos
obtenidos del Big Data del capítulo anterior y se van a comentar algunas líneas
futuras donde el trabajo realizado en este TFG resultará útil.
Página | 15
Capítulo VI: Anexos
En este capítulo se incluyen todos los anexos del proyecto (Se incluye la
instalación de todos los componentes necesarios para el funcionamiento del sistema
diseñado. Incluye también el procedimiento de obtención, transformación y análisis
de datos).
Página | 16
BLOQUE II
Página | 17
2. Análisis de datos
2.1.1 Introducción
Big data[3] hace referencia a conjuntos de datos tan grandes y complejos que
precisan de aplicaciones informáticas no convencionales para procesarlos
adecuadamente. Este aumento del volumen de datos,las empresas lo utilizan para
identificar patrones y comportamiento de las personas y así poder adaptar sus
productos a las necesidades de la población.
Página | 18
Ilustración 4: Previsión de crecimiento mundo Big Data.[4]
Hay 5 pasos a seguir para crear y hacer funcionar un sistema Big Data desde
cero que son[5]:
● De datos que provienen del Internet de las Cosas (IoT) y su mayor ventajas
es que puede ser analizados en tiempo real permitiendo saber si son útiles
para el sistema o no.
Página | 19
● De datos que son públicos como puede ser data.gov del gobierno de los
Estados Unidos y datos financieros en Yahoo Finance.
En este paso las empresas toman las decisiones a partir de los resultados
obtenidos tras el paso anterior.
Biométricos
En esta sección se incluyen los datos que aportan los seres humanos a partir
de las características físicas,por ejemplo, la retina y las huellas dactilares. Cada uno
de estos identificadores se considera únicos para cada persona y se pueden usar
por ejemplo en el reconocimiento de la población civil en la calle para poder detectar
así a delincuentes y unos de los primeros países que introdujo el Big Data
biométricos con la función antes comentada fue China.
Página | 20
Transacciones
En esta sección se incluyen todos los datos que el ser humano genera en su
vida cotidiana, por ejemplo, emails y mensajes.
Página | 21
En función de su estructura, los datos pueden ser:
Estructurados
Los datos estructurados son datos ordenados. Aquí se agrupa los datos cuyo
formato está definido, al igual que su tamaño y su longitud. Ejemplos de datos
estructurados son: Hoja de Excel,SQL.
No estructurados
Datos híbridos
Página | 22
2.1.4 Aplicaciones de Big Data
Educación
Es uno de los que ha experimentado una mayor aplicación práctica del Big
Data en los últimos años.Las aplicaciones del Big Data permiten:
Salud
Ciberseguridad
Página | 23
Ilustración 7: Aplicaciones de Big Data[8]
Página | 24
Ilustración 8: Esquema de las 5V. [9]
Ventajas.
Página | 25
Desventajas.
1. El exceso de datos.
2. Ciberseguridad.
2.2.1 Introducción
Página | 26
Ilustración 9: Metodología presente en un proceso de minería de datos. [10]
Las principales diferencias entre Big Data y minería de datos son las
siguientes:
● Es capaz de analizar bases de datos que tienen una gran cantidad de datos.
Página | 27
Una de las desventajas de la minería de datos es que dependiendo del tipo
de datos que se quiera recopilar, nos puede llevar mucho trabajo realizar el análisis
para obtener patrones que nos facilite el entendimiento de dichos datos .
Las técnicas de minería de datos más utilizadas en el mundo del Big Data
son [11]:
1. Árboles de decisión
Página | 28
Ilustración 10 :Árbol de decisión.
Los pasos a seguir para realizar un análisis en un árbol de decisión son los
siguientes:
● Definir el problema.
Si quiere saber más información sobre los árboles de decisión como por es
un ejemplo práctica del uso de árboles de decisión en la minería de datos consulte
los siguientes enlaces:
● https://www.cs.us.es/~jalonso/cursos/ra-00/temas/tema-12.pdf.
● https://www.conectasoftware.com/magazine/analytics/arboles-de-decisiones-e
n-la-mineria-de-datos/ .
Página | 29
2. Redes neuronales
Hay tres partes normalmente en una red neuronal : una capa de entrada(input
layer), con unidades que representan los campos de entrada; una o varias capas
ocultas(hidden layer), y una capa de salida(output layer). Las unidades se
conectan con fuerzas de conexión variables (ponderaciones).
Todas las ponderaciones son aleatorias y las respuestas que resultan de la suelen
ser dispares por ello la red neuronal debe llevar a cabo un proceso de aprendizaje
para ajustar los valores de las ponderaciones este proceso se llama entrenamiento.
● https://acortar.link/60nxJv
● https://oa.upm.es/21834/1/ANGEL_LUIS_CASTELLANOS.pdf
● http://www.cs.us.es/~fsancho/?e=165
3. Regresión lineal
Página | 30
explicativas o variables predictivas. La variable dependiente, y, se traza en el eje
vertical.
● https://aws.amazon.com/es/what-is/linear-regression/ .
● https://carlosaguero.gitbooks.io/resumen-mineria-de-datos-1/content/regresion.html .
4. Clustering
Página | 31
Ilustración 14: Clustering.
● https://www.unioviedo.es/compnum/laboratorios_py/kmeans/kmeans.html.
● https://www.universidadviu.com/es/actualidad/nuestros-expertos/claustering-q
ue-es-y-que-aplicaciones-tiene
2.3 Conclusiones
Página | 32
con el objetivo de mostrar porque se han seleccionado estos conceptos como
puntos clave para el desarrollo del TFG.
Página | 33
BLOQUE III
Página | 34
3. Arquitecturas Big Data
Ventajas
Página | 35
Desventaja
Ventajas.
Página | 36
Desventaja.
3.3 Cluster
Ventaja
Desventajas
Página | 37
● Aumento de la complejidad de gestión y mayor probabilidad de error de un
operador al realizar tareas de gestión.
Ventajas
Página | 38
● Inexistencia prácticamente de una inversión en hardware.
Desventajas
3.5 Conclusiones
Tras ver las ventajas y desventajas de cada una de las posibles estructuras
que puede tener el sistema Big Data me he decidido por tener 2 arquitecturas
distintas para adaptarse a diferentes necesidades que son: una arquitectura
pseudo-distribuida y un cluster. No hemos elegido implementar una arquitectura de
computación elástica porque no quiero que ninguna empresa que no sea la empresa
donde se implemente el sistema Big Data tenga acceso a los datos aunque la
computación elástica sea más eficiente y barata que las opciones elegidas.
Página | 39
4. Aplicaciones utilizadas en el proyecto.
Página | 40
4.1 Apache Hadoop.
4.1.1 Introducción.
Página | 41
Ventajas
Desventajas
Página | 42
Ilustración 22: Visión general arquitectura HDFS. [18]
HDFS tiene un modelo Write once read many ,es decir, escribe una vez lee
muchas veces.
Página | 43
Ilustración 24: Proceso de lectura en HDFS.
MapReduce.
Página | 44
La fase Shuffle es el paso intermedio entre Map y Reduce que ayuda a
recoger los datos y ordenarlos de manera conveniente para el procesamiento.
4.2.1 Introducción
Página | 45
● Spark Core: Es un motor distribuido de uso general para procesar datos.
● Spark SQL: Es una librería de Spark que permite utilizar datos estructurados.
Ofrece un método común para acceder a fuentes de datos diversas.
● Ejecuta las cargas de trabajo 100 veces más rápido que con Hadoop
MapReduce.
● Spark permite usar las librerías antes explicadas para poder realizar sobre
Spark muchas tareas.
● Puede compenetrarse con otra arquitectura Big Data: Puede utilizar ficheros
de HDFS o procesos de YARN entre otras.
● Tiene una consola interactiva para poder trabajar con mayor facilidad.
Página | 46
Los componentes que forman Apache Spark son[22]:
Página | 47
Las transformaciones en RDD crean nuevos bloques RDD y la única forma
de obtener resultados de los RDD es aplicando acciones como se muestra en la
imagen de arriba.
Jupyter
Página | 48
En este proyecto se va a usar Jupyter con el lenguaje de programación
Python para usar la librería PySpark para trabajar en Spark.
● Interfaz intuitiva.
4.3 Lenguaje R
Los principales motivos por los que R es ideal para el Big Data son:
● Comunidad: Tiene una gran cantidad de usuarios que apoyan este lenguaje
y que crean recursos relacionados con R.
Página | 49
● Adquisición de los datos: bases de datos, archivos de texto, etc.
4.4 Python
Python es un lenguaje de programación de software libre
ampliamente utilizado en las aplicaciones web,la ciencia de datos y
el machine learning. Los desarrolladores utilizan Python porque es
eficiente y fácil de aprender, además de que se puede ejecutar en
muchas plataformas diferentes.
La razones para elegir Python para los proyectos relacionados con Big Data
son:
Página | 50
Uso
4.5 Elasticsearch
Ventajas
Desventajas
Usos.
Página | 51
● Analítica de Seguridad.
Página | 52
Apache Hadoop Apache Spark
Trabaja con MapReduce que almacena Trabaja en memoria RAM.
los resultados en disco.
Requiere un cluster que cuente con más Necesita un cluster que cuente
discos y que sean más rápidos para el con mucha memoria RAM.
procesamiento.
4.6.3 R vs Python.
R Python
Es un lenguaje orientado al análisis Es un lenguaje de alto nivel multipro-
estadístico. pósito utilizado en muchos campos.
Página | 53
Elasticsearch Apache Spark
Utilizado principalmente como motor Se utiliza para analizar un gran volumen
de búsqueda. de datos.
4.7 Conclusiones.
Hemos elegido usar Apache Spark para nuestro proyecto porque es la mejor
herramienta para realizar un análisis Big Data en una infraestructura de clusters
aunque lo vamos a combinar con Apache Hadoop para usar el Hadoop Distributed
File System(HDFS) ya que sistema de distribución de fichero hadoop es más
eficiente que el sistema de distribución de ficheros que tiene Apache Spark por
defecto que es ninguno.
Por otro lado usaremos Scala y Python para programar sobre Apache Spark
ya que son dos lenguajes de programación muy comunes para el análisis de datos a
gran escala, son compatibles con Apache Spark y la información que hay en internet
sobre ambos lenguajes de programación en el ámbito del análisis de datos es mayor
que el que tiene R.
Página | 54
BLOQUE IV
´´
Página | 55
5. Recogida de datos
5.1 Introducción
Para este capítulo tendremos que tener instalado todas las herramientas
necesarias para el desarrollo del proyecto, los pasos a seguir para instalar y
configurar todas las herramientas que vamos a usar en el proyecto se encuentran
descriptas en el Anexo 7. INSTALACIÓN Y CONFIGURACIÓN. En el anexo a parte
de instalar y configurar herramientas también viene los pasos que hay que seguir
para crear un cluster que contenga todas las herramientas que vamos a usar en el
proyecto.
Página | 56
vacíos que hay desde la fechas que hemos elegido en el proyecto para hacer el
análisis hasta la fecha que buscamos para hacer el nuevo análisis.
Para obtener los datos necesarios del proyecto se ha hecho una búsqueda
por internet de distintas páginas web con datos financieros de la mayoría de
empresas tecnológicas del sector informático y he decidido quedarme con los datos
obtenidos de la página web Yahoo Finance.
Yahoo Finance[32] es una página web que tiene los datos de los valores de
las acciones de la gran mayoría de empresas en cada una de las bolsas donde está
dicha empresa. Los datos de las empresas que hay en página web están muy
completos y es poco común que te encuentres algún campo vacío de una empresa
en un día en concreto. Además de lo dicho anteriormente Yahoo Finance tiene otra
ventaja y es que puedes descargar la información en un formato compatible con
Apache Spark como es el formato ‘.csv’.
Fuentes de información.
En esta tabla se muestra los .csv con datos agrupados en días de las
empresas que vamos a usar durante el proyecto:
Página | 57
TSMC_NYSE 264 2008-2022 3696
Tras tener todos los ficheros con los datos del proyecto vamos a analizar qué
estructura tiene los ficheros .csv que hemos descargado para poder así crear las
tablas donde se insertará los datos de dichos ficheros para que tras tenerlos
cargados en las tablas podamos transformar y analizarlos mediante las
herramientas que nos hemos instalado.
Cabecera Descripción
Página | 58
Volume Cantidad de transacciones de las
acciones sobre el mercado.
De la tabla anterior las columnas que nos interesa para el proyecto son la
columna “Date” y la columna “Close”, por lo tanto vamos a filtrar dichas columnas y
crear un nuevo excel que contenga las columnas. Tras obtener el nuevo excel y que
los valores contenidos en la columna Close tenga los valores según el valor que
tenga la moneda Dollar. La estructura de los ficheros .csv resultantes son:
Cabecera Descripción
Antes de empezar a analizar los datos que hay en el sistema Big Data vamos
a enseñar la situación actual del mercado tecnológico y las preguntas que
intentaremos responder con el análisis de datos hechos con el sistema Big Data.
Página | 59
Ilustración 35: Demanda de obleas desde 2006-2026. [33]
Estos datos van acompañados de esfuerzos por producir 24/7 para intentar
satisfacer la demanda y de la creación de nuevas fábricas llegando las primeras
fábricas de SUMCO en 2024 y el resto de sus fábricas en 2025.
Para saber a qué se debe la falta de semiconductores hay que saber qué
empresas son las encargadas de fabricar los semiconductores más avanzados
como lo son 10 nm, 7 nm y 5 nm que se usan actualmente en los dispositivos
informáticos.
Página | 60
En la siguiente imagen muestra qué empresas han fabricado
semiconductores desde el 2000-2022 y cual es el tamaño de los semiconductores
que fabrican o fabricaban a lo largo de esas fechas. En la imagen también se
muestra cómo a lo largo del tiempo las empresas encargadas de la fabricación de
semiconductores han dejado de fabricar semiconductores más avanzados debido al
coste de las tecnologías para la fabricación de dichos semiconductores.
Página | 61
● ¿Cómo afecta la escasez de materias primas a la producción de
semiconductores y otros componentes para la fabricación de productos
informáticos?
Antes de que se produzca el análisis de datos hay que hacer cambios en los
csv que contiene dichos datos, los cambios son:
● Crear una nueva columna en el .csv con los valores de la columna “Close”
adaptados a la moneda del Dólar.
● Eliminar del csv todas las columnas menos la columna que corresponde a las
fechas de los datos y la columna que acabamos de crear.
● Crear un nuevo fichero csv en el que van almacenar todos los cambios que
se han realizado.
import findspark
findspark.init()
import pandas as pd
import pyspark
csv_mof=csv_df.withColumn(“Close_Mod”,(csv_df[“Close”]*IntercambioMoneda))
csv_result=csv_mof.select(‘Date’,’Close_Mod’)
csv_result.write.option(“header”,True).csv(“data/InfineonModificado”)
Página | 62
Los comandos que se tiene que ejecutar para modificar los .csv en los que los datos
ya están en dollar son idénticos a los que hemos mencionando anteriormente habría
que eliminar la línea donde se calcula la nueva columna “Result” con los datos de la
columna “Close” y modificar el select para que se haga select de la columna “Date”
y de la columna “Close”. El código final sería:
import findspark
findspark.init()
import pandas as pd
import pyspark
csv_result=csv_df.select(‘Date’,’Close’)
csv_result.write.option(“header”,True).csv(“data/InfineonModificado”)
5.4 Conclusiones
En este bloque hemos explicado cómo hemos obtenido los datos que se van
a usar y cómo lo hemos transformado para poder obtener solo los datos útiles para
este proyecto. También hemos descrito la situación actual del mercado de los
semiconductores y de los problemas de escasez que está viviendo para que gracias
y nos hemos realizado algunas preguntas para saber como se ha llegado a la
situación y cómo darles solución, esto gracias a los datos transformados
mencionados anteriormente.
Página | 63
BLOQUE V
Resultados de los Datos
Página | 64
6. Conclusiones del proceso de análisis.
6.1 Introducción
Página | 65
Ilustración 38: Producción global de semiconductores. [35]
Página | 66
En la imagen se puede observar que la mayoría de empresas relacionadas
con la fabricación de semiconductores se vieron afectadas en el primer año de las
sanciones ya que aunque el gobierno EEUU dio ayudas a las empresas para que
hicieron su producción en el país, muchas de las empresas tenían las fábricas en
EEUU al 100% de su capacidad y no habían podido construir nuevas fábricas en un
periodo de tiempo tan pequeños(una fábrica tarda entre 3 a 4 años en construirse).
Las empresas más afectadas debido a la ley de Donald Trump fueron las
empresas que tenían muchas fábricas en China como Samsung, Intel y en menor
medida TSMC y entre las empresas chinas de fabricación de semiconductores fue
SMIC.
Los resultados de la ley de Trump para las empresas en los dos primeros
años de la implementación fueron:
Página | 67
Samsung: En las sanciones de marzo las acciones de la empresa pasaron
de valor 38,91 dólares a caer un 14.21% y valer 35,42 dólares después de un mes
de la sanción y en la sanción realizada en junio sus acciones pasaron de valer 36,2
dólares a caer aproximadamente 8,37%y valer 33,1 dólares.
Esta situación de teletrabajo provocó que las personas comprarán todo tipo
de aparatos informáticos relacionados con el teletrabajo como puede ser
ordenadores, smartphones y tablets aunque los productos estuvieran en un precio
superior al precio de venta al público. Este aumento de ventas se refleja por ejemplo
en España ya que las ventas en ordenadores portátiles aumentaron en torno a un
27% con respecto a 2019, lo que se traduce en unas 450.000 unidades más
vendidas qué 2019.
Este aumento de ventas provocó que todas las empresas relacionadas con
los semiconductores se pudieran recuperar de las caídas de beneficios en 2018 y
2019 que les supusieron todas leyes de Donald Trump comentadas anteriormente
este aumento de ventas se produjo principalmente entre el año 2020 y 2021.
Página | 68
compañías relacionadas a la fabricación de semiconductores y los chips entre los
años 2017 a 2022 se encuentra en el 9.3 Gráficos relacionados a los ingresos y
beneficios brutos de las empresas entre 2017-2022).
Página | 69
En la siguiente imagen se muestran los ingresos de las compañías antes
mencionadas durante el periodo entre 2017 al 2022 para que se pueda observar
cómo las leyes de Donald Trump, el Covid 19 y la guerra de Ucrania les han
afectado a los ingresos [37].
Antes de saber cuántas fábricas hay que crear para satisfacer las demanda
de semiconductores vamos a mostrar donde están situadas las fábricas de
producción de semiconductores de los 6 mayores fabricantes del sector. Esto para
saber qué empresas son más propensas a invertir en construir plantas de
fabricación y en qué países son los más seleccionados para crear dichas fábricas.
Página | 70
Ilustración 42: Mapa de fábricas de semiconductores .[38]
Página | 71
En la siguiente tabla se muestra la cantidad de fábricas que tiene cada una
de las empresas que aparecen en la imagen anterior[39], su localización y datos
sobre la producción de obleas de la empresa(Si quiere obtener información más
detallada sobre la producción de cada fábrica de cada empresa visite el apartado
Producción de obleas según su tamaño en el Anexo II).
La cantidad de chips que pueden salir de una oblea de silicio depende del
tamaño de la oblea y del nodo de fabricación en el que queramos crear el chip.Los
chips que pueden ser obtenidos de una oblea con un proceso de fabricación más
avanzados pueden llegar a los miles aunque el porcentaje de chips defectuosos es
mayor que los chip cuyo proceso de fabricación es más antiguo ya que este último
está más pulido que pueden producir centenares de chips en una misma oblea por
ejemplo cuando salio el chip Apple A14 el primer chip con nodo de fabricación de 5
nm el nodo no estaba muy pulido y se obtenía de una oblea 600 chips[41].
Página | 72
Debido al alto coste de la creación de las fábricas y a la gran dependencia de
las fábricas taiwanesas, países como China y Estados Unidos y la Unión Europea
han aprobado ayudas a las empresas que fabrican semiconductores para que
construyan sus fábricas en sus países. Las ayudas antes mencionadas están
creadas con el objetivo de que si Taiwán es invadida por China tenga
semiconductores suficientes para satisfacer su demanda tanto en el ámbito de lo
civil como en el armamentístico.
Página | 73
Ilustración 43: Gasto en equipos de fabricación entre 2014-2020.
Página | 74
Un ejemplo del alto precio de las máquinas ASML y de la importancias que
tiene las máquinas de ASML para la fabricación de semiconductores que Samsung
ha invertido 11.000 millones de dólares este año en máquinas tanto para aumentar
su producción de chips de 7 y 5 nm como para empezar la fabricación de los chips
de tamaño de 5 nm. Otra empresa que se ha gastado recientemente mucho dinero
en máquinas con litografía de EUV ha sido TSM que compró en 2021,13 máquinas
para ampliar su producción de 7nm y las máquinas más avanzadas para el proceso
de fabricación de 3 nm que anunciaron la producción de chips en masa para el
2024.
En la siguiente imagen se muestra como han sido los ingresos anuales de las
3 mayores empresas de fabricación de máquinas para la litografía.
Página | 75
SMIC la empresa de fabricación de semiconductores más grande de China
también está realizando una inversión de 40 mil millones de dólares en fábricas para
la creación de chip con nodo de fabricación a 24 nm con el objetivo que en un futuro
tras las finalización de las sanciones de EEUU a China pueda comprar la
maquinaria necesaria para la puesta en marcha de las fábricas ya que China
actualmente solo puede construir el 40% de las máquinas necesarias para la
fabricación de chips con nodos más avanzados como son los 10 nm.
Página | 76
Ilustración 45: Porcentajes de ventas de tipos de coches hasta el 2025.
Ilustración 46: Comparación de ventas de móviles según la región en el año 2019 y 2025.
Página | 77
Por lo tanto, la demanda de semiconductores aumentará con respecto a la
actualidad por lo que es muy importante construir nuevas fábricas a medio y largo
plazo para poder satisfacer dicha demanda de semiconductores y que no suceda la
escasez que afecta al sector desde 2018 a 2023.
Página | 78
Si quieres saber más información sobre qué nodo de fabricación usa cada
empresa de fabricación de chip mencionada y sobre qué tamaño de oblea se fabrica
dicho chip consulte el anexo.
6.4.1 Electricidad
Página | 79
Ilustración 47:Consumo de energía de los 6 principales fabricantes de chips.
En las siguientes imágenes se muestran los precios de los barriles desde el año
2000 hasta el año 2022 y el precio del gas entre 2013 y 2022 para que se pueda
Página | 80
observar de una forma sencilla como el precio de ambos combustibles han
aumentado los precios estos últimos años.
Ilustración 48:Precio de los barriles de petróleo entre los años 2000-2022. [45]
Ilustración 49: Precio del gas natural entre los años 2013-2022.
En la imagen superior se puede observar como los precios del gas en los 3
principales mercados sufrió un aumento exponencial y también sufrió un aumento el
precio del petróleo ambos debido a las razones que ya hemos descripto
previamente.
Débito a todo lo descrito en esta sección las empresas se han puesto como
objetivo que en 2050 todas sus fábricas sean 0% contaminantes para reducir el
gasto de energía usando energías renovables que son más baratas que el petróleo
y gas natural y la otra razón es evitar un aumento de residuos a la atmósfera.
Página | 81
6.4.2 Agua
Ilustración 50: Gasto anual de agua en los mayores fabricantes de chips entre 2015 y 2021.
El problema del agua va a ir a peor debido a que las nuevas fábricas con las
nuevas máquinas para fabricar mejores semiconductores van a provocar un
consumo mayor de agua y el periodo de sequías va a aumentar a lo largo de los
próximos años como se muestra en la siguiente imagen:
Página | 82
Ilustración 51:Comparación del porcentaje de sequía entre el año 1995 y el 2025. [46]
Página | 83
tiene como objetivo ahorrar 28 millones de toneladas de agua pura para 2030.
También en 2022 se puso en marcha en STSP (Parque Científico del Sur de Taiwán)
la primera planta de agua exclusiva en la que se reutiliza el agua residual de otras
fábricas de la compañía para convertirla otra vez en agua útil para la fabricación de
chips, esta fábrica proporciona 10.000 toneladas de agua diaria y tiene como
objetivo proporcionar 36.000 toneladas de agua en 2026. Actualmente el consumo
de agua diaria supera las 60 piscinas olímpicas(156.000 toneladas de agua) esto es
debido a que es necesaria para limpiar las docenas de capas de metal que forman
un semiconductor.
Intel también es una compañía muy concienciada con el uso responsable del
agua y tiene como objetivo la restauración de agua en toda sus fábricas para el
2030. Debido al objetivo mencionado Intel anunció en 2022 que las fábricas situadas
en la India,Estados Unidos,Costa Rica tenían un balance neto positivo del consumo
de agua.
Ilustración 53: Porcentaje de reutilización del agua usada en las fábricas de semiconductores.
Página | 84
6.4.3 Obtención de obleas para la fabricación de chips
Página | 85
en 2021 de nuevos edificios en las plantas para aumentar la
producción.
Ilustración 55: Ganancias de los fabricantes de obleas de silicio entre los años 2012 al 2022.
Página | 86
Las consecuencias de las sanciones fueron que los compradores de obleas
de silicio de China tuvieran muy difícil poder seguir comprando la misma cantidad de
obleas a las empresas que actualmente se las vendía debido al miedo de estas
últimas de poder vender obleas a empresas EEUU como es Intel. Este miedo lo que
provocó que las empresas China tuvieran que buscar vendedores de obleas dentro
de su propio país aunque les fue difícil poder comprar todas las obleas necesarias
para la producción del 100% de sus fábricas debido a que China no estaba
preparada para satisfacer la nueva gran demanda de obleas en un periodo tan a
corto plazo.
6.5 Conclusiones
Las conclusiones obtenidas del TFG son que el mayor cuello de botella en la
fabricación de chip no se encuentra en las fábricas que se dedican a fabricarlas si
no en la empresa que se dedican a fabricar la maquinaría necesaria para crear los
semiconductores más avanzados que son los necesarios para la fabricación de los
ordenadores y portátiles más avanzados, tarjetas gráficas, automóviles, las armas
militares más avanzadas,etc. La empresa es ASML y es la que tiene el monopolio
de la creación de las máquinas que usan la litografía EUV para fabricar los
semiconductores con un nodo de fabricación igual o menor a los 10 nm y es que
debido a que tiene el monopolio, la obtención de las máquinas suele ser muy
compleja. Son tan importantes las máquinas de la compañía ASML que debido a la
prohibición de la compañía por parte de EEUU de hacer negocios con China, está a
tenido que paralizar gran parte de su estrategía para no tener que depender de los
semiconductores de otros países(principalmente Taiwán) y utilizar máquinas menos
avanzadas tecnológicamente para las fábricas que se estaban construyendo para
albergar las máquinas de ASML como es el caso de la empresa SMIC.
Las razones para que las máquinas ASML sean muy difíciles de obtener son:
Página | 87
Ayudas económicas de la Unión Europea para que ASML construya nuevas
fábricas con el objetivo que puedan aumentar su producción en un futuro a
medio-largo plazo y ser un socio preferente a la hora de comprar las máquinas que
fabriquen en un futuro.
Esta situación hace que sea urgente que la Unión Europa tome medidas para
hacer que a las empresas relacionadas al sector del semiconductores como son
empresas de encapsulación,fabricantes de semiconductores y fabricantes de obleas
decida invertir su dinero en construir fábricas dentro del territorio europeo y para ello
habría que darle facilidades fiscales a las empresas durante varios años por ejemplo
una década y ayudar en la construcción de las fábricas a las empresas pagando un
porcentaje de dichas construcciones. Estas medidas las están ya realizando países
dentro de la Unión Europea como lo son Francia,Alemanía e Italia para llamar la
atención a las empresas de este sector y consiguiendo que empresas como Intel y
GlobalFoundries.
Página | 88
Para conseguir Europa lo antes mencionado la inversión que tendría que
realizar sería mínimo el tiple a la inversión anunciada el año pasado de 43.000
millones de euros y es que Europa es de entre los mercados principales en el
consumo de semiconductores el que tiene una peor situación en lo que respecto a la
creación desde 0 de semiconductores hasta su venta a otra empresas para fabricar
productos como gráficas o para venderlo al público general. Esta situación queda
reflejada en que no haya el suficiente número de fabricantes de obleas para
satisfacer la demanda propia si por alguna razón EEUU sanciona a Europa sin
poder comprar dicho producto y tampoco existe el número necesario de fábricas de
creación de semiconductores para satisfacer el objetivo de Europa de aumentar su
cuota de mercado pasando del 10% al 20%.
Página | 89
7. Líneas futuras.
7.1. Introducción.
Página | 90
podido cumplir el objetivo de diseñar e implementar un sistema Big Data eficiente,
escalable que permita hacer un análisis del ecosistema informático.
Página | 91
Las líneas futuras del proyecto pueden ser varias:
Página | 92
BLOQUE VI
Anexos
Página | 93
ANEXO I: Instalación y configuración
1. Introducción
Para poder instalar Ubuntu en una máquina, hace falta cumplir una serie de
requisitos mínimos de hardware proporcionados por la misma Ubuntu:
Página | 94
2.1.3. Creación de la máquina virtual
Las máquinas virtuales que formarán las arquitecturas del proyecto tienen
las mismas características que son:
● Tipo: Linux.
● Versión: Ubuntu.
● Tamaño de memoria: 6GB de memoria RAM a cada máquina.
● Disco duro: es necesario crear un disco duro virtual VDI (VirtualBox Disk
Image) reservado dinámicamente el tamaño para que la memoria de la
máquina virtual aumente según lo requiera el proyecto evitando así que se
desperdicie memoria del dispositivo e inicialmente cada máquina virtual
tendrá un tamaño de 30GB.
Los pasos que hay que seguir para la creación de de la máquina virtual son:
Página | 95
Ilustración 56:Instalación máquina virtual
Página | 96
Ilustración 58: Selección de disco duro.
Página | 97
Ilustración 60:Selección del tipo de almacenamiento.
Página | 98
Ilustración 62: Arranque Ubuntu cargado.
Página | 99
Ilustración 64: Cambio del número de procesadores.
Página |
100
2.2. Topología de red
Ahora debemos asignar las direcciones IP y los nombres a cada una de las
máquinas que deseamos que conforman nuestra red, para ello, añadimos los
nombres de todos los nodos en /etc/hosts en todas las máquinas que vayamos a
emplear. La siguiente tabla muestra los nombres que van a tener cada maquina del
proyecto con su ip y función asociada:
Hostname IP Funcion
Página |
101
3. Instalación programas auxiliares
En esta sección se van a dar todos los pasos necesarios para la instalación
de todos los programas necesarios para el funcionamiento de Apache Spark y
Hadoop.
3.1. Java
En este paso se instalará Java esto porque Hadoop está escrito en Java. Vale tanto
la versión openJDK como la de Oracle. La versiones 3.XX de Hadoop son
compatibles en tiempo de ejecución con Java 11 y Java 8.
Se elige usar Java JDK 8 porque es el mínimo que se requiere para hacer funcionar
cualquier versión de Hadoop 3.XX que es la que hemos elegido y para que si se
quiere cambiar a una versión inferior de Hadoop no surjan problemas con la versión
de Java.
java -version
Página |
102
Comando para instalar Anaconda:
$ bash ./ Anaconda3-2023.03.sh
python3 –version
Página |
103
Ilustración 70: Instalación de nb_conda_kernels.
Ahora que hemos instalado las herramientas necesarias para usar Spark
vamos a descargar Spark[32] en nuestra máquina desde la página web
https://Spark.apache.org/downloads.html y descomprimimos el contenido en nuestro
directorio.
Página |
104
mv ~/spark-3.2.4-bin-without-hadoop ~/spark
export SPARK_HOME="/home/master/spark/”
source ~/.bashrc
cd spark
bin/pySpark
Página |
105
5. Instalación Hadoop
export HADOOP_HOME="/home/master/hadoop-2.9.0"
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native:$LD_LIBRARY_PATH
Página |
106
Ilustración 75: Archivo .bashrc con la configuración de Apache Hadoop.
source ~/.bashrc
6. Acceso SSH
sudo su
reboot
Ahora debemos asignar las direcciones IP y los nombres a cada una de las
máquinas que deseamos que conforman nuestra red, para ello, añadimos los
Página |
107
nombres de todos los nodos en /etc/hosts en todas las máquinas que vayamos a
emplear.
192.168.2.101 master
192.168.2.102 esclavo1
192.168.2.103 esclavo2
192.168.2.104 esclavo3
ssh-keygen
Página |
108
Ilustración 77: SSH clave RSA.
En el sexto paso es enviar la clave RSA de la máquina master a cada uno de los
esclavos que van a componer el cluster para que se pueda realizar la comunicación
entre las máquinas virtuales. El comando para enviar la clave RSA a las máquinas
esclavas es el siguiente:
Página |
109
7. FindSpark
8. Py4j
9. Jupyter Notebook
jupyter notebook
Página | 110
Ilustración 80 :Entorno Jupyter navegador.
Página | 111
ANEXO II: Pasos para iniciar el cluster.
1. Introducción.
2. Iniciar clúster
Para iniciar el servidor maestro se tiene que ejecutar la máquina virtual cuya
función en el cluster es la de maestro, el siguiente comando se tiene que ejecutar
dentro del directorio donde se encuesta Apache Spark:
./sbin/start-master.sh -h 192.168.2.101
Página | 112
-
2.2.Conectar esclavos
Para iniciar las máquinas esclavas que van a componer el cluster Spark se
tiene que ejecutar el siguiente comando dentro del directorio Spark :
./sbin/start-slave.sh spark://192.168.2.101:7077
3. Finalizar clúster
En esta sección se enumera todos los comandos para detener el cluster, los
comandos se tienen que ejecutar desde la carpeta donde esté instalado Apache
Spark, en nuestro caso /home/master/spark:
#Ejecutar en cada máquina esclava el siguiente comando para eliminarlo del cluster
./sbin/stop-slave.sh spark://192.168.2.101:7077
Página | 113
#Detener la máquina master
./sbin/stop-master.sh
Página | 114
ANEXO III:Gráficos
1. Introducción
● Intel
● AMD
Página | 115
● Samsung
● SMIC
● Sumco
Página | 116
● GlobalWafers
● UMC
Página | 117
3. Relacionados a los ingresos de las empresas
fabricantes de semiconductores
Se van a mostrar los gráficos relacionados a los ingresos de las empresas que
hemos estudiado para el proyecto a lo largo de los años 20089 al 2022,todos los
valores que se van a mostrar van a estar en la moneda oficial de EEUU que es el
dólar,esto es para que resulte más fácil la comparativa entre las empresas y obtener
resultados de una forma más clara y rápida.
● Intel
● Qualcomm
● Samsung
Página | 118
Ilustración 95: Ingresos anuales de Samsung.
● SMIC
● TSMC
Página | 119
● UMC
● Intel
Ilustración 99: Consumo total de energía de las fábricas de Intel entre 2015 y 2022.
● TSMC
Página |
120
Ilustración 100: Consumo total de energía de las fábricas de TSMC entre 2015 y 2021.
● Samsung
Ilustración 101: Consumo total de energía de las fábricas de Samsung entre 2015 y 2021.
● GlobalFoundries.
Ilustración 102: Consumo total de energía de las fábricas de GlobalFoundries entre 2015 y 2021.
● UMC.
Página |
121
Ilustración 103: Consumo total de energía de las fábricas de UMC entre 2015 y 2021.
● SMIC.
Ilustración 104: Consumo total de energía de las fábricas de SMIC entre 2015 y 2021.
● TSMC
Página |
122
Ilustración 105: Consumo total de agua de las fábricas de TSMC entre 2015 y 2021.
● Intel
Ilustración 106: Consumo total de agua de las fábricas de Intel entre 2015 y 2021.
● Samsung
Página |
123
Ilustración 107: Consumo total de agua de las fábricas de Samsung entre 2015 y 2021.
● GlobalFoundries
Ilustración 108: Consumo total de agua de las fábricas de GlobalFoundries entre 2015 y 2021.
● UMC
Ilustración 109: Consumo total de agua de las fábricas de UMC entre 2015 y 2021.
Página |
124
● SMIC
Ilustración 110:Consumo total de agua de las fábricas de SMIC entre 2015 y 2021.
ANEXO IV:Tablas
1. Introducción
Página |
125
A continuación, en este apartado se mostrarán tablas relacionadas con
información dada en el proyecto para complementar dicha información.
● TSMC
6 300
5, 3 240,000
350,250,180,160 107.000
● Intel
Página |
126
procesos(nm) /mes)
22, 14, 10
9 300
43, 32
14
22
10
Intel 4(previamente
7 nm)
Tabla 16: Lista con los nodos de fabricación y el tamaño de obleas que se utilizan en Intel.
● Samsung
3 200.000
65-28 50.000
65-8 62.000
5 350.000
● GlobalFoundries
Página |
127
fábricas oblea(mm) tecnología de producción(obleas
procesos(nm) /mes)
12 133.000
3 300
130-40 70.000
14, 12 60.000
600-350 56.000
3 200
350-180 54.000
350-90 50.000
Tabla 18: Lista de fábricas y producción de obleas de GlobalFoundries.
● SMIC
180–55 52,000
40–28 71,000
7 300
28 340.000
● UMC
Página |
128
procesos(nm) /mes)
28,14 87.000
55–28 25.000
250 67.000
350–110 37.000
7 200
90 31.000
180 37.000
150 40.000
350–250 31.000
Bibliografía
Página |
129
[1] Origen de Big Data. (Marzo de 2022). Obtenido de
https://ayudaleyprotecciondatos.es/big-data/#Origen_e_historia
Página |
130
[13] Esquema general del funcionamiento de un Cluster.Obtenido de
http://www.saber.ula.ve/bitstream/handle/123456789/16051/articuloberticlusters.pdf?sequence=1&isA
llowed=y
Página |
131
[29] Diferencias entre Spark y Elasticsearch (Noviembre de 2022). Obtenido de
https://db-engines.com/en/system/Elasticsearch%3BSpark+SQL
[30] Michael Galarnyk. Install Anaconda on Ubuntu (Python) [en línea]. (Marzo de 2023)
Obtenido de: https://www.youtube.com/watch?v=jo4RMiM-ihs
[31] Michael Galarnyk. Install Spark on Ubuntu (PySpark) + Configure Jupyter Notebook [en
línea]. (Marzo de 2023). Obtenido de:
https://www.youtube.com/watch?v=uhVYTNEe_-A&t=16
[37] Ganancias de las empresas del sector de los semiconductores. (Marzo de 2023).
Obtenido de https://www.macrotrends.net/
[39] Lista con las fábricas de semiconductores de todas las empresas del sector de los
semiconductores. (Febrero de 2023). Obtenido de
https://en.wikipedia.org/wiki/List_of_semiconductor_fabrication_plants
[40] Lista con las fábricas y la producción de chips de la empresa TSMC. (Febrero de
2023). Obtenido de
https://hardzone.es/noticias/procesadores/tsmc-fabricas-obleas-semiconductores/
Página |
132
[42] Información sobre ASML. (Abril de 2023). Obtenido de
https://polaridad.es/descubre-el-precio-de-una-maquina-de-asml-guia-actualizada/
[44] Contrato de TSMC para conseguir electricidad renovable durante 20 años . (Marzo de
2023). Obtenido de https://pr.tsmc.com/english/news/3018
[45] Histórico del precio del barril de petróleo entre 2000-2022 (Febrero de 2023)
Obtenido de
https://es.statista.com/estadisticas/635114/precio-medio-del-crudo-fijado-por-la-opep/
[46] Comparación del porcentaje de sequía entre el año 1995 y el 2025. (Mayo de 2023).
Obtenido de
https://espanol.libretexts.org/Biologia/Ecolog%C3%ADa/Biolog%C3%ADa_Ambiental_(Fish
er)/07%3A_Disponibilidad_y_uso_del_agua/7.02%3A_Problemas_y_soluciones_de_suminis
tro_de_agua
Página |
133