Está en la página 1de 47

UNIVERSIDAD NACIONAL DE INGENIERIA

CLASE 01: Conceptos básicos

gpomachaguap@uni.edu.pe
Material de Clases © German Pomachagua Perez 11-Set.-21
INTRODUCCION

El objetivo fundamental de la estadística es analizar datos y transformarlos


en información para la toma de decisiones

Dato Procesamiento Información

Material de Clases © German Pomachagua Perez 11-Set.-21


Mapa conceptual

Material de Clases © German Pomachagua Perez 11-Set.-21


Actualmente con el boom de la Big Data, tener nociones
de probabilidad y estadística se ha hecho fundamental. En los últimos años ha
habido un resurgimiento de todo lo relacionado con estadística , data
mining y machine learning empujados principalmente por la explosión de datos
con que contamos, estos conceptos combinados forman la base de lo que
actualmente se conoce como la Ciencia de Datos
La minería de datos consiste en la transformación de datos en conocimiento
para la toma de decisiones”, lo cual se logra mediante técnicas de análisis
simbólico. Según Dibay (2000) crea un puente entre la Estadística y el
Aprendizaje automático.
A diferencia de la Estadística, en la minería de datos no se trabaja con muestras
de la información, sino que se buscan patrones ocultos en los datos mediante
métodos algorítmicos y utilizando un sistema automatizado.
https://www.infochannel.info/ia-machine-learning-y-robotica-para-enfrentar-el-coronavirus

Material de Clases © German Pomachagua Perez 11-Set.-21


¿Cuál es la relación entre Big Data, minería de datos
y Estadística?

Material de Clases © German Pomachagua Perez 11-Set.-21


Material de Clases © German Pomachagua Perez 11-Set.-21
¿QUÉ ES EL ANÁLISIS MULTIVARIADO?

El análisis de datos multivariado es una herramienta poderosa para los


investigadores, la aplicación adecuada de estas técnicas revelan relaciones que de
otra manera no serían identificadas.
La mayoría de los problemas reales son de naturaleza multivariada, lo que significa
que existen múltiples variables que contribuyen a ellos.
Técnicas de Minería de Datos

Material de Clases © German Pomachagua Perez 11-Set.-21


Analítica Predictiva
Abarca una variedad de técnicas estadísticas de minería de datos, modelado
predictivo y aprendizaje automático, que analizan hechos actuales e históricos
para hacer predicciones sobre eventos futuros

Material de Clases © German Pomachagua Perez 11-Set.-21


¿Qué es Estadística ?
✓ Es la ciencia que proporciona un conjunto de métodos, técnicas para:

Un dato puede describir un hecho o un fenómeno de estudio.

✓ Es la herramienta fundamental que permite llevar a cabo el proceso relacionado


con la investigación científica.

✓ Según Mendenhall y Beaver definen a la estadística como el área de la ciencia


relacionada con la extracción de información desde los datos y su uso en la
realización de inferencia sobre una población desde donde fueron extraídos.

Material de Clases © German Pomachagua Perez 11-Set.-21


Material de Clases © German Pomachagua Perez 11-Set.-21
¿Qué son DATOS ?
Es el valor de la variable. Hechos, imágenes, sonidos..

Ejemplo :

Datos Unidad de
Variable medida
Edad del paciente 27 años
Peso 70 Kg.
Tiempo permanencia 5 días
Temperatura corporal 37,5 °C
Profesión Contador ---

Si un DATO es útil para tomar decisiones se convierte en INFORMACIÓN.

DATO: 500
INFORMACION: 500 de lluvia caída
CONOCIMIENTO: Si lluvia >600 mm → 𝐼𝑛𝑚𝑢𝑛𝑑𝑎𝑐𝑖ó𝑛

Descubrimiento de Conocimiento en
Base de Datos (KDD)
Material de Clases © German Pomachagua Perez 11-Set.-21
DIVISION DE LA ESTADISTICA

ESTADÍSTICA DESCRIPTIVA-EXPLORATORIA-(Data Analysis)


Tiene como objetivo presentar los datos obtenidos en forma resumida, clara y
comprensible
Ejemplo 1: La cantidad de robos ocurridos el último mes en el distrito de Surco.
Ejemplo 2: La nota promedio del curso de REDES del grupo 1
Ejemplo 3: Electores según ONPE 2021

Mencionamos algunos procedimientos:


Tablas de distribuciones de frecuencia
Gráficos de distribución de frecuencias
Diagramas de cajas
Diagramas de tallos y hojas
Estadísticos de tendencia central, dispersión y de forma

Material de Clases © German Pomachagua Perez 11-Set.-21


ESTADÍSTICA DESCRIPTIVA: Algunos procedimientos
Tabla de Frecuencias Grafico de Cajas y Bigotes
<Xi-1 - Xi] fi hi Fi Hi 25

24 46

<38 - - 45] 3 0.14 3 0.14 23 52

<45 - - 52] 2 0.10 5 0.24 22 41


71
47
62

21
<52 - - 59] 7 0.33 12 0.57 43
93
65
28
94

20

<59 - - 66] 3 0.14 15 0.71 19

<66 - -73] 6 0.29 21 1.00

EDAD
18

17
21 1.00 N= 80

HOMBRE
20

MUJER

SEXO

Diagrama de Tallos y hojas Gráficos de distribución de


EDAD Stem-and-Leaf Plot CLUSTER
frecuencias
Frequency Stem & Leaf

1,00 3. 9
3,00 4. 029
8,00 5. 14678889
5,00 6. 34689
4,00 7. 0012

Material de Clases © German Pomachagua Perez 11-Set.-21


PERU EN EL RANKING MUNDIAL DE PRODUCCION MINIERA
En la actualidad la minería se
desarrolla en 23 de las 25 regiones que
tiene el Perú

FUENTE : MINEM ANUARIO MINERO 2019


Material de Clases © German Pomachagua Perez 11-Set.-21
DIVISION DE LA ESTADISTICA

Estadística Inferencial ( Data modelling)


Es un conjunto de métodos que permiten efectuar una estimación, predicción o
generalización sobre una población, basado en el análisis de datos de una
muestra.
Inferencia
Muestra POBLACIÓN

Estimador Parámetro
o
Estadígrafo

ഥ = 𝟐𝟎%
𝒑 𝑷 =?
Ejemplo: El INEI estima que el año 2025 tendremos una población
de 34´,412,393

Material de Clases © German Pomachagua Perez 11-Set.-21


2016

Material de Clases © German Pomachagua Perez 11-Set.-21



𝒑

Material de Clases © German Pomachagua Perez 11-Set.-21


Estadística Inferencial

Material de Clases © German Pomachagua Perez 11-Set.-21


DEFINICIONES BASICAS
Unidad Estadística: (Unidad de análisis) el elemento fundamental e
indivisible de la población (persona, animal o cosa), sobre las
cuales se va a obtener datos, en otras palabras, es el que
proporciona el dato. (los que conforman la población)

Ejemplos: un alumno de la
universidad, un turista nacional,
un turista internacional, una
ama de casa, un supermercado,
una empresa de calzado, un
mozo, un lugar turístico, un
grifo, una persona, una familia
etc.

En el proceso electoral Una persona hábil mayor


actual. ¿Cuál es la unidad de 18 años
de análisis?
Material de Clases © German Pomachagua Perez 11-Set.-21
Población y muestra

Población Muestra
• TODOS los posibles • PARTE “representativa”
•Individuos, objetos, de la población.
mediciones y conteos • Un ESTADÍSTICO describe
• Un PARÁMETRO describe a una muestra.
a una población.
Diapositiva 20
Material de Clases © German Pomachagua Perez 11-Set.-21
POBLACION
Parámetro: Es una medición numérica que describe algunas
características de una población; para determinar su valor es
necesario utilizar toda la información de la población (censo).
Sólo hay un parámetro en cada población.
Generalmente es desconocido y por lo tanto debe ser estimado
Los más usados son:
 : Media poblacional (mu)
2 : Varianza poblacional (sigma cuadrado)
π : Proporción poblacional

Censo: Estudio realizado a todos y a cada


uno de los individuos que forman parte de
la población
Material de Clases © German Pomachagua Perez 11-Set.-21
Año 2010 = 35 públicas y 65 privadas =100
Año 2016-2018 = 51 públicas y 92 privadas =143
Año 2021= 94 U. Licenciadas al 04/01/2021
Material de Clases © German Pomachagua Perez 11-Set.-21
Material de Clases © German Pomachagua Perez 11-Set.-21
SUELDOS PROMEDIOS DE EGRESADOS POR CARRERA - 2019

Material de Clases © German Pomachagua Perez 11-Set.-21


SUELDOS PROMEDIOS DE EGRESADOS POR CARRERA - 2019

Material de Clases © German Pomachagua Perez 11-Set.-21


SUELDOS PROMEDIOS DE EGRESADOS POR CARRERA - 2019

Material de Clases © German Pomachagua Perez 11-Set.-21


SUELDOS PROMEDIOS DE EGRESADOS POR CARRERA - 2019

Material de Clases © German Pomachagua Perez 11-Set.-21


Pensiones de universidades privadas 2019

Material de Clases © German Pomachagua Perez 11-Set.-21


COLEGIOS PRIVADOS MAS CAROS DE LIMA 2020

Material de Clases © German Pomachagua Perez 11-Set.-21


Los doce grupos de poder económico (GPE) peruanos más influyentes

GRUPOS LIMEÑOS ESTABLECIDOS


1) Grupo Romero (Credicorp, Alicorp)
2) Brescia (BBVA Continental, Breca, minería, pesca)
3) Benavides (Buenaventura, Yanacocha)
4) Rodríguez Pastor (Intercorp, Vivanda, Plaza Vea)
5) Graña y Montero (GyM, construcción, Grupo el Comercio)
6) Ferreyros (Ferreycorp, importación de maquinaria)
GRUPOS PROVINCIANOS EMERGENTES
1) Rodríguez Banda (Gloria Arequipa)
2) Añaños (Ajegroup e ISM Ayacucho)
3) Dyer (Dyer&Coriat Pucallpa)
4) Acuña (Universidad Cesar Vallejo Cajamarca)
5) Huancaruna (Altomayo Cajamarca)
6) Flores (Topytop Huancavelica)
Material de Clases © German Pomachagua Perez 11-Set.-21
⚫ MUESTRA: Parte o subconjunto representativo de una población, sus
elementos son seleccionados aleatoriamente o no con el objeto de
investigar las características de la población de la cual proceden.

Muestreo: Es un procedimiento de selección de los elementos a ser


estudiados o encuestados
Si
No

Material de Clases © German Pomachagua Perez 11-Set.-21


Material de Clases © German Pomachagua Perez 11-Set.-21
Estimador (estadígrafo): Es una medición numérica que
describe algunas características de una muestra.
Su valor es usado con propósitos de estimación de los
parámetros de una población, de la cual se extrajo la
muestra.
Los más usados son:

𝒙ഥ : media muestral
𝑆 2 ∶ varianza muestral
𝑝ҧ ∶ proporción muestral

Ejemplo - De los 100 estudiantes entrevistados, el 70% apoya


la resolución sobre la vacancia del Director

Material de Clases © German Pomachagua Perez 11-Set.-21


Ejemplo: El siguiente gráfico muestra la evolución de la inflación desde el año
1980 al 2010. ¿El índice de precios al consumidor IPC que obtiene el INEI, es un
parámetro o un estadígrafo?

Material de Clases © German Pomachagua Perez 11-Set.-21


RESUMEN

Población (N) MUESTRA (n)


P E
A S
µ x
R MUESTREO T
A I
S2
M σ2 M
E p A
T INFERENCIA
π D
R O
O R

Material de Clases © German Pomachagua Perez 11-Set.-21


2019

Material de Clases © German Pomachagua Perez 11-Set.-21


Simbología a utilizar

MEDIDAS POBLACION MUESTRA


(parámetro) (estadístico)
Media aritmética 𝜇 𝑥ҧ
Varianza 𝜎2 𝑆2
Desviación estándar 𝜎 𝑆
Proporción 𝜋=𝑃 pത
Tamaño 𝑁 𝑛

Material de Clases © German Pomachagua Perez 11-Set.-21


VARIABLES

Es una característica de los elementos que se va investigar y que


toma diferentes valores o categorías.

Variable

Cualitativa Cuantitativa

Nominal Ordinal Discreta Continua

Material de Clases © German Pomachagua Perez 11-Set.-21


Tipos de variables: Según su naturaleza
⚫ Cualitativas o Categóricas
Son aquellas características que se pueden clasificar, pero no medirse
⚫ Nominales: Si sus valores no se pueden ordenar

⚫ Sexo, Grupo Sanguíneo, contaminado/ sin contaminar, Fumar, (Sí/No)

⚫ Ordinales: Si sus valores se pueden ordenar


⚫ Calificaciones, Grado de satisfacción, Intensidad del dolor, la escala de
Mohs (dureza de los minerales comienza de 1 talco hasta 10 diamante)
⚫ Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos)

⚫ Discretas: Toma valores enteros y no puede tomar una fracción entre dos
valores consecutivos
⚫ Número de hijos, Número de cigarrillos, Numero de accidentes

⚫ Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


⚫ Altura, Presión intraocular, talla, peso

Material de Clases © German Pomachagua Perez 11-Set.-21


TIPOS DE VARIABLES:
Según su relación

▪ Independiente (X): Causal o determinante de los cambios en la v.


dependiente, es manipulada por el investigador.

▪ Dependiente (Y): Efecto como resultado de la manipulación de


la v. independiente, llamada también como variable resultado.

▪ Interviniente: Puede mediar en la relación entre las variables


independiente y dependiente
Ejemplo 1: ¿Cuál es la incidencia del nivel de cariño que reciben los
estudiantes de la ciudad de Lima en su rendimiento escolar?

Material de Clases © German Pomachagua Perez 11-Set.-21


Material de Clases © German Pomachagua Perez 11-Set.-21
Ejemplo 1: Se ha hecho un estudio en el distrito de SJL para determinar la
preferencia de una marca especial de detergente por parte de las amas de
casa. Entre las 50 amas de casa entrevistadas, 30 dijeron que preferían esta
marca y el precio pagado por persona es fue de 8 soles.
a) ¿Cual es la unidad de análisis?
b) ¿Cuál es la población?
c) ¿Cuál es la muestra?
d) ¿Cuáles son las variables?
e) ¿Cuál es el parámetro?
f) ¿Cuál es el estimador ?
Solución:
a) Una ama de casa del distrito de SJL
b) Todas las amas de casa del distrito de SJL.
c) Las 50 amas de casa del distrito de SJL
d) Precio de venta del detergente ( variable continua) y preferencia del
producto (variable ordinal)
e) Precio promedio pagado por las amas de casa de SJL 𝜇 y Proporción
poblacional de amas de casa de SJL que prefieren tal detergente 𝜋 = 𝑃
f) El precio promedio pagado por las 50 personas seleccionadas 𝑥ҧ = 8 𝑠𝑜𝑙𝑒𝑠
𝑥 30
La proporcional muestral 𝑝ҧ = = = 60%
𝑛 50

Material de Clases © German Pomachagua Perez 11-Set.-21


Clasificar adecuadamente las diversas variables con un aspa (X):

Nº VARIABLE CUALITATIVA CUANTITATIVA


NOMINAL ORDINAL CONTINUA DISCRETA
1 Clima organizacional de una empresa X
2 Ideología Política de una persona X
3 Número de máquinas defectuosas por lote X
4 Preferencia sexual de un individuo X
5 La venta promedio mensual X
6 Edad en años cumplidos x
7 El tiempo de reacción de conductor X
8 Ingresos percibidos en el año X
9 Tipo de municipio (rural, urbano, capital) X
10 Nivel de colesterol de una persona X

Material de Clases © German Pomachagua Perez 11-Set.-21


EJEMPLO: Para analizar la posibilidad de lanzar al mercado una nueva marca de cigarrillos, se
efectuó una encuesta entre los fumadores que transitaron por la quinta cuadra de la avenida
Canadá, desde las 17.00 hasta las 20.00 horas, el domingo 14 de febrero. Para ello, se
seleccionó una muestra probabilística de 80 fumadores y se obtuvo los siguientes resultados:
• El 65 % de fumadores prefiere cigarrillos de marcas importadas.
• El precio promedio que pagan por una cajetilla es de S/ 5,00. Identificar
Población Los fumadores que transitan por la quinta cuadra de la avenida Canadá, desde las 17.00
hasta las 20.00 horas, el domingo 14 de febrero.
Muestra 80 fumadores seleccionados probabilísticamente que transitan por la quinta cuadra de la
avenida Canadá, desde las 17.00 hasta las 20.00 horas, el domingo 14 de febrero.
Unidad de Un fumador que transita por la quinta cuadra de la avenida Canadá, desde las 17.00
análisis hasta las 20.00 horas, el domingo 14 de febrero.
Variable y 1: Procedencia de la marca de cigarrillos que prefiere el fumador. Cualitativa nominal.
tipo 2: Precio que paga el fumador por una cajetilla de cigarrillos. Cuantitativa continua.

Parámetro Precio promedio por cajetilla de cigarrillos que pagan los fumadores que transitan por la
avenida Canadá, desde las 17.00hasta las 20.00 horas, el domingo 14 de febrero ( µ ).
Estadístico Precio promedio por cajetilla de cigarrillos que pagan los 80 fumadores ( 𝑥=S/
ҧ 5.00)
Porcentaje muestral de fumadores que prefieren marcas importadas (𝑝=65%)
ҧ

Ej: de El precio que pagó un fumador seleccionado fue S/ 3,50 por una cajetilla de cigarros.
Dato
Material de Clases © German Pomachagua Perez 11-Set.-21
Titulo 1: “SISTEMA DE INFORMACIÓN CLIENTE/SERVIDOR CON TECNOLOGÍA
WEB PARA LOS PROCESOS DE MATRÍCULAS Y TRÁMITES DE CERTIFICACIÓN DE LA
ESCUELA NACIONAL DE ESTADÍSTICA E INFORMÁTICA DEL INEI -TACNA - 2013”

Titulo 2: “GESTION DEL COMPORTAMIENTO HUMANO PARA DISMINUIR LA


ACCIDENTABILIDAD LABORAL EN LA MINA SAN CRISTOBAL- VOLCAN MINERA S-A.A.”

a) ¿Cuáles son las variables independientes y dependientes?


b) ¿Cual es la unidad de análisis?
c) ¿Cuál es la población?
d) ¿Cuál es la muestra?
e) ¿Cuál es el parámetro?
f) ¿Cuál es el estimador ?
g) ¿Técnicas e instrumentos para la recolección de datos?
h) ¿Tipo de muestreo?

Material de Clases © German Pomachagua Perez 11-Set.-21


Material de Clases © German Pomachagua Perez 11-Set.-21
Material de Clases © German Pomachagua Perez 11-Set.-21

También podría gustarte