<strong>Estandarización de datos</strong>

Estandarización de datos

.

Por: Uriel Alejandro Arevalo Rochel

Con cada día que pasa los datos adquieren mayor importancia en varias áreas de nuestra vida. Cada vez que accedemos a una página web, hacemos una búsqueda en internet, compramos algo online, accedemos a términos y condiciones o incluso al hablar de ciertos productos, estamos dando nuestras preferencias o gustos en forma de datos muy valiosos para cualquier compañía.

Cualquier variable que estemos estudiando tiene una distribución de probabilidad que nos indica su comportamiento (Edipat 4, 2013); ahora bien, hay una cantidad increíble de variables que se pueden estudiar y se distribuyen de una forma u otra. Es por esto que es necesaria la estandarización de nuestros datos, la cual consiste en ajustar nuestros valores que se tomaron de una o diferentes escalas, y llevarla a una escala común en la que podamos comparar nuestros datos. Esto nos permite tener datos mucho más útiles y sencillos para analizar. Ya aclarada la estandarización de datos, explicaremos algunos métodos de estandarización que pueden ser de ayuda.

Puntuaciones Z.

Una forma de estandarización de nuestros datos es utilizar las puntuaciones Z, con las cuales podemos llevar nuestras observaciones de variables y ver su comportamiento en una gráfica de distribución normal. Para esto debemos conocer la media y la desviación típica de nuestros datos, y llevarlos a una distribución donde la media y la desviación estándar sean 0 y 1 respectivamente.

Teniendo entonces nuestros datos, solo debemos aplicar la siguiente fórmula:

Normalización Min-Max.

Otra forma de estandarizar nuestros datos es por medio de la normalización min-max, que consiste en llevar nuestros datos a una escala de 0-1. Dicha normalización nos permite comprar una gran cantidad de datos tomados de distintas escalas, y mantener la misma distancia entre los valores originales. La lógica de este proceso se basa en encontrar los máximos y los mínimos de nuestros datos, y después aplicar la siguiente fórmula:

Esto dejará nuestros datos en un intervalo entre 0 y 1, y podremos compáralos con algunos otros datos de interés normalizados de la misma forma.

Estandarización de datos nominales y ordinales.

Aunque los métodos anteriores resultan muy efectivos a la hora de analizar datos con un valor numérico, nos encontramos con otro problema: muchos de los datos que podemos llegar a estudiar no son numéricos, se limitan a ser datos nominales u ordinales. A pesar de esto, tenemos algunos procesos muy efectivos a la hora de estandarizar dichos tipos de datos para poder estudiarlos.

 El primero de ellos es la codificación ordinal, muy efectiva a la hora de normalizar datos ordinales, ya que, aunque estos datos no representan un número en sí, se les puede dar un orden o jerarquía. El método entonces consiste en enumerar por niveles cada una de las categorías encontradas en los datos. Por ejemplo, si valoramos la calidad de “atención al cliente” de una empresa, podemos tener malo, normal, bueno, o excelente, y podríamos darles cierto orden y un número a cada una.

Cabe aclarar que después de este paso, y teniendo los resultados de la variable, podemos estandarizar nuestros datos nuevamente con un método de min-max. Esto último resuelve el problema de las variables ordinales, pero nos deja con las variables nominales, ya que estas no pueden ordenarse en categorías. Con estas variables podemos utilizar un método llamado one-hot, donde se toman las variables nominales y se les asigna un vector de valores booleanos. El proceso puede llegar a ser algo complicado ya que debemos crear tantas columnas como “categorías” tenga dicha variable. Por ejemplo, si tenemos la variable “color” con las “categorías” amarillo, azul y verde, debemos entonces crear tres columnas más para nuestras categorías de la siguiente forma:

Después de esto, debemos darles un carácter verdadero a nuestras variables si y solo si se cumple la condición de color, y un valor de cero si esta no la cumple:

Es así como podemos normalizar de cierta forma nuestras variables nominales.

Estos ejemplos, aunque muy importantes, no son los únicos métodos de estandarización que podemos utilizar para llevar a cabo nuestros objetivos, pero pueden servir de guía inicial a nuestros lectores para tener un primer contacto con la normalización de ciertos tipos de datos.

Referencias.

Acervo Lima. (2022). Normalización de datos en minería de datos. https://es.acervolima.com/normalizacion-de-datos-en-mineria-de-datos/

Amesquita D. (2 de abril del 2022). ¿Cómo normalizar datos entre 0 y 1?. statologos.com. https://statologos.com/normalizar-datos-entre-0-y-1/

Aron, A., Aron, . E. N., & Abraham, . K. (2001). Estadística para psicología (Segunda edición.). Argentina: Pearson Education.

Ayuware. (f.s.). Cómo estandarizar datos y por qué es importante. https://www.ayuware.es/blog/como-estandarizar-datos/

Datascientest. (3 de diciembre de 2021). Hola, Daniel, ¿qué es la normalización de datos?. https://datascientest.com/es/hola-daniel-que-es-la-normalizacion-de-datos

Carrasquillo A. (2003). ¿Qué es una distribución normal?. aathosc.tripod.com. https://aathosc.tripod.com/PuntajeZ22.htm

El Mundo de los Datos. ( 16 de enero de 2021). Técnicas para codificar las variables categóricas (I): codificación ordinal y one-hot. https://elmundodelosdatos.com/tecnicas-para-codificar-variables-categoricas-ordinal-one-hot/

  García, Jesús et al. Ciencia de datos : técnicas analíticas y aprendizaje estadístico un enfoque práctico. Bogotá D. C: Altaria Publicaciones, 2018. Print.

Rodríguez, Juan Pablo, Suazo, Álvaro, & Santelices, Iván. (2016). Análisis por medio de la normalización de variables para un modelo de planificación ambiental hídrica estacional. Obras y proyectos, (20), 76-85. https://dx.doi.org/10.4067/S0718-28132016000200006

Add Comment

Your email address will not be published. Required fields are marked *