Published May 24, 2022
| Version v1
Publication
Metodología ensemble para clasificación ordinal y aplicación en el control de calidad del aceite de oliva
Description
A día de hoy nos encontramos ante un nuevo paradigma que está revolucionando
completamente la forma en la que vemos las cosas. Este nuevo paradigma surge ante el
gran volumen de datos que se generan mediante multitud de dispositivos conectados
entre sí y la necesidad de obtener conocimiento a partir de toda esta información. El
auge de las tecnologías y la gran capacidad de computación de la que disponemos a día
de hoy ha hecho posible que términos como ciencia de datos, minería de datos,
inteligencia artificial o aprendizaje automático hayan cobrado mucha importancia en la
sociedad actual. Todos estos términos tienen en común un factor, y es el de extraer
conocimiento a partir de los datos. El aprendizaje automático es un tipo de inteligencia
artificial que proporciona a las máquinas de computación la capacidad de aprender sin
ser programadas explícitamente para llegar a ese conocimiento. Este aprendizaje puede
verse desde 2 puntos de vista diferentes según si los datos están etiquetados
previamente o no. Si los datos de partida están etiquetados se denomina aprendizaje
supervisado, y si no están etiquetados se pasa a llamar aprendizaje no supervisado.
El aprendizaje supervisado trata de encontrar una función capaz de explicar los datos de
entrenamiento. Esta función trata de buscar relaciones que asocie entradas con salidas
a partir de un conjunto de datos etiquetados, es decir, cuyas entradas y salidas son
conocidas. Dependiendo del objetivo a predecir, hablamos de clasificación, si el atributo
es categórico o de regresión, si el atributo es numérico. En el caso de los problemas de
clasificación, la mayoría de algoritmos y modelos desarrollados hasta el momento no
tienen en cuenta una posible relación de orden entre las distintas etiquetas cuando
realmente sí lo hay. Aquellos modelos que sí tienen en cuenta este factor se denominan
modelos de clasificación ordinal y han demostrado obtener resultados muy
prometedores cuando la etiqueta a predecir tiene valores que guardan relación entre sí.
Esta tesis doctoral analiza y desarrolla una nueva metodología de aprendizaje
supervisado para realizar clasificación ordinal. Esta nueva propuesta consiste en un
algoritmo ensemble que combina la salida de clasificadores individuales mediante un
sistema de votación por pesos, dichos pesos son calculados tras un proceso de
optimización llevado a cabo mediante un algoritmo genético. Esta tesis se presenta
como compendio de artículos de investigación con un total de 5 publicaciones, 3 de ellas
publicadas en revistas con alto índice de impacto en el Journal Citation Reports y 2 de
ellas como aportaciones científicas en congresos internacionales.
La necesidad de desarrollar este algoritmo surge ante el análisis de la calidad del aceite
de oliva. La calidad del aceite de oliva viene determinada por factores físico-químicos
que son traducidos en etiquetas que tienen un orden de relación entre ellas
dependiendo del grado de calidad de las muestras. Los resultados obtenidos fueron muy
prometedores, demostrando que esta metodología es una muy buena alternativa para
este problema concreto.
La importancia de una correcta clasificación de un producto tan importante en la
economía española, como es el aceite de oliva y teniendo en cuenta la riqueza y variedad
de los datos con los que contábamos, decidimos también explorar otras técnicas de
inteligencia artificial, como son las redes neuronales artificiales, para tratar el mismo
problema desde distintos puntos de vista, con el objetivo de obtener los mejores
resultados posibles.
Por último, dada la delicadeza y privacidad de los datos con los que trabajábamos, se
hizo un estudio de técnicas de inteligencia artificial para la generación de datos
sintéticos, con el objetivo de poder compartir datos con otros grupos de investigación
sin poner en compromiso los datos originales. La técnica utilizada fue las redes
neuronales generativas adversariales (GANs) que demostraron tener mucho éxito en la
generación de datos sintéticos.
Additional details
Identifiers
- URL
- https://idus.us.es/handle//11441/133618
- URN
- urn:oai:idus.us.es:11441/133618
Origin repository
- Origin repository
- USE