SVMs dispersas en el primal

Las máquinas de vectores soporte ("Support Vector Machines", SVM) son consideradas el estado del arte en el aprendizaje máquina debido a las excelentes prestaciones mostradas en una amplia gama de aplicaciones. Sin embargo, en muchas ocasiones, las SVMs emplean variables de entrada inútiles, redundantes o ruidosas que pueden llegar a degradar, y de manera muy significativa, la solución alcanzada. Esto se debe a que la solución de la SVM se forma como una combinación de todas las características de entrada, incluyendo las irrelevantes.

Para que el diseño de la SVM solo emplee las variables más relevantes es habitual aplicar un proceso de selección de características, como el algoritmo de eliminación recursive de variables ("Recursive Feature elimination", RFE), o preferiblemente modificar la formulación de la SVM para obtener soluciones dispersas. Siguiendo esta filosofía se propuso la SVM con norma 1 (SVM L1) que sustituye el término de regularización cuadrática con una penalización L1, o la SVM doblemente regularizada ("Doubly reguralized SVM", Dr-SVM) que incluye ambas regularizaciones.

A pesar de que estas nuevas versions conservan la mayor parte de las buenas propiedades de las SVMs clásicas, en ciertas situaciones no es capaz de proporcionar la solución deseada:

  1. Si la correlación entre variables irrelevantes y las relevantes no es nula, no se puede asegurar la consistencia de la solución.
  2. Si hay más variables que muestras disponibles (d >> N), la regularización L1 no selecciona más de N variables.

Además, presentan la dificultad de extender estas formulaciones a problemas de selección de grupos predefinidos o problemas de clasificación multiclase.

En este trabajo se presenta una nueva formulación lineal de la SVM en la que directamente se fuerza que la solución obtenida sea dispersa. Para ello, en lugar de modificar la función objetivo con términos de regularización, se incluyen una serie de restricciones adicionales en el problema de optimización que permiten identificar de manera automática las características irrelevantes. Estas restricciones se basan en la utilización de la norma insensible a ε ("ε-insensitive") usada por las SVMs en regresión.

Este hecho permite adaptar fácilmente este nuevo problema a una formulación μ-SVM y ajustar el parámetro μ predefiniendo el número de características que debe tener la solución final. Estas restricciones de dispersión pueden incorporarse tanto en la SVM estándar con norma 2, como en su versión con norma 1 dando ludar a dos versions de este algoritmo: μ-SVM L2 y μ-SVM L1.

Comparando las prestaciones de estos métodos, en términos de error y número de variables seleccionadas frente a las versiones SVM estándard y el metodo RFE, se pueden observar que si el parámetro μ se ajusta correctamente, el algoritmo es capaz de eliminar todas las características irrelevantes del modelo final, obteniendo modelos más sencillos (con menor número de variables) y, además, soluciones más precisas.

 

Por último, es necesario indicar que, tal y como se recoge en detalla en [1], la formulación propuesta puede ser aplicada a la selección de características aisladas o, si fuese necesario necesario, a grupos predefinidos de variables o problemas multiclase, obteniendo en estos casos conclusiones similares al caso binario.

REFERENCIAS

[1] Vanessa Gómez-Verdejo, Manel Martínez Ramón, Jerónimo Arenas-García, Miguel Lázaro-Gredilla, Harold Molina-Bulla (2011). Support Vector Machines with constraints for sparsity in the primal parameters. IEEE Transactions on Neural Networks, 220: 1269-1283.