Detecciòn de Spam en la Web mediante el análisis de texto y de grafos
Description
El spam en la web representa un grave problema para los sistemas de Recuperación de Información, debido al perjuicio que puede ocasionar en la calidad de los resultados de los mismos. En este trabajo se presenta un sistema de detección de spam en la web basado en un algoritmo de ranking que ordena las páginas web de acuerdo a su reevancia, penalizando aquellas páginas susceptibles de ser consideradas spam. La novedad de este sistema reside en conjugar técnicas de procesamiento de textos con técnicas de análisis de grafos. Las técnicas de procesamiento de textos se utilizan para asignar a determinadas páginas una puntuación a priori, de acuerdo a la probabilidad de que sean spam o no, según su contenido. Nuestro algoritmo de ranking procesará el grafo de las páginas web y las puntuaciones a priori para obtener el ranking de webs. En los experimentos se comprueba que nuestro sistema mejora los resultados de otras técnicas muy utilizadas.
Additional details
- URL
- https://idus.us.es/handle//11441/130646
- URN
- urn:oai:idus.us.es:11441/130646
- Origin repository
- USE