Ficha técnica

415 | 2

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Artículo

Análisis del proceso de minería de datos sobre la base de datos Bioinformática de segmentos de la proteína p53, asociada a la actividad cancerígenaData mining process analiysis, on a bioinformatics database about p53 protein’s segments, related to carcinogenic activity

Resumen

Se estudió la utilización de estrategias para afrontar el problema del desbalanceo y la alta dimensionalidad de los registros que habitualmente forman parte delas bases de datos en el área bioinformática. Se tomó como caso de estudio la base de datos de segmentos de la proteína p53; sobre dicha base se construyen modelos con el fin de identificar si corresponden a patrones activos o inactivos. El problema del desbalanceo se abordó a través de una red neuronal no supervisada, y el de la selección de variables para reducir la alta dimensionalidad, a partir de una combinación de métodos con diferentes enfoques. Experimentos preliminares del modelo propuesto en datos estándar muestran resultados promisorios.

INTRODUCCIÓN

A. Descripción del problema

Actualmente, si se quiere abordar una tarea de análisis sobre las bases de datos en bioinformática, mediante un proceso de Minería de Datos, estas presentan varias dificultades, referidas fundamentalmente al fuerte desbalanceo en el número de registros asociados a una clase o comportamiento o patrón respecto de los demás patrones, y a la alta dimensionalidad de dichos registros. El problema del desbalanceo de datos es relativamente nuevo en la literatura de aprendizaje automático y minería de datos; sin embargo, es un tema de creciente interés en dicha comunidad, debido a sus efectos sobre los resultados obtenidos y al número de aplicaciones en donde se puede encontrar esta situación. Un conjunto de datos desbalanceados se puede definir como aquellos que presentan una desproporción notable en el número de instancias pertenecientes a cada clase; ello provoca un sesgo en el desempeño de los clasificadores estándares hacia el reconocimiento de las clases más numerosas, en detrimento de las más raras [1].

Entre las aplicaciones donde se puede observar prevalencia de datos desbalanceados se pueden citar, entre otras: detección de fraude e intrusión, manejo de riesgo, clasificación de texto, detección de fallas en procesos industriales y diagnóstico y monitoreo médico [2]. Para hacer las cosas más difíciles, en muchas de estas aplicaciones las clases más raras son justamente las que interesa especialmente reconocer. En la literatura se pueden encontrar varios métodos para tratar el problema de aprendizaje automático de clasificadores utilizando datos desbalanceados, sin embargo, este problema permanece abierto. Entre las estrategias propuestas se pueden distinguir dos enfoques: en el primero se opta por la asignación de un costo diferencial a las instancias de entrenamiento según las frecuencias de clases, mientras que en el segundo se remuestrea el conjunto de datos originales, ya sea agregando casos sintéticos o repetidos de la clase minoritaria o submuestreando las clases mayoritarias [3].

Autor:Hadad, Alejandro; Simonetti, Franco.
Categoría:Ciencias aplicadas e interdisciplinarias
Subcategoría:Bioingeniería, biotecnología, nanotecnología y afines
Año de publicación:2011.
Editor:Universidad Pedagógica y Tecnológica de Colombia - UPTC

Tipo de documento:Artículo
Formato:pdf
Idioma:Español
Tamaño:357 Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

DC.Title.spa

Análisis del proceso de minería de datos sobre la base de datos Bioinformática de segmentos de la proteína p53, asociada a la actividad cancerígena

DC.Title.eng

Data mining process analiysis, on a bioinformatics database about p53 protein’s segments, related to carcinogenic activity

DC.Creator

Hadad, Alejandro; Simonetti, Franco

DC.Subject.snpi.spa

Cáncer Bioingeniería Proteínas

DC.Subject.snpi.eng

Cancer Bioengineering Proteins

DC.Subject.spa

Desbalance; Selección de variables; Bioinformática

DC.Subject.eng

Imbalances; Variables Selection; Bioinformatics

DC.Description.spa

INTRODUCCIÓN

A. Descripción del problema

DC.Source

https://revistas.uptc.edu.co/index.php/ingenieria/article/view/1417/1412

DC.Identifier.virtualpro

http://www.revistavirtualpro.com/biblioteca/analisis-del-proceso-de-mineria-de-datos-sobre-la-base-de-datos-bioinformatica-de-segmentos-de-la-proteina-p53-asociada-a-la-actividad-cancerigena

DC.Identifier.issn-isbn

ISSN:2357-5328 (Versión electrónica); 0121-1129 (Versión impresa)

DC.Identifier.citacion

Revista Virtual Pro, Enero 2011, Revista facultad de Ingeniería Vol. 20 No.30

DC.Language

Español

DC.Relation

DC.Publisher

Universidad Pedagógica y Tecnológica de Colombia - UPTC

DC.Contributor

DC.Rights

Derechos de autor:6

DC.Date

2011

DC.Type

Artículo

DC.Format

pdf

DC.Identifier.file

24195.pdf

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Biblioteca76.869 documentos en línea

Ficha técnica

Análisis del proceso de minería de datos sobre la base de datos Bioinformática de segmentos de la proteína p53, asociada a la actividad cancerígenaData mining process analiysis, on a bioinformatics database about p53 protein’s segments, related to carcinogenic activity

Resumen

Cómo citar el documento

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

Información del documento

Cómo citar el documento

Documentos relacionados

Recursos

Infografías

Vehículos y almacenes automatizados

Transporte y contaminación

Introducción al movimiento pendular

Evaporación por lotes

Medición de caudales

La miel

Pista de juego de proporciones

Videos

Webinar: Minería de datos de desarrollo para comprender y mejorar los procesos de ingeniería de software

Pruebas en túnel de viento de un mecanismo de control de potencia en microaerogeneradores sometidos a sobrevelocidades de viento

Milirrobots biomiméticos

Resiliencia ecológica: ¿concepto significativo para la regulación de recuperación?

Relleno Sanitario Ecológico en la Ciudad de Medellin TvAgro por Juan Gonzalo Angel

Comentarios respecto a la situación actual de la maca y la quinua en el Perú

WEBINAR:

Documentos más descargados

2022-06-09
Optimización y sistema de control Industrial

Virtual Pro

Virtual Plant

Actualidad

Investigación

Suscripción

Publicidad

Virtual Pro | Procesos Industriales

Biblioteca76.869 documentos en línea

Ficha técnica

Análisis del proceso de minería de datos sobre la base de datos Bioinformática de segmentos de la proteína p53, asociada a la actividad cancerígenaData mining process analiysis, on a bioinformatics database about p53 protein’s segments, related to carcinogenic activity

Resumen

Cómo citar el documento

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

Información del documento

Cómo citar el documento

Documentos relacionados

Recursos

Infografías

Vehículos y almacenes automatizados

Transporte y contaminación

Introducción al movimiento pendular

Evaporación por lotes

Medición de caudales

La miel

Pista de juego de proporciones

Videos

Webinar: Minería de datos de desarrollo para comprender y mejorar los procesos de ingeniería de software

Pruebas en túnel de viento de un mecanismo de control de potencia en microaerogeneradores sometidos a sobrevelocidades de viento

Milirrobots biomiméticos

Resiliencia ecológica: ¿concepto significativo para la regulación de recuperación?

Relleno Sanitario Ecológico en la Ciudad de Medellin TvAgro por Juan Gonzalo Angel

Comentarios respecto a la situación actual de la maca y la quinua en el Perú

WEBINAR:

Documentos más descargados

2022-06-09Optimización y sistema de control Industrial

Virtual Pro

Virtual Plant

Actualidad

Investigación

Suscripción

Publicidad

Virtual Pro | Procesos Industriales

2022-06-09
Optimización y sistema de control Industrial