El dilema del prisionero iterado (DPI) es bien conocido en el ámbito de la teoría de juegos. Aunque es relativamente sencillo, también puede dilucidar importantes problemas relacionados con la cooperación y la confianza. En general, los jugadores pueden predecir las acciones de sus oponentes cuando son capaces de construir un modelo preciso de su comportamiento basado en su experiencia de juego. Sin embargo, es difícil hacer tales predicciones basándose en un número limitado de partidas. La creación de un modelo preciso requiere el uso no sólo de un algoritmo y un marco de aprendizaje adecuados, sino también de un buen conjunto de datos. Los enfoques de aprendizaje activo se han introducido recientemente en las comunidades de aprendizaje automático. Este enfoque suele producir conjuntos de datos informativos con relativamente poco esfuerzo. Por lo tanto, hemos propuesto una técnica de modelado activo para predecir el comportamiento de los jugadores de IPD. El método propuesto puede modelar el comportamiento del jugador adversario aprovechando los entornos de juego interactivos. Este experimento utilizó doce tipos representativos de jugadores como oponentes, y un observador utilizó un algoritmo de modelado activo para modelar estos oponentes. Este observador recogió activamente datos y modeló el comportamiento del oponente en línea. La mayoría de nuestros datos mostraron que el observador fue capaz de construir, a través de acciones directas, un modelo más preciso del comportamiento de un oponente que cuando los datos fueron recogidos a través de acciones aleatorias.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Andamios compuestos basados en nanopartículas de plata para aplicaciones biomédicas
Artículo:
Arreglos de nanotubos de nitruro de boro altamente ordenados con textura controlable a partir de borano de amoníaco mediante pirólisis en fase de vapor asistida por plantillas
Artículo:
Control del rumbo de un buque subactuado basado en el método Backstepping de red neuronal no lineal robusta
Artículo:
Características de aislamiento de los compuestos de fibra de sisal y epoxi
Artículo:
VANSec: Algoritmo de seguridad VANET resistente a ataques en términos de error de cálculo de confianza y sobrecarga de enrutamiento normalizada
Folleto:
Análisis de rentabilidad económica y financiera
Artículo:
¿Por qué debemos conservar la fauna silvestre?
Artículo:
Estudio sobre la migración global de materiales plásticos de empaque usados en la industria de alimentos
Artículo:
Control y vigilancia de la calidad del agua de consumo humano