Como construir agentes de raciocínio personalizados com uma fração da computação
O treinamento de modelos de raciocínio de IA exige recursos que a maioria das equipes empresariais não possui. As equipes de engenharia muitas vezes são forçadas a escolher entre extrair conhecimento de modelos grandes e caros ou confiar em técnicas de aprendizado por reforço que fornecem feedback escasso.
Pesquisadores do JD.com e de diversas instituições acadêmicas introduziram recentemente um novo paradigma de treinamento que contorna esse dilema. A técnica, chamada Aprendizagem por Reforço com Recompensas Verificáveis com Autodestilação (RLSD), combina o rastreamento confiável do desempenho do aprendizado por reforço com o feedback granular da autodestilação.
Experimentos indicam que os modelos treinados com RLSD superam aqueles construídos em algoritmos clássicos...

