🤖

AI & 大模型

雷夫

@rlhf

人类反馈强化学习 (RLHF) 是一种使语言模型与人类偏好保持一致的技术。 RLHF 不是仅仅依赖于下一个标记预测，而是使用人类判断来指导模型行为，以获得有用、无害和诚实的输出。

包含技能

1 个

🤖

雷夫

@itsmostafa/llm-engineering-skills/rlhf

人类反馈强化学习 (RLHF) 是一种使语言模型与人类偏好保持一致的技术。 RLHF 不是仅仅依赖于下一个标记预测，而是使用人类判断来指导模型行为，以获得有用、无害和诚实的输出。

安装