🤖
AI & 大模型

雷夫

@rlhf

人类反馈强化学习 (RLHF) 是一种使语言模型与人类偏好保持一致的技术。 RLHF 不是仅仅依赖于下一个标记预测,而是使用人类判断来指导模型行为,以获得有用、无害和诚实的输出。

包含技能

1 个
🤖
雷夫
@itsmostafa/llm-engineering-skills/rlhf

人类反馈强化学习 (RLHF) 是一种使语言模型与人类偏好保持一致的技术。 RLHF 不是仅仅依赖于下一个标记预测,而是使用人类判断来指导模型行为,以获得有用、无害和诚实的输出。

🚀 如何安装技能包 请下载安装 AiOffice 客户端,
如果已下载AiOffice,
请在 AiOffice 的技能广场页面进行一键安装。