功能特性
产品对比
定价
常见问题
免费下载
立即下载
技能包
模型广场
登录
技能包广场
›
雷夫
🤖
AI & 大模型
雷夫
@rlhf
人类反馈强化学习 (RLHF) 是一种使语言模型与人类偏好保持一致的技术。 RLHF 不是仅仅依赖于下一个标记预测,而是使用人类判断来指导模型行为,以获得有用、无害和诚实的输出。
包含技能
1 个
🤖
雷夫
@itsmostafa/llm-engineering-skills/rlhf
人类反馈强化学习 (RLHF) 是一种使语言模型与人类偏好保持一致的技术。 RLHF 不是仅仅依赖于下一个标记预测,而是使用人类判断来指导模型行为,以获得有用、无害和诚实的输出。
🚀
如何安装技能包
请下载安装 AiOffice 客户端,
如果已下载AiOffice,
请在 AiOffice 的技能广场页面进行一键安装。
知道了