Radish Garden
avatar

Ryan

---- A CS enthusiast!

7

16

Friend Links

浅析大语言模型中的SFT、RLHF、DPO、PPO及GRPO算法

LLMsAlgorithmsReinforcement LearningSupervised Learning

---- 简要介绍大语言模型中的SFT、RLHF、DPO、PPO及GRPO算法

大语言模型(LLMs)的快速发展推动了自然语言处理领域的巨大进步,但如何将其输出与人类偏好对齐仍是核心挑战。监督微调(SFT)、人类反馈强化学习(RLHF)、直接偏好优化(DPO)、近端策略优化(PPO)及组相对策略优化(GRPO)等算法在此过程中扮演了关键角色。本文将从技术原理、应用场景及对比分析等角度对这些算法进行深入探讨。

By Ryan5/11/2025

Understanding Retrieval-Augmented Generation (RAG) - Concepts, Paradigms, and Applications

llmRAG

---- A comprehension of RAG.

RAG means Retrieval-Augmented Generation. It is a kind of technique that integrates information retrieval and natural language generation.

By Ryan3/13/2025

RAGFlow本地部署教程(Windows篇)

llmRAGRAGFlow

---- RAGFlow 防踩坑必看

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了信息检索(Retrieval)和自然语言生成(Generation)的技术框架。它通过从外部知识库中检索相关信息,并将其作为上下文输入到大型语言模型(LLM)中,从而增强模型生成回答的准确性、相关性和可解释性。RAGFlow是一个基于深度文档理解的开源RAG(检索增强生成)引擎。当与LLM集成时,它能够提供真实的问答能力,并得到来自各种复杂格式数据的充分引用的支持。

By Ryan2/27/2025

手把手教你用Cursor调教DeepSeek:让AI帮你写会跳舞的代码!

deepseekcursor

---- 本文由deepseek-r1修改撰写。

最近朋友圈被 DeepSeek R1 刷屏了!这个号称「理科生の春天」的AI模型,居然和程序员最爱的智能编辑器 Cursor 官宣联动了!作为一个「能用AI写代码就绝不自己敲键盘」的懒癌晚期博主,今天就带大家玩转这个梦幻组合~

By Ryan, deepseek-r12/2/2025

git push 出错解决

githttperror

---- stack overflow 确实好用~

最近在提交代码的时候遇到了以下错误 "... 错误:RPC 失败。HTTP 400 curl 22 The requested URL returned error: 400 send-pack: unexpected disconnect while reading sideband packet ... 致命错误:远端意外挂断了", 最后在 stack overflow 上找到了解决方案

By Ryan12/13/2024

大数据实验1

linuxhadoop

---- 大数据挖掘课程实验1

本文记录了大数据挖掘课程中实验1的步骤和遇到的问题。本文基于该[参考教程](https://dblab.xmu.edu.cn/blog/2441/)。

By Ryan12/12/2024

图像标准化

pythonpytorch

---- torchvision.transforms.Normalize 是一个进行图像标准化的类。

torchvision.transforms.Normalize 是一个进行图像标准化的类。它的作用是对图像中的每个像素做标准化(normalization)处理,这通常可以提高模型的训练效果。

By Ryan12/11/2024