浅析大语言模型中的SFT、RLHF、DPO、PPO及GRPO算法

LLMsAlgorithmsReinforcement LearningSupervised Learning

---- 简要介绍大语言模型中的SFT、RLHF、DPO、PPO及GRPO算法

大语言模型（LLMs）的快速发展推动了自然语言处理领域的巨大进步，但如何将其输出与人类偏好对齐仍是核心挑战。监督微调（SFT）、人类反馈强化学习（RLHF）、直接偏好优化（DPO）、近端策略优化（PPO）及组相对策略优化（GRPO）等算法在此过程中扮演了关键角色。本文将从技术原理、应用场景及对比分析等角度对这些算法进行深入探讨。

By Ryan5/11/2025

Understanding Retrieval-Augmented Generation (RAG) - Concepts, Paradigms, and Applications

llmRAG

---- A comprehension of RAG.

RAG means Retrieval-Augmented Generation. It is a kind of technique that integrates information retrieval and natural language generation.

By Ryan3/13/2025

RAGFlow本地部署教程（Windows篇）

llmRAGRAGFlow

---- RAGFlow 防踩坑必看

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合了信息检索（Retrieval）和自然语言生成（Generation）的技术框架。它通过从外部知识库中检索相关信息，并将其作为上下文输入到大型语言模型（LLM）中，从而增强模型生成回答的准确性、相关性和可解释性。RAGFlow是一个基于深度文档理解的开源RAG（检索增强生成）引擎。当与LLM集成时，它能够提供真实的问答能力，并得到来自各种复杂格式数据的充分引用的支持。

By Ryan2/27/2025

手把手教你用Cursor调教DeepSeek：让AI帮你写会跳舞的代码！

deepseekcursor

---- 本文由deepseek-r1修改撰写。

最近朋友圈被 DeepSeek R1 刷屏了！这个号称「理科生の春天」的AI模型，居然和程序员最爱的智能编辑器 Cursor 官宣联动了！作为一个「能用AI写代码就绝不自己敲键盘」的懒癌晚期博主，今天就带大家玩转这个梦幻组合~

By Ryan, deepseek-r12/2/2025

git push 出错解决

githttperror

---- stack overflow 确实好用～

最近在提交代码的时候遇到了以下错误 "... 错误：RPC 失败。HTTP 400 curl 22 The requested URL returned error: 400 send-pack: unexpected disconnect while reading sideband packet ... 致命错误：远端意外挂断了"，最后在 stack overflow 上找到了解决方案

By Ryan12/13/2024

大数据实验1

linuxhadoop

---- 大数据挖掘课程实验1

本文记录了大数据挖掘课程中实验1的步骤和遇到的问题。本文基于该[参考教程](https://dblab.xmu.edu.cn/blog/2441/)。

By Ryan12/12/2024

图像标准化

pythonpytorch

---- torchvision.transforms.Normalize 是一个进行图像标准化的类。

torchvision.transforms.Normalize 是一个进行图像标准化的类。它的作用是对图像中的每个像素做标准化(normalization)处理,这通常可以提高模型的训练效果。

By Ryan12/11/2024

Posts grows here~