你好!我是潘文博
我是香港城市大学 24 级在读博士生。通过统计学、计算机科学和哲学的背景,我的研究专注于从机制角度理解高级 AI 的能力边界和安全问题。在研究中我将分析理论与实践经验相结合来形成有理论基础的见解。长期目标是降低 p(doom)
想了解我的学术和职业经历请查看我的完整简历以了解更多。
关于这个网站
- 学术研究 我爱好研究各种科学问题。目前,我专注于运用数学和分析工具来深入理解大语言模型(LLMs)。我也对数据驱动的方法感兴趣,另一个研究方向是通过微调使LLMs更好地对齐。
- 阅读思考 我在闲暇时光中投入大量时间阅读,沉迷于学术非虚构类作品和科幻小说。
- 生产力工具 我在 GitHub 上开源了几个项目,主要专注于辅助我的研究和工作流程的生产力工具。
- 写作学习 在这个网站和小红书上发表文章可以通过反馈不断完善想法和表达自己。
精选项目
Faro Chat Models (2024)
一系列为长文本建模设计的微调语言模型。我整理了大量多样化的指令调优样本,并使用LoRA训练和模型合并优化现有基础模型。因此,这些模型在长文本理解方面表现出显著提升的稳定性和准确性。
Safety Residual Space (2025)
一个用于理解LLMs从安全微调中学到什么的分析工具。它测量训练过程中的激活变化,并提取最有意义的特征方向——那些能预测LLM行为(如拒绝回应)的特征。详情请查看论文。
CPT Scaling Law (2024)
我们提出了一个缩放定律,用于估计在CPT中达到特定损失所需的最优计算量(FLOPs)。持续预训练(CPT)指的是从现有检查点开始预训练模型。由于CPT数据分布通常与原始预训练数据不同(例如,不同的语言),因此需要专门的研究。
moffee (2024)
一个开源幻灯片制作工具,可以将Markdown文档转换为简洁、专业的幻灯片。moffee处理样式和布局,让你可以完全专注于内容。