🚩 AI应用开发告别“感觉良好”:构建高价值AI Agent测试集的指南

你刚刚迭代了你的AI Agent,它似乎比旧版更聪明、更流畅了。但这种“感觉”是不可靠的。当你的老板、同事或客户问“新版到底好在哪?具体提升了多少?”时,你该如何用冰冷的数据来证明?答案就是构建一个高质量、系统化的测试集。这是将开发中的主观感受,转化为工程上客观度量的唯一可靠途径。

Lazy loaded image RAG已死?2025年大模型问答架构的范式思考

还记得为搭建企业知识库问答系统,在向量数据库和Embedding中挣扎的夜晚吗?当我们还在优化RAG的召回率时,一个更简单的范式已悄然崛起:搜索优先的Agent架构。最近读了一篇《》的文章,有些启发。在2025年,RAG真的还是首选吗?本文将用数据和案例带您重新审视这场技术革命。

🧱 RAG:构建企业知识防火墙与智能引擎的方法

RAG可以赋能大模型应用,使得企业在保持隐私、提高准确性情况下利用大模型能力。

🗒️ 如何理解RAG

RAG的重要性,一方面在于扩大了大模型的上下文;另一方面在于在大模型的知识外增加了知识库(而这个知识库还可以有企业的私有特性),第三个是减少了幻觉,增加可靠性。

🏗️ AI Agent在实际应用领域的情况(reddit 202505)

AI Agent 的发展重点将是多智能体协作系统,而非单一的全能型智能体。这些系统侧重于优化后端运营,而非仅仅面向客户。

🗒️ 如何构建有效的Agent

Claude在24年12月份发表"Building effective agents" ,这篇文章的核心思想是:构建高效的 AI Agent 系统,应从简单的构建模块开始,逐步增加复杂性,并根据任务需求选择合适的工作流模式。同时,要重视工具设计和迭代优化,确保 Agent 的可靠性和有效性。 这篇文章为开发者提供了实际可操作的指导,强调了在实际应用中保持简单性和灵活性。

🖥️ 从大模型到复合AI系统的转变2024

2024年2月18日,伯克利大学的Matei Zaharia,等发表了一遍关于复合AI系统的文章,阐述了相关概念和问题,并指出复合AI系统的核心在于通过巧妙的工程设计,整合多种AI能力,从而达到更好的性能,而不仅仅是依赖于模型的简单放大。

Lazy loaded image langchain:使用langchain和chatGPT来处理问答

这篇文档很好的帮助理解如何将知识库与大模型结合起来使用。

🖨️ LLM、AI的应用—《2024 年科技领域的重大创新思想》

a16z网站向其超过 40 位合作伙伴征询了他们认为将在 2024 年成为创新动力的重要理念。其中有不少有有助于我们对大模型应用的想象。 推荐级别:☆☆☆