【AI编程】打造AI原生浏览器Dia的1000天：AI产品开发的关键经验|dtsola

配套视频：https://www.bilibili.com/video/BV1sjrBBnEMu/

一、引言：重新定义浏览器的使命

2019年，当纽约浏览器公司成立时，我们怀揣着一个简单却宏大的使命：重新思考人们使用互联网的方式。我们坚信，浏览器是人们生活中最重要的软件之一，但它却没有得到应有的关注和创新。

过去几十年里，人们使用浏览器的方式发生了翻天覆地的变化，但浏览器本身却几乎原地踏步。我们将这个愿景亲切地称为"互联网计算机"——一个反映当今人们如何使用互联网，以及我们认为浏览器未来应该如何被使用的产品。

经过多年的探索、试错、起起落落，我们在2022年发布了首款浏览器Arc。它让互联网变得更个性化、更有条理、更愉悦，也更精致。Arc受到了数百万用户的喜爱，其中许多可能就在今天的读者中。但当我们退一步审视时，我们意识到Arc仍然只是对传统浏览器的渐进式改进，并未真正实现我们最初设定的愿景。

技术变革的转折点

2022年，一个关键的转折点出现了——我们获得了GPT等大语言模型的访问权限。像往常一样，我们开始原型探索，尝试新想法，并在Arc中推出了一些AI功能。但最初的简单探索逐渐发展成一份完整的论述。

2024年初，我们发布了名为"第二幕"的视频，阐述了一个核心观点：AI将从根本上改变人们使用互联网的方式，并进而彻底改变浏览器本身。基于这一信念，我们开始构建一款从底层重构、专为AI时代的速度与安全打造的全新浏览器——Dia。

Dia是我们的AI原生浏览器，它让你在浏览器中的所有工作都能拥有一个智能助手。它了解你、个性化你的体验、帮助你通过标签页高效完成工作，并通过你常用的应用完成更多任务。虽然尚未完全实现我们的愿景，但我们坚信它已走在正确的道路上。

二、核心经验一：为快速迭代优化工具与流程

打造一款产品并不容易，更别说同时打造两款，其中后者还是AI原生的。多年的迭代与试错让我们积累了丰富的经验，今天我想分享其中最重要的几点。

速度是制胜关键

从一开始，浏览器公司就坚信：我们不会取胜，除非我们构建出能让我们比其他人更快地迭代、构建、发布和学习的工具、流程、平台和思维模式。这一点在AI时代依然成立，但其具体形式已经发生了改变。

即使作为一家小公司，我们也在工具上进行了战略性投资。我们专注于四个关键领域：

AI产品功能的原型设计工具
构建和运行评估系统（Evals）
收集训练和评估所需的数据
用于自动化爬坡优化的工具

从封闭到开放：工具的演进

最初，我们开发了一个非常基础的提示编辑器，但它只存在于开发版本中。这意味着什么？三个严重的问题：

权限受限：只有工程师能访问
迭代速度慢：修改流程繁琐
缺乏个人上下文：无法在真实使用场景中测试

在AI产品中，上下文才是关键——它决定了你能否真正感受到产品的好坏。认识到这一点后，我们做出了一个重要决定：将所有工具都集成到产品本身中。

现在，我们公司每天内部使用的Dia产品中，包含了所有的提示、工具、上下文、模型和每个参数的配置界面。这带来了革命性的变化：

创意速度提升10倍：从构思到测试的时间大幅缩短
参与者范围扩大：从CEO到新员工都能直接迭代产品
真实场景测试：在完整的个人上下文中评估功能

这同样适用于我们所有主要产品协议。我们有工具来优化记忆知识图谱，有工具用于持续优化计算机使用方式。实际上，在将计算机使用功能集成到产品之前，我们尝试了数十种不同的策略。

创造力的解放

这里有一个很少被提及但非常重要的点：将这些工具融入产品本身，极大地激发了创造力。

我们的产品经理、设计师、客服、战略和运营团队都能尝试针对其使用场景定制的新想法。这种跨职能的创新能力，正是我们想要实现的目标。

JEPA：自动化提示优化

在快速迭代的基础上，我们还需要自动化的优化机制。这就是JEPA（基于今年早些时候的一篇论文）发挥作用的地方。

JEPA的核心动机很简单：一种样本高效的方法来改进复杂的大语言模型系统，无需依赖强化学习或其他微调技术。对我们这样的小公司来说，这至关重要。

JEPA的工作原理：

种子初始化：为系统提供一组初始提示
执行与评分：在一组任务上运行并评分
帕累托选择：选择表现最优的提示
反思变异：利用LLM反思优劣，生成新提示
循环迭代：重复上述过程

关键创新在于：

反思式提示变异技术：不是盲目尝试，而是基于反思改进
多路径探索：探索更多提示空间而非单一路径
调整文本而非权重：优化的是提示文本，不需要模型微调

你只需提供一个极其简单的初始提示，通过JEPA运行，它就能沿着你设定的指标和评分机制自动优化。

构建流程的两个阶段

综合来看，我们为特定功能构建的方式可以分为两个不同阶段：

第一阶段：原型设计与构思

扩大漏斗顶端的创意数量
降低开发门槛，让更多人能参与
每周、每天尝试大量来自各类人群的创意
内部试用（dogfooding）这些产品
评估是否有实际价值、是否解决真实问题
判断是否有路径达到质量标准

第二阶段：收集与优化

通过评估明确产品需求
通过代码、提示和自动化技术（如JEPA）进行爬坡优化
持续内部试用
最终发布

我想强调的是：构思阶段与优化阶段同样重要。因为每周都有新的AI进展，新的可能性不断被解锁。作为浏览器、作为产品，我们需要尽可能多地尝试这些新想法，同时不低估将这些想法高质量地推向生产环境所需的努力。

三、核心经验二：模型行为是一门技艺与学科

什么是模型行为？

对我们而言，模型行为是定义、设计、评估并交付期望行为模型的核心职能。它将原则转化为产品需求、提示与评估，最终塑造大语言模型产品的行为与个性——对我们来说，就是Dia助手的个性。

我将模型行为分为三个不同领域：

1. 行为设计

明确我们真正想要的产品体验
定义风格、语调
在某些情况下，定义回复的形式

2. 数据收集与需求明确

收集用于测量和训练的数据
通过评估明确产品需求

3. 模型引导

构建产品本身
提示设计
模型选择
定义上下文窗口中的内容
设置参数等

迭代是核心

这个过程是高度迭代的：我们构建、优化、创建评估，然后发布，接着收集更多反馈（可能是内部反馈，也可能是外部反馈），并将其输入迭代开发流程。

一个有趣的类比

我们思考过一个类比：模型行为之于AI产品，就像产品设计之于互联网的演进。

互联网早期：

网站仅注重功能性
它们完成了任务，但仅此而已

随着时间推移：

随着我们试图在互联网和技术上实现更多
产品设计与互联网技艺本身的复杂性也随之增长

模型行为的演进：

起初（功能性阶段）：

我们有提示
我们有评估
输入指令，输出结果

现在（智能体阶段）：

目标导向的推理
自主任务的塑造
自我修正与学习
甚至塑造大语言模型自身的个性

未来会怎样？

我们相信，构建AI产品仍处于早期阶段，模型行为将持续演变为一种专业化且普遍存在的独立职能，即使在产品公司中也是如此。

最合适的人选可能出乎意料

过去几年我最喜欢的关于构建Dia的故事之一，就是模型行为团队的诞生过程。

如前所述，最初由工程师编写提示。后来我们开发了这些提示工具，让公司更多人能参与。有一次，我们战略与运营团队的一位成员，利用这些提示工具在一个周末重写了我们所有的提示。

周一早上，他发布了一段Loom视频，分享他做了什么、如何做到、为何这样做，以及一套全新的提示。仅这些提示就激发了产品质量与体验的全新水平。

这也促成了我们模型行为团队的正式成立。

我想强调的是：要关注公司里那些不受职位限制、能帮助你塑造产品和模型方向的人。他们未必是工程师——也可能是战略与运营团队的人，或者其他任何角色。

四、核心经验三：AI安全是产品构建的涌现特性

今天我将重点讨论一个具体的安全问题：提示注入攻击。

什么是提示注入？

提示注入是一种攻击方式，第三方可以通过它覆盖大语言模型的原有指令，以造成危害。这可能包括：

数据泄露
执行恶意命令
无视安全规则

一个典型案例

假设你给大语言模型提供了一个网站的上下文，并指示它总结该网页。但你不知道的是，该网站的HTML中隐藏了一个提示注入。

结果会怎样？大语言模型不会真正总结网页内容，而是：

被引导打开一个新网站
提取你的个人信息
将其作为GET参数嵌入网站URL中
有效地窃取了你的数据

浏览器的"致命三重威胁"

对浏览器而言，提示注入攻击极其关键，因为浏览器位于一个致命三重威胁的中心：

访问私有数据：浏览器知道你的个人信息、浏览历史、登录凭证等
接触不可信内容：浏览器会访问互联网上的任意网站
对外通信能力：浏览器可以打开网站、发送邮件、安排日程事件等

这三者的结合使得提示注入攻击的后果极其严重。

技术防御策略的局限性

我们可以尝试一些技术策略：

策略一：标签包裹

将不可信内容用特殊标签包裹
告诉LLM：只听这些标签内的指令，忽略标签外的内容
问题：这很容易被绕过，攻击者依然可以利用提示注入

策略二：数据与指令分离

将操作指令分配给系统角色
为第三方内容分配用户角色
甚至叠加随机生成的标签来包裹用户内容
问题：虽然有帮助，但仍无法完全保证，提示注入仍会发生

产品设计层面的解决方案

既然纯技术方案无法完全防止提示注入，那我们该怎么办？关键在于从设计之初就将这些因素考虑进去。

我们必须将技术方法、用户体验和设计融为一体，从根本上协同解决问题。

案例：Dia的自动填充工具

自动填充工具允许你利用LLM结合上下文、记忆和你的个人信息来自动填写网页表单。它功能强大，但可以想象，它存在一些漏洞——提示注入可能窃取你的数据并填入表格，一旦提交，就由不得你了。

我们的解决方案：

在表单被填写之前，让用户以明文形式阅读并确认数据
这无法防止提示注入本身
但它赋予用户控制权、知情权和信任感

这是我们产品始终秉持的理念，贯穿于每个功能的构建方式。

其他类似案例：

日程安排：在Dia中安排日程时，我们有类似的确认步骤
邮件撰写：在Dia中撰写邮件时，我们也有类似的确认步骤

核心思想是：让用户始终知道正在发生什么，并拥有最终决定权。

五、更深层的转型：不仅是产品演进，更是公司演进

今天我讲了三件重要的事情：

优化快速迭代的工具与流程
将模型行为视为技艺与学科
AI安全是产品构建中的涌现特性

但最后我想强调的是：当我们踏上构建Dia的旅程时，我们意识到这不仅仅是产品迭代，而是公司级的转型。

认知的转变

我们最初的想法是："如何利用AI让Arc变得更好，让浏览器更好？"

但我们很快发现并调整的是：这不仅仅是产品演进，而是公司的演进。

全方位的影响

今天，我分享了我们如何打造产品、团队如何为此改变、以及我们如何思考AI产品的安全。但实际上，它远不止如此：

培训方式：如何培训公司的每一个人
招聘标准：如何寻找和评估人才
沟通方式：如何在团队间传递信息
协作模式：如何共同工作和创造

核心启示

如果只能留给你们一件事，那就是我们过去几年学到的最重要的一课：

当你意识到技术变革时，你必须欣然接受，并且坚定地拥抱它。

不是浅尝辄止，不是试探性地尝试，而是以信念驱动的全面转型。

六、结语

构建AI原生浏览器是一段充满挑战但令人兴奋的旅程。从Arc到Dia，我们不仅在打造产品，更在探索AI时代人机交互的新范式。

我们学到的三大核心经验——快速迭代的工具体系、模型行为的专业化、以及产品设计层面的安全思维——不仅适用于浏览器，也适用于任何AI产品的开发。

更重要的是，我们认识到：AI不仅改变产品，更改变组织本身。当技术变革来临时，需要的不是局部调整，而是全公司、全方位的坚定转型。

虽然Dia尚未完全实现我们的愿景，但我们坚信它已走在正确的道路上。AI将从根本上改变人们使用互联网的方式，而浏览器——作为互联网的入口——必将在这场变革中扮演关键角色。

这只是开始。我们仍处于构建AI产品的早期阶段，未来还有无限可能等待探索。

如果这篇文章对你有帮助，欢迎点赞、收藏、转发。也欢迎在评论区分享你的经验，我们一起交流学习！

我是 dtsola【IT解决方案架构师 | AI创业者】；专注AI创业、商业、技术、心理学、哲学内容分享。

提供服务：AI项目咨询 | 技术解决方案 | IT项目实施 | 企业技术顾问

博客：https://www.dtsola.com

公众号&VX：dtsola

需提供服务，加微信 dtsola，备注：IT咨询，并说明来意。

#AI编程 #VibeCoding #AI产品 #ClaudeCode #独立开发者 #AI创业 #一人公司 #程序员 #软件工程师 #软件工程