配套视频:https://www.bilibili.com/video/BV1sjrBBnEMu/

一、引言:重新定义浏览器的使命

2019年,当纽约浏览器公司成立时,我们怀揣着一个简单却宏大的使命:重新思考人们使用互联网的方式。我们坚信,浏览器是人们生活中最重要的软件之一,但它却没有得到应有的关注和创新。

过去几十年里,人们使用浏览器的方式发生了翻天覆地的变化,但浏览器本身却几乎原地踏步。我们将这个愿景亲切地称为"互联网计算机"——一个反映当今人们如何使用互联网,以及我们认为浏览器未来应该如何被使用的产品。

经过多年的探索、试错、起起落落,我们在2022年发布了首款浏览器Arc。它让互联网变得更个性化、更有条理、更愉悦,也更精致。Arc受到了数百万用户的喜爱,其中许多可能就在今天的读者中。但当我们退一步审视时,我们意识到Arc仍然只是对传统浏览器的渐进式改进,并未真正实现我们最初设定的愿景。

技术变革的转折点

2022年,一个关键的转折点出现了——我们获得了GPT等大语言模型的访问权限。像往常一样,我们开始原型探索,尝试新想法,并在Arc中推出了一些AI功能。但最初的简单探索逐渐发展成一份完整的论述。

2024年初,我们发布了名为"第二幕"的视频,阐述了一个核心观点:AI将从根本上改变人们使用互联网的方式,并进而彻底改变浏览器本身。基于这一信念,我们开始构建一款从底层重构、专为AI时代的速度与安全打造的全新浏览器——Dia。

Dia是我们的AI原生浏览器,它让你在浏览器中的所有工作都能拥有一个智能助手。它了解你、个性化你的体验、帮助你通过标签页高效完成工作,并通过你常用的应用完成更多任务。虽然尚未完全实现我们的愿景,但我们坚信它已走在正确的道路上。

二、核心经验一:为快速迭代优化工具与流程

打造一款产品并不容易,更别说同时打造两款,其中后者还是AI原生的。多年的迭代与试错让我们积累了丰富的经验,今天我想分享其中最重要的几点。

速度是制胜关键

从一开始,浏览器公司就坚信:我们不会取胜,除非我们构建出能让我们比其他人更快地迭代、构建、发布和学习的工具、流程、平台和思维模式。这一点在AI时代依然成立,但其具体形式已经发生了改变。

即使作为一家小公司,我们也在工具上进行了战略性投资。我们专注于四个关键领域:

  1. AI产品功能的原型设计工具

  2. 构建和运行评估系统(Evals)

  3. 收集训练和评估所需的数据

  4. 用于自动化爬坡优化的工具

从封闭到开放:工具的演进

最初,我们开发了一个非常基础的提示编辑器,但它只存在于开发版本中。这意味着什么?三个严重的问题:

  • 权限受限:只有工程师能访问

  • 迭代速度慢:修改流程繁琐

  • 缺乏个人上下文:无法在真实使用场景中测试

在AI产品中,上下文才是关键——它决定了你能否真正感受到产品的好坏。认识到这一点后,我们做出了一个重要决定:将所有工具都集成到产品本身中

现在,我们公司每天内部使用的Dia产品中,包含了所有的提示、工具、上下文、模型和每个参数的配置界面。这带来了革命性的变化:

  • 创意速度提升10倍:从构思到测试的时间大幅缩短

  • 参与者范围扩大:从CEO到新员工都能直接迭代产品

  • 真实场景测试:在完整的个人上下文中评估功能

这同样适用于我们所有主要产品协议。我们有工具来优化记忆知识图谱,有工具用于持续优化计算机使用方式。实际上,在将计算机使用功能集成到产品之前,我们尝试了数十种不同的策略。

创造力的解放

这里有一个很少被提及但非常重要的点:将这些工具融入产品本身,极大地激发了创造力

我们的产品经理、设计师、客服、战略和运营团队都能尝试针对其使用场景定制的新想法。这种跨职能的创新能力,正是我们想要实现的目标。

JEPA:自动化提示优化

在快速迭代的基础上,我们还需要自动化的优化机制。这就是JEPA(基于今年早些时候的一篇论文)发挥作用的地方。

JEPA的核心动机很简单:一种样本高效的方法来改进复杂的大语言模型系统,无需依赖强化学习或其他微调技术。对我们这样的小公司来说,这至关重要。

JEPA的工作原理

  1. 种子初始化:为系统提供一组初始提示

  2. 执行与评分:在一组任务上运行并评分

  3. 帕累托选择:选择表现最优的提示

  4. 反思变异:利用LLM反思优劣,生成新提示

  5. 循环迭代:重复上述过程

关键创新在于:

  • 反思式提示变异技术:不是盲目尝试,而是基于反思改进

  • 多路径探索:探索更多提示空间而非单一路径

  • 调整文本而非权重:优化的是提示文本,不需要模型微调

你只需提供一个极其简单的初始提示,通过JEPA运行,它就能沿着你设定的指标和评分机制自动优化。

构建流程的两个阶段

综合来看,我们为特定功能构建的方式可以分为两个不同阶段:

第一阶段:原型设计与构思

  • 扩大漏斗顶端的创意数量

  • 降低开发门槛,让更多人能参与

  • 每周、每天尝试大量来自各类人群的创意

  • 内部试用(dogfooding)这些产品

  • 评估是否有实际价值、是否解决真实问题

  • 判断是否有路径达到质量标准

第二阶段:收集与优化

  • 通过评估明确产品需求

  • 通过代码、提示和自动化技术(如JEPA)进行爬坡优化

  • 持续内部试用

  • 最终发布

我想强调的是:构思阶段与优化阶段同样重要。因为每周都有新的AI进展,新的可能性不断被解锁。作为浏览器、作为产品,我们需要尽可能多地尝试这些新想法,同时不低估将这些想法高质量地推向生产环境所需的努力。

三、核心经验二:模型行为是一门技艺与学科

什么是模型行为?

对我们而言,模型行为是定义、设计、评估并交付期望行为模型的核心职能。它将原则转化为产品需求、提示与评估,最终塑造大语言模型产品的行为与个性——对我们来说,就是Dia助手的个性。

我将模型行为分为三个不同领域:

1. 行为设计

  • 明确我们真正想要的产品体验

  • 定义风格、语调

  • 在某些情况下,定义回复的形式

2. 数据收集与需求明确

  • 收集用于测量和训练的数据

  • 通过评估明确产品需求

3. 模型引导

  • 构建产品本身

  • 提示设计

  • 模型选择

  • 定义上下文窗口中的内容

  • 设置参数等

迭代是核心

这个过程是高度迭代的:我们构建、优化、创建评估,然后发布,接着收集更多反馈(可能是内部反馈,也可能是外部反馈),并将其输入迭代开发流程。

一个有趣的类比

我们思考过一个类比:模型行为之于AI产品,就像产品设计之于互联网的演进

互联网早期

  • 网站仅注重功能性

  • 它们完成了任务,但仅此而已

随着时间推移

  • 随着我们试图在互联网和技术上实现更多

  • 产品设计与互联网技艺本身的复杂性也随之增长

模型行为的演进

起初(功能性阶段)

  • 我们有提示

  • 我们有评估

  • 输入指令,输出结果

现在(智能体阶段)

  • 目标导向的推理

  • 自主任务的塑造

  • 自我修正与学习

  • 甚至塑造大语言模型自身的个性

未来会怎样?

我们相信,构建AI产品仍处于早期阶段,模型行为将持续演变为一种专业化且普遍存在的独立职能,即使在产品公司中也是如此。

最合适的人选可能出乎意料

过去几年我最喜欢的关于构建Dia的故事之一,就是模型行为团队的诞生过程。

如前所述,最初由工程师编写提示。后来我们开发了这些提示工具,让公司更多人能参与。有一次,我们战略与运营团队的一位成员,利用这些提示工具在一个周末重写了我们所有的提示。

周一早上,他发布了一段Loom视频,分享他做了什么、如何做到、为何这样做,以及一套全新的提示。仅这些提示就激发了产品质量与体验的全新水平

这也促成了我们模型行为团队的正式成立。

我想强调的是:要关注公司里那些不受职位限制、能帮助你塑造产品和模型方向的人。他们未必是工程师——也可能是战略与运营团队的人,或者其他任何角色。

四、核心经验三:AI安全是产品构建的涌现特性

今天我将重点讨论一个具体的安全问题:提示注入攻击

什么是提示注入?

提示注入是一种攻击方式,第三方可以通过它覆盖大语言模型的原有指令,以造成危害。这可能包括:

  • 数据泄露

  • 执行恶意命令

  • 无视安全规则

一个典型案例

假设你给大语言模型提供了一个网站的上下文,并指示它总结该网页。但你不知道的是,该网站的HTML中隐藏了一个提示注入。

结果会怎样?大语言模型不会真正总结网页内容,而是:

  1. 被引导打开一个新网站

  2. 提取你的个人信息

  3. 将其作为GET参数嵌入网站URL中

  4. 有效地窃取了你的数据

浏览器的"致命三重威胁"

对浏览器而言,提示注入攻击极其关键,因为浏览器位于一个致命三重威胁的中心

  1. 访问私有数据:浏览器知道你的个人信息、浏览历史、登录凭证等

  2. 接触不可信内容:浏览器会访问互联网上的任意网站

  3. 对外通信能力:浏览器可以打开网站、发送邮件、安排日程事件等

这三者的结合使得提示注入攻击的后果极其严重。

技术防御策略的局限性

我们可以尝试一些技术策略:

策略一:标签包裹

  • 将不可信内容用特殊标签包裹

  • 告诉LLM:只听这些标签内的指令,忽略标签外的内容

  • 问题:这很容易被绕过,攻击者依然可以利用提示注入

策略二:数据与指令分离

  • 将操作指令分配给系统角色

  • 为第三方内容分配用户角色

  • 甚至叠加随机生成的标签来包裹用户内容

  • 问题:虽然有帮助,但仍无法完全保证,提示注入仍会发生

产品设计层面的解决方案

既然纯技术方案无法完全防止提示注入,那我们该怎么办?关键在于从设计之初就将这些因素考虑进去

我们必须将技术方法、用户体验和设计融为一体,从根本上协同解决问题。

案例:Dia的自动填充工具

自动填充工具允许你利用LLM结合上下文、记忆和你的个人信息来自动填写网页表单。它功能强大,但可以想象,它存在一些漏洞——提示注入可能窃取你的数据并填入表格,一旦提交,就由不得你了。

我们的解决方案

  • 在表单被填写之前,让用户以明文形式阅读并确认数据

  • 这无法防止提示注入本身

  • 但它赋予用户控制权、知情权和信任感

这是我们产品始终秉持的理念,贯穿于每个功能的构建方式。

其他类似案例

  • 日程安排:在Dia中安排日程时,我们有类似的确认步骤

  • 邮件撰写:在Dia中撰写邮件时,我们也有类似的确认步骤

核心思想是:让用户始终知道正在发生什么,并拥有最终决定权

五、更深层的转型:不仅是产品演进,更是公司演进

今天我讲了三件重要的事情:

  1. 优化快速迭代的工具与流程

  2. 将模型行为视为技艺与学科

  3. AI安全是产品构建中的涌现特性

但最后我想强调的是:当我们踏上构建Dia的旅程时,我们意识到这不仅仅是产品迭代,而是公司级的转型

认知的转变

我们最初的想法是:"如何利用AI让Arc变得更好,让浏览器更好?"

但我们很快发现并调整的是:这不仅仅是产品演进,而是公司的演进

全方位的影响

今天,我分享了我们如何打造产品、团队如何为此改变、以及我们如何思考AI产品的安全。但实际上,它远不止如此:

  • 培训方式:如何培训公司的每一个人

  • 招聘标准:如何寻找和评估人才

  • 沟通方式:如何在团队间传递信息

  • 协作模式:如何共同工作和创造

核心启示

如果只能留给你们一件事,那就是我们过去几年学到的最重要的一课:

当你意识到技术变革时,你必须欣然接受,并且坚定地拥抱它。

不是浅尝辄止,不是试探性地尝试,而是以信念驱动的全面转型。

六、结语

构建AI原生浏览器是一段充满挑战但令人兴奋的旅程。从Arc到Dia,我们不仅在打造产品,更在探索AI时代人机交互的新范式。

我们学到的三大核心经验——快速迭代的工具体系、模型行为的专业化、以及产品设计层面的安全思维——不仅适用于浏览器,也适用于任何AI产品的开发。

更重要的是,我们认识到:AI不仅改变产品,更改变组织本身。当技术变革来临时,需要的不是局部调整,而是全公司、全方位的坚定转型。

虽然Dia尚未完全实现我们的愿景,但我们坚信它已走在正确的道路上。AI将从根本上改变人们使用互联网的方式,而浏览器——作为互联网的入口——必将在这场变革中扮演关键角色。

这只是开始。我们仍处于构建AI产品的早期阶段,未来还有无限可能等待探索。


如果这篇文章对你有帮助,欢迎点赞、收藏、转发。也欢迎在评论区分享你的经验,我们一起交流学习!


我是 dtsola【IT解决方案架构师 | AI创业者】 ;专注AI创业、商业、技术、心理学、哲学内容分享。

提供服务:AI项目咨询 | 技术解决方案 | IT项目实施 | 企业技术顾问

博客:https://www.dtsola.com

公众号&VX:dtsola

需提供服务,加微信 dtsola,备注:IT咨询,并说明来意。


#AI编程 #VibeCoding #AI产品 #ClaudeCode #独立开发者 #AI创业 #一人公司 #程序员 #软件工程师 #软件工程


Work Less, Earn More, Enjoy Life.