
配套视频:https://www.bilibili.com/video/BV1sjrBBnEMu/
一、引言:重新定义浏览器的使命
2019年,当纽约浏览器公司成立时,我们怀揣着一个简单却宏大的使命:重新思考人们使用互联网的方式。我们坚信,浏览器是人们生活中最重要的软件之一,但它却没有得到应有的关注和创新。
过去几十年里,人们使用浏览器的方式发生了翻天覆地的变化,但浏览器本身却几乎原地踏步。我们将这个愿景亲切地称为"互联网计算机"——一个反映当今人们如何使用互联网,以及我们认为浏览器未来应该如何被使用的产品。
经过多年的探索、试错、起起落落,我们在2022年发布了首款浏览器Arc。它让互联网变得更个性化、更有条理、更愉悦,也更精致。Arc受到了数百万用户的喜爱,其中许多可能就在今天的读者中。但当我们退一步审视时,我们意识到Arc仍然只是对传统浏览器的渐进式改进,并未真正实现我们最初设定的愿景。
技术变革的转折点
2022年,一个关键的转折点出现了——我们获得了GPT等大语言模型的访问权限。像往常一样,我们开始原型探索,尝试新想法,并在Arc中推出了一些AI功能。但最初的简单探索逐渐发展成一份完整的论述。
2024年初,我们发布了名为"第二幕"的视频,阐述了一个核心观点:AI将从根本上改变人们使用互联网的方式,并进而彻底改变浏览器本身。基于这一信念,我们开始构建一款从底层重构、专为AI时代的速度与安全打造的全新浏览器——Dia。
Dia是我们的AI原生浏览器,它让你在浏览器中的所有工作都能拥有一个智能助手。它了解你、个性化你的体验、帮助你通过标签页高效完成工作,并通过你常用的应用完成更多任务。虽然尚未完全实现我们的愿景,但我们坚信它已走在正确的道路上。
二、核心经验一:为快速迭代优化工具与流程
打造一款产品并不容易,更别说同时打造两款,其中后者还是AI原生的。多年的迭代与试错让我们积累了丰富的经验,今天我想分享其中最重要的几点。
速度是制胜关键
从一开始,浏览器公司就坚信:我们不会取胜,除非我们构建出能让我们比其他人更快地迭代、构建、发布和学习的工具、流程、平台和思维模式。这一点在AI时代依然成立,但其具体形式已经发生了改变。
即使作为一家小公司,我们也在工具上进行了战略性投资。我们专注于四个关键领域:
AI产品功能的原型设计工具
构建和运行评估系统(Evals)
收集训练和评估所需的数据
用于自动化爬坡优化的工具
从封闭到开放:工具的演进
最初,我们开发了一个非常基础的提示编辑器,但它只存在于开发版本中。这意味着什么?三个严重的问题:
权限受限:只有工程师能访问
迭代速度慢:修改流程繁琐
缺乏个人上下文:无法在真实使用场景中测试
在AI产品中,上下文才是关键——它决定了你能否真正感受到产品的好坏。认识到这一点后,我们做出了一个重要决定:将所有工具都集成到产品本身中。
现在,我们公司每天内部使用的Dia产品中,包含了所有的提示、工具、上下文、模型和每个参数的配置界面。这带来了革命性的变化:
创意速度提升10倍:从构思到测试的时间大幅缩短
参与者范围扩大:从CEO到新员工都能直接迭代产品
真实场景测试:在完整的个人上下文中评估功能
这同样适用于我们所有主要产品协议。我们有工具来优化记忆知识图谱,有工具用于持续优化计算机使用方式。实际上,在将计算机使用功能集成到产品之前,我们尝试了数十种不同的策略。
创造力的解放
这里有一个很少被提及但非常重要的点:将这些工具融入产品本身,极大地激发了创造力。
我们的产品经理、设计师、客服、战略和运营团队都能尝试针对其使用场景定制的新想法。这种跨职能的创新能力,正是我们想要实现的目标。
JEPA:自动化提示优化
在快速迭代的基础上,我们还需要自动化的优化机制。这就是JEPA(基于今年早些时候的一篇论文)发挥作用的地方。
JEPA的核心动机很简单:一种样本高效的方法来改进复杂的大语言模型系统,无需依赖强化学习或其他微调技术。对我们这样的小公司来说,这至关重要。
JEPA的工作原理:
种子初始化:为系统提供一组初始提示
执行与评分:在一组任务上运行并评分
帕累托选择:选择表现最优的提示
反思变异:利用LLM反思优劣,生成新提示
循环迭代:重复上述过程
关键创新在于:
反思式提示变异技术:不是盲目尝试,而是基于反思改进
多路径探索:探索更多提示空间而非单一路径
调整文本而非权重:优化的是提示文本,不需要模型微调
你只需提供一个极其简单的初始提示,通过JEPA运行,它就能沿着你设定的指标和评分机制自动优化。
构建流程的两个阶段
综合来看,我们为特定功能构建的方式可以分为两个不同阶段:
第一阶段:原型设计与构思
扩大漏斗顶端的创意数量
降低开发门槛,让更多人能参与
每周、每天尝试大量来自各类人群的创意
内部试用(dogfooding)这些产品
评估是否有实际价值、是否解决真实问题
判断是否有路径达到质量标准
第二阶段:收集与优化
通过评估明确产品需求
通过代码、提示和自动化技术(如JEPA)进行爬坡优化
持续内部试用
最终发布
我想强调的是:构思阶段与优化阶段同样重要。因为每周都有新的AI进展,新的可能性不断被解锁。作为浏览器、作为产品,我们需要尽可能多地尝试这些新想法,同时不低估将这些想法高质量地推向生产环境所需的努力。
三、核心经验二:模型行为是一门技艺与学科
什么是模型行为?
对我们而言,模型行为是定义、设计、评估并交付期望行为模型的核心职能。它将原则转化为产品需求、提示与评估,最终塑造大语言模型产品的行为与个性——对我们来说,就是Dia助手的个性。
我将模型行为分为三个不同领域:
1. 行为设计
明确我们真正想要的产品体验
定义风格、语调
在某些情况下,定义回复的形式
2. 数据收集与需求明确
收集用于测量和训练的数据
通过评估明确产品需求
3. 模型引导
构建产品本身
提示设计
模型选择
定义上下文窗口中的内容
设置参数等
迭代是核心
这个过程是高度迭代的:我们构建、优化、创建评估,然后发布,接着收集更多反馈(可能是内部反馈,也可能是外部反馈),并将其输入迭代开发流程。
一个有趣的类比
我们思考过一个类比:模型行为之于AI产品,就像产品设计之于互联网的演进。
互联网早期:
网站仅注重功能性
它们完成了任务,但仅此而已
随着时间推移:
随着我们试图在互联网和技术上实现更多
产品设计与互联网技艺本身的复杂性也随之增长
模型行为的演进:
起初(功能性阶段):
我们有提示
我们有评估
输入指令,输出结果
现在(智能体阶段):
目标导向的推理
自主任务的塑造
自我修正与学习
甚至塑造大语言模型自身的个性
未来会怎样?
我们相信,构建AI产品仍处于早期阶段,模型行为将持续演变为一种专业化且普遍存在的独立职能,即使在产品公司中也是如此。
最合适的人选可能出乎意料
过去几年我最喜欢的关于构建Dia的故事之一,就是模型行为团队的诞生过程。
如前所述,最初由工程师编写提示。后来我们开发了这些提示工具,让公司更多人能参与。有一次,我们战略与运营团队的一位成员,利用这些提示工具在一个周末重写了我们所有的提示。
周一早上,他发布了一段Loom视频,分享他做了什么、如何做到、为何这样做,以及一套全新的提示。仅这些提示就激发了产品质量与体验的全新水平。
这也促成了我们模型行为团队的正式成立。
我想强调的是:要关注公司里那些不受职位限制、能帮助你塑造产品和模型方向的人。他们未必是工程师——也可能是战略与运营团队的人,或者其他任何角色。
四、核心经验三:AI安全是产品构建的涌现特性
今天我将重点讨论一个具体的安全问题:提示注入攻击。
什么是提示注入?
提示注入是一种攻击方式,第三方可以通过它覆盖大语言模型的原有指令,以造成危害。这可能包括:
数据泄露
执行恶意命令
无视安全规则
一个典型案例
假设你给大语言模型提供了一个网站的上下文,并指示它总结该网页。但你不知道的是,该网站的HTML中隐藏了一个提示注入。
结果会怎样?大语言模型不会真正总结网页内容,而是:
被引导打开一个新网站
提取你的个人信息
将其作为GET参数嵌入网站URL中
有效地窃取了你的数据
浏览器的"致命三重威胁"
对浏览器而言,提示注入攻击极其关键,因为浏览器位于一个致命三重威胁的中心:
访问私有数据:浏览器知道你的个人信息、浏览历史、登录凭证等
接触不可信内容:浏览器会访问互联网上的任意网站
对外通信能力:浏览器可以打开网站、发送邮件、安排日程事件等
这三者的结合使得提示注入攻击的后果极其严重。
技术防御策略的局限性
我们可以尝试一些技术策略:
策略一:标签包裹
将不可信内容用特殊标签包裹
告诉LLM:只听这些标签内的指令,忽略标签外的内容
问题:这很容易被绕过,攻击者依然可以利用提示注入
策略二:数据与指令分离
将操作指令分配给系统角色
为第三方内容分配用户角色
甚至叠加随机生成的标签来包裹用户内容
问题:虽然有帮助,但仍无法完全保证,提示注入仍会发生
产品设计层面的解决方案
既然纯技术方案无法完全防止提示注入,那我们该怎么办?关键在于从设计之初就将这些因素考虑进去。
我们必须将技术方法、用户体验和设计融为一体,从根本上协同解决问题。
案例:Dia的自动填充工具
自动填充工具允许你利用LLM结合上下文、记忆和你的个人信息来自动填写网页表单。它功能强大,但可以想象,它存在一些漏洞——提示注入可能窃取你的数据并填入表格,一旦提交,就由不得你了。
我们的解决方案:
在表单被填写之前,让用户以明文形式阅读并确认数据
这无法防止提示注入本身
但它赋予用户控制权、知情权和信任感
这是我们产品始终秉持的理念,贯穿于每个功能的构建方式。
其他类似案例:
日程安排:在Dia中安排日程时,我们有类似的确认步骤
邮件撰写:在Dia中撰写邮件时,我们也有类似的确认步骤
核心思想是:让用户始终知道正在发生什么,并拥有最终决定权。
五、更深层的转型:不仅是产品演进,更是公司演进
今天我讲了三件重要的事情:
优化快速迭代的工具与流程
将模型行为视为技艺与学科
AI安全是产品构建中的涌现特性
但最后我想强调的是:当我们踏上构建Dia的旅程时,我们意识到这不仅仅是产品迭代,而是公司级的转型。
认知的转变
我们最初的想法是:"如何利用AI让Arc变得更好,让浏览器更好?"
但我们很快发现并调整的是:这不仅仅是产品演进,而是公司的演进。
全方位的影响
今天,我分享了我们如何打造产品、团队如何为此改变、以及我们如何思考AI产品的安全。但实际上,它远不止如此:
培训方式:如何培训公司的每一个人
招聘标准:如何寻找和评估人才
沟通方式:如何在团队间传递信息
协作模式:如何共同工作和创造
核心启示
如果只能留给你们一件事,那就是我们过去几年学到的最重要的一课:
当你意识到技术变革时,你必须欣然接受,并且坚定地拥抱它。
不是浅尝辄止,不是试探性地尝试,而是以信念驱动的全面转型。
六、结语
构建AI原生浏览器是一段充满挑战但令人兴奋的旅程。从Arc到Dia,我们不仅在打造产品,更在探索AI时代人机交互的新范式。
我们学到的三大核心经验——快速迭代的工具体系、模型行为的专业化、以及产品设计层面的安全思维——不仅适用于浏览器,也适用于任何AI产品的开发。
更重要的是,我们认识到:AI不仅改变产品,更改变组织本身。当技术变革来临时,需要的不是局部调整,而是全公司、全方位的坚定转型。
虽然Dia尚未完全实现我们的愿景,但我们坚信它已走在正确的道路上。AI将从根本上改变人们使用互联网的方式,而浏览器——作为互联网的入口——必将在这场变革中扮演关键角色。
这只是开始。我们仍处于构建AI产品的早期阶段,未来还有无限可能等待探索。
如果这篇文章对你有帮助,欢迎点赞、收藏、转发。也欢迎在评论区分享你的经验,我们一起交流学习!
我是 dtsola【IT解决方案架构师 | AI创业者】 ;专注AI创业、商业、技术、心理学、哲学内容分享。
提供服务:AI项目咨询 | 技术解决方案 | IT项目实施 | 企业技术顾问
博客:https://www.dtsola.com
公众号&VX:dtsola
需提供服务,加微信 dtsola,备注:IT咨询,并说明来意。
#AI编程 #VibeCoding #AI产品 #ClaudeCode #独立开发者 #AI创业 #一人公司 #程序员 #软件工程师 #软件工程