对话Clipto.AI创始人康洪文：没有记忆的AI，只是一个“失忆”的聪明人

硬件就绪，软件待填

1945年，美国科学家Vannevar Bush在其具有深远影响的文章《As We May Think》中，提出了一个名为Memex（记忆延展）的概念。

他设想，每个人都将拥有一台设备，能够存储个人的阅读内容、照片、笔记和知识，并如同人类记忆一般，随时协助用户回忆、关联和检索信息。这一构想被视为个人电脑、超文本乃至互联网的早期思想萌芽。

在过去八十年里，计算机、互联网和智能手机相继问世，存储容量呈指数级增长，人类积累的信息量也以前所未有的速度膨胀。然而，Bush所描绘的理想状态始终未能完全实现。

其原因在于，尽管机器在信息存储方面日益精进，却始终未能形成真正的记忆；它们能保存海量数据，却无法在你需要时精准找回特定时刻的信息。

直到近期，这一状况开始出现转机。

在过去一年中，人工智能行业经历了一次全面的基础设施升级。

端侧算力已不再是概念，而是成为消费电子产品的标配。例如，英伟达的RTX Spark将AI算力直接集成到PC中；英特尔的Lunar Lake和高通的Snapdragon X Elite分别将笔记本电脑的NPU算力提升至60 TOPS和45 TOPS；苹果也持续将AI能力整合进其M系列芯片。

模型技术也达到了新的里程碑。Llama 3、千问、Gemma、Phi等开源模型在缩小体积的同时，不断提升性能。llama.cpp、MLX等推理框架的成熟，使得大型模型首次能够稳定运行在普通个人设备上。与此同时，Apple Intelligence、Copilot+ PC以及英伟达围绕端侧AI构建的开发工具链，进一步将模型深度嵌入操作系统。

芯片、模型、系统，加上市场教育带来的用户信任，“端侧AI”已基本就绪，各项基础设施均已到位。

然而，将这些零散的要素组合起来，仍然难以创造出让普通用户每日使用的AI产品。**其症结并非在于单一技术，而是缺乏一个能够整合模型、硬件、系统与个人数据于一体的解决方案。**

曾经备受瞩目的“消费级端侧设备”Rabbit R1和Humane AI Pin，因产品定位的失败，迅速淹没在技术浪潮中。Rabbit R1试图成为新的跨设备交互入口，但未能解答“为何要在手机之外购买另一台设备”的疑问；Humane AI Pin则怀揣替代手机的野心，但其炫酷的硬件未能创造实际需求，反而增加了用户体验的复杂性。

更关键的是，这些新型端侧设备未能解决一个核心痛点：即便它们最贴近用户的个人数据库，AI大脑却常常陷入“失忆”的困境。

**行业亟需一个能够整合模型、端侧能力与记忆系统的参与者。**

当所有人都聚焦于“Agent”时，一个更根本的问题浮现出来：Agent的长期存在依赖于什么？

两年前，当行业普遍沉浸在“更大云端模型”的论调中时，Clipto.AI的创始人康洪文却提出了一个与主流观点相悖的判断：

**真正的机遇将出现在端侧算力和大模型能力交汇所催生出的新一层基础设施。**

在他看来，只有当端侧算力和大模型能力两条技术曲线同时达到临界点，AI才有望真正成为每个人设备中的“第二大脑”，而不仅仅是一个聊天机器人。

而真正的机会，不仅在于模型本身，也存在于建立在其之上的“Memory Layer（记忆层）”。

康洪文及其团队研发的产品Clipto，正是这一设想的实践平台。

用户只需用自然语言描述所需内容，Clipto便能在数TB的本地视频、音频、图片和文档中，迅速定位到相关片段和信息。

但搜索功能仅仅是Clipto对外展示的初步能力。

在Clipto的背后，是一套由十余个自研端侧大模型、推理架构、算力调度系统以及数据组织能力共同构建的Memory Layer——它使得原本分散的海量数据能够持续沉淀为AI可调用的个人记忆，并在毫秒级内，从庞大的信息库中找回用户已遗忘的信息。

2026年5月，新版Mac端App发布后，Clipto登上Product Hunt日榜第一，端侧与记忆所构建的想象空间正逐步成为现实。

“聪慧之人若无记忆，亦不过是失忆者”

在过去一年里，“Agent”已成为AI行业最热门的关键词。

几乎所有大模型公司都在谈论Agent，创业公司在开发Agent，资本也在追逐Agent。从编程、办公到购物、客服，越来越多的人相信Agent将引领AI的下一次产品革命，继ChatGPT之后。

Gartner在2026年4月的报告中，将业界对Agentic AI的态度描述为已达到“期望膨胀顶峰（the Peak of Inflated Expectations）”。超过六成的企业计划在未来两年内部署AI Agent，然而，迄今为止仅有17%的企业完成了部署。

但在这种几乎一致的追捧声中，Clipto创始人康洪文却持续提出一个看似简单却少有人回答的问题：**一个缺乏记忆的Agent，真的理解用户吗？**

在他看来，当前大多数Agent都建立在一个有风险的假设之上：只要模型足够智能，就能成为用户的得力助手。

但事实恰恰相反。每一次与Agent互动，都如同初次见面；它不知道你昨天参加了什么会议，不知道你的照片存储在哪里，也不知道你过去一年积累了哪些文档。它能够进行推理，却缺乏经验；能够回答问题，却无法延续对话。

“一个聪明的人，如果没有记忆，也只是一个失忆的人。”康洪文如是说。

这正是他过去二十多年来一直钻研的课题。

早期十年，康洪文的研究重点在于机器如何理解世界。2004年，他在微软亚洲研究院实习，致力于让Xbox能够自动分析用户拍摄的大量家庭照片和视频，并从数小时的素材中提取关键片段，自动生成家庭短片。

随后，他前往卡内基梅隆大学机器人研究所攻读博士学位，师从计算机视觉领域的学者Takeo Kanade，继续深耕图像与视频理解。他认为，理解视频的本质在于理解现实世界。

近十年，康洪文将研究重心转向机器如何生成内容。2017年，他创办了AIGC公司“慧川智能”，其创作平台“智影”于2020年底被腾讯收购。加入腾讯后，康洪文继续负责文生图、文生视频和数字人等全栈AIGC产品的研发。

如今，在Clipto，康洪文将问题重新聚焦于“理解”，因为他认为生成已不再是AI最大的瓶颈，“真正缺失的是记忆”。

端侧大模型的出现，为这条技术路线的成熟提供了首次契机。

康洪文向36氪表示，云端模型更像是“全球大脑”，负责学习公共知识、理解整个世界；而端侧AI则应承担“个人记忆”的角色，理解的是每一个具体的人。

在他看来，未来的AI架构并非Cloud AI与Edge AI的简单竞争。真正的演进方向将是Cloud Intelligence + Edge Memory——云端负责世界知识，端侧负责个人记忆，Agent则作为连接两者的交互层。

“Agent只是最上层的交互界面，真正决定其智能程度的，并非模型本身，而是其底层是否拥有一套持续生长的Memory Layer（记忆层）。”他指出，这被行业长期忽视了一个架构层面的问题。

“模型会升级，Agent会重构，但用户长期积累的记忆不会轻易迁移。”他强调。

围绕“记忆层”，Clipto从底层重新构建了一整套端侧AI技术体系。

在康洪文看来，许多人对Memory的理解局限于模型拥有更长的Context，或接入一个向量数据库。但他认为，真正的记忆层远不止于此。

“Memory不是一个模型，而是一整套系统。”他在采访中阐述。

第一层，是模型。

多模态数据本质上具有高度异构性。视频、音频、图片、文档，每一种数据都需要独特的理解方式。针对人物识别、语音理解、OCR、场景分析、事件理解等能力，Clipto自主研发了十余个端侧AI模型，其中部分基于开源基础模型进行特定后训练，部分则完全自主研发。每个模型都需针对端侧算力进行重新设计，而非直接迁移云端模型。

第二层，是端侧算力架构。

与云端近乎无限的算力不同，端侧设备受到CPU、GPU、NPU、内存、存储带宽以及系统资源的共同制约。为确保多个模型能够长期协同工作，Clipto从零构建了端侧推理框架和算力调度系统，根据设备资源动态分配不同模型的计算任务，避免资源竞争。

康洪文介绍，Clipto的架构能够自动兼容各种配置的设备，包括仅配备8GB内存的M1 MacBook。在最新的M5 MacBook Pro上，Clipto可在约24小时内完成2TB本地视频的离线分析，而若完全依赖云端，同等处理成本约为400美元。

第三层，也是最关键的一层，是记忆本身的构建。

模型能够理解内容，但不能自然形成记忆。系统需要持续将分散的多模态信息组织成时间、地点、人物、事件等结构化关系，并不断建立跨文件、跨时间、跨来源的关联，最终形成一个能够持续生长的个人记忆网络。

Agent调用的，将不再是单一模型，而是这套不断积累、持续演化的记忆层。

在康洪文看来，这正是记忆层最困难的挑战所在。

它横跨模型研发、端侧推理、算力调度、多模态理解、数据组织、时空数据库、知识图谱以及检索系统等多个技术层面。任何一个模块都无法独立构成真正的Memory。唯有将这些能力整合为一套长期运行、持续生长的系统，AI才能真正拥有“记忆”。

“模型会不断升级，Agent也会不断演进，但用户长期积累的记忆不会轻易迁移。真正的护城河，是围绕Memory建立起来的整套技术体系。”他总结道。

**如果说当前大模型解决了AI如何理解世界的问题，那么Clipto解决的是AI如何长期记住一个人。**

Clipto：非创作工具，而是记忆基础设施

Clipto登上Product Hunt日榜榜首后，真正让康洪文感到意外的并非成绩本身，而是评论区的用户反馈。

按照惯例，用户通常会讨论产品的易用性或功能丰富度。然而，Clipto上线后，评论区出现了另一种声音：

许多开发者开始询问API是否开放，以及Clipto能否作为Agent的长期记忆后端，甚至讨论如何将Clipto集成到自己的产品中——尽管彼时Clipto尚未发布SDK。

这释放出一个信号：用户已不再仅仅将其视为一个搜索工具，而是开始将其视为一种基础设施。

这一转变也超出了Clipto团队最初的预期。

起初，康洪文认为视频创作者、摄影师等内容生产者将是首批用户。但随着用户增长，团队发现，除了创作者群体，金融分析师、律师、医生、咨询顾问等知识工作者也在迅速增加。

根据官方数据，目前Clipto的用户中，约有1/3是创作者，其余2/3则来自金融、法律、医疗等行业的专业人士。

这意味着，**记忆管理的需求，比内容创作空间更为庞大且刚性。**

过去，人们普遍认为多模态数据管理仅是视频编辑、影视制作等专业场景的需求。实际上，每一位知识工作者都在不断产生音频、图片、会议记录和文档。会议录音、培训视频、手机截图、播客收藏、PDF文件……这些信息每日都在增长，却很少能被有效二次利用。

当AI能够真正理解这些数据时，“记忆管理”便不再是创作者的专属需求，而是所有人的共同需求。

商业数据进一步印证了这一判断。Clipto上线三个月后即实现盈亏平衡。2025年，公司的ARR（年度经常性收入）达到了1500万美元。

对于一家仍处于产品早期阶段且坚持端侧部署路线的AI公司而言，如此快的商业化速度本身就是一个有力信号：市场愿意付费的，并非一次性的AI能力，而是长期积累的个人记忆。Memory并非一个遥远的未来市场，而是一个已被验证的现实需求。

更重要的是，这也证明了Clipto团队的能力。当许多AI创业公司仍停留在模型能力验证或Demo阶段时，Clipto已率先完成了从底层模型、端侧基础设施、产品体验到商业化的完整闭环。这种跨越底层研发、产品设计和全球商业化的全面执行能力，本身就是团队最重要的竞争壁垒。

互联网的发展史，本质上是一部基础设施不断演进的历史。

在PC互联网时代，Google建立了信息检索的基础设施，它构建的是人类的公共记忆（Collective Memory），让人们能够“找到世界上的信息”；在移动互联网时代，Meta和微信构建了社交关系的基础设施，让人们能够“连接世界上的人”；而在AI时代，OpenAI解决了“如何推理”的问题，接下来面临的将不再是“世界知道什么”，而是“我自己经历了什么”，从而让人们“被AI真正理解”。

这正是下一代基础设施的机遇所在。

Clipto致力于解决的是每个人的个人记忆（Personal Memory）。

它不创造新内容，而是持续理解、组织和连接用户过去积累的数字生活，让这些沉睡的数据成为Agent可以长期调用的上下文。

因此，在康洪文看来，未来AI应用的真正竞争，并非仅在于模型能力或Agent的执行能力，而在于谁能率先建立起这层长期存在的Memory Layer。

“模型可以随时切换，Agent也可以重构，但用户长期积累的记忆一旦形成，迁移成本极高。”

过去十年，AI公司争夺的是Intelligence；未来十年，真正不可替代且最难迁移的，将是Memory。

围绕Clipto的构想、端侧AI、记忆层，36氪近期与Clipto.AI创始人康洪文进行了深入交流。以下是我们整理的部分观点：

36氪：Clipto为何选择从音视频搜索切入？

康洪文：主要出于两方面考虑。

首先，文本和文件数据已有相对成熟的解决方案，但音视频这类重度多模态数据一直服务得不够好，且单位处理成本高昂；

其次，音视频数据天然更多地存在于端侧（体量庞大），这完美契合了我们端侧优先的场景定位。我们的种子用户群体，即是那些拥有大量音视频数据、对隐私和价值有高要求，且现有解决方案未能满足其需求的人群。

36氪：Clipto的PMF（Product-Market Fit）为何能快速实现？关键决策是什么？

康洪文：“以终为始”，我们怀揣宏大愿景，但也必须强迫自己尽快进行商业化验证。

我们做出了两个关键决策。第一，以App形态切入，最高效地将端侧AI的能力交付给用户；未来，App也可灵活部署于PC、手机、智能设备等各类终端硬件上。

第二，从第一天起就面向全球市场。许多西方国家用户已养成成熟的订阅付费习惯，市场确定性较高。我们选择将精力投入到高确定性的事务上。

36氪：行业对端侧AI存在哪些最大的误解？

康洪文：普遍认为“下一个Ollama就能搞定”。

但我们实际构建的是一套完整的Memory Layer。

第一层是模型。在多模态理解方面，我们已自主研发了十余个端侧AI模型，部分基于开源基础模型进行后训练，部分为完全自主研发。实现专业级、多模态理解本身就是一项巨大的技术挑战。

第二层是基础设施。端侧与云端是两套截然不同的技术体系。从推理框架、算力调度到系统优化，都需要重新设计，以确保多个模型在有限的设备资源下能够长期稳定地协同运行。

第三层是记忆构建。模型能够理解内容，但不能自然形成记忆。系统不仅需要理解每个文件，更要持续建立跨文件、跨时间、

如果覺得書本中段節奏慢，不妨大膽刪減。

這是我們關於寫作與發展背景故事系列文章的第一部分。接下來，我將分享更多技巧。別忘了留言告訴我，您希望探討哪些主題！

2026年5月25日
23
3

分享此文