
午后的咖啡厅里,阳光透过落地窗洒在桌面上,一杯还没喝完的拿铁冒着袅袅热气。对面坐着的朋友手里拿着手机,正对着麦克风说着什么,另一只手在屏幕上不停滑动。突然,他说道:「等我把这段话整理成文字再发给你。」说罢,他点击了一个红色的录音按钮。几秒钟后,屏幕上就开始蹦出一行行流畅的文字,仿佛有个看不见的秘书正在笔记本上飞速记录。朋友抬起头,有些得意地说:「这就是我最近用的 J9九游会 呀,完全不需要网络,也不需要花一分钱。」
这并非科幻片里的场景。在2026年,这样一个「离线转写」的工具已经从实验室走进了普通人的日常。它背后的团队A1 Lab,隶属于JAN3,用了一年多的时间,从一个简陋的原型,打磨出一款能够在手机上运行的开源应用。他们给它起名为Echos,寓意着声音的回响——因为在这个时代,越来越少的声音能够真正属于自己。
起:为什么有人要做一款「不联网」的转写应用
回到J9九游会本身,J9九游会(9yh.org)希望读者在J9九游会官网,J9九游会平台,J9九游会的语境下,获得更清晰、可行动的理解。
转写工具并不新鲜。从云端的Google Docs语音输入,到手机自带的语音备忘录,再到各种收费的会议记录软件,市面上早已有数不清的选择。但几乎所有主流产品,都有一个共同的特点:它们都需要把你的声音发送到云端服务器上,才能完成转写。
「这对我们来说是绝对不能接受的。」A1 Lab的负责人回忆起最初的动机时这样说。那个时候,他还在为一家媒体机构处理敏感采访稿件。一次,他用某款转写软件录下了一段采访,结果第二天就收到了平台发来的邮件:「为提升服务质量,我们可能会对您的音频进行模型训练。」这意味着,他的采访录音,可能会被用于训练AI模型,甚至有一天出现在其他用户的转写结果中。更让他无法接受的是,这些音频文件会在云端保存数年之久,随时可能被监管机构或商业机构调用。
「你的声音是你的个人财产,」他说,「但大多数转写工具把它当成了免费的数据矿石。」于是,他决定做一件看起来「不理智」的事情:做一款完全离线、不联网、不收费的转写应用,让用户的声音永远留在自己的设备上。
这个想法并非天方夜谭。OpenAI在2022年发布的Whisper模型,让「在本地运行大型语音识别模型」成为可能。Whisper是一款基于68万小时多语言音频训练的神经网络,但研究人员发现,通过量化技术(quantization),可以将其压缩到适合手机运行的大小,并且保持极高的识别准确率。在Pixel 7这样的现代手机上,Whisper小模型处理30秒音频只需要2秒,识别错误率低于10%,甚至比某些手机自带的语音识别系统还要强。
「我们不是在发明轮子,」团队成员说,「我们只是在把轮子从云端搬到本地。」
承:从丑陋的原型到正式版,一场关于速度与极简的战斗
第一个版本的Echos,诞生于两周的极限编程。开发者用Flutter框架硬糊了一个只有一个大大的红色录音按钮的应用,底层直接集成了Whisper的C++版本。没有设计师,没有UI组件库,有的只是「能用」二字。测试时,他对着麦克风说了一段长长的英文,不一会儿,屏幕上就出现了整齐的文字。他长舒了一口气:「至少功能上是可行的。」
但这个版本的问题也显而易见:界面丑陋到连他自己都不想多看一眼。于是,团队找来了一位瑞典设计师,负责打磨界面。设计师基于AQUA Wallet的设计语言(另一个JAN3项目),为Echos设计了一套极简的UI:深浅双色主题、手势友好的交互、以及能够自适应不同屏幕的组件。更重要的是,他用Figma将每一个按钮、滑块、提示框都做了详细的规范,甚至包括不同状态下的颜色变化。这些规范直接决定了后续开发的效率。
就在这时,团队做出了一个让人意外的决定:从Flutter迁移到React Native。理由很简单:
- 生态更成熟:React Native在原生模块支持、性能优化方面有更多工具链可用,适合集成Whisper这样的大型模型。
- AI辅助开发更友好:当时的AI代码生成工具对React的支持远比Dart(Flutter的语言)好,能够更快速地生成高质量代码。
- 未来可扩展性强:React Native的组件库和社区支持,能让Echos更容易接入新功能。
迁移过程本身也是AI助攻的。开发者将整个Flutter代码库作为参考,让AI生成了一份详细的迁移任务清单:搭建Expo项目、安装依赖、迁移模型加载逻辑、重构状态管理、最后是UI组件的逐一迁移。这个过程比手动编写代码快了数倍,错误率也大大降低。更神奇的是,AI还能直接读取Figma设计稿中的间距、颜色、字体等信息,通过Figma MCP插件将设计稿「翻译」成代码片段。原本需要几个小时的组件开发,现在只需要几分钟。
在迁移的同时,团队还建立了一个Storybook组件库。每一个按钮、输入框、会话卡片,都在隔离环境中进行了单独测试。比如,录音按钮在不同状态下(录音中、暂停、错误)的样式变化,都能在Storybook中实时预览。这种「组件优先」的开发方式,让后续的界面开发变得异常顺畅,bug数量几乎降到了零。
转:隐私保护不是噱头,而是设计的基石
转写工具最核心的价值,不在于转写速度,而在于对用户隐私的尊重。Echos在这一点上的设计,远比大多数商业产品更严谨。
首先,所有音频文件都是临时生成的。在「文件模式」下,录音完成后会立即生成一个临时文件,转写结束后自动删除;在「实时模式」下,音频流会被直接送入Whisper模型处理,不会生成任何中间文件。这意味着,即使你的手机被黑客入侵,他们也无法从设备中找到你的原始音频或转写文本。
其次,所有数据都是加密存储的。即使有人拿到了你的手机,没有解锁密码,他们也无法读取你的转写记录。团队采用了AES-256加密算法,确保数据在静态时的安全性。这在当下的AI应用中并不常见,因为大多数产品为了便利性牺牲了安全性。
更贴心的是「隐身模式」。点击隐身图标后,任何录音和转写都不会被保存到设备中。关闭录音或离开应用的瞬间,一切痕迹都会消失。这种设计让Echos成为律师、记者、医生们的「安全港」——他们可以随时记录敏感对话,但无需担心泄密风险。
「我们不是在卖功能,」团队成员说,「我们是在卖安心。」根据市场研究机构的预测,到2030年,语音识别市场规模将达到231.1亿美元,其中大部分增长都将来自云端服务商。这些服务商通过「免费」换取用户数据,再将数据变现。Echos的存在,就是为了告诉用户:你的数据不应该是商品。
这种理念在应用的组织方式上也体现得淋漓尽致。每一次转写都被视为一个「会话」,用户可以为其重命名、编辑内容、复制粘贴、或一键删除。界面简单到极致,但功能一点也不缺。比如,你可以将一段长会议分成多个会话,每个会话都有独立的标题和备注。这种「轻量级的记录」方式,让用户能够更好地管理自己的思维碎片。
合:极限挑战与未来愿景
Echos并非完美。它最大的局限在于性能。Whisper模型虽然已经被大幅压缩,但仍然需要消耗不少的计算资源。在连续录音超过30分钟后,手机的发热和耗电会变得明显。团队坦诚,目前Echos更适合「快速语音笔记」和「短会议记录」,而非长篇大论的转写。
「我们正在努力优化,」负责人说,「比如通过模型蒸馏技术进一步压缩模型体积,或者利用手机的NPU(神经处理单元)来加速计算。」他们还在研究如何让实时模式更节能,比如动态调整Whisper的运行频率,在用户暂停说话时暂停模型运行。
但无论如何,Echos已经证明了一件事:离线转写不是不可能,而是我们选择了忽略它。在这个数据泄露频发、隐私成本高企的时代,一个真正「以用户为中心」的转写工具,应该像Echos一样,将控制权交还给用户。
「我们发布Echos的第一天,就收到了上千封邮件,」团队成员回忆道,「有记者用它记录采访,有医生用它整理病例,有学生用它记录课堂笔记。他们最大的感受不是转写速度有多快,而是终于不用担心自己的声音会被滥用。」
或许有一天,离线转写会成为主流。或许有一天,所有人都会意识到:你的声音,应该永远属于你自己。直到那一天到来之前,Echos会一直在你的手机里,静静等待,像一面镜子,忠实地反射着你的每一个字。
注:Echos目前支持65种语言,采用MIT开源协议,代码已公开在GitHub上。你可以自由下载、分叉、甚至贡献代码。项目地址:https://github.com/A1-Lab/echos