◄ 返回每日萃
2026-06-10

把你的焦虑活儿交给 Claude Cowork,今天就能跑通第一个

本文由 AI 自动整理生成,可能存在错漏,请以原文链接为准。

今天重点看 Anthropic 官方出的 Claude Cowork 入门指南——它能帮你把那些让你在婚礼上都不安心的活儿,比如查账、对发票,交给 AI 自己跑通。另外谷歌的实时语音翻译和 Anthropic 的新模型 Fable 5 也都来了,先了解下,不急切换。

灵感百宝袋

怎样把活儿交给 Claude Cowork 自己跑——官方出了入门指南,十分钟就能上手。

Anthropic 的增长营销负责人 Austin Lau 写了篇实操指南,手把手教你怎么判断哪些工作该交给 Claude Cowork,哪些留着自己干。他说自己从完全不懂命令行,到用 Claude Code 把半小时的活儿压到 30 秒,前后只花了一周。现在他 90% 的工作都在 Claude Cowork 里完成——它不像聊天窗口那样问一句答一句,而是能自己分步推进任务,像写邮件、做表格、整文档这些,交给它就不用再在各个标签页之间切来切去了。你不需要懂代码,也不用知道什么叫智能体。

原文:https://claude.com/blog/best-practices-for-getting-started-with-claude-cowork

一个完全不会写代码的人,用两天搭了个 YouTube 转录网站,现在每天都有人在用。

Hacker News 上有个用户分享了自己的经历:之前他一直尝试用 AI 生成文章做博客,想靠 SEO 引流,结果网站一周就被谷歌干掉了。后来他换了策略——做个真正有用的免费工具,让人自己来用。他花了大概两天时间,用 vibe coding 的方式搭了个 YouTube 视频转录网站,现在每天有 5 到 10 个人在用。他说最有意思的不是网站本身,而是他加了一层可观测性——相当于给后端装了个行车记录仪。视频转录的环节最容易出问题,库再好用也可能碰到意料之外的错误,有这个记录仪就能在用户发现 bug 之前先知道。

原文:https://news.ycombinator.com/item?id=48401003

没有自动化系统的时候,你连参加妹妹婚礼都在看银行账户——一个关于财务焦虑的提醒。

Reddit 上有个人讲了个扎心的故事:他妹妹去年六月结婚,全家人难得聚在一起,没人聊工作。但他一整天心神不宁,偷偷查了四次公司银行账户——就因为那周有几张发票要到账,而他手里只有一张不太放心的手工表格,没有自动化的财务系统。其实什么都没出事。账正常到了,婚礼也顺利。但那种「万一呢」的焦虑让他错过了好多本应该全心投入的时刻。他后来回想,如果当时有个简单的自动对账提醒,哪怕就一个邮件通知,他都不用在婚礼上反复掏手机。

原文:https://www.reddit.com/r/productivity/comments/1twm0ne/i_checked_my_business_bank_account_4_times_during

用 ZIT 跑图速度飞快,但说到底还是看你能不能把那个瞬间说清楚。

Stable Diffusion 社区里有用户分享了自己用 ZIT 模型跑图的体验,说这个模型生成速度惊人,画质也不错,感觉比 QWEN 爽。他贴了一张自己近期的图,确实挺惊艳。不过他没提自己到底写了什么样的描述词。这种「某某模型比某某更好」的讨论社区里天天都有,但说实话,对多数人来说,模型之间的差距远没有你会不会把脑子里那个画面准确说出来的差距大。AI 画图这个领域,提示词怎么写才是决定产出质量最关键的事,模型反而是其次。

原文:https://www.reddit.com/r/StableDiffusion/comments/1u1l4wq/zit_better_then_qwen

江湖快报

Gemini 3.5 的实时语音翻译来了,说话时不用等对方讲完,就能几乎同步听到翻好的内容。

谷歌昨天发布了 Gemini 3.5 Live Translate,能在超过 70 种语言之间做实时语音翻译,而且不是那种等对方说完一段再翻的老模式。它在对方说话的同时就同步生成译文,只落后几秒钟,听感很自然,语气、节奏、音调都尽量保留,不会有那种奇怪的停顿。现在它在谷歌的 AI Studio、翻译和会议里都已经上线了,开发者也可以用 API 接入。如果你经常需要跟不同语言的人开会,或者看外文直播,这东西可能比字幕舒适很多。

原文:https://deepmind.google/blog/fluid-natural-voice-translation-with-gemini-35-live-translate

谷歌又发了 Gemma 4 12B——一个能在你笔记本上直接跑的开源多模态模型。

谷歌发布了 Gemma 4 的新版本,叫 Gemma 4 12B。这个模型最大的特点是它去掉了传统多模态模型里常见的独立编码器,图像和声音直接交给模型本身处理,相当于把结构简化了。这样一来它体积小了,16GB 显存的笔记本就能跑,而且还是开源、可商用的。它的推理能力已经接近谷歌更大的 26B 模型,还首次在中型模型里加入了原生音频理解能力。这意味着你在本地就能跑图像和语音的识别分析,不需要联网调用云端服务。

原文:https://deepmind.google/blog/introducing-gemma-4-12b-a-unified-encoder-free-multimodal-model

Anthropic 发了 Claude Fable 5,能力强但加了些安全锁,不到 5% 的对话可能会被拦。

Anthropic 昨天发了个重磅模型叫 Claude Fable 5,说它的能力超过了之前所有对公众开放的模型。尤其是任务越复杂、链条越长,它领先的幅度越大。但因为他们评估下来这个模型在网络安全等领域有被滥用的风险,所以加了一道安全机制——偶尔会把一些请求转给上一代模型处理。他们自己也说现在这道锁调得偏保守,大概不到 5% 的对话会被拦,有时候甚至会把无害的问题也误判掉。官方表示接下来几个月会继续打磨,尽量减少误拦。

原文:https://www.anthropic.com/news/claude-fable-5-mythos-5

Claude 现在能接入苹果生态了,开发者可以直接在 Swift 里调用它做复杂任务。

Anthropic 昨天宣布 Claude 开始支持苹果的 Foundation Models 框架,苹果生态里的开发者现在可以直接用 Swift 调用 Claude 的能力。具体来说,当设备上的本地模型处理完一些简单的任务后——比如快速总结一段文字——如果遇到需要多步推理、写代码、查资料的需求,系统就能自动把请求转给 Claude。这样一来开发者的选择更灵活了:设备上的模型负责快、负责省电,Claude 负责复杂、负责深度。对用户来说,你不需要知道背后是谁在工作,体验上就是同一个应用跑得更聪明了。

原文:https://claude.com/blog/claude-for-foundation-models

Meta 被曝光在智能眼镜 App 里藏了人脸识别代码,被报道后悄悄删了。

WIRED 上周爆料说 Meta 在智能眼镜的配套应用 Meta AI 里藏了一套未激活的人脸识别系统,装在超过 5000 万部手机上。这个系统能把眼镜拍到的面部图像转成生物特征签名,然后在用户设备上做比对。报道一出来,Meta 第二天就把相关代码从新版 App 里删掉了。Meta 的发言人说这功能只是探索阶段,还没最终决定要不要做。但 WIRED 发现这系统连识别失败的人脸都会裁剪存储下来,等后续再处理。虽然在手机上没被激活过,但代码藏在那里本身就让人不舒服。

原文:https://www.wired.com/story/meta-removes-face-recognition-code-meta-ai-app-smart-glasses

贤者视角

在塞拉利昂的试验里,AI 助教没让孩子抄答案,而是帮他们学得更深——这跟你之前担心的不太一样。

谷歌 DeepMind 发布了一项在塞拉利昂做的随机对照试验结果,涉及 12 所学校、1700 多名初中生。他们用 Gemini 的引导式学习功能辅助数学教学,八个星期后数据出来了。最关键的一个发现是:AI 在试验里刻意不直接给答案,而是引导学生自己思考。分析超过 11 万条互动记录后发现,学生们确实没有把它当成偷懒工具。这项试验的设计初衷就是保护批判性思维,他们想让 AI 成为老师的延伸,而不是替代者。

原文:https://deepmind.google/blog/measuring-the-impact-of-learning-with-ai-in-sierra-leone-and-beyond

微软 CEO 纳德拉说,企业从 AI 拿到的价值应该远大于微软自己——谁先把内部数据整理清楚,谁的 AI 就先值钱。

微软 CEO 萨提亚·纳德拉在 Build 大会上跟 Latent Space 播客聊了两个核心观点。一个是微软把自己定位成「前沿智能平台」——他们希望企业在微软生态上搭建 AI 应用后,自己赚到的钱比微软还多。他提出了一套做法:客户要用好微软那套多模型调度工具,把自己的内部数据——邮件、文档、日程等等——整理成 AI 能消化的上下文。他们内部的高管团队已经在用这套逻辑了,把日常信息流变成 AI 能调用的知识层。

原文:https://www.latent.space/p/satya-2026

iOS 27 的 Siri AI 大陆用户暂时用不上,但这次更新也没到非升不可的程度。

IT之家昨天做了个投票,超过五千人参与了 iOS 27 首个预览版的满意度调查。近六成升级用户表示满意,但 40% 的人觉得「勉勉强强」。原因很清楚:这次更新的重头戏 Siri AI 和新一代 Apple 智能暂不在中国大陆提供,对国行用户来说就是个阉割版。好在苹果补了个细节——中国大陆的节假日调休闹钟,多少挽回了一点口碑。投票里也有不少人提到流畅度有提升,但偶尔丢动画、掉帧。总体来看,这次更新没有那种让人必须立刻升级的杀手级功能。

原文:https://www.ithome.com/0/962/479.htm

开发者补给站

rtk:一个能帮你省掉八成 token 消耗的命令行代理,单文件零依赖。

rtk 是一个用 Rust 写的代理工具,装在终端里之后,它会在你的命令输出被送进大模型上下文之前,先做一轮过滤和压缩。GitHub 数据显示,在一段 30 分钟的 Claude Code 编程会话里,ls、git diff、npm test 这些高频命令的输出,token 消耗能降 60% 到 90%——省下的就是真金白银的调用费用。它支持上百种常见命令,homebrew 就能装,没有外部依赖。说白了就是在你和模型之间加了个聪明的管家,只给模型看它真正需要的信息,多余的日志、重复的输出全部截掉。

原文:https://github.com/rtk-ai/rtk

Claude 的连接器可以看后台数据了——谁在用、哪一步容易出错,一目了然。

Claude 给开发者建了个连接器后台面板。如果你之前基于 MCP 协议给 Claude 写过什么第三方插件或工具,现在能在后台看到它被用了多少次、在哪个产品里最活跃、哪一步的错误率偏高、延迟大不大。数据维度挺全:按产品拆分调用量、按工具看健康分、还能看目录排名变化。这其实是给写插件的人配了一套线上监控,不用再靠猜来判断自己写的东西有没有人在用、哪里容易崩。而且提交新连接器到 Claude 的目录现在可以直接在应用内操作了,不用再走原来的外部流程。

原文:https://claude.com/blog/observability-for-developers-building-connectors

OSCAR RotationZoo:用离线谱协方差旋转把 KV 缓存压到 2-bit,内存占用再降一档。

Reddit 上有人发布了 OSCAR RotationZoo 技术,核心思路是通过离线谱协方差旋转来量化模型的 KV 缓存,能压到 2-bit 同时保持性能。他们已经放出了几个主流模型的量化文件,包括最新发布的 Gemma-4-12B 和 Qwen3-32B。这个技术针对的是大模型推理时内存消耗的关键瓶颈——KV 缓存。缓存压得越小,你就能在同样的显存上跑更长的上下文,或者在更便宜的显卡上跑原本跑不动的模型。

原文:https://www.reddit.com/r/LocalLLaMA/comments/1u1edjb/oscar_rotationzoo_offline_spectral

好物挖掘机

NudgeFile:自动帮你整理、重命名、管文件,像给文件夹装了个管家。

NudgeFile 这个工具的思路很简单——你电脑里那些乱七八糟的文件名和目录,它用 AI 帮你自动重命名、归到合适的位置。不用手动一个个去改,也不用学什么复杂操作。就像你找了个朋友,跟他说「帮我把桌面收拾一下」,然后他就动手了。不过目前它在 Product Hunt 上的信息还不多,详细的功能边界和稳定性需要自己试一下。如果你长期被文件管理折磨,可以今天去它官网看一眼,找个放满临时文件的文件夹试试,看它能不能给你一套整理方案。注意别一上来就往核心工作目录里跑,先拿不重要的文件测试。

原文:https://www.producthunt.com/products/nudgefile

Zingle:在语境里学单词,比抱着词典死记硬背管用。

Zingle 是一个用 AI 辅助记单词的工具,它不让你机械地背单词表和例句,而是把单词放在真实的语境里让你去理解。你可以理解成:不是给你一本字典,而是让 AI 给你编一段你自己能看懂的故事,把目标单词嵌在里面。学语言最怕的就是脱离上下文干背,Zingle 就是想解决这个问题。但背单词这事儿最终还得靠自己重复,工具只是辅助。如果你在学新语言,今天可以去试试扔一个一直记不住的单词进去,看它生成的语境能不能让你一次就记住。

原文:https://www.producthunt.com/products/zingle-2

FluidDocs Deck Builder:一句话生成一个能直接用的演示文稿网页。

这个工具能让你用一句自然语言描述,直接生成一个 HTML 格式的演示文稿。不是只给个文字大纲,而是直接给你一个能打开的网页版幻灯片。对于临时需要快速出汇报材料、但又不想从零画模板的人来说,省了不少事。比如你下周有个简短的分享,脑子里有内容但懒得做 PPT,试试扔一段需求进去,看它能不能直接给你一套结构清晰、排版还能看的页面。不过视觉上的精细度肯定没法跟手工精排的比,应急用合适,正式场合可能需要再改。

原文:https://www.producthunt.com/products/fluiddocs-html-deck-builder