◄ 返回每日萃
2026-06-14

用几句话描述需求,AI帮你做出一直想要的小工具

本文由 AI 自动整理生成,可能存在错漏,请以原文链接为准。

今天有人用一段话让Gemini搭出了花园管理App,几分钟就拿到一个能跑的雏形。另外,Claude托管智能体现在能设闹钟自动干活了,Gemma 4 12B也发布了,在笔记本上就能同时看懂图片和声音。

灵感百宝袋

用AI给新人做自适应培训,课程自己生成,进度自己调

Matt Pocock展示了他的 /teach 技能,输入一个主题,它就能生成一套结构化的课程,还会根据学习者掌握程度动态调整难度和内容。就像有个耐心的老师,知道你现在会什么、卡在哪儿。今天就能试:打开 Cody 或类似 AI 编码助手,试着让它根据你的经验水平列一个学习路径,比如“教我进阶 React,分 5 天,每天只讲一个核心概念并加练习”。看看它能不能帮你搭出类似 /teach 的个性化计划。

原文:https://www.youtube.com/watch?v=s5T5oQJcJ6U

她想救活院子,于是用一段话让AI做了个管理App

The Verge 的作者 Allison Johnson 家院子快枯死了,她没请园丁也没写代码,而是给 Gemini 写了一大段自然语言描述。过了五分钟再看电脑,一个功能完整的花园管理App已经出现在预览窗口,还附带一个可修的小bug。她说看不懂那些报错,但这不重要。这就是 vibe coding,用你想做事的方式告诉AI,它去琢磨技术细节。今天就去试:挑一件你每周都亲手做的重复小事,比如记账、排日程、整理素材,用一段大白话说清楚规则和目标,交给 Claude 或 ChatGPT 帮你生成一个初版网页工具,跑得起来就算成功。

原文:https://www.theverge.com/ai-artificial-intelligence/942119/vibecoding-backyard-app-gardening-organizing

告诉智能体你想做什么,它自己会串起两个工具帮你完成

Hugging Face 官方博客展示了一个例子:他们让一个智能体把两个 Hugging Face Spaces 串起来,一个负责生成 3D 模型,另一个负责展示,最终自动搭出了一个 3D 巴黎画廊。全程没写代码,只是描述需求。这就像指挥两个同事配合,你只说清楚要啥,不用管他们怎么对接。今天可以试试:去 Hugging Face Spaces 找两个你感兴趣的工具,比如图片生成加滤镜,用自然语言向你常用的 AI 助手描述怎么把它们串起来完成一个完整工作流,看它能不能给出调用流程。

原文:https://huggingface.co/blog/mishig/spaces-agents-md

像用电脑一样用AI智能体,直接操作桌面应用

Greg Isenberg 和 Alex Finn 一起录屏演示了 Hermes Desktop,一个能把AI智能体直接装在你电脑桌面上的工具。你可以指派“整理这个文件夹”“帮我把这些表格汇总成一份报告”,它会像人一样打开文件、操作应用,不是只给你步骤。今天可以试试:下一个 Hermes Desktop(暂时可能对 Mac 更友好),给它一个文件整理的简单任务,比如“把桌面所有 PDF 移到 Documents 下的 2026-06 文件夹”,观察它是怎么自动操作的。

原文:https://www.youtube.com/watch?v=EJm8Ka-gVOc

江湖快报

现在可以像发普通Python包一样,把能跑在浏览器里的Python包发到PyPI了

Simon Willison 第一时间分享了 Pyodide 314.0 带来的好消息:开发者现在可以把编译成 WebAssembly 的 Python 扩展直接发布到 PyPI,就和发 Linux、macOS 包一样。以前要跑在浏览器环境里的 Python 工具,得靠 Pyodide 团队手工维护三百多个包,现在社区自己发包就方便多了。今天可以试试:如果你有 Python 项目想往浏览器端迁移,可以试着用 Pyodide 构建一个简单的功能看看能不能跑,哪怕只是输出一个 helloworld 的 Web 页面。

原文:https://simonwillison.net/2026/Jun/13/publishing-wasm-wheels

OpenAI出了三门官方课,帮你从零学会在日常工作里用AI

这三门课叫 AI Foundations、Applied AI Foundations 和 Agents and Workflows,从基础概念到搭建工作流再到让智能体帮你干活,一步步来。课程免费,学完还有证书。如果你所在团队一直说要用AI但不知道从哪儿下手,可以用这几门课当内部学习材料。今天可以试试:先点开 AI Foundations 看一下第一节,花15分钟判断值不值得推荐给同事,或者直接用其中一个模块作为下周周三分享会的素材。

原文:https://openai.com/index/academy-courses-applying-ai-at-work

Gemini上线实时语音翻译,边说边译,延迟就几秒

Google 把 Gemini 3.5 Live Translate 塞进了 AI Studio、翻译工具和 Google Meet 里,能自动识别 70 多种语言,把你说的实时翻译成另一种语言,还保留语调和语速。不是说完一长段再翻,而是几乎同步。这个对跨国沟通很实用。今天可以试试:打开 Google AI Studio,对着它说一段中文,让它翻译成英文或其他语言,体验一下延迟和自然度,看看能不能在下次跨国会议上用上。

原文:https://deepmind.google/blog/fluid-natural-voice-translation-with-gemini-35-live-translate

Google发了新开源模型Gemma 4 12B,能在笔记本上同时看懂图和声

这是 Google DeepMind 的新作,一个 120 亿参数的统一多模态模型,不用额外的视觉或音频编码器,直接让大语言模型自己处理图片和声音。关键它对硬件要求不高,16GB 显存或统一内存的笔记本就能本地跑起来,还开源。今天可以试试:如果你手头有 MacBook 或装了 16GB 以上显存的显卡,用 Ollama 拉取 Gemma 4 12B 并试一张图让它描述,再放一段音频问它内容,感受下本地多模态的延迟和效果。

原文:https://deepmind.google/blog/introducing-gemma-4-12b-a-unified-encoder-free-multimodal-model

GPT-5.5 和 Codex 现在能走AWS专线用了,数据不出域,用现有合约直接调用

对已经在 AWS 上的企业来说是个大消息。OpenAI 改了跟微软的独家协议后一个月,就把 GPT-5.5、GPT-5.4 还有 Codex 全部搬上 Amazon Bedrock 了。定价和直接从 OpenAI 买一样,但流量走 AWS 的 VPC 内网,数据不出 AWS 区域,审计、加密、权限管理都是 AWS 那一套。以前因为数据安全不能用 ChatGPT 的企业,现在可以直接在 Bedrock 里调用。今天可以试试:如果你公司在用 AWS,可以在 Bedrock 控制台里找 OpenAI 模型,开一个最小的试用实例,用 Responses API 跑一个你日常的轻任务,看看性能和权限控制符不符合预期。

原文:https://www.infoq.cn/article/FuhAEYbk8T0b0GQZyq4c

Claude托管智能体现在可以设闹钟自动干活,还能安全存密码了

Claude 平台上新了两个功能:一个是可以像 cron 一样给智能体排日程,定时自动执行任务,比如每晚同步数据、每周生成合规报告、每天发简报;另一个是环境变量保险库,可以把敏感信息存起来,智能体执行 CLI 工具时安全调用,不用暴露明文。今天可以试试:如果你已经在用 Claude 托管智能体,可以拿一个现成的周期性任务,比如每周汇总一次团队进展,设成自动执行,跑一周看看它能不能稳定搞定。

原文:https://claude.com/blog/whats-new-in-claude-managed-agents

现在能在Cursor里直接圈选多个页面元素,用嘴说改哪儿了

Cursor 浏览器里的设计模式升级了,你可以同时选中页面上多个元素,让智能体把它们的样式统一、删除重复内容,或者整体调整一组组件。还能用语音边操作边说“把按钮颜色改成红色,间距拉大”,不用等前一步跑完就能接着下指令。今天可以试试:用 Cursor 打开一个你自己的网页项目,在浏览器模式下用语音加鼠标拖选,看看能不能把改 UI 的活交给它干十分钟。

原文:https://cursor.com/changelog/design-mode-improvements

贤者视角

别再自己一步步提示AI了,学学Loopcraft,让AI自己循环干活

Steinberger、Boris Cherny 和 Andrej Karpathy 最近都在说一个概念叫 Loopcraft:你不是在提示 AI,而是在设计让它自己转起来的循环。Karpathy 说,要想榨干工具的能力,就得把自己从流程里摘出去,让 AI 全自动运作。Simon Willison 也认同这一点,觉得未来比拼的就是谁能把循环叠得更巧妙。这个不限于编程,任何重复性工作都可以想:能不能写成一条规则,让 AI 在满足条件时自己启动、自己检查、自己纠错?今天可以试试:观察你日常做的最机械的一件事(比如检查邮件、整理数据),把它拆成触发条件和执行步骤,用你常用的 AI 助手试着写成一段能重复执行的指令,看它能不能帮你自动完成第一个环节。

原文:https://www.latent.space/p/ainews-loopcraft-the-art-of-stacking

Matt Wolfe说,大多数时候你不需要用最贵的云端模型

他在视频里直言,很多人习惯用最先进的云端模型去干一些特别简单的事,其实用本地模型或更基础的方案完全够用,还能保护隐私和省钱。比如整理笔记、翻译句子、写提纲,本地小模型一样能应付。今天可以试试:找一个你日常用 ChatGPT 处理的最简单任务(比如改错别字、生成标题),换成本地模型或者其他轻量服务试试效果,看能不能省下调用次数。

原文:https://www.youtube.com/watch?v=1greFablcZY

微软AI CEO暗示,他们正在走出OpenAI的阴影

Matt Wolfe 在 Build 大会后和微软 AI CEO Mustafa Suleyman 聊了聊,对方表示微软的目标不是依赖 OpenAI,而是要构建自己的全栈 AI 能力。从 Copilot 到自研模型,微软正悄悄把重心往自家产品上转。对普通用户来说,这意味着未来 Windows、Office 里的 AI 体验可能会更统一,也可能出现更多独立的不依赖 OpenAI 的功能。今天可以试试:打开 Edge 或 Windows 自带的 Copilot,比较一下它和直接在网页版 ChatGPT 上做相同任务的差异,感受下微软自家的 AI 是怎么一回事。

原文:https://www.youtube.com/watch?v=wg9jm_d7Emk

未来的数据分析不只是看字,还要看懂图片、声音和整体“感觉”

InfoQ 的文章强调,企业最有价值的数据已经不只是文字,而是包含了图片、音频和那种说不清道不明的“Vibe”(氛围)。比如分析一个视频,光看评论太浅了,还要识别画面里的品牌 Logo、音乐的情绪、创作者的语气。Snowflake 已经在推这种多模态分析能力。今天可以试试:拿一段你关注的品牌视频或广告,用支持多模态的 AI(比如 Gemini、GPT-5.4)让它从“画面风格”“音乐情绪”“品牌露出”几个角度分析,看看跟光看文本有什么不一样。

原文:https://www.infoq.cn/article/v3lCjatWKZaTu7DhgoLq

开发者补给站

Gemma 4 12B无编码器多模态架构,开发者指南来了

Google 开发者博客放出了 Gemma 4 12B 的详细文档,解释了它的无编码器设计怎么让视觉和音频直接喂给大语言模型,绕过了传统的专用处理器。模型权重开放,可在消费级硬件上跑推理和微调。如果你在做需要本地处理图片或音频的应用,这是少有的既能本地部署又有多模态能力的开源选择。门槛是需要 16GB 显存,如果是 Mac 的统一内存则友好很多。今天可以试试:照着指南里的 quickstart,用 Ollama 拉下模型,输入一张图片问它里面的物体,再喂一段短音频问它内容,记下延迟和内存占用,作为选型依据。

原文:https://developers.googleblog.com/gemma-4-12b-the-developer-guide

Ollama更新,一口气支持Kimi-K2.6、GLM-5.1等一批新模型

Ollama 刚发了新版,现在能本地拉取并运行 Kimi 系列、GLM-5.1,以及 Qwen、DeepSeek 等,对国内开发者来说方便多了。如果你在找一个轻量的本地推理环境,Ollama 是首选。门槛是模型文件较大,需要足够的磁盘空间和内存。今天可以试试:如果你还没装,用 brew 或直接下载安装,拉一个 Kimi-K2.6 小一点的版本,丢一个你日常会用的问题,看输出质量能不能替代部分云端调用。

原文:https://github.com/ollama/ollama

browser-use新版发布,让AI智能体像人一样操作网页

这个开源库让你可以把网页操作封装成任务交给 AI 智能体,比如自动填表、爬数据、执行多步操作。它支持多种浏览器驱动,能模拟点击、输入、等待,适合自动化测试和 AI 应用的后端。门槛是需要一定 Python 基础,并且网页结构复杂时稳定度一般。今天可以试试:用 pip 安装后,参照项目 README 里的例子,写一个简单的任务让智能体打开百度搜索并返回第一条结果的标题,看它能在一分钟之内跑通。

原文:https://github.com/browser-use/browser-use

好物挖掘机

OwnClip是Mac上的AI屏幕录制工具,数据全留在本地

它本质是一个 macOS 原生录屏软件,但融入了 AI 能力,比如自动生成字幕、识别语音转文字,关键是所有处理都在你的电脑上完成,不上传云端。如果你需要做教程视频或者会议记录,又担心隐私,可以拿它替代云端的录屏转写服务。今天可以试试:下一个免费版,录一段你正在操作的软件界面,让它自动生成一段带字幕的小视频,看看识别准确率和导出效果。

原文:https://www.producthunt.com/products/ownclip

不用离开Slack,直接问AI数据问题

这个工具接在 Slack 里,你像聊天一样问“上个月销售额是多少”“哪个客户退货最多”,它就能帮你从数据库里查出来并自动整理成消息回复。省掉了在不同工具间来回切的时间。前提是你们公司数据仓库接好了,而且要考虑数据权限。今天可以试试:如果公司用 Slack 且对接了数据源,可以授权接入一个简单的查询,比如“本月活跃用户数”,看看它返回的数值对不对比你手动查的快。

原文:https://www.producthunt.com/products/basedash

把Claude变成你的专属招聘助理,筛选简历就像自己看一样

CrustRecruiter 可以让你把 Claude 训练成理解你招聘偏好的助手,自动筛选候选人、写评估报告。适合经常招人、简历堆成山但又不想错过好苗子的 HR 或创业团队。门槛是需要把招聘标准说明白,且 AI 筛选仍有偏见风险,最终决策还得人拍板。今天可以试试:上传一份过去你招到好员工的简历特征描述,再给几份新简历,看看它能不能筛出类似气质的候选人。

原文:https://www.producthunt.com/products/crustdata-2

管理团队AI技能,看看谁还需要补课

这个工具帮你梳理团队成员的 AI 技能掌握情况,设置学习路径,有点像给团队 AI 能力做体检。如果你在带一个刚开始用 AI 的团队,可以用来了解哪些人已经会用 GPT,哪些人还没摸到门,然后针对性安排学习。今天可以试试:注册后给同事发一个简单的 AI 技能评估问卷,看看一两周后大家自评的结果,再定下一步的内部培训计划。

原文:https://www.producthunt.com/products/cloudskill