★ 2026-06-14

用几句话描述需求，AI帮你做出一直想要的小工具

本文由 AI 自动整理生成，可能存在错漏，请以原文链接为准。

今天有人用一段话让Gemini搭出了花园管理App，几分钟就拿到一个能跑的雏形。另外，Claude托管智能体现在能设闹钟自动干活了，Gemma 4 12B也发布了，在笔记本上就能同时看懂图片和声音。

灵感百宝袋

用AI给新人做自适应培训，课程自己生成，进度自己调

Matt Pocock展示了他的 /teach 技能，输入一个主题，它就能生成一套结构化的课程，还会根据学习者掌握程度动态调整难度和内容。就像有个耐心的老师，知道你现在会什么、卡在哪儿。今天就能试：打开 Cody 或类似 AI 编码助手，试着让它根据你的经验水平列一个学习路径，比如“教我进阶 React，分 5 天，每天只讲一个核心概念并加练习”。看看它能不能帮你搭出类似 /teach 的个性化计划。

原文：https://www.youtube.com/watch?v=s5T5oQJcJ6U

她想救活院子，于是用一段话让AI做了个管理App

The Verge 的作者 Allison Johnson 家院子快枯死了，她没请园丁也没写代码，而是给 Gemini 写了一大段自然语言描述。过了五分钟再看电脑，一个功能完整的花园管理App已经出现在预览窗口，还附带一个可修的小bug。她说看不懂那些报错，但这不重要。这就是 vibe coding，用你想做事的方式告诉AI，它去琢磨技术细节。今天就去试：挑一件你每周都亲手做的重复小事，比如记账、排日程、整理素材，用一段大白话说清楚规则和目标，交给 Claude 或 ChatGPT 帮你生成一个初版网页工具，跑得起来就算成功。

原文：https://www.theverge.com/ai-artificial-intelligence/942119/vibecoding-backyard-app-gardening-organizing

告诉智能体你想做什么，它自己会串起两个工具帮你完成

Hugging Face 官方博客展示了一个例子：他们让一个智能体把两个 Hugging Face Spaces 串起来，一个负责生成 3D 模型，另一个负责展示，最终自动搭出了一个 3D 巴黎画廊。全程没写代码，只是描述需求。这就像指挥两个同事配合，你只说清楚要啥，不用管他们怎么对接。今天可以试试：去 Hugging Face Spaces 找两个你感兴趣的工具，比如图片生成加滤镜，用自然语言向你常用的 AI 助手描述怎么把它们串起来完成一个完整工作流，看它能不能给出调用流程。

原文：https://huggingface.co/blog/mishig/spaces-agents-md

像用电脑一样用AI智能体，直接操作桌面应用

Greg Isenberg 和 Alex Finn 一起录屏演示了 Hermes Desktop，一个能把AI智能体直接装在你电脑桌面上的工具。你可以指派“整理这个文件夹”“帮我把这些表格汇总成一份报告”，它会像人一样打开文件、操作应用，不是只给你步骤。今天可以试试：下一个 Hermes Desktop（暂时可能对 Mac 更友好），给它一个文件整理的简单任务，比如“把桌面所有 PDF 移到 Documents 下的 2026-06 文件夹”，观察它是怎么自动操作的。

原文：https://www.youtube.com/watch?v=EJm8Ka-gVOc

江湖快报

现在可以像发普通Python包一样，把能跑在浏览器里的Python包发到PyPI了

Simon Willison 第一时间分享了 Pyodide 314.0 带来的好消息：开发者现在可以把编译成 WebAssembly 的 Python 扩展直接发布到 PyPI，就和发 Linux、macOS 包一样。以前要跑在浏览器环境里的 Python 工具，得靠 Pyodide 团队手工维护三百多个包，现在社区自己发包就方便多了。今天可以试试：如果你有 Python 项目想往浏览器端迁移，可以试着用 Pyodide 构建一个简单的功能看看能不能跑，哪怕只是输出一个 helloworld 的 Web 页面。

原文：https://simonwillison.net/2026/Jun/13/publishing-wasm-wheels

OpenAI出了三门官方课，帮你从零学会在日常工作里用AI

这三门课叫 AI Foundations、Applied AI Foundations 和 Agents and Workflows，从基础概念到搭建工作流再到让智能体帮你干活，一步步来。课程免费，学完还有证书。如果你所在团队一直说要用AI但不知道从哪儿下手，可以用这几门课当内部学习材料。今天可以试试：先点开 AI Foundations 看一下第一节，花15分钟判断值不值得推荐给同事，或者直接用其中一个模块作为下周周三分享会的素材。

原文：https://openai.com/index/academy-courses-applying-ai-at-work

Gemini上线实时语音翻译，边说边译，延迟就几秒

Google 把 Gemini 3.5 Live Translate 塞进了 AI Studio、翻译工具和 Google Meet 里，能自动识别 70 多种语言，把你说的实时翻译成另一种语言，还保留语调和语速。不是说完一长段再翻，而是几乎同步。这个对跨国沟通很实用。今天可以试试：打开 Google AI Studio，对着它说一段中文，让它翻译成英文或其他语言，体验一下延迟和自然度，看看能不能在下次跨国会议上用上。

原文：https://deepmind.google/blog/fluid-natural-voice-translation-with-gemini-35-live-translate

Google发了新开源模型Gemma 4 12B，能在笔记本上同时看懂图和声

这是 Google DeepMind 的新作，一个 120 亿参数的统一多模态模型，不用额外的视觉或音频编码器，直接让大语言模型自己处理图片和声音。关键它对硬件要求不高，16GB 显存或统一内存的笔记本就能本地跑起来，还开源。今天可以试试：如果你手头有 MacBook 或装了 16GB 以上显存的显卡，用 Ollama 拉取 Gemma 4 12B 并试一张图让它描述，再放一段音频问它内容，感受下本地多模态的延迟和效果。

原文：https://deepmind.google/blog/introducing-gemma-4-12b-a-unified-encoder-free-multimodal-model

GPT-5.5 和 Codex 现在能走AWS专线用了，数据不出域，用现有合约直接调用

对已经在 AWS 上的企业来说是个大消息。OpenAI 改了跟微软的独家协议后一个月，就把 GPT-5.5、GPT-5.4 还有 Codex 全部搬上 Amazon Bedrock 了。定价和直接从 OpenAI 买一样，但流量走 AWS 的 VPC 内网，数据不出 AWS 区域，审计、加密、权限管理都是 AWS 那一套。以前因为数据安全不能用 ChatGPT 的企业，现在可以直接在 Bedrock 里调用。今天可以试试：如果你公司在用 AWS，可以在 Bedrock 控制台里找 OpenAI 模型，开一个最小的试用实例，用 Responses API 跑一个你日常的轻任务，看看性能和权限控制符不符合预期。

原文：https://www.infoq.cn/article/FuhAEYbk8T0b0GQZyq4c

Claude托管智能体现在可以设闹钟自动干活，还能安全存密码了

Claude 平台上新了两个功能：一个是可以像 cron 一样给智能体排日程，定时自动执行任务，比如每晚同步数据、每周生成合规报告、每天发简报；另一个是环境变量保险库，可以把敏感信息存起来，智能体执行 CLI 工具时安全调用，不用暴露明文。今天可以试试：如果你已经在用 Claude 托管智能体，可以拿一个现成的周期性任务，比如每周汇总一次团队进展，设成自动执行，跑一周看看它能不能稳定搞定。

原文：https://claude.com/blog/whats-new-in-claude-managed-agents

现在能在Cursor里直接圈选多个页面元素，用嘴说改哪儿了

Cursor 浏览器里的设计模式升级了，你可以同时选中页面上多个元素，让智能体把它们的样式统一、删除重复内容，或者整体调整一组组件。还能用语音边操作边说“把按钮颜色改成红色，间距拉大”，不用等前一步跑完就能接着下指令。今天可以试试：用 Cursor 打开一个你自己的网页项目，在浏览器模式下用语音加鼠标拖选，看看能不能把改 UI 的活交给它干十分钟。

原文：https://cursor.com/changelog/design-mode-improvements

贤者视角

别再自己一步步提示AI了，学学Loopcraft，让AI自己循环干活

Steinberger、Boris Cherny 和 Andrej Karpathy 最近都在说一个概念叫 Loopcraft：你不是在提示 AI，而是在设计让它自己转起来的循环。Karpathy 说，要想榨干工具的能力，就得把自己从流程里摘出去，让 AI 全自动运作。Simon Willison 也认同这一点，觉得未来比拼的就是谁能把循环叠得更巧妙。这个不限于编程，任何重复性工作都可以想：能不能写成一条规则，让 AI 在满足条件时自己启动、自己检查、自己纠错？今天可以试试：观察你日常做的最机械的一件事（比如检查邮件、整理数据），把它拆成触发条件和执行步骤，用你常用的 AI 助手试着写成一段能重复执行的指令，看它能不能帮你自动完成第一个环节。

原文：https://www.latent.space/p/ainews-loopcraft-the-art-of-stacking

Matt Wolfe说，大多数时候你不需要用最贵的云端模型

他在视频里直言，很多人习惯用最先进的云端模型去干一些特别简单的事，其实用本地模型或更基础的方案完全够用，还能保护隐私和省钱。比如整理笔记、翻译句子、写提纲，本地小模型一样能应付。今天可以试试：找一个你日常用 ChatGPT 处理的最简单任务（比如改错别字、生成标题），换成本地模型或者其他轻量服务试试效果，看能不能省下调用次数。

原文：https://www.youtube.com/watch?v=1greFablcZY

微软AI CEO暗示，他们正在走出OpenAI的阴影

Matt Wolfe 在 Build 大会后和微软 AI CEO Mustafa Suleyman 聊了聊，对方表示微软的目标不是依赖 OpenAI，而是要构建自己的全栈 AI 能力。从 Copilot 到自研模型，微软正悄悄把重心往自家产品上转。对普通用户来说，这意味着未来 Windows、Office 里的 AI 体验可能会更统一，也可能出现更多独立的不依赖 OpenAI 的功能。今天可以试试：打开 Edge 或 Windows 自带的 Copilot，比较一下它和直接在网页版 ChatGPT 上做相同任务的差异，感受下微软自家的 AI 是怎么一回事。

原文：https://www.youtube.com/watch?v=wg9jm_d7Emk

未来的数据分析不只是看字，还要看懂图片、声音和整体“感觉”

InfoQ 的文章强调，企业最有价值的数据已经不只是文字，而是包含了图片、音频和那种说不清道不明的“Vibe”（氛围）。比如分析一个视频，光看评论太浅了，还要识别画面里的品牌 Logo、音乐的情绪、创作者的语气。Snowflake 已经在推这种多模态分析能力。今天可以试试：拿一段你关注的品牌视频或广告，用支持多模态的 AI（比如 Gemini、GPT-5.4）让它从“画面风格”“音乐情绪”“品牌露出”几个角度分析，看看跟光看文本有什么不一样。

原文：https://www.infoq.cn/article/v3lCjatWKZaTu7DhgoLq

开发者补给站

Gemma 4 12B无编码器多模态架构，开发者指南来了

Google 开发者博客放出了 Gemma 4 12B 的详细文档，解释了它的无编码器设计怎么让视觉和音频直接喂给大语言模型，绕过了传统的专用处理器。模型权重开放，可在消费级硬件上跑推理和微调。如果你在做需要本地处理图片或音频的应用，这是少有的既能本地部署又有多模态能力的开源选择。门槛是需要 16GB 显存，如果是 Mac 的统一内存则友好很多。今天可以试试：照着指南里的 quickstart，用 Ollama 拉下模型，输入一张图片问它里面的物体，再喂一段短音频问它内容，记下延迟和内存占用，作为选型依据。

原文：https://developers.googleblog.com/gemma-4-12b-the-developer-guide

Ollama更新，一口气支持Kimi-K2.6、GLM-5.1等一批新模型

Ollama 刚发了新版，现在能本地拉取并运行 Kimi 系列、GLM-5.1，以及 Qwen、DeepSeek 等，对国内开发者来说方便多了。如果你在找一个轻量的本地推理环境，Ollama 是首选。门槛是模型文件较大，需要足够的磁盘空间和内存。今天可以试试：如果你还没装，用 brew 或直接下载安装，拉一个 Kimi-K2.6 小一点的版本，丢一个你日常会用的问题，看输出质量能不能替代部分云端调用。

原文：https://github.com/ollama/ollama

browser-use新版发布，让AI智能体像人一样操作网页

这个开源库让你可以把网页操作封装成任务交给 AI 智能体，比如自动填表、爬数据、执行多步操作。它支持多种浏览器驱动，能模拟点击、输入、等待，适合自动化测试和 AI 应用的后端。门槛是需要一定 Python 基础，并且网页结构复杂时稳定度一般。今天可以试试：用 pip 安装后，参照项目 README 里的例子，写一个简单的任务让智能体打开百度搜索并返回第一条结果的标题，看它能在一分钟之内跑通。

原文：https://github.com/browser-use/browser-use

好物挖掘机

OwnClip是Mac上的AI屏幕录制工具，数据全留在本地

它本质是一个 macOS 原生录屏软件，但融入了 AI 能力，比如自动生成字幕、识别语音转文字，关键是所有处理都在你的电脑上完成，不上传云端。如果你需要做教程视频或者会议记录，又担心隐私，可以拿它替代云端的录屏转写服务。今天可以试试：下一个免费版，录一段你正在操作的软件界面，让它自动生成一段带字幕的小视频，看看识别准确率和导出效果。

原文：https://www.producthunt.com/products/ownclip

不用离开Slack，直接问AI数据问题

这个工具接在 Slack 里，你像聊天一样问“上个月销售额是多少”“哪个客户退货最多”，它就能帮你从数据库里查出来并自动整理成消息回复。省掉了在不同工具间来回切的时间。前提是你们公司数据仓库接好了，而且要考虑数据权限。今天可以试试：如果公司用 Slack 且对接了数据源，可以授权接入一个简单的查询，比如“本月活跃用户数”，看看它返回的数值对不对比你手动查的快。

原文：https://www.producthunt.com/products/basedash

把Claude变成你的专属招聘助理，筛选简历就像自己看一样

CrustRecruiter 可以让你把 Claude 训练成理解你招聘偏好的助手，自动筛选候选人、写评估报告。适合经常招人、简历堆成山但又不想错过好苗子的 HR 或创业团队。门槛是需要把招聘标准说明白，且 AI 筛选仍有偏见风险，最终决策还得人拍板。今天可以试试：上传一份过去你招到好员工的简历特征描述，再给几份新简历，看看它能不能筛出类似气质的候选人。

原文：https://www.producthunt.com/products/crustdata-2

管理团队AI技能，看看谁还需要补课

这个工具帮你梳理团队成员的 AI 技能掌握情况，设置学习路径，有点像给团队 AI 能力做体检。如果你在带一个刚开始用 AI 的团队，可以用来了解哪些人已经会用 GPT，哪些人还没摸到门，然后针对性安排学习。今天可以试试：注册后给同事发一个简单的 AI 技能评估问卷，看看一两周后大家自评的结果，再定下一步的内部培训计划。

原文：https://www.producthunt.com/products/cloudskill