Claude Agent Skills：让你的AI从「聊天」变成「干活」，这波操作我给满分

老样子，先上链接：https://github.com/anthropics/skills

最近圈子里都在聊AI Agent，说它要颠覆工作流。确实，光会聊天不够用了，关键是得能干实事。今天给大家扒一个Anthropic官方开源的项目——Agent Skills，把AI从一个只会说话的聊天机器人，变成能处理文档、生成艺术、对接API的全能工具。

这项目有点意思，不是让你学什么复杂框架，而是提供了一套「技能包」的思路。简单说，就是给Claude配置特定领域的专业技能，让它变成某个方向的专家。就像打游戏给角色加技能点一样，点满文档处理，它就能帮你搞定Word、PDF、PPT；点满设计，它就能搞算法艺术、Canvas设计。

下面我就手把手教你怎么用这个项目，内容有点长，但值得耐心看完。毕竟，把AI用爽了，工作效率提升个几倍不是梦。

一、先搞清楚这是个啥东西

Agent Skills本质上就是一个「技能仓库」，每个技能就是一个文件夹，里面包含：

SKILL.md文件：告诉Claude怎么干活
脚本文件：实际的执行代码
模板文件：参考样例

Anthropic官方已经给你准备好了一大堆现成的技能，分为四大类：

文档处理技能：DOCX、PDF、PPTX、XLSX
创意与设计技能：算法艺术、Canvas设计、品牌准则、主题工厂
开发与技术技能：MCP构建器、Web测试、Web构件构建器、技能创建器
企业与沟通技能：内部沟通、文档协同编写、前端设计、Slack GIF创建器

这些技能你都可以直接用，也可以拿来研究怎么自己写技能。说实话，这套思路比我之前见过的各种「prompt工程」靠谱多了，毕竟是有具体代码和流程支撑的。

二、怎么在Claude Code里用这些技能

如果你用的是Claude Code（Anthropic的代码编辑器），那安装技能就特别简单，一行命令搞定：

/plugin marketplace add anthropic/skills

装好之后，你可以选择安装两类插件：

document-skills：文档处理技能（DOCX、PDF、PPTX、XLSX）
example-skills：示例技能（算法艺术、MCP构建器、Slack GIF创建器等）

或者直接命令行安装：

/plugin install document-skills@anthropic-agent-skills/plugin install example-skills@anthropic-agent-skills

装完之后，你就可以直接跟Claude说：「用PDF技能提取这个文件的表单字段」，它就会自动调用相关技能帮你干活。不用记什么复杂指令，直接说人话就行。

三、文档处理技能实操

这部分是硬核干货，建议收藏。文档处理是办公场景最常用的，我就拿几个重点说。

1. DOCX文档处理

这个技能特别强大，不是简单的读读写写，而是支持：

批注和修订痕迹保留
复杂格式维护
文本提取
新建文档
编辑现有文档（支持redlining工作流）

场景一：提取文档内容

如果你只需要文本，用pandoc一行命令搞定：

pandoc --track-changes=all path-to-file.docx -o output.md

加上--track-changes=all还能看到修订痕迹，这个对于审查合同特别有用。

场景二：创建新Word文档

这个用JavaScript/TypeScript写，Anthropic提供了一个docx-js库。流程是这样：

先读完docx-js.md文档（大概500行，必须看完）
创建JS文件，用Document、Paragraph、TextRun这些组件拼文档
用Packer.toBuffer()导出成.docx文件

代码大概长这样：

const { Document, Paragraph, TextRun, Packer } = require('docx');const doc = new Document({    sections: [{        properties: {},        children: [            new Paragraph({                children: [                    new TextRun('Hello World!'),                ],            }),        ],    }],});Packer.toBuffer(doc).then(buffer => {    fs.writeFileSync('document.docx', buffer);});

场景三：编辑现有文档（重要！）

这里要特别小心，如果你是编辑别人的文档，尤其是法律、学术、商务文档，必须用「Redlining工作流」。简单说就是：

先把文档转成markdown（用pandoc，保留修订痕迹）
找出所有需要修改的地方
把改动分组，每组3-10个相关改动
用Python的Document库实现修订痕迹（用<w:ins>标记插入，<w:del>标记删除）
测试每组改动，确保没问题再进行下一组

关键的坑是：不要把整句话替换掉，只替换真正变化的文字。比如把「30 days」改成「60 days」，正确做法是：

# 好的做法：只标记变化的部分'<w:r w:rsidR="00AB12CD"><w:t>The term is </w:t></w:r><w:del><w:r><w:delText>30</w:delText></w:r></w:del><w:ins><w:r><w:t>60</w:t></w:r></w:ins><w:r w:rsidR="00AB12CD"><w:t> days.</w:t></w:r>'# 坏的做法：整句替换'<w:del><w:r><w:delText>The term is 30 days.</w:delText></w:r></w:del><w:ins><w:r><w:t>The term is 60 days.</w:t></w:r></w:ins>'

为啥要注意这个？因为专业文档审查人员要看的是具体改了啥，而不是整句重写。这点细节体现了专业度。

2. PDF处理技能

PDF这个格式虽然讨厌，但工作中确实避不开。这个技能提供了完整的PDF处理方案。

基础操作：合并和拆分

from pypdf import PdfWriter, PdfReader# 合并PDFwriter = PdfWriter()for pdf_file in ["doc1.pdf", "doc2.pdf", "doc3.pdf"]:    reader = PdfReader(pdf_file)    for page in reader.pages:        writer.add_page(page)with open("merged.pdf", "wb") as output:    writer.write(output)# 拆分PDFreader = PdfReader("input.pdf")for i, page in enumerate(reader.pages):    writer = PdfWriter()    writer.add_page(page)    with open(f"page_{i+1}.pdf", "wb") as output:        writer.write(output)

提取表格数据

这个功能简直是大杀器。很多报告、发票、财务数据都在PDF表格里，以前只能手动复制粘贴，现在直接提取：

import pdfplumberimport pandas as pdwith pdfplumber.open("document.pdf") as pdf:    all_tables = []    for page in pdf.pages:        tables = page.extract_tables()        for table in tables:            if table:                df = pd.DataFrame(table[1:], columns=table[0])                all_tables.append(df)if all_tables:    combined_df = pd.concat(all_tables, ignore_index=True)    combined_df.to_excel("extracted_tables.xlsx", index=False)

这代码几行就把PDF里的表格全导出成Excel了，手动干这活可能得花一天。

PDF表单填写

如果PDF里有可填写的表单，这个技能也能处理。不过这块内容在forms.md里，需要单独读一下文档。大概流程是：

读取PDF表单字段
填充数据
生成新PDF

四、创意技能：让AI帮你搞艺术

这块是我个人最喜欢的，虽然不是工作刚需，但玩起来很有意思。算法艺术这个技能的核心思想是：不是让AI画个图，而是写个算法，让算法生成艺术品。

算法哲学的创作

这个技能要求先写一个「算法哲学」，然后用代码表达出来。听起来很玄乎，其实就是给生成艺术定个风格方向。比如：

Organic Turbulence：混乱中涌现秩序
Quantum Harmonics：离散实体展现波动干涉
Recursive Whispers：自相似性跨越尺度

算法哲学要写4-6段，强调计算美学、涌现行为、种子随机性、参数变化这些概念。关键是：不要让哲学限制创造空间，要给后面的代码实现留出足够的发挥余地。

p5.js实现艺术

代码用p5.js写，这是个JavaScript创意编程库。关键点有：

必须用种子随机
：每次用相同的种子能生成相同的结果，这样才能保存和分享作品

let seed = 12345;randomSeed(seed);noiseSeed(seed);

参数设计要合理
：不是设计「图案类型」，而是设计「系统可调的属性」。比如：

数量：多少个元素
尺度：多大、多快
概率：某些行为发生的可能性
比例：什么比例关系
角度：什么方向
阈值：什么时候行为发生变化

算法要从哲学推导出来
：不要想「用哪个图案」，要想「怎么用代码表达这个哲学」。如果哲学是关于有机涌现，就用累积、生长、反馈循环；如果是数学美感，就用几何关系、三角函数、精确计算。

展示界面

这个技能还提供了一个HTML模板，专门用来展示交互式生成艺术。模板里已经设计好了：

Anthropic品牌的配色和字体
种子控制面板
参数调节界面
动作按钮

你只需要替换算法和参数控制部分，其他保持原样就行。这样生成出来的艺术品看起来就很专业，不是那种随手画的草图。

五、开发技能：MCP服务器构建

这个技能偏技术，如果你是开发者，这部分特别有用。MCP（Model Context Protocol）是Anthropic推出的协议，让LLM能和外部服务交互。

开发流程分四个阶段

阶段1：深度研究和规划

理解MCP设计原则（API覆盖范围 vs 工作流工具）
研究MCP协议文档（https://modelcontextprotocol.io/sitemap.xml）
研究框架文档（推荐TypeScript + Streamable HTTP）
规划实现方案（理解目标API、选择工具）

阶段2：实现

设置项目结构
实现核心基础设施（API客户端、错误处理、响应格式化、分页支持）
实现工具（每个工具要有输入schema、输出schema、工具描述、实现、注解）

阶段3：审查和测试

代码质量检查（DRY原则、一致性错误处理、完整类型覆盖）
构建和测试（TypeScript用npm run build，Python用py_compile，都用MCP Inspector测试）

阶段4：创建评估

理解评估目的
创建10个评估问题（独立、只读、复杂、真实、可验证、稳定）
生成XML格式的评估文件

关键点提醒

工具命名要清晰描述，比如github_create_issue、github_list_repos，这样Agent能快速找到合适的工具。错误消息要 actionable，告诉Agent下一步该怎么做，而不是简单报错。

工具描述要简洁，但参数描述要详细。尽量提供outputSchema，这样客户端更容易理解和处理工具输出。

六、Slack GIF创建器：让沟通更有趣

这个技能很实用，毕竟现在很多团队都用Slack沟通。有时候发个GIF表情比打一堆字管用多了。

Slack的严格要求

别以为随便做个GIF就能用，Slack有自己的标准：

Emoji GIF：128x128像素
消息GIF：480x480像素
帧率：10-30 FPS（帧率越低文件越小）
颜色数：48-128色（颜色越少文件越小）
时长：Emoji GIF控制在3秒内

这些参数卡得很死，不然GIF太大发不出去或者加载太慢。

核心工作流

from core.gif_builder import GIFBuilderfrom PIL import Image, ImageDraw# 1. 创建构建器builder = GIFBuilder(width=128, height=128, fps=10)# 2. 生成帧for i in range(12):    frame = Image.new('RGB', (128, 128), (240, 248, 255))    draw = ImageDraw.Draw(frame)    # 用PIL primitives画你的动画    # (圆、多边形、线等)    builder.add_frame(frame)# 3. 保存，优化builder.save('output.gif', num_colors=48, optimize_for_emoji=True)

画图技巧

不要用Emoji字体（跨平台不可靠），也不要假设有什么预制图形。所有东西都得用PIL的ImageDraw primitives手动画。

画出来的图要好看，有几个诀窍：

线条要粗，width=2或更大，width=1的线看起来很粗糙
增加视觉深度（渐变背景、多层形状）
让形状更有趣（圆形加高光、星星加光晕、组合形状）
注意颜色搭配（鲜艳互补色、对比度）

动画效果

技能提供了几种常用动画的实现思路：

摇动/震动：用math.sin()或math.cos()加上帧索引，给位置加随机变化
脉冲/心跳：用正弦波让尺寸有节奏变化
弹跳：用interpolate()函数，easing='bounce_out'实现落地效果
旋转：用image.rotate(angle, resample=Image.BICUBIC)
淡入淡出：调整alpha通道或用Image.blend()
滑动：从屏幕外移动到目标位置

所有这些效果都有easing函数支持，让动画更平滑自然。

七、自己创建技能

看完这么多现成的技能，你可能想自己做一个。其实不难，就是个文件夹加一个SKILL.md文件。

基础模板

---name: my-skill-namedescription: A clear description of what this skill does and when to use it---# My Skill Name[Add your instructions here that Claude will follow when this skill is active]## Examples- Example usage 1- Example usage 2## Guidelines- Guideline 1- Guideline 2

frontmatter就两个字段：

name：唯一标识符（小写，空格用连字符）
description：完整描述这个技能干啥、什么时候用

下面的markdown内容就是Claude执行技能时要遵循的指令。你可以写示例、指南、最佳实践，随便你怎么写，只要Claude能理解就行。

创建技巧

明确边界
：每个技能做一件事，做透它。不要试图搞个大而全的技能。
提供示例
：Claude很吃这一套，给几个实际用例比写一堆抽象管用。
设定规则
：告诉Claude什么能做、什么不能做，避免它瞎发挥。
测试验证
：写完技能一定要在真实场景测试，看看Claude能不能正确执行。

八、实际应用场景举例

说了这么多，到底能干啥？我给你列几个具体场景：

场景一：法务部门审查合同

用DOCX技能的redlining工作流，把修订痕迹保留，方便法务人员逐条审查。比人工标注快10倍，而且不会漏细节。

场景二：财务报告数据提取

用PDF技能批量提取财务报表中的表格数据，直接导入Excel分析。省去人工复制粘贴，数据还不会出错。

场景三：市场部批量生成PPT

用PPTX技能，基于品牌规范和内容大纲，批量生成品牌统一的演示文稿。保证视觉一致性，效率翻倍。

场景四：设计团队生成品牌素材

用算法艺术技能，基于品牌色系和视觉语言，生成独一无二的背景图、装饰元素。避免版权问题，还独一无二。

场景五：技术开发团队构建MCP集成

用MCP构建器技能，快速开发各种API的MCP服务器，让Claude能直接调用外部服务。不用手写API客户端，省时省力。

场景六：运营团队制作Slack动画

用Slack GIF创建器技能，制作产品更新、活动通知的动态表情。比文字通知更有吸引力，团队氛围也更活跃。

九、最后总结

这个Agent Skills项目其实就提供了一个核心思路：把AI的能力模块化、专业化。不是指望一个通用的AI解决所有问题，而是针对特定场景配置特定技能，让AI在每个领域都能达到专业水准。

从技术实现上，这套方案并不复杂，就是结构化的指令加上可执行的代码。但它的价值在于把「AI辅助」从概念变成了可落地的方案。你可以直接用官方的技能，也可以基于这些技能创建自己的定制方案。

工作流效率提升、专业度提升、错误率降低，这三个目标通过Agent Skills都能实现。关键是要根据自己的实际需求选择合适的技能，或者干脆自己创建一个。

好了，今天就说到这。这个项目值得好好研究，建议你们先把官方的技能都试一遍，感受一下Claude在不同领域的专业能力，再想想自己的工作场景能用上什么。

https://github.com/anthropics/skills