使用说明

核心用法

Data Analyst Skill 是一套完整的数据分析工具集，主要包含六大核心功能模块：SQL查询执行、电子表格分析、数据可视化、报告生成、数据清洗和统计分析。用户通过配置数据源后，即可使用预设的SQL模板进行数据探索、时间序列分析、漏斗分析和队列分析，同时支持Python pandas进行CSV/Excel处理，并利用matplotlib/seaborn生成专业图表。

该技能采用"文档+脚本"的轻量架构：SKILL.md提供详尽的代码模板和最佳实践，scripts目录包含data-init.sh（工作空间初始化）和query.sh（多数据库查询执行）两个实用脚本。用户无需编写复杂代码，复制粘贴模板即可完成从数据清洗到洞察输出的全流程。

显著优点

模板丰富度极高：涵盖20+种常见分析场景的SQL模板（日/周/月聚合、MoM对比、留存队列、转化漏斗等），大幅降低SQL编写门槛。Python示例覆盖pandas核心操作、统计检验和可视化最佳实践，对非专业数据人员友好。

方法论体系完整：不仅提供工具，更内置标准化的分析工作流程（定义问题→理解数据→清洗→探索→分析→沟通）和数据质量检查清单，帮助用户建立专业分析习惯。

零网络依赖：纯本地执行设计，所有数据处理在用户环境完成，无数据外泄风险，适合处理敏感业务数据。

开源可扩展：MIT协议允许自由修改，用户可根据业务需求定制SQL模板和报告格式。

潜在缺点与局限性

依赖外部工具链：技能本身不提供执行环境，需用户自行安装sqlite3/psql/mysql客户端及Python数据科学生态（pandas/matplotlib等），环境配置成本较高。

无自动化调度：缺少定时任务机制，无法实现每日/每周报告的自动更新，需配合crontab等外部工具。

可视化能力有限：Python图表生成依赖本地渲染环境，无交互式BI功能（如下钻、筛选），复杂仪表盘需借助其他工具。

SQL注入风险需用户自担：作为查询执行工具，不对用户输入SQL做语义审查，恶意或错误的SQL可能损坏数据库。

适合的目标群体

业务分析师：需要快速产出数据报告，但SQL/Python基础薄弱
产品经理/运营：自主分析用户行为、活动效果，减少数据团队依赖
初创团队：缺乏专职数据工程师，需要轻量级分析方案
数据科学学习者：通过实战模板掌握标准分析流程和代码规范

使用风险

性能风险：大数据量（百万级以上）的pandas操作可能触发内存溢出，建议配合数据库聚合减少数据拉取量。

依赖版本冲突：matplotlib/seaborn等库版本迭代快，旧模板可能出现API不兼容，建议锁定依赖版本。

数据质量陷阱：模板虽提供清洗检查清单，但无法自动修复业务逻辑错误（如埋点缺失导致的漏斗断层），需人工校验。

数据库权限误配：query.sh依赖环境变量传递连接信息，若误用写权限账户执行，存在误删改数据风险，强烈建议配置只读账户。

安全解读

核心用法

Data Analyst Skill 是一款面向 AI Agent 的数据分析能力扩展工具，将 AI 助手转变为具备专业数据处理能力的分析师。核心功能包括六大模块：

1. SQL 查询：支持数据库连接与复杂查询，内置时间分析、漏斗分析、队列分析等模板
2. 电子表格处理：基于 Pandas 的 CSV/Excel 数据清洗、转换与聚合
3. 数据可视化：Matplotlib/Seaborn 图表生成，支持趋势图、柱状图、热力图等，同时提供 ASCII 终端可视化方案
4. 数据清洗：系统化检测缺失值、重复值、异常值，提供 IQR 离群点检测等标准化处理流程
5. 统计分析：描述性统计、相关性分析、T 检验/卡方检验等常用统计方法
6. 报告生成：标准化 Markdown 报告模板，支持自动化脚本生成周期性分析报告

显著优点

零外部依赖：纯本地脚本运行，无第三方库依赖，供应链攻击面为零
功能全面：覆盖数据分析全流程——从数据接入、清洗、探索到可视化输出
模板丰富：提供 SQL 查询模板、Python 代码片段、报告结构模板，降低使用门槛
安全透明：MIT 开源协议，代码完全可读，无黑盒操作
多数据源兼容：支持 PostgreSQL、MySQL、SQLite、BigQuery、Snowflake 等主流数据库，以及 Google Sheets、Excel 等电子表格

潜在缺点与局限性

无内置数据库驱动：需用户自行配置数据库连接环境，对非技术用户有一定门槛
可视化能力有限：依赖 Matplotlib/Seaborn，交互式图表（如 Plotly、Tableau 级别）需额外扩展
大数据性能：Pandas 处理千万级以上数据时内存效率有限，未集成 Dask/Spark 等分布式方案
无实时协作：缺乏多用户协同编辑、版本控制等企业级功能
安全建议未完全落实：认证报告指出 query.sh 缺乏 SQL 注入防护，需用户自行增强输入验证

适合人群

数据分析师：快速原型验证、自动化报告生成
产品经理/运营：自助式数据探索，无需等待数据团队排期
开发者/工程师：嵌入式数据分析能力，集成至 AI 工作流
中小企业：轻量级 BI 替代方案，零订阅成本
隐私敏感场景：数据不出本地，满足合规要求

常规风险

SQL 注入风险：若直接将用户输入拼接至查询，可能引发安全问题（建议按认证报告添加输入验证）
误操作风险：DELETE/DROP 等危险操作无二次确认机制
数据质量依赖：工具本身不保证数据准确性，"Garbage in, garbage out"原则依然适用
无审计日志：操作记录未持久化，追溯能力有限

data-analytics database productivity docs automation

data-analyst 内容

scripts文件夹

手动下载zip · 9.4 kB

data-init.shtext/x-shellscript

请选择文件