Project Portfolio

构建 大模型驱动 的智能应用。

智能体设计 数据工程 模型微调 模型部署
smart_toy

智能体设计 (AI Agent Design)

企业级 Text-to-SQL 数据分析智能体

基于 LlamaIndex 框架构建的自动化数据分析助手,将用户自然语言指令转化为 SQL 语句,实现对话即分析的高效数据洞察。

check_circle 核心架构:采用 LlamaIndex 的 AgentWorkflow 和 ReActAgent 模式,实现具备自主决策能力的推理引擎。
check_circle Text-to-SQL:集成 NLSQLTableQueryEngine,自动映射数据库 Schema,支持复杂多表关联查询转换。
check_circle 安全网关:内置意图识别机制,仅允许数据分析类请求通过,有效防范 SQL 注入及非相关指令。
check_circle 记忆管理:基于 ChatMemoryBuffer 实现多轮对话状态管理,支持用户针对历史查询结果进行深度追问。
LlamaIndex FastAPI SQLAlchemy MySQL DeepSeek-Chat BGE-Embedding

儿科医疗 RAG 问诊与审核系统

基于 LangGraph 构建的状态机工作流系统,结合医疗知识库检索与人机协同机制,提供专业且受控的医疗辅助诊断建议。

check_circle 工作流编排:使用 LangGraph 的 StateGraph 定义意图识别、检索与生成节点,确保诊断流程逻辑严密。
check_circle 垂直 RAG:利用 ChromaDB 持久化存储儿科指南,通过 DashScope 实现高精度语义检索,减少模型幻觉。
check_circle 意图围栏:严格限制咨询范围,非医疗相关问题自动拒答,保障专业场景下的安全性。
check_circle 审核接口:系统预留 Human-in-the-loop 接口,支持 AI 初诊后由专业医生进行在线复核与批注。
LangChain LangGraph ChromaDB Qwen-Max DashScope Flask

多维消费决策:手机选购智能助手

基于 LangGraph 构建的结构化导购系统,通过状态机工作流实现从模糊用户意图到精确硬件参数的自动化匹配与推荐。

check_circle 工作流编排:利用 LangGraph 的 StateGraph 构建包含意图识别、参数提取、SQL构建及回复生成的标准化节点。
check_circle 意图围栏机制:通过 LLM 识别 6 类用户意图,实现对非导购话题的自动拦截(Out-of-Scope)与闲聊引导。
check_circle 精准参数提取:采用零温度策略从自然语言中提取价格区间与硬件关键字,确保查询条件的稳定性。
check_circle 动态资源映射:后端自动将数据库存储的本地图片路径转化为安全的 HTTP URL,支持前端实时渲染 Markdown 图文结果。
LangChain LangGraph FastAPI Streamlit PyMySQL Qwen-Plus
database

数据采集与高质量数据集构建 (Data Engineering)

瑞云渲染行业智能客服语料库

针对云渲染领域,通过爬虫采集官方文档与历史客服数据,构建行业专属微调数据集。

check_circle 多源爬取:自动化采集帮助文档、FAQ 及企业内部脱敏对话记录,覆盖渲染故障及计费等核心场景。
check_circle 数据加工:利用 Python 脚本进行格式标准化与隐私脱敏,确保数据符合 ShareGPT 训练规范。
check_circle 质量优化:通过 LLM 辅助清洗 HTML 乱码,提升语料的逻辑连贯性与准确度。
Python BeautifulSoup4 Scrapy Regex Pandas

全国农业农村政策与技术数据集

采集各省市农业政策与农技指南,利用 EasyDataset 构建农业领域专项高质量数据集。

check_circle 大规模聚合:覆盖全国各省农业农村厅公开文件,涵盖种植技术、农药规范及政策补贴等类目。
check_circle 高效构建:使用 EasyDataset 工具链进行语义分段、冗余去重,生成结构化微调指令对。
check_circle 均衡分析:针对种子、农技、政策等类目进行分布检查,确保数据集在细分领域无死角覆盖。
EasyDataset Selenium Requests Data Visualization

贵阳贵安基础大模型地标性数据集

参与算家计算实战项目,构建反映地方基建、政务及人文全貌的垂直微调数据集。

check_circle 地方特化:搜集整理贵阳贵安政府报告及基建规划,填补通用模型对地方性知识的短板。
check_circle 质量审查:建立多轮人工+机器审核流程,剔除逻辑矛盾,直接提升模型在该领域准确率 15%。
check_circle 指令增强:构造复杂的地区特色推理指令,如针对大数据产业及避暑旅游的场景化问答。
JSONL Vector Deduplication Manual Review Flow
model_training

模型微调与训练 (Fine-tuning)

医疗垂直推理模型:DeepSeek-R1-Medical

ModelScope 开源

基于开源医疗对话数据对 DeepSeek-R1-7B 进行深度微调,强化模型在诊疗建议方面的专业性。

check_circle 训练策略:在 MS-Swift 框架下进行多轮 SFT,利用 20万+ 专业对话语料优化医学逻辑。
check_circle 幻觉约束:通过负向指令训练减少医疗幻觉,确保输出内容具备专业严肃性。
check_circle 开源贡献:最终模型已同步发布至 ModelScope,并在中文医疗问诊评估中表现优异。
MS-Swift DeepSeek-R1-7B LoRA Flash-Attention 2

Whisper-v3 中文语音识别优化

针对中文口语与垂直语境,对 Whisper-large-v3 进行 LoRA 微调,降低识别错误率。

check_circle 混合训练:融合 AIshell-1 与 Common Voice 语料,覆盖多种环境底噪与声学特征。
check_circle 性能提升:经过多轮评估测试,在通用中文测试集上词错率 (CER) 降低约 8-12%。
check_circle 主页开源:训练完成的模型已发布至个人 ModelScope 主页,支持长音频稳定识别。
Whisper-v3 PyTorch PEFT HuggingFace

长文本摘要总结模型

基于 DeepSeek-R1 系列模型,针对中文长文本摘要任务进行结构化重构训练。

check_circle 数据集开发:整理并重构 CLTS 数据集,增强模型对文章层级结构与核心信息的识别能力。
check_circle 训练优化:采用渐进式学习率策略,解决模型在总结长文时容易丢失细节的问题。
check_circle 实战应用:模型在会议纪要整理与政策文件缩写场景下,信息提取完整度显著提升。
LLaMA-Factory DeepSeek-8B CLTS Dataset
terminal

模型部署展示 (Deployment & Ops)

Docker 容器化工程

算家云模型镜像库建设

利用 Docker 容器化技术部署并发布 10+ 模型镜像,涵盖智能体、多模态及语音等领域。目前已有400+人数使用。

  • check_circle 容器化工程:在容器中进行操作模型部署,进行依赖隔离,显著降低环境迁移成本,部署效率提升 30%。
  • check_circle 多模态部署:成功打包 HunyuanVideo、ComfyUI 及 Qwen3-VL 等主流多模态生成与理解模型。
  • check_circle 音频引擎:集成 Qwen3-TTS、IndexTTS-2 等音频生成模型,解决了底层音频库冲突问题。
  • check_circle 技术文档:撰写完整的部署文档并发布于算家云官网,实现“开箱即用”的模型调用体验。
Docker Nginx CUDA/cuDNN NVIDIA-Docker Shell Scripting
cloud_done
400+ Users
Active Deployment