CASE · MANUFACTURING

某制造业集团大模型选型评估

为某大型制造业集团做大模型选型咨询——覆盖 5 类技术路线、3 种部署模式,输出选型报告与首期 POC 部署架构,整体周期 6 周。

本案例为脱敏行业范例,不含具体客户名与真实经营数据
CONTEXT

项目背景

行业
先进制造 · 工业装备集团
客户规模
员工 8000+ · 海内外工厂 6 处
业务范围
研发设计 · 智能制造 · 售后服务网络
合作周期
6 周咨询评估,后续 POC 实施由客户自行推进
我们的角色
选型评估 + Benchmark 设计 + 架构方案
CHALLENGE

客户面临的问题

客户在过去一年里,从研发、制造、售后三个事业部各自萌生了想用大模型的需求——研发想做设计辅助与图纸智能检索、制造想做产线异常的根因分析、售后想做服务工单自动归类与备件推荐。

三个事业部各自看了不同的厂商方案,最后争议焦点变成了"集团到底应该统一选型还是各自为政"——而在选型层面又有一堆分歧:

客户的 CTO 团队尝试自己做对比,但各厂商提供的 demo 数据都是"过家家",跑不到真实业务数据上;公开 benchmark 又和制造业场景脱节,最终无法形成有说服力的决策依据。

WHAT WE DID

我们做了什么

6 周咨询评估,输出《大模型选型评估报告》+《Benchmark 测试集与脚本》+《首期 POC 部署架构图》三份核心交付物。

WEEK 1
需求精化与场景排序访谈研发、制造、售后三个事业部共 9 位关键干系人,把"想用大模型"翻译成 12 个具体任务,按业务价值、数据可得性、合规约束三维度排序,确定首期聚焦的 4 个场景。
WEEK 2
约束矩阵与候选清单梳理"必须满足的硬约束"(数据本地化、海外工厂可用、信创相关要求)和"加分项",基于此筛出 8 个候选方案:3 个国产闭源 API、2 个国产开源大模型、1 个国际大模型、2 个行业专用模型。
WEEK 3
Benchmark 测试集构建从客户脱敏后的真实业务数据中,构建 4 个场景对应的测试集(约 500 条/场景),定义业务化评估指标——不只是准确率,还包含响应延迟、可解释性、错误样本类型分布。
WEEK 4
横向评测执行在客户内网搭建评测环境,对 8 个候选方案在 4 个场景上做横向对比,输出原始评测数据、对比矩阵、错误样本分析。
WEEK 5
TCO 测算与方案打磨对 Top 3 方案做 3 年 TCO 测算(含模型调用 / 硬件 / 人力 / 运维),结合业务优先级输出推荐方案 + 备选 + Plan B 的组合策略。
WEEK 6
高管汇报与方案确认与集团 CTO、CIO、三事业部负责人做两轮联席评审,最终确定"统一基础平台 + 事业部场景差异化"的折中路线,并输出首期 POC 部署架构图。
KEY DECISIONS

关键决策

1. 反对"All-in 单一厂商" · 客户最初希望"全集团一个模型一个厂商解决所有问题"。我们建议在基础平台层做统一(统一向量库、统一 MLOps、统一权限),但在具体模型选择上保持多模型策略——研发场景适合一类模型,制造产线适合另一类——锁死单一厂商对长期议价权和技术演进都不利。

2. 推迟海外工厂的统一选型 · 海外工厂的合规、延迟、网络环境差异极大,强行统一会导致国内方案被严重妥协。我们建议海外工厂在二期单独评估,国内先完成首期上线,避免"为了 1 个海外场景拖累 5 个国内场景"。

3. 不接受厂商的"打包优惠" · 评测过程中有厂商主动联系,提出"如果选我们的方案可以打包送 GPU 算力"。我们建议客户拒绝此类条件——选型决策应当基于技术与业务匹配度,而非商务捆绑,否则两年后被锁死时算总账更不划算。

OUTCOME

阶段性成果(评估结束后立项落地)

8 → 3
候选方案收敛
从 8 个候选缩到 3 个最优方案
~40%*
预估 3 年期 TCO 节省
对比厂商最初推荐方案
4
首期 POC 场景立项
三事业部均有覆盖
0
事后选型争议
三方对选型结果共识
* 关于数据:TCO 节省比例为客户基于评估结果的内部测算,已脱敏并按区间四舍五入。具体节省幅度高度依赖业务规模、调用频次、运维成本结构,不代表所有制造业客户都能达成同等效果。
FEEDBACK

客户反馈

他们最大的价值不是"告诉我们选哪个",而是给我们建立了一套评估框架和测试集——三年后我们想重新评估新出现的模型,可以直接用这套体系自己跑一遍,不用再请第三方。这种"留下能力而不是留下依赖"的做法,是我们最看重的。

— 某制造业集团 CTO

正在做大模型选型?

无论是单一场景还是集团级选型,我们都坚持"基于你的真实数据评估"。聊聊你的具体卡点。

聊聊你的场景 →