流批一体：终结数据开发“两张皮”的工程实践

为什么我们需要告别“两张皮”开发

很多数据团队都经历过这样的场景：业务方需要一份用户行为分析报表，实时看板用Flink流处理快速产出，但最终用于决策的周报、月报却依赖凌晨运行的Spark批处理任务。两套代码、两套逻辑，每次业务规则变更，开发工程师都需要在流和批两个世界里同步修改，稍有不慎，凌晨的批处理结果就可能和白天实时看板的数据对不上。这种“流批分离”的Lambda架构，曾是应对不同数据时效性需求的经典方案，但随着业务复杂度和对数据一致性要求的飙升，其固有的“两张皮”问题正成为数据工程效率和数据质量的最大瓶颈。

流批分离架构的典型痛点

传统的流批分离架构，通常表现为流处理链路（如Flink消费Kafka）和批处理链路（如Spark处理Hive表）并行。这种模式在工程实践中会衍生出一系列具体问题：

逻辑不一致风险高：这是最核心的痛点。同样的业务规则（如计算用户留存率），需要在流处理和批处理中分别用Java/Scala和SQL实现两套代码。即使初始逻辑一致，后续的迭代、修复也很难保证完全同步，最终导致“同一指标，两个结果”的尴尬局面。
开发与维护成本翻倍：开发团队需要维护两套技术栈、两套任务依赖、两套监控告警。任何需求变更都意味着双倍的工作量，严重拖慢了数据产品的迭代速度。
存储冗余与数据孤岛：同一份源数据，为了满足流和批的不同摄入与处理方式，往往需要在消息队列、数据湖、数仓中存储多份。这不仅造成存储成本浪费，更形成了数据孤岛，使得全局数据治理变得异常困难。
系统复杂度激增：两套独立的系统意味着双倍的运维压力、资源协调和故障排查点。排查一个数据差异问题，常常需要同时在流任务日志和批任务日志中大海捞针。

一个典型的例子是构建实时推荐系统所需的“用户-商品”宽表。在流批分离模式下，流处理通过订阅Binlog实时拼接更新，而批处理则每天全量扫描数据库进行T+1的覆盖。两种方式产出的表，在任意时间点都可能存在状态差异。

流批一体的核心解决思路

流批一体并非一个单一的技术，而是一种架构理念和开发范式的转变。其核心目标是：用一套统一的架构、代码和存储，同时处理实时流数据和历史批数据，并保证处理逻辑与结果的一致性。它主要从以下几个层面切入解决问题：

1. 统一存储层：打破数据孤岛

传统架构中，流数据存于Kafka/Pulsar，批数据存于HDFS/Hive，天然割裂。流批一体倡导或依赖统一的存储层来同时服务流、批两种访问模式。目前主流方向是采用数据湖格式（如Apache Iceberg, Apache Paimon）或具备多模访问能力的存储系统（如HBase）。

以“湖流一体”架构为例，它将实时事件流（如Fluss）与数据湖（如Paimon）深度集成。实时数据先写入高性能的流存储，并自动、异步地同步到数据湖中形成历史版本；查询时，计算引擎可以自动合并流存储中的最新数据与数据湖中的历史数据，对外提供一份统一的、最新的数据视图。这从根本上解决了存储冗余和孤岛问题。

2. 统一计算引擎与逻辑：一次开发，流批复用

这是提升开发效率和保障数据质量的关键。通过统一的API（如Flink SQL/Table API）或UDF（用户自定义函数）框架，让开发人员只需编写一次核心业务逻辑代码，该代码就可以根据调度策略，在需要时作为流任务或批任务运行。

// 示例：一个统一的UDF抽象类，同时服务于流和批处理
public abstract class AlgoDumpUDF implements UDFFunction, Serializable {
    // 消息类型定义，流批共用
    public AlgoDumpMessageType algoDumpMessageType = AlgoDumpMessageType.MESSAGE_TYPE_ADD;

    // 业务逻辑入口，由开发者重写
    public abstract void process() throws Exception;

    // 增量过滤方法，流处理中驱动下游删除
    public void drop(Object key, String reason) {
        this.algoDumpMessageType = AlgoDumpMessageType.MESSAGE_TYPE_DROP;
    }
}

在这种模式下，无论是处理Kafka中源源不断的流消息，还是处理Hive中某一天的历史分区数据，都调用同一个process()方法。逻辑一致性得到了代码级的保证。

3. 统一开发与运维界面：降低工程门槛

许多流批一体平台通过提供可视化的DAG编排工具，将数据源、转换算子、输出目标抽象为可拖拽的节点。开发人员无需关心底层是生成Flink作业还是Spark作业，只需在界面上配置业务逻辑和运行频率（实时、小时、天）。平台自动将逻辑图翻译成底层引擎的执行计划。这极大地降低了数据开发的门槛和认知负担。

流批一体架构的典型落地模式

在实际落地中，根据业务场景和技术栈的不同，流批一体通常呈现为几种典型模式：

模式	核心特点	典型场景	优势	挑战
统一计算，存储分离	使用同一套API（如Flink SQL）编写逻辑，但运行时根据数据源和触发方式，将结果写入流（如Kafka）或批（如Hive）存储。	实时报表与离线报表共用逻辑，但输出渠道不同。	逻辑一致，对现有存储体系改动小。	仍需维护两套存储，未解决数据冗余问题。
统一存储，计算适配（湖流一体）	数据统一存入Iceberg/Paimon等湖仓格式。流计算写实时分区，批计算读/写历史分区，引擎（Flink/Spark）均可访问。	实时数仓、特征工程、历史数据回溯分析。	一份数据，多种计算引擎消费，彻底打破孤岛。	对实时写入性能和并发支持要求高，需要成熟的元数据管理。
平台化全链路一体	提供从数据镜像、宽表构建到导出的全流程平台，内部分别用Flink处理增量、Spark处理全量，但对用户暴露统一任务配置界面。	搜索推荐系统的索引构建、大宽表加工。	工程效率极高，数据质量可控，系统稳定性好。	平台定制性强，与特定业务场景绑定较深，通用性迁移成本高。

它具体解决了哪些工程问题？

结合上述模式，流批一体在项目实战中带来的改变是具体的：

数据质量保障从“人治”到“法治”：过去靠代码评审和人工核对来保证流批逻辑一致，现在由统一的代码框架和存储保证，差异风险被前置消除。
需求响应速度大幅提升：业务规则变更，只需修改一处代码或一个配置节点，流和批的链路同时生效，发布周期和风险都减半。
资源利用率优化：减少了重复的数据存储和计算。例如，通过“小全量”模式更新宽表，只对有变化的字段进行重算和加载，避免了每天全量扫描的资源消耗。
运维复杂度降低：统一的监控、告警和Debug工具链，让运维人员可以用同一套方法论去管理所有数据处理任务，故障定位更快。
新人上手更容易：统一的开发范式降低了学习成本，数据开发人员可以更专注于业务逻辑，而非纠结于技术选型和架构适配。

实施前的关键考量与挑战

尽管优势明显，但向流批一体架构迁移并非毫无代价。在决定引入前，团队需要冷静评估以下几点：

技术栈与引擎选型：是All in Flink，还是采用Flink+Spark组合？这取决于团队现有技术积累、对实时和离线能力的侧重，以及所选存储格式（如Iceberg）与各引擎的兼容成熟度。
存储层的性能与成本：统一的湖仓格式存储能否承受住实时写入的高吞吐、低延迟压力？历史数据的存储成本是否可控？需要细致的测试和容量规划。
现有任务迁移成本：将成百上千个现有的流、批作业重构成一体化的任务，是一个巨大的工程。需要制定清晰的迁移策略，分阶段、分业务域进行。
平台与工具链建设：流批一体要发挥最大效能，往往需要一个配套的开发平台、调度系统和数据运维体系。是自研还是采购商业化产品，需要权衡投入产出比。

写在最后

流批一体不是追逐热点的银弹，而是数据架构在应对日益复杂的业务需求时，必然走向的“归一化”和“简洁化”。它解决的远不止是技术问题，更是工程组织效率和数据管理成本的深层次问题。对于长期受困于流批“两张皮”带来的数据不一致、开发低效、运维繁琐的团队来说，评估并逐步引入流批一体架构，是一项具有战略意义的投入。它的最终目标，是让数据团队能够以更小的代价、更高的质量，更快地响应业务对数据的实时与离线需求，真正释放数据生产力。

原创文章，作者：，如若转载，请注明出处：https://fczx.net/wiki/90

大数据

现代数据平台为何从数据仓库转向湖仓一体架构：一场必然的架构演进

为什么数据仓库不够用了很多团队都有过这样的经历：早期用传统数据仓库做业务报表，感觉一切都在掌控之中。但随着业务增长，数据来源从交易系统扩展到用户行为日志、IoT传感器、甚至图片和…

12小时前
大数据

从数据接入到指标消费：一条完整数据链路的架构拆解

为什么我们总是把数据链路建得支离破碎很多团队在启动数据平台建设时，会陷入一个常见的误区：一上来就讨论该用Flink还是Spark，该选Iceberg还是Hudi。这些技术选型固然…

17小时前
大数据

大模型时代，传统大数据平台会被替代吗？

“替代”是个伪命题，进化才是主旋律每次技术浪潮来袭，“XX已死”的论调总会甚嚣尘上。今天，轮到了传统大数据平台。当大模型展现出惊人的自然语言理解和生成能力，当业务部门开始用自然语…

17小时前
大数据

数据平台权限控制：为什么总比你想象的要复杂得多

从“一把钥匙”到“一座迷宫” 很多团队在搭建数据平台初期，对权限的想象往往很简单：无非是给张三开个账号，让他能登录系统，再勾选几个他能看的报表。这种想法在平台只有三五个用户、几十张…

17小时前
大数据

设计可追溯、可回放、可审计的数据处理流水线：从合规底线到价值引擎

为什么你的流水线需要一个“黑匣子” 很多数据团队在设计ETL、特征工程或报表生成流水线时，优先考虑的是吞吐量、延迟和计算成本。直到某天，业务方质疑某个核心指标突然暴跌，或者合规部门…

17小时前
大数据

企业为何必须构建统一的特征平台与实时特征服务

从“项目烟囱”到“平台能力”的必然转折很多技术团队最初接触特征工程，都是在具体的机器学习项目里。比如要做一个风控模型，数据工程师从交易日志里提取“过去30天交易次数”；要做一个推…

17小时前
大数据

为什么数据平台的成本优化不能只盯着存储单价

成本账本上的“幻觉” 最近和几个做数据平台的朋友聊天，大家不约而同地提到了成本压力。存储芯片价格在上涨，云厂商也在调整存储和算力的定价策略。很多团队的第一反应是：赶紧找更便宜的存储…

17小时前
大数据

ETL 与 ELT 之争背后，真正影响效率的是什么

从一场经典的架构辩论开始但凡涉及数据仓库或数据平台建设，ETL（Extract, Transform, Load）和 ELT（Extract, Load, Transform）的…

1天前
大数据

从日志到指标到事件：构建统一观测数据平台的核心设计思路

从“三套系统”到“一个平台”的必然演进很多运维团队都熟悉这样的场景：Prometheus告警提示某个服务的P99延迟飙升，你不得不切换到ELK去筛选同一时间段的错误日志，然后再打…

1天前
大数据

数据平台多租户隔离的落地实践：从方案选择到工程细节

为什么数据平台的多租户隔离是个“麻烦事” 很多团队在搭建数据平台时，初期为了快速验证，往往采用最简单的单租户模式。但当业务跑通，需要服务第二个、第三个客户时，数据隔离的问题就突然变…

1天前
大数据

如何构建一条高可用的 CDC 数据同步链路：从原理到生产实践

为什么CDC成为实时同步的基石很多团队在构建数据中台或实时分析系统时，最初可能会采用定时任务轮询数据库。当表数量超过几十张，或者业务对延迟要求进入秒级甚至毫秒级时，轮询方案的弊端…

1天前
大数据

面向分析场景的数据建模：宽表、星型模型与数据集市的实战比较

为什么我们总是在为“一张表”头疼很多数据团队在支撑业务分析时，都会遇到一个经典问题：面对复杂的业务查询需求，底层数据到底该怎么组织？是把所有相关字段都塞进一张巨大的“宽表”，还是…

1天前