从割裂到统一：数据架构中批处理与流处理的边界正在消融

为什么我们不再能忍受“两条腿走路”

很多团队的数据架构演进史，本质上是一部“补丁史”。早期为了满足T+1的报表需求，搭建起以Hive、Spark为核心的离线数仓。后来业务方要求实时看板，于是又引入Kafka、Flink，单独拉出一条实时计算链路。表面上看，离线管历史，实时管当下，分工明确。但真正深入其中做开发和运维的同学都清楚，这种“Lambda架构”或“双轨制”带来的痛苦远大于便利。

最直接的问题是数据不一致。同一个业务指标，比如“今日累计销售额”，实时链路基于事件时间窗口计算，离线链路在凌晨跑批全量统计，因为口径、处理逻辑、甚至数据源本身的微小差异，两个数字经常对不上。业务方拿着两个看板来质问，数据团队往往要花大量时间做“数据对账”，本质上是在为架构的割裂买单。

更深层的成本在于重复与浪费。两套系统意味着双倍的开发成本：同样的业务逻辑需要写两套代码（一套Flink SQL/DataStream，一套Spark SQL）。双倍的存储成本：原始数据既要灌入实时消息队列，又要定期导入数据湖/仓。双倍的运维成本：两套作业的监控、告警、故障恢复都需要独立维护。这种模式在数据量小、业务简单时还能忍受，一旦规模上去，其复杂度和成本会呈指数级增长。

所以，当行业开始热议“批流一体”和“湖仓一体”时，它并不是技术厂商炒作的新概念，而是无数团队在饱受割裂之痛后，共同呼唤的一种架构范式回归——用一套系统、一份数据、一个口径来解决所有问题。

新范式的核心：不是取代，而是统一

理解批流一体，首先要摆脱一个误区：它不是要发明一种既非批也非流的全新处理模式，去取代原有的批处理和流处理。恰恰相反，它的核心思想是提升抽象层次，将批处理视为流处理的一个特例（一个时间窗口无限大的流），或者反过来，将流处理视为一种更即时的批处理。

这背后的理论支撑是统一的计算模型。以Apache Flink为代表的引擎，其基石是“事件时间”和“状态化流处理”。在这个模型里，无论数据是来自昨天的历史文件（批），还是来自此刻的Kafka消息（流），系统都将其视为带有时间戳的“事件流”。计算引擎根据事件时间和定义的窗口进行聚合，从而天然地统一了处理逻辑。对于历史数据的“批”计算，其实就是处理一个已经结束的、有限的数据流。

// 一个Flink SQL示例，同样的查询既能跑在历史数据上（批），也能跑在实时流上
SELECT 
    user_id,
    TUMBLE_START(event_time, INTERVAL '1' HOUR) as window_start,
    COUNT(*) as pv
FROM user_clicks
-- 源可以是文件系统（批）或Kafka（流）
GROUP BY 
    user_id, 
    TUMBLE(event_time, INTERVAL '1' HOUR)

而“湖仓一体”则从存储层面解决了统一的问题。传统上，数据湖（如基于HDFS）存储原始明细，成本低但查询慢；数据仓（如MPP数据库）存储聚合后的模型，查询快但成本高且不灵活。新一代的Table Format（如Apache Iceberg、Delta Lake、Apache Hudi）模糊了这个边界。它们基于对象存储（如S3、OSS、COS），提供ACID事务、高效的upsert/delete、时间旅行等数据仓库级能力，同时保持了数据湖的开放性与成本优势。这就构成了统一的数据底座。

一体化架构如何解决老问题

当统一的计算引擎遇到统一的存储层，魔法就发生了。我们来看看它如何精准打击传统架构的痛点：

传统架构痛点	批流一体/湖仓一体解决方案	带来的价值
数据不一致	同一份业务逻辑（SQL或代码）同时应用于实时流和离线批数据，保证计算口径绝对一致。	业务信任度提升，消除对账成本。
存储冗余	一份数据存入Iceberg等表格式，同时支持实时增量写入和批量历史分析，无需复制多份。	存储成本显著下降（行业实践常见30%-40%的节省）。
开发效率低	开发一套代码，通过配置即可部署为实时作业或离线任务，实现“一次开发，处处运行”。	研发人力释放，更聚焦业务逻辑而非框架适配。
运维复杂	统一的技术栈（如Flink）、统一的元数据管理和作业监控面板。	运维心智负担大幅降低，故障定位更快。
链路僵化	数据以开放格式存储，可供Flink、Spark、Presto、甚至AI框架直接访问，打破引擎绑定的孤岛。	架构灵活性增强，能快速响应新的分析需求。

以一个电商订单分析场景为例：过去，实时风控需要从Kafka读流计算欺诈订单，而财务日报需要从数据仓库T+1跑批。现在，所有订单通过CDC工具实时写入一张Iceberg表。风控作业直接查询这张表的最新增量部分（毫秒级延迟），而财务作业在每天零点后，直接在同一张表上运行一个覆盖历史全量数据的查询。两者数据源、逻辑、结果完全同源。

落地之路：理想很丰满，挑战也很现实

虽然方向明确，但把批流一体从架构图变成稳定运行的生产系统，中间还有不少沟壑需要跨越。

挑战一：技术选型与生态成熟度。核心是选择哪一套“Table Format + 计算引擎”的组合。Iceberg生态目前最活跃，与Flink、Spark整合深入；Hudi对Upsert场景优化更好；Delta Lake则与Databricks体系绑定较紧。你需要评估团队的技术栈、云服务商的支持情况，以及周边工具链（如元数据管理、数据质量、作业调度）的成熟度。

挑战二：实时与批量任务的资源调和。一体化引擎虽然逻辑统一，但实时作业要求低延迟、高稳定性，常需要独占或高优先级资源；而离线批作业追求高吞吐，可以充分利用集群空闲资源。如何在同一个集群或资源管理平台（如K8s）上公平、高效地调度这两种截然不同的负载，避免相互干扰，是对平台能力的考验。

挑战三：数据治理的范式升级。当数据全部汇聚到统一的数据湖中，治理的重要性不降反升。如果没有完善的元数据管理、数据血缘、生命周期策略和数据质量监控，湖很容易变成“数据沼泽”。一体化架构要求数据治理团队前置，建立从数据接入、开发、测试到归档的全流程规范。

给准备启程团队的建议

从新业务或痛点明显的场景切入：不要试图一次性重构所有历史链路。选择一个数据一致性要求高、目前双链路维护痛苦的新业务场景作为试点，比如实时营销效果分析或物联网设备监控。
优先拥抱云原生产品：对于大多数企业，直接采用云厂商提供的全托管湖仓一体服务（如阿里云的MaxCompute+Hologres，腾讯云的流计算Oceanus结合DLC数据湖计算），远比自建开源集群更划算，能快速获得稳定性和企业级功能。
组建融合团队：打破原有的“实时组”和“离线组”壁垒，组建具备流批一体化思维的数据平台和业务开发团队，这是技术成功落地的组织保障。
关注“最后一公里”：一体化架构解决了数据生产和加工的问题，但数据最终要服务于BI、报表、API。确保你的OLAP查询引擎（如ClickHouse、StarRocks）能高效查询湖仓中的表格式数据，完成闭环。

未来展望：不止于批流，迈向智能与协同

批流一体和湖仓一体远不是终点。它正在成为下一代数据架构的基石。这个基石的之上，两个趋势已经显现：

一是与AI/ML的深度集成。传统的特征工程和模型训练严重依赖离线批处理，导致特征更新慢，模型迭代周期长。一体化架构使得实时特征计算成为可能，特征可以实时写入特征库，供在线推理使用，真正实现从“离线训练、静态模型”到“在线学习、动态模型”的演进。

二是数据网格与数据产品化。当底层的数据存储和计算变得统一且稳定后，焦点会向上转移到数据如何被消费。数据网格理念倡导将数据作为产品，由领域团队负责端到端的数据交付。一体化的数据底座为各个领域数据产品团队提供了标准、自助的“生产资料”，从而在保证全局治理的同时，激发数据创新的活力。

写在最后

数据架构中批处理与流处理边界的模糊与融合，不是一个单纯的技术升级，而是一次深刻的范式转换。它从追求单一工具链的性能极致，转向追求系统整体的简洁、一致与高效。对于架构师和开发者而言，理解这一变化背后的驱动力——降低复杂度、保障一致性、提升效率——比掌握具体某个工具更为重要。

这场变革正在进行中，它可能不会完全消灭特定的批处理或流处理系统，但一定会让“割裂”成为一种过时的、昂贵的架构选择。未来的数据平台，将更像一个统一的、智能的、协同的数据操作系统，而批与流，只是这个系统运行时两种自然而然的视图。

原创文章，作者：，如若转载，请注明出处：https://fczx.net/wiki/59

大数据

现代数据平台为何从数据仓库转向湖仓一体架构：一场必然的架构演进

为什么数据仓库不够用了很多团队都有过这样的经历：早期用传统数据仓库做业务报表，感觉一切都在掌控之中。但随着业务增长，数据来源从交易系统扩展到用户行为日志、IoT传感器、甚至图片和…

10小时前
大数据

从数据接入到指标消费：一条完整数据链路的架构拆解

为什么我们总是把数据链路建得支离破碎很多团队在启动数据平台建设时，会陷入一个常见的误区：一上来就讨论该用Flink还是Spark，该选Iceberg还是Hudi。这些技术选型固然…

14小时前
大数据

大模型时代，传统大数据平台会被替代吗？

“替代”是个伪命题，进化才是主旋律每次技术浪潮来袭，“XX已死”的论调总会甚嚣尘上。今天，轮到了传统大数据平台。当大模型展现出惊人的自然语言理解和生成能力，当业务部门开始用自然语…

14小时前
大数据

数据平台权限控制：为什么总比你想象的要复杂得多

从“一把钥匙”到“一座迷宫” 很多团队在搭建数据平台初期，对权限的想象往往很简单：无非是给张三开个账号，让他能登录系统，再勾选几个他能看的报表。这种想法在平台只有三五个用户、几十张…

14小时前
大数据

设计可追溯、可回放、可审计的数据处理流水线：从合规底线到价值引擎

为什么你的流水线需要一个“黑匣子” 很多数据团队在设计ETL、特征工程或报表生成流水线时，优先考虑的是吞吐量、延迟和计算成本。直到某天，业务方质疑某个核心指标突然暴跌，或者合规部门…

14小时前
大数据

流批一体：终结数据开发“两张皮”的工程实践

为什么我们需要告别“两张皮”开发很多数据团队都经历过这样的场景：业务方需要一份用户行为分析报表，实时看板用Flink流处理快速产出，但最终用于决策的周报、月报却依赖凌晨运行的Sp…

14小时前
大数据

企业为何必须构建统一的特征平台与实时特征服务

从“项目烟囱”到“平台能力”的必然转折很多技术团队最初接触特征工程，都是在具体的机器学习项目里。比如要做一个风控模型，数据工程师从交易日志里提取“过去30天交易次数”；要做一个推…

15小时前
大数据

为什么数据平台的成本优化不能只盯着存储单价

成本账本上的“幻觉” 最近和几个做数据平台的朋友聊天，大家不约而同地提到了成本压力。存储芯片价格在上涨，云厂商也在调整存储和算力的定价策略。很多团队的第一反应是：赶紧找更便宜的存储…

15小时前
大数据

ETL 与 ELT 之争背后，真正影响效率的是什么

从一场经典的架构辩论开始但凡涉及数据仓库或数据平台建设，ETL（Extract, Transform, Load）和 ELT（Extract, Load, Transform）的…

23小时前
大数据

从日志到指标到事件：构建统一观测数据平台的核心设计思路

从“三套系统”到“一个平台”的必然演进很多运维团队都熟悉这样的场景：Prometheus告警提示某个服务的P99延迟飙升，你不得不切换到ELK去筛选同一时间段的错误日志，然后再打…

23小时前
大数据

数据平台多租户隔离的落地实践：从方案选择到工程细节

为什么数据平台的多租户隔离是个“麻烦事” 很多团队在搭建数据平台时，初期为了快速验证，往往采用最简单的单租户模式。但当业务跑通，需要服务第二个、第三个客户时，数据隔离的问题就突然变…

23小时前
大数据

如何构建一条高可用的 CDC 数据同步链路：从原理到生产实践

为什么CDC成为实时同步的基石很多团队在构建数据中台或实时分析系统时，最初可能会采用定时任务轮询数据库。当表数量超过几十张，或者业务对延迟要求进入秒级甚至毫秒级时，轮询方案的弊端…

23小时前