之前有很多关心我个人情况的朋友也比较关注我下一步去哪里就业或者创业的动向,时至今日已差不多算尘埃落定了,跟各位关心的小伙伴汇报一下以后的决定和选择,以及我对整个数据行业的思考和判断。
今年伊始,有两个问题一直在困扰我,同时也是花了大半年的时间思索和实践看有无解题方案:
基于上面两个问题,我们一起来思考思考,是否有破局之法。

大数据技术演进与架构范式变迁
自谷歌“三驾马车”(GFS, MapReduce, BigTable)奠定基石以来,大数据领域经历了数次深刻的技术变革与架构迭代:
当下,随着 AI 在 Text-to-SQL 及各类数据加工过程中的深入应用,乃至 Flink 对 AI Native 引擎的探索,数据领域无疑迎来了一波新的技术浪潮。然而,审视这波浪潮,绝大部分实践仍局限于“工具赋能”层面——即优化 SQL 编写、加速 Job 构建或辅助 BI 结果展示。从整个数据仓库的宏观架构视角来看,尚未出现根本性的“深度重构”与“范式转移”。
基于此,我所构想的下一代原生智能数仓平台 (AI-Native Data Platform),应当具备以下核心特征:

下一代 Data Agent 平台能力演进
满足以上条件的平台,将给企业和从业者带来如下收益:
所以我断定,OLAP 将会迎来新的一波机会和市场,因为一切都要基于“快“和”准”,同时我现在加入的新公司,正是在研发如上所述的 Data Agent 平台,效果令人兴奋,后续篇章逐步给大家拆分探究这些功能在产品设计上是如何思考的。
大模型的本质是概率,但是概率这件事,对数据行业而言,是很难容忍的。
在过往一次线下演讲时,我提到了一个基金行业高管跟我分享的观点:人工取数都无法做到100%准确,为什么要求NL2SQL要做到100%准确?
这里我个人觉得在“限定”条件下,这句话是成立的:所谓的不准确仅仅是数值上有质量问题的不准确,并非问指标 A 回答的却是完全无相关的指标 C 这种情况。但是大模型恰恰在这方面真的是超“擅长”,问题上下文理解在大量的Schema加入以后,有可能迎来根据一些略有相关的基础指标就加工出派生指标的情况,同时也可能迎来“挤爆”上下文等等一系列的问题。
所以无论是用 RAG、大模型交叉审计,还是使用其他一些依靠“魔法”打败“魔法”的事情,最终都无法呈现数据或者指标 100% 稳定、准确、同逻辑的查询能力。
所以微调专有小模型、自研其他技术路径的内核等,逐步成为了这个问题的核心技术价值点所在,**这一块是我们当下产品的最核心的技术力,能保证100%的准确、稳定和同逻辑查询能力。**这一块由于一些原因,不方便给大家透漏更多我们当前在做的技术路径的信息,后续时机成熟会和大家展开分享。
以上的问题和思考,促进了我对新工作和产品设计上的探索,这里很感谢鲁大推荐的腾讯、刘哥推荐的米哈游、杰哥推荐的天翼云、宇哥邀请的AI公司等等很多特别好的机会,但我思来想去,还是希望做一个当下自由度比较高一些,对自己产品有很强设计参与和落地参与的工作。
所以在数轮深度协商沟通以后,决定以联合创始人的身份加入易问数据,深度参与到下一代AI Data Agent 平台的设计开发和市场推广中来。
这群小伙伴非常非常 Nice,在过往的阶段也给很多很多头部如麦当劳、蜜雪冰城、康师傅、爱玛集团等等上百家用户提供了可靠、100%好评的 ChatBI 产品,但我觉得 ChatBI 仅是整个智能数据平台的第一步落地探索,一定会向更具备业务价值、平台价值、人效价值的方面演进,而后面的路途真是路漫漫其修远兮,吾将上下而求索。
后续我将从技术和产品角度,更多的来分享我们在产品设计和开发的经验,后续我们也将推出社区版本,让大家体验我们的产品能力。
最后感谢这段时间帮我的每一个朋友,希望我们能在未来的合作中更加戮力同心。
下一篇我们来讲讲在整个 NL2SQL 的场景中,我们提出和实践的 NL2LF2SQL 解决方案与其他 NL2DSL2SQL 和 NL2MQL2SQL 的对比。
来个点赞、在看、转发吧,这是最大动力了。
本文分享自 Apache Doris 补习班 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!