更新时间:2022年10月11日10时08分 来源:传智教育 浏览次数:
7月29日-31日,ApacheCon Asia 2022开源大会在线上盛大开启,来自传智教育Python+大数据学科的张敬存老师、赵晨杰老师,共同在会上发表了题为《大数据&Python生态在传智教育的实践和思考》的演讲,和与会者分享了传智教育对大数据&Python生态发展的思考、探索与实践历程。
据悉,ApacheCon Asia 2022是由Apache 软件基金会(ASF)组织的官方全球系列大会,作为久负盛名的开源盛宴,活动吸引了全球的开发者前来探讨开源技术、开源文化和开源理念。
今年的ApacheCon Asia 2022会议议程覆盖了数十个类别的Apache 项目内容,从流处理到消息队列、集成,从大数据到金融科技,从搜索再到Tomcat等都有涉及。
当前,大数据技术正在深刻的引领和改变着各个行业发展,而Apache 软件基金会(ASF)有着非常多的大数据项目,比如Hadoop, Hive, Spark, HBase, Kylin, Ozone, CarbonData, Doris, Cassandra, ZooKeeper,Hudi,Iceberg,Zeppelin,SeaTunnel(incubator) 等。也因此,本次大数据分论坛倍受业内关注。在会场中,开发者们共同探讨大数据的前沿技术趋势以及一线用户的实践经验、原理、架构分析等。
传智教育两位老师作为大数据领域的探索者和授业者,受邀分享了《大数据 Python&生态在传智教育的实践和思考》,并从大数据Python生态发展、传智教育基于大数据Python生态架构演变过程、大数据Python生态在传智教育落地实践、传智教育大数据Python生态的展望四个方面,深度解析了传智教育长期以来对大数据Python的技术理念、实践应用和发展。
大数据Python生态发展
传智教育认为,大数据Python生态的核心目标实际上围绕着两个关键字,分别是大数据和Python。
具体来讲无非两点,第一是将大数据的能力输出给Python用户,比如说Pyspark, 就相当于将spark的计算能力输出给了Python用户,进而就有了Pyspark这种组件。
其次要将Python生态分析计算的功能运行到大数据的组建上,进而提升Python生态对大数据问题的解决能力。
此外,使用Python语言来学习和应用大数据是非常具有优势的,大数据明星框架Spark首推使用Python语言进行开发。
·
传智教育基于大数据Python生态架构演变过程
| 传智教育基于大数据Python生态架构演变过程
赵老师结合传智教育的实际情况举例说,传智教育的线上平台业务线涉及100多个业务的看板,3000多个业务指标的分析,对于如此庞大的业务处理,传智教育采用了Python+大数据生态,从而实现整个数据的Pipeline来操作,同时通过实时数仓、用户画像和推荐系统等更好地为用户提供合适的产品。
实际业务中遇到很多困难,比如:用户咨询和学习行为的大幅上涨;各业务库和第三方系统的数据同步,采集同步;业务分析类需求查询效率低(使用分析库ADB查询效率仍然低下);智能推荐(针对个性化行为信息,如何实现个性化课程推荐)等。
传智教育基于上述痛点升级了架构,采用Pyflink生态,重新设计出适合业务大数据的一个技术架构,运用大数据Python生态的Pyflink实现ETL处理,实时数仓,实现用户画像和推荐等。
值得一提的是,上图所示的架构变迁V3.0中,从实时数仓、画像到推荐系统,都在整个传智教育的大数据平台,并首次引入 PyFlink,但是在使用过程中由于遇到了很多窗口的操作不支持问题,且当时PyFlink本身功能不完善,所以传智教育就开发了窗口及其他PyFLink算子相关功能,并贡献了十多个 PR 来帮助 PyFlink 变得更加成熟。
大数据Python生态在传智教育落地实践
传智教育在线上平台拥有多个学科,30多个就业模块课程,上百门小课,需要根据用户行为实时推荐小课和就业班课程,涉及首页推荐、热门推荐、猜你喜欢、搜索页好课推荐等,需要通过用户画像和推荐系统完成个性化推荐服务。
以用户画像落地实践为例,用户信息标签化,也就是抽取出一个平台用户的信息全貌,从而解决如何将数据转化为商业价值的问题,包括教育程度、职业、喜好等标签,以便全面了解用户信息,同时给推荐系统提供数据支持。
那该使用什么技术完成标签计算?
在传智教育大数据&Python生态中,会首先将标签进行分级,使用PyFlink技术栈完成人口属性下面的年龄、性别等四级标签计;商业属性中支付方式、客单价、有券必买等四级标签;行为属性中浏览时长、登录频率、访问频率等四级标签。
然后,通过PyFlink和PyAlink整合完成客户价值标签RFM、用户活跃度模型RFE、价值敏感度模型PSM、购买性别标签USG等,从而完成用户画像的咨询,以及后续课程、就业、出勤等10多个看板,1000多个四级标签构建。
展望传智教育大数据Python生态
最后,传智教育的赵晨杰老师,分享了大数据Python生态在传智教育的未来发展展望。
例如,在实时数仓方面,将借助于Python大数据生态完成 ,数据湖实时接入数据,Doris实时同步数据湖数据。
在用户画像方面,完善用户标签体系,增加挖掘类标签占比,丰富实时用户画像场景等。
在推荐系统方面,增加知识图谱推荐,结合强化学习实现精准推荐,预研Bert模型在推荐系统应用等。
传智教育相信在Apache 各类开源框架的应用下,传智教育的各类系统应用能越来越好,同时在实践的过程中,也能反哺系统功能,让框架更完整,实现更多的功能。
为了让更多的开发者在Apache社区学到大数据相关的前沿技术,传智教育现已联合Apache Hudi、Apache Doris、Apache Pulsar 等官方社区推出了完整的中文课程,给想要了解和使用这些技术的同学,提供一个快速入门的途径,也为开源社区贡献了自己的一份力量。
传智教育此次应邀出席ApacheCon Asia 2022开源大会,展现出高新技术开发及应用的实力,作为一直致力于培养数字化人才的职业教育集团,未来将继续深耕新技术场景化应用,探索数字化人才培养模式,带给行业更多前沿探索实践。