-
【云+社区年度征文】大数据常用技术梳理
从上图我们可以看到, 从事大数据方向可以有很多具体方向的职位. 相较于Java开发, 选择面更加广泛
时间静止不是简史 2023-01-02449 0 0 -
Alluxio集群搭建并整合MapReduce/Hive/Spark
Alluxio是世界上第一个虚拟的分布式存储系统,以内存速度统一了数据访问。它为计算框架和存储系统构建了桥梁,使应用程序能够通过一个公共接口连接到许多存储系统。...
岳涛 2023-01-02447 0 0 -
分布式计算引擎 Flink/Spark on k8s 的实现对比以及实践
以 Flink 和 Spark 为代表的分布式流批计算框架的下层资源管理平台逐渐从 Hadoop 生态的 YARN 转向 Kubernetes 生态的 k8s ...
legendtkl 2023-01-02464 0 0 -
Flink 利器:开源平台 StreamX 简介
StreamX 是 Flink & Spark 极速开发脚手架,开源的流批一体一站式大数据平台。
吴云涛 2023-01-02446 0 0 -
Flink与Spark读写parquet文件全解析
Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它...
从大数据到人工智能 2023-01-02469 0 0 -
带你理解并亲手实践 Spark HA 部署配置及运行模式
由于 Spark 是计算框架,还需要有底层存储系统、资源协调管理、分布式协作管理等框架等进行支撑,因此我们这里使用在《万字+50图,详解 Hadoop HA 完...
数人之道 2023-01-02444 0 0 -
Spark离线导出Mysql数据优化之路
在业务离线数据分析场景下,往往需要将Mysql中的数据先导出到分布式存储中,如Hive、Iceburg。这个功能实现的方式有很多,但每种方式都会遇到一些问题(包...
随风 2023-01-02451 0 0 -
数据湖(四):Hudi与Spark整合
默认Spark操作Hudi使用表类型为Copy On Write模式。Hudi与Spark整合时有很多参数配置,可以参照https://hudi.apache....
Lansonli 2023-01-02449 0 0 -
开源项目丨一文详解一站式大数据平台运维管家 ChengYing 如何部署 Hadoop 集群
课件获取:关注公众号 “数栈研习社”,后台私信 “ChengYing” 获得直播课件
数栈DTinsight 2023-01-02466 0 0 -
hadoop+spark+zookeeper+hive的大数据分布式集群搭建
hadoop+spark+zookeeper分布式集群部署 这里的排版可能不太好看因为本是我直接写在博客上的外挂标签修剪的,如果想要获得更好的阅读体验建议在我的博客中浏览……
你会发光叭 2023-01-02463 0 0