-
基于Spark的ID Mapping——Spark实现离线不相交集计算
最近在开发一个ID Mapping业务系统——识别数据上报中社交账号的关联关系,找到系统中哪些社交账号属于现实世界中的同一个人。简单来讲,如果同一条上报数据中出...
随风 2023-01-02466 0 0 -
Druid源码阅读(一):Druid Hadoop-based ingestion实现
Apache Druid是一款开源时序OLAP数据库,支持流数据摄入和批数据摄入两种数据写入方式,其中批数据摄入又包括Native batch和Hadoop-b...
随风 2023-01-02463 0 0 -
Druid源码阅读(二):Druid Segment存储格式
Druid流数据摄入后会以Index形式保存在内存中,同时会定期将Index序列化成Segment文件持久化到可靠存储中(如HDFS),批数据摄入会直接通过离线...
随风 2023-01-02476 0 0 -
开发框架文档体系化的思考
本文对自己工作中碰到的大量日常咨询进行经验总结,说明一款开发框架文档应该要写哪些内容。从功能框架、特性使用流程、功能描述三个维度说明文档编写的逻辑性。希望能给同...
随风 2023-01-02449 0 0 -
【技术创作101训练营】人人都可免费搭建自己的博客
目前零成本搭建博客的方式也有很多;比如:GitHub Pages,先说一下缺点吧,由于是国外的开源代码托管平台,访问的时候不太稳定;优点就是可以免费,而且没有第...
随风 2023-01-02469 0 0 -
Debian - ERROR: The certificate of ‘raw.githubusercontent.com’ is not trusted.解决方法
今天使用debian下载github上的脚本的时候出现了下图一样的错误. Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.1……
随风 2023-01-02582 0 0 -
Global in在Clickhouse非分布式表查询中的使用
Clickhouse在OLAP查询场景下有显著的性能优势,但Clickhouse在大表join查询的场景下,性能表现并不是很好,因此在实际业务场景需要多表计算时...
随风 2023-01-02446 0 0 -
用户行为分析模型实践(一)—— 路径分析模型
在互联网数据化运营实践中,有一类数据分析应用是互联网行业所独有的——路径分析。路径分析应用是对特定页面的上下游进行可视化展示并分析用户在使用产品时的路径分布情况...
随风 2023-01-02449 0 0 -
性能优化到底应该怎么做
TL;DR: 当我们在做性能优化的时候,我们究竟在优化什么?做性能优化需不需要了解底层的东西?需要了解到什么程度?浏览器底层是一个什么架构?浏览器渲染的本质究竟...
随风 2023-01-02474 0 0 -
Clickhouse Optimize Table全面解析
最近笔者在使用Clickhouse的过程中,用到了Optimize Table命令,而在业务开发过程中,由于不了解Optimize Table命令的明确行为,中...
随风 2023-01-02459 0 0