07 Jan 2020
Flink 大纲

1 Flink框架、基础入门

2.1 Flink 多种time对比 – Processing Time、Event Time 和 Ingestion Time
2.2 Window 基础概念与实现原理 – 有两处性能优化点：1. window是否是all window；2. window function是否为ProcessWindowFunction
2.2 Watermark 的用法和结合 Window 处理延迟数据
2.3 触发器
2.4 使用DataStream API来处理数据
- SingleOutputStreamOperator
- KeyedStream
- SplitStream
- WindowedStream
- allWindowedStream
- connectedSreams
- BroadcastStream
- BroadcastConnectedStream
- QueryableStateStream
2.5 Flink常用的Source Connector 和 Sink Connector
- kafka
- ES
- HBase
- Redis
2.6 使用 Side Output分流（flink中不支持连续split分流，所以鼓励用side output）

3.1 State
- 为什么需要 State？
- Keyed State
- Operator State
- Raw and Managed State
- State TTL(存活时间)
- Broadcast State
- Queryable State
3.2 Flink 状态后端存储
- StateBackends
- MemoryStateBackend
- FsStateBackend
- RocksDBStateBackend（RocksDBStateBackend 是目前唯一支持增量 checkpoint 的后端。）
3.3 Flink Checkpoint 和 Savepoint 的区别及其配置使用 – Source Task会在数据流中安插CheckPoint barrier
- Exactly Once 和 At Least Once 为什么barrier对齐就是Exactly Once？为什么barrier不对齐就是 At Least Once？ – 通过一个读取kafka数据进行日pv统计的例子进行讲解

Til next time,
at 09:42

scribble