本文共 857 字,大约阅读时间需要 2 分钟。
实时计算 Flink是阿里巴巴在开源Flink基础上做了大量优化的Flink版本,其中增加了大量的批处理相关功能,使Flink成为统一了批流计算模型的大数据处理引擎。
与流处理功能相同,Flink Batch功能对SQL有完善的支持,并且做到了批流SQL统一。与流相比,批的SQL暂不支持window相关函数,其他语法都支持。所以SQL文档请参考公共云流计算SQL文档。
进入。
创建batch作业。
编写作业,示例:读取HDFS数据进行计算,并写回HDFS。
-- 源表DDL,类型orc,存放路径,用户HDFS的 hdfs://roothdfs/table/ds=20180816/ 目录
create table hdfs_orc_source(
name varchar,
age BIGINT,
birthday BIGINT
) with (
type='orc',
path='hdfs://hdfshome/user/hive/warehouse/xxx/table1/dt=20180814',
enumerateNestedFiles='true'
);
-- 结果表ddl
create table test_sink(
name varchar,
age bigint,
birthday bigint
) with (
type='orc',
filePath='hdfs://hdfshome/orcpath/test'
)
-- DML语句
insert into test_sink
select
name,
age,
birthday
from hdfs_source
说明:
- connector相关配置,请参考阿里云官网。
- SQL相关文档,请参考。
转载地址:http://ufall.baihongyu.com/