博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
实时计算Flink——独享模式——Batch功能介绍
阅读量:7066 次
发布时间:2019-06-28

本文共 857 字,大约阅读时间需要 2 分钟。

什么是Flink Batch功能

实时计算 Flink是阿里巴巴在开源Flink基础上做了大量优化的Flink版本,其中增加了大量的批处理相关功能,使Flink成为统一了批流计算模型的大数据处理引擎。

如何试用Flink Batch功能

与流处理功能相同,Flink Batch功能对SQL有完善的支持,并且做到了批流SQL统一。与流相比,批的SQL暂不支持window相关函数,其他语法都支持。所以SQL文档请参考公共云流计算SQL文档。

如何创建批处理作业

准备工作

  1. 申请独享模式:目前批处理功能仅在独享模式开通,请移步。
  2. 创建集群:请按创建集群并创建项目。

创建批处理作业

  1. 进入。

  2. 创建batch作业。

  3. 编写作业,示例:读取HDFS数据进行计算,并写回HDFS。

  4.  
    1. -- 源表DDL,类型orc,存放路径,用户HDFS hdfs://roothdfs/table/ds=20180816/ 目录
    2. create table hdfs_orc_source(
    3. name varchar,
    4. age BIGINT,
    5. birthday BIGINT
    6. ) with (
    7. type='orc',
    8. path='hdfs://hdfshome/user/hive/warehouse/xxx/table1/dt=20180814',
    9. enumerateNestedFiles='true'
    10. );
    11. -- 结果表ddl
    12. create table test_sink(
    13. name varchar,
    14. age bigint,
    15. birthday bigint
    16. ) with (
    17. type='orc',
    18. filePath='hdfs://hdfshome/orcpath/test'
    19. )
    20. -- DML语句
    21. insert into test_sink
    22. select
    23. name,
    24. age,
    25. birthday
    26. from hdfs_source

    说明:

    1. connector相关配置,请参考阿里云官网。
    2. SQL相关文档,请参考。
本文转自实时计算——

转载地址:http://ufall.baihongyu.com/

你可能感兴趣的文章
十大监控工具,值得一试
查看>>
ES6 -> Javascript的类与继承在Babel的实现
查看>>
走进mysql基础
查看>>
使用Rollup打包JavaScript
查看>>
推荐系统与协同过滤、奇异值分解
查看>>
TypeScript 学习(三)
查看>>
小猪的Python学习之旅 —— 20.抓取Gank.io所有数据存储到MySQL中
查看>>
从小数学就不及格的我,竟然用极坐标系表白了我的女神!(附代码)
查看>>
iOS远程hot patch的优点和风险
查看>>
Android uncovers master-key 漏洞分析
查看>>
常用操作命令使用总结
查看>>
单元测试工具 TestNG 使用
查看>>
关于Java面试,你应该准备这些知识点
查看>>
某PA科技iOS开发工程师面试回忆
查看>>
从jvm角度看懂类初始化、方法重载、重写。
查看>>
项目难做,程序员难当,软件开发中的 9 大难题
查看>>
ELK 使用小技巧(第 4 期)
查看>>
浅谈前端测试
查看>>
wordpress主题实现彩色标签云效果
查看>>
python线程同步机制
查看>>