我们来确认下DataBrew里已经创建好的资源,前面CloudFormation已创建好了Glue DataBrew projects、 recpies、jobs
,来帮助我们对数据集做处理。
进入DataBrew控制台,选择左侧的Projects
:
我们看到有两个已经创建好的project,一个处理sales数据,另一个处理marketing数据,打开其中一个:
点击publish:
输入版本描述,然后点击publish:
为另一个Project也重复同样的过程。
进入Jobs页面,看到有两个job也创建好,进入其中一个:
这个job会将csv形式的数据转换成SNAPPY压缩的Parquet格式,并保存到Output location
,以 年 月 日 形式进行分区: