结合使用AWS Glue Python和NumPy和Pandas Python软件包


问题内容

在AWS上名为Glue的新ETL工具中使用NumPy和Pandas等软件包的最简单方法是什么?我想在使用NumPy和Pandas的AWS
Glue中运行的Python中有一个完整的脚本。


问题答案:

我认为目前的答案是你 不能 。根据AWS
Glue文档

只能使用纯Python库。尚不支持依赖C扩展的库,例如pandas Python数据分析库。

但是,即使我尝试在S3中包括普通的python编写的库,由于某些HDFS权限问题,Glue作业也失败了。如果您找到解决此问题的方法,请也告诉我。