使用PyCharm开发PySpark应用程序

本章主要内容:

要开发PySpark应用程序,通常可以采用以下几种开发方式和开发环境:

  • 使用pyspark shell,交互式执行;
  • 使用PyCharm IDE集成开发环境,先开发测试,然后部署执行;
  • 使用Jupyter Notebook,交互式开发;
  • 使用Zeppelin Notebook,交互式开发。

在上一章,我们已经了解了如何使用pyspark shell以交互式方式执行PySpark代码。但是pyspark shell并不适合在生产(工作)环境下使用。在生产(工作)环境中,我们可以根据自己的需求选择后面三种开发和执行方式。

推荐:为避免繁琐易错的配置,推荐直接下载使用小白学苑提供的PBLP个人大数据学习平台。该平台已经配置好了Hadoop + PySpark + Zeppelin + Jupyter的大数据学习和开发环境。

在这一节,向大家介绍如何使用PyCharm这个IDE来开发PySpark应用程序。 我们将使用PyCharm Community Edition作为IDE。在 ......

......

抱歉,只有登录会员才可浏览!会员登录


《PySpark原理深入与编程实战》