GraphX案例:分析真实航班数据
我们使用2014年1月份的航班数据。对于每次航班,我们都有以下信息:
在这个场景中,我们将机场表示为顶点,而航线表示为边。我们对机场和航线的可视化很感兴趣,我们想知道有多少机场起飞或抵达。
// 首先导入依赖包
import org.apache.spark.graphx.{Edge, Graph, VertexId}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types._
然后,定义一个case calss:
// 使用case class来定义Flight Schema,与CSV数据文件相对应
case class Flight(dofM:String,
dofW:String,
carrier:String,
tailnum:String,
flnum:Integer,
org_id:Long,
origin:String,
dest_id:Long,
dest:String,
crsdeptime:Double,
deptime:Doub ......
......
抱歉,只有登录会员才可浏览!会员登录