logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

赛题模拟实现-离线数据抽取

本系列共分五篇,内容分别为:

数据准备

这里使用的是Kaggle上的公共数据集,来自巴西olist商店电子商务订单。该数据集提供 2016 年至 2018 年在巴西多个市场下订单的 10 万份信息。其功能允许从多个维度查看订单:从订单状态、价格、付款和货运性能到客户位置、产品属性以及客户撰写的最后评论。 数据说明。

我们选取了其中4张表,E-R模型图如下:

会员登录