logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2024年江苏省职业院校技能大赛中职赛项规程

竞赛方式

本竞赛为师生同时比赛的方式,教师组和学生组的参赛队分开比赛,独立计分,计分方式为个人计总分和团队计总分,教师组和学生组的比赛总时长分别为6小时和7小时,教师组和学生组分时比赛,具体要求如下:

1、学生组参赛队:由3位选手(其中队长1名)和2名指导教师组成,参赛选手须为江苏省中等职业学校全日制在籍学生,五年制高职一至三年级(含三年级)学生也可报名参赛。凡在往届全国职业院校技能大赛中获一等奖的选手,不得再参加同一项目同一组别的比赛。指导教师须为本校在职教师,参赛选手和指导教师报名获得确认后不得随意更换。

2、教师组参赛队:为个人赛,参赛选手须为江苏省中等职业学校大数据技术及相关专业在职教师。凡在往届全国职业院校技能大赛中获一等奖的选手,不得再参加同一项目同一组别的比赛。

3、本赛项为单一场次比赛,所有参赛队在现场根据给定的任务说明,采用小组合作的形式完成任务,最后以提交的结果文档作为最终评分依据。

竞赛内容

本赛项竞赛主要考核选手理论知识、实操技能和职业素养。其中:

1. 理论知识考核占比20% ,考核内容主要包含:涵盖大数据技术应用行业基本职业道德、基础知识和相关知识等,适当增加相关新知识和新技术。在计算机上进行答题,时间60 分钟。

2.操作技能考核

学生组实操技能考核占比总分80% ,教师组实操技能考核占比总分65% ,竞赛时间分别为6小时和4小时。本赛项涉及大数据行业的典型工作场景,包括大数据平台搭建、数据清洗、数据分析、数据可视化和综合分析等工作任务。本赛项的竞赛内容如下表所示,学生组和教师组竞赛内容一样。

序号 竞赛任务 技能成绩比例 考核内容
1 大数据平台搭建 10% Hadoop 平台的安装部署和常用组件的安装部署。
2 数据采集 10% 分析指定网站结构,基于Python语言对网站中指定的数据进行爬取,并保存到指定位置。
3 数据库运行维护 20% 使用MySQL数据库建库建表,运用基本的SQL语言完成数据的查询、统计、删除和更新等操作。
4 数据清洗 10% 基于Hadoop平台进行编译、打包、部署和执行程序,实现数据一致性检查、无效值和缺省值的处理,完成数据的清洗工作。
5 数据标注 10% 使用Python语言对数据进行分类标注。
6 数据分析与可视化 20% 使用Web前端框架或者matplotlib对数据分析结果进行可视化展示。
7 业务分析和方案设计 15% 对大数据项目的业务场景和数据进行分析,撰写报告。
8 职业素养 5% 团队分工明确合理、操作规范、文明竞赛。

本赛项教师组考核技能要求和学生组一样,如下表所示。

序号 竞赛任务 考核内容
1 大数据平台搭建 1)能够安装Hadoop全分布式平台。
2)能够安装Hadoop平台相关的常用组件,包括但不限于ZooKeeper、Flume、Kafka、Spark、Flink、Redis、HBase 等。
3)能够对Hadoop平台和相关组件的可用性进行验证。
2 数据采集 1)能够分析网页结构,使用scrapy或requests等框架爬取指定网站的数据。
2)能够将爬取的数据保存到指定位置。
3 数据库运行维护 1)能够正确登录数据库,使用SQL语句完成建库建表操作。
2)能够使用SQL语句对表进行增删改操作。
3)能够使用SQL语句对表进行统计查询操作。
4 数据清洗 1)能够编写MapReduce程序,并将程序打包部署到Hadoop平台上运行。
2)能够使用HDFS上传和下载文件。
3)能够使用MapReduce对数据进行清洗、转换、分组、排序等操作。
5 数据标注 1)能够使用Python对指定数据进行分类标注。
2)能够使用Python将标注后的数据保存到指定位置。
6 数据分析与可视化 1)能够使用前端框架Vue.js、Echarts组件搭建Web前端程序,获取接口数据,对数据进行分析。
2)能够读取CSV文件,使用pandas和matplotlib对数据进行分析。
3)能够对数据分析的结果以可视化方式呈现,包括但不限于柱状图、折线图、玫瑰图、气泡图、饼状图、条形图、雷达图、散点图等效果。
7 业务分析和方案设计 能够理解业务场景,对业务数据进行分析,编写分析报告。
8 职业素养 能够发挥团队精神,团队成员分工明确,操作规范,遵守纪律。

本赛项教师组多一项教师指导学生技能训练的能力水平测试,竞赛时间1小时,占总成绩的15%。

考核教师指导学生技能训练的能力水平测试要求如下表:

序号 竞赛任务 技能要求
1 理论教学设计 1)能对所教学指导技能环节进行清晰知识描述和设计。
2)讲解重点突出,详略得当,表达流畅。
2 实操教学设计 1)操作技术流程讲解正确,实操演示过程规范、步骤详实,通俗易懂。
2)有指导学生实操实训的详细教学安排。
3)有实操训练考核设计。

软件平台

软件平台原则上采用通用、开源技术。

软件类别 软件名称和版本
大数据集群操作系统 CentOS 7
大数据平台组件 Hadoop 3.1.3
Yarn 3.1.3
ZooKeeper 3.5.7
Hive 3.1.2
JDK 1.8
Flume 1.9.0
Kafka 2.4.1
Spark 3.1.1
Flink 1.14.0
Redis 6.2.6
HBase 2.2.3
关系型数据库 MySQL 5.7
开发语言 JavaScript
Python 3.7
开发库 numpy 1.18.5
pandas 1.3.4
matplotlib 3.5.0
Vue.js 3.2
ECharts 5.1
scrapy 1.14.2
requests 2.31.0
snownlp 0.12.3
lxml 4.9.3
开发工具 IDEA 2022(Community Edition)
PyCharm 2023(Community Edition)
数据库工具 Navicat
浏览器 Chrome
文档编辑器 WPS
输入法 搜狗拼音输入法
PC 操作系统 Windows10 64位