Kaggle比赛平台每年都会举办N多有价值的比赛,吸引了全球的用户参与。但作为参赛选手的你,你知道今年Kaggle最热门的比赛吗?今年最常见的比赛库是什么?
90页竞赛年鉴领取方式见文末,Kaggle年鉴内容(度):
比赛类型统计
参赛选手统计
模型&库统计
比赛内容统计
比赛类型统计
度举办57场比赛,共吸引了全球6万人次参加,总共提交方案84万次,总奖金162万美元。
Feature:工业赛赛题,难度较大
Research:学术赛题,难度较大
Playground:练习赛,难度适中
Analytics:数据分析赛
Getting Started:入门赛,难度较低
Kernel赛题:通过Notebook提交的比赛
非Kernel赛题:通过Notebook & 文件提交的比赛
今年Kaggle比赛按照比赛任务可划分有7个方向,其中数据挖掘和计算机视觉占比较多:
大部分数据挖掘赛题来自Playground,没有比赛积分和奖牌
部分视觉比赛是Kernel赛题,而所有文本赛题是Kernel赛题
今年金融量化比赛比往年多,但语音识别比赛比往年少
今年视觉赛题为语义分割赛题居多,纯分类赛题较少
Kaggle年度热门比赛
参赛选手统计
Kaggle平台上男性选手占比为77%,和「Coggle」公众号性别占比相同。大部分的Kaggle用户在40岁,且20 – 30之间年轻人比较多
40%左右的Kaggle用户拥有硕士学历,高学历占比较多
Coursera是Kaggle用户最偏爱的在线学习平台
参赛工具统计
Python是第一编程语言,其次是SQL和R。具统计Kaggle上R语言的Notebook在逐渐变少。
Jupyter Notebook是最受欢迎的IDE,其次是VSCode
Colab和Kaggle是最受欢迎的Notebook平台
机器学习库流行排序:scikit-learn、XGBoost、LightGBM、Catboost、Caret
深度学习库流行排序:TensorFlow、Keras、Pytorch、Jax
可视化库流行排序:Matplotlib、Seaborn、Plotly、ggplot2
比赛内容汇总
更多内容,请查看年鉴PDF。
Kaggle学习路径
【参赛建议】:数据挖掘类型
赛题难度:入门、进阶赛题居多
参赛建议:适合小白入门,对机器配置要求低
常见赛题方向:二分类、多分类、回归、时序预测
必备Python库:Pandas、Sklearn、XGBoost、LightGBM、CatBoost
常见模型:树模型和集成学习居多
【参赛建议】:计算机视觉类型
赛题难度:进阶和较难居多,需要GPU支持
参赛建议:适合学习深度学习入门,建议以分类赛题入门
常见赛题方向:图像多分类、细粒度分类、语义分割
必备Python库:Pytorch、TensorFlow、timm
常见模型:CNN模型、transformer模型
【学习资料】:XGBoost / LightGBM / CatBoost
XGBoost / LightGBM / CatBoost是高阶的树模型,是数据挖掘竞赛必备库。ü XGBoost使用案例,LightGBM使用案例,CatBoost使用案例
学习难度:⭐⭐⭐⭐⭐
【基础】能完成训练和与预测
【进阶】能进行交叉验证进行验证和预测,能使用Early Stop
【进阶】能使用GPU进行训练和预测,并对类别进行编码
【进阶】能对模型进行可视化,计算特征重要性,并进行特征筛选
【深入】理解模型超参数含义,会对模型进行调参
【深入】能自定义损失函数与评价函数
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码