300字范文 > 【数据竞赛】 Kaggle 10大竞赛方案汇总

【数据竞赛】 Kaggle 10大竞赛方案汇总

时间：2019-01-16 11:07:11

作者: 尘沙黑夜

Kaggle 10大竞赛方案汇总

1kaggle精选10大赛事汇总

1.1 Data Science Bowl(3493只队伍)

1.2TensorFlow 2.0 Question Answering(1233只队伍)

1.3Santa's Workshop Tour (1620只队伍)

1.4Google QUEST Q&A Labeling(1571只队伍)

1.5OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction(1636只队伍)

1.6RSNA STR Pulmonary Embolism Detection(784只队伍)

1.7Google Landmark Recognition (736只队伍）

1.8OSIC Pulmonary Fibrosis Progression(2097只队伍)

1.9Mechanisms of Action (MoA) Prediction

1.10Google Research Football with Manchester City F.C.(1138只队伍)

Data Science Bowl

1. 赛题背景：

启发学习。点燃可能性。
揭示幼儿教育的新见解以及媒体如何支持学习成果。参加我们的第五届年度数据科学碗，由博斯艾伦汉密尔顿和卡格尔。
而PBS的宗旨是让孩子们在幼年时代学习到一个值得信赖的技能，让孩子们在幼年时代获得成功。在本次挑战中，您将使用来自PBS KIDS Measure Up的匿名游戏数据，包括观看视频和玩游戏的知识！app，一种基于游戏的学习工具，是由美国教育部资助的CPB-PBS准备学习计划的一部分。参赛者将被要求预测游戏内评估的分数，并创建一种算法，从而设计出更好的游戏，提高学习效果。您的解决方案将有助于发现参与高质量教育媒体和学习过程之间的重要关系。
“数据科学碗”是全球最大的以社会公益为重点的数据科学竞赛。每年，这项比赛都会给卡格尔斯一个机会，让他们用自己的热情去改变世界。在过去的四年里，超过5万名kaggler提交了超过11.4万份报告，以改善从肺癌和心脏病检测到海洋健康的所有方面。有关数据科学碗的更多信息，请访问网站
比赛的数据来自哪里？
在这个比赛中使用的数据是匿名的，与PBS儿童测量互动的表格数据！应用程序。选择数据，如用户的应用程序内评估分数或他们通过游戏的路径，是由PBS儿童测量收集！应用程序，一个基于游戏的学习工具。
PBS儿童致力于为所有年龄段的家庭成员创造一个安全可靠的环境。PBS的孩子们都很好！应用程序不收集任何个人身份信息，如姓名或位置。比赛中使用的所有数据都是匿名的。要查看完整的PBS儿童隐私政策，
任何人都无法下载整个数据集，参与者也无法访问有关个人用户的任何个人身份信息。PRIVO是全球领先的儿童在线隐私行业专家，他对数据科学碗和今年比赛的数据使用进行了审查，以确保其符合适用的儿童隐私法规的要求。
PBS的孩子们有什么标准！应用程序？
在PBS里，孩子们都很好！应用程序，3至5岁的孩子学习早期的茎的概念，重点是长度，宽度，容量和重量，而去冒险，通过树梢城市，岩浆峰和水晶洞穴。加入他们最喜欢的PBS儿童角色，孩子们也可以收集奖励和解锁数字玩具，因为他们发挥。了解更多关于PBS的孩子们的标准！，请单击此处。
PBS KIDS和PBS KIDS徽标是PBS的注册商标。经允许使用。PBS孩子们的内容都很好！是在教育部的资助下发展起来的。然而，这些内容并不一定代表教育部的政策，你不应该承担由联邦政府认可。该应用程序由教育部向公共广播公司提供的即学助学金资助（PR/奖励编号：U295A150003，CFDA编号：84.295A）。

2. Top方案分享：

1st place solution：/c/data-science-bowl-/discussion/127469

2nd place solution：/c/data-science-bowl-/discussion/127388

3rd place solution - single TRANSFORMER model：/c/data-science-bowl-/discussion/127891, Code：/lime-robot/dsb

4th place solution:/c/data-science-bowl-/discussion/127210

7th place solution:/c/data-science-bowl-/discussion/127213

8th place solution:/c/data-science-bowl-/discussion/127285

9th place solution:/c/data-science-bowl-/discussion/127612

10th place solution:/c/data-science-bowl-/discussion/127332

TensorFlow 2.0 Question Answering

1. 赛题背景：

2. Top方案分享：

1st place solution：/c/tensorflow2-question-answering/discussion/127551

2nd place solution：/c/tensorflow2-question-answering/discussion/127333

3rd place solution：/c/tensorflow2-question-answering/discussion/127339

4th place solution：/c/tensorflow2-question-answering/discussion/127371

6th place solution：/c/tensorflow2-question-answering/discussion/127521

7th place solution：/c/tensorflow2-question-answering/discussion/127259

8th place solution：/c/tensorflow2-question-answering/discussion/127545

9th place solution：/c/tensorflow2-question-answering/discussion/128278

Santa's Workshop Tour (1620只队伍)

1. 赛题背景：

锤子响了，你在听吗? 在商店里，玩具闪闪发光.他们应该看风景吗？可能会有一场战斗…在工作坊仙境漫步
家人说，他们想看看,圣诞老人说，他会保证的,他们选了个约会,但他们可能不得不等待,在工作坊仙境漫步
我们告诉圣诞老人他是个疯子，他只是想确保他们都笑，他会说“你灵活吗？他们会说“是的，伙计，但你能帮我们让这值得一试吗？”
“给他们食物或毛衣,他们等得越久，礼物就越好”,请帮我们排名,否则我们就要破产了！在工作坊仙境漫步
圣诞老人有令人兴奋的消息！在圣诞节前的100天里，他开始参观他的工作室。因为需求如此旺盛，而且圣诞老人想让事情尽可能公平，他让5000个将要参观研讨会的家庭中的每一个选择一份他们希望参加研讨会的日期清单。既然所有的家庭都给圣诞老人送去了他们的偏好，他意识到不可能每个人都能得到他们的首选，所以他决定为那些没有得到他们偏好的家庭提供额外的福利。此外，圣诞老人的会计部门告诉他，根据家庭的安排，可能会产生一些意想不到的巨大费用。
圣诞老人需要Kaggle社区的帮助来优化每个家庭被分配到哪一天参加研讨会，以尽量减少任何额外的开支，这将削减明年的玩具预算！你能帮圣诞老人吗？

2. Top方案分享：

1st place solution:/c/santa-workshop-tour-/discussion/127427

2nd place solution:/c/santa--revenge-of-the-accountants/discussion/126380

6th place solution:/c/santa-workshop-tour-/discussion/126255

13th place solution:/c/santa-workshop-tour-/discussion/126254

Google QUEST Q&A Labeling

1. 赛题背景：

计算机真的很擅长用单一的、可验证的答案回答问题。但是，人类通常更善于回答关于意见、建议或个人经历的问题。
人类更善于解决主观问题，这些问题需要对上下文有更深入、多层面的理解——计算机还没有被训练得很好……但。。问题可以有多种形式——有些是多句话的阐述，另一些可能是简单的好奇心问题或完全发展的问题。他们可以有多种意图，或者寻求建议和意见。有些可能有用，有些则有趣。有些是简单的对或错。
不幸的是，由于缺乏数据和预测模型，很难建立更好的主观问答算法。这就是为什么google research的众源团队，一个致力于通过众包来推进NLP和其他类型的ML科学的团队，已经收集了许多质量评分方面的数据。
在这场比赛中，你面临的挑战是如何使用这个新的数据集来为问答的不同主观方面构建预测算法。这些问答对是以“常识”的方式从近70个不同的网站收集的。我们的评分员接受的指导和培训很少，主要依赖于他们对提示的主观解释。因此，每个提示都是以最直观的方式制作的，这样评分员就可以简单地使用他们的常识来完成任务。通过减少我们对复杂和不透明的评级准则的依赖，我们希望增加这个数据集的重用价值。你看到的就是你得到的！
证明这些主观标签能够被可靠地预测，将为这一研究领域带来新的曙光。本次比赛的结果将为未来智能答疑系统的构建提供参考，希望有助于它们变得更加人性化。

2. Top方案分享：

1st place solution:/oleg-yaroshevskiy/quest_qa_labeling

2nd place solution:/c/google-quest-challenge/discussion/129978

3rd place solution:/c/google-quest-challenge/discussion/129927

4th place solution:/c/google-quest-challenge/discussion/129896

5th solution:/c/google-quest-challenge/discussion/129875

6th place solution:/c/google-quest-challenge/discussion/130243

7th place post:/c/google-quest-challenge/discussion/130083

9th place solution:/c/google-quest-challenge/discussion/130167

10th Private:/c/google-quest-challenge/discussion/129901

12th place solution:/c/google-quest-challenge/discussion/129914

16th Place Solution:/c/google-quest-challenge/discussion/130112

OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction

1. 赛题背景：

要想赢得对抗COVID-19大流行的战斗，就需要一种能够公平和广泛分布的有效疫苗。在几十年的研究基础上，科学家们加速了对COVID-19疫苗的研究，但是没有疫苗的每一天都会给世界带来巨大的代价。我们需要来自世界各地的新思想。网络游戏和众包能否帮助解决全球范围内的流行病？将科学和众包智能结合起来可以帮助计算生物化学家取得可衡量的进展。
mRNA疫苗已成为COVID-19最快的候选疫苗，但目前它们面临着关键的潜在限制。目前最大的挑战之一是如何设计超稳定的信使RNA分子（mRNA）。传统疫苗（如季节性流感疫苗）用一次性注射器包装，冷藏后运到世界各地，但这在目前的mRNA疫苗中是不可能的。
研究人员观察到RNA分子有自发降解的倾向。这是一个严重的限制——一次切割就可以使mRNA疫苗无效。目前，对于特定RNA的主干中最容易受影响的部位的细节知之甚少。如果没有这些知识，目前针对COVID-19的mRNA疫苗必须在高强度冷藏条件下制备和运输，除非它们能够稳定下来，否则不太可能到达地球上超过一小部分的人类。
由斯坦福大学医学院计算生物化学家Rhiju Das教授领导的Eterna社区将科学家和游戏玩家聚集在一起解决难题并发明药物。Eterna是一个在线视频游戏平台，它挑战玩家通过谜题来解决诸如mRNA设计之类的科学问题。研究人员在斯坦福对这些溶液进行了合成和实验测试，以获得有关RNA分子的新见解。埃特纳社区此前已经开启了新的科学原理，对致命疾病做出了新的诊断，并利用世界上最强大的智力资源来改善公众的生活。Eterna社区通过其在20多份出版物中的贡献，包括RNA生物技术的进展，促进了生物技术的发展。
在这次比赛中，我们希望利用Kaggle社区的数据科学专业知识来开发RNA降解的模型和设计规则。您的模型将预测RNA分子每个碱基的可能降解率，这些RNA分子在一个由3000多个RNA分子组成的Eterna数据集的子集上进行训练（这些RNA分子跨越了一系列序列和结构）以及它们在每个位置的降解率。然后，我们将为你的模型打分，这些模型是由Eterna players为COVID-19mRNA疫苗设计的第二代RNA序列。这些最终的测试序列目前正在斯坦福大学进行合成和实验表征，与你的建模工作并行——大自然将为你的模型打分！
提高mRNA疫苗的稳定性是大流行前正在探索的一个问题，但预计需要多年才能解决。现在，我们必须在数月甚至数周内解决这一深层次的科学挑战，以加速mRNA疫苗的研究，并提供一种针对SARS-CoV-2（COVID-19背后的病毒）的冰箱稳定疫苗。我们正在努力解决的问题已经躲过了学术实验室、工业研发小组和超级计算机的视线，所以我们转向你们。为了提供帮助，您可以加入Eterna的视频游戏玩家、科学家和开发人员团队，开启我们抗击这场毁灭性流行病的关键。

2. Top方案：

1st place solution:/c/stanford-covid-vaccine/discussion/189620

2nd place solution:/c/stanford-covid-vaccine/discussion/189709

3rd Place Write-up:/c/stanford-covid-vaccine/discussion/189574

4th place solution:/c/stanford-covid-vaccine/discussion/189650

5th Place:/c/stanford-covid-vaccine/discussion/189691

7th place solution:/c/stanford-covid-vaccine/discussion/189564

8th place solution:/c/stanford-covid-vaccine/discussion/190314

9th place solution:/c/stanford-covid-vaccine/discussion/189845

11th place solution：/c/stanford-covid-vaccine/discussion/189571

其它方案：/c/stanford-covid-vaccine/discussion/189344

RSNA STR Pulmonary Embolism Detection

1. 赛题背景：

如果每一次呼吸都是紧张和痛苦的，那就可能是一种严重的、可能危及生命的状况。肺栓塞是由肺动脉阻塞引起的。确认PE很费时，而且容易过度诊断。机器学习有助于更准确地识别PE病例，使患者的管理和治疗更有效。
目前，CT肺动脉造影（CTPA）是评价疑似PE患者最常见的影像学检查方法。这些CT扫描包括数百张图像，需要详细检查以确定肺动脉内的血栓。随着影像学的应用不断增长，放射科医生的时间限制可能导致诊断延迟。
北美放射学会（RSNA®）与胸科放射学会（STR）合作，帮助改进机器学习在PE诊断中的应用。
在这次比赛中，你将发现和分类PE病例。特别是，您将使用胸部CTPA图像（分组为研究）和您的数据科学技能，以便更准确地识别PE。如果成功，你将有助于减少人为延误和错误的检测和治疗。
在美国，每年有60000-100000例PE死亡，是最致命的心血管疾病之一。及时准确的诊断将有助于这些患者得到更好的治疗，也可能改善预后。

2. Top方案：

1st place solution:/c/rsna-str-pulmonary-embolism-detection/discussion/194145

2nd place solution:/c/rsna-str-pulmonary-embolism-detection/discussion/193401

3rd place solution:/c/rsna-str-pulmonary-embolism-detection/discussion/193424

4th place solution:/c/rsna-str-pulmonary-embolism-detection/discussion/193970

5th place solution:/c/rsna-str-pulmonary-embolism-detection/discussion/193475

6th place solution:/c/rsna-str-pulmonary-embolism-detection/discussion/195865

7th place solution:/c/rsna-str-pulmonary-embolism-detection/discussion/193460

8th place solution:/c/rsna-str-pulmonary-embolism-detection/discussion/193506

9th place solution:/c/rsna-str-pulmonary-embolism-detection/discussion/193417

10th place solution:/c/rsna-str-pulmonary-embolism-detection/discussion/193505

其它方案：/c/rsna-str-pulmonary-embolism-detection/discussion/193795

Google Landmark Recognition

1. 赛题背景：

欢迎参加第三届地标识别大赛！今年，我们将此设置为一个代码竞赛，并收集了一组新的测试图像。
你有没有看过自己的度假照片，问自己：我在中国参观的那座寺庙叫什么名字？或者是谁创造了这个我在法国看到的纪念碑？地标识别有帮助！这项技术可以直接从图像像素预测地标标签，帮助人们更好地理解和组织他们的照片收藏。这项竞赛挑战Kagglers建立模型，识别具有挑战性的测试图像数据集中的正确地标（如果有的话）。
许多kaggler都熟悉图像分类挑战，比如ImageNet大规模视觉识别挑战（ILSVRC），它的目标是识别1K个一般对象类别。Landmark recognition与之稍有不同：它包含大量的类（在这个挑战中有超过81K个类），每个类的训练示例数可能不是很大。地标识别本身就具有挑战性。
在本挑战的前几个版本（和）中，提交是通过将预测文件上传到系统来处理的。今年的比赛采用同步重播的形式，参赛者需要提交卡格尔笔记本进行评分。
本次挑战赛与6月30日推出的地标检索挑战赛（Landmark Retrieval challenge ）联合举办。这两项挑战都与ECCV'20的实例级识别研讨会有关。

2. Top方案：

1st place solution:/c/landmark-recognition-/discussion/187821

2nd place solution:/c/landmark-recognition-/discussion/188299

3rd place solution:/c/landmark-recognition-/discussion/187757

6th place solution:/c/landmark-recognition-/discussion/187961

OSIC Pulmonary Fibrosis Progression

1. 赛题背景：

想象有一天，你的呼吸变得持续费力和浅。几个月后，你终于被诊断为肺纤维化，一种病因不明，治愈方法不明的疾病，由肺部疤痕造成。如果发生在你身上，你会想知道你的预后。正是在这种情况下，一种令人不安的疾病对患者来说变得可怕：结果可能从长期稳定到迅速恶化，但医生们不容易判断一个人可能属于这一范围。你的帮助，和数据科学，也许能够帮助这个预测，这将极大地帮助病人和临床医生。
目前的方法使纤维化的肺部疾病难以治疗，即使可以获得胸部CT扫描。此外，各种各样的预后造成了组织临床试验的问题。最后，患者除了因疾病进展路径不透明而出现与纤维化相关的症状外，还遭受极度焦虑。
开放源代码成像联盟（OSIC）是学术界、工业界和慈善机构之间的一个非营利合作组织。该小组在对抗特发性肺纤维化（IPF）、纤维化间质性肺疾病（ILD）和其他呼吸系统疾病（包括肺气肿）方面取得了快速进展。它的任务是汇集来自世界各地的放射科医生、临床医生和计算科学家，以改进基于成像的治疗方法。
在这场比赛中，你将根据患者肺部的CT扫描来预测其肺功能下降的严重程度。你将根据肺活量计的输出测定肺功能，肺活量计测量吸入和呼出的空气量。目前的挑战是使用机器学习技术，以图像、元数据和基线FVC作为输入进行预测。
如果成功的话，当病人和他们的家人第一次被诊断出患有这种无法治愈的肺部疾病时，他们会更好地了解自己的预后。改善严重程度检测也将对治疗试验设计产生积极影响，并加速新疗法的临床开发。

2. Top方案：

1st place solution:/c/osic-pulmonary-fibrosis-progression/discussion/189346

4th place solution:/c/osic-pulmonary-fibrosis-progression/discussion/189214

5th place solution:/c/osic-pulmonary-fibrosis-progression/discussion/189318

6th place solution:/c/osic-pulmonary-fibrosis-progression/discussion/189220

9th place solution:/c/osic-pulmonary-fibrosis-progression/discussion/189251

10th place solution:/c/osic-pulmonary-fibrosis-progression/discussion/189217

Mechanisms of Action (MoA) Prediction

1. 赛题背景：

连接图是麻省理工学院和哈佛大学广泛研究所、哈佛大学创新科学实验室（LISH）和美国国立卫生研究院共同基金综合网络细胞特征库（LINCS）的一个项目，它提出了这一挑战，目标是通过改进MoA预测算法来推进药物开发。
药物的作用机制是什么？为什么它很重要？
在过去，科学家从天然产物中提取药物，或者受传统疗法的启发。非常常见的药物，如扑热息痛，在美国被称为对乙酰氨基酚，被投入临床使用几十年前的生物学机制驱动其药理活性被理解。今天，随着更强大的技术的出现，药物发现已经从过去的偶然方法转变为基于对疾病潜在生物学机制的理解的更有针对性的模型。在这个新的框架中，科学家们试图找出一种与疾病相关的蛋白质靶点，并开发出一种能够调节该蛋白质靶点的分子。作为描述特定分子生物活性的简写，科学家们指定了一个简称为“作用机制”或“MoA”的标签。
如何确定新药的MoAs？
一种方法是用药物处理人类细胞样本，然后用算法分析细胞反应，这些算法在大型基因组数据库中搜索与已知模式的相似性，例如基因表达库或已知MOA药物的细胞生存模式。
在这场比赛中，你将获得一个独特的数据集，结合基因表达和细胞活力的数据。这项数据是基于一项新技术，在100种不同细胞类型的细胞池中同时（在相同的样本中）测量人类细胞对药物的反应（从而解决了事先确定哪些细胞类型更适合某一特定药物的问题）。此外，您还可以访问此数据集中5000多种药物的MoA注释。
按照惯例，数据集被分为测试和训练子集。因此，您的任务是使用训练数据集来开发一个算法，该算法自动将测试集中的每个案例标记为一个或多个MoA类。注意，由于药物可以有多个MoA注释，因此这项任务在形式上是一个多标签分类问题。
如何评估解决方案的准确性？
基于MoA注释，将根据应用于每个药物MoA注释对的对数损失函数的平均值来评估溶液的准确性。
如果成功，你将帮助开发一种算法，根据化合物的细胞特征预测其MoA，从而帮助科学家推进药物发现过程。

2. Top方案分享：

1st place solution:/c/lish-moa/discussion/10

2nd Place Solution:/c/lish-moa/discussion/56

3rd place solution:/c/lish-moa/discussion/78

4th place solution:/c/lish-moa/discussion/08

7th place solution:/c/lish-moa/discussion/84

8th place solution:/c/lish-moa/discussion/92

Google Research Football with Manchester City F.C.

1. 赛题背景：

曼城F.C.和谷歌研究公司很自豪地展示了使用谷歌研究足球环境的人工智能足球比赛。
曼城足球俱乐部的一句话。
曼城足球俱乐部的老板，城市足球集团的数据洞察和决策技术总监布莱恩·普雷斯蒂奇提出了这个挑战。“足球是一个艰苦的环境中表现和更艰苦的环境中学习。学习就是要驾驭失败，但足球中的失败很少被接受。与谷歌研究公司（Google Research）的基于物理的足球环境合作，为我们提供了一个通过模拟学习的新地方，并为我们提供了测试战术概念和完善原则的能力，从而使它们足够强大，足以让教练将职业生涯押在其身上。”
“因此，我们非常高兴能与谷歌的研究团队合作，创建这一竞赛，并期待着有机会通过资金和独家奖励，支持一些最具创意和最成功的竞争对手。我们希望在本次比赛之外，与获奖者建立持续的合作关系，为我们大家提供探索和确立足球战术基本原则的平台，从而提高我们在球场上的表现和成功的能力。”
城市足球集团（City Football Group）首席技术官格雷格•斯威默（Greg Swimer）补充说：“机器学习和人工智能等技术在增强球员、教练和球迷对足球的理解和享受方面具有巨大的未来潜力。我们很高兴能与谷歌的研究团队合作，以帮助扩大知识，人才和创新工作在这个令人兴奋和转型的领域”。
谷歌研究足球环境竞赛,世界从足球中得到乐趣（足球在美国）。作为地球上最受欢迎的运动，数百万的球迷喜欢在球场上观看塞尔吉奥·阿圭罗、拉希姆·斯特林和凯文·德·布鲁因。足球电子游戏虽然不那么生动，但仍然非常受欢迎，我们想知道人工智能代理是否能够正确地玩这些游戏。
研究人员希望探索人工智能特工在足球等复杂环境中的能力。这项运动需要一种平衡，即短期控制，学习传球等概念，以及高水平的策略，而这些都很难教给经纪人。目前存在一个培训和测试代理的环境，但其他解决方案可能提供更好的结果。googleresearch的团队渴望做出对每个人都有影响的发现。分享研究成果和工具以推动这一领域的进展，是他们采取这一做法的关键。谷歌研究公司与曼城F.C.共同发起了这场竞争，以帮助他们实现目标。

2. Top方案分享：

1st place solution: /c/google-football/discussion/32

2nd place solution: /c/google-football/discussion/202977

3rd place solution: /c/google-football/discussion/09

5th place solution:/c/google-football/discussion/203412

6th place solution:/c/google-football/discussion/76

7th place post:/c/google-football/discussion/12

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑AI基础下载机器学习的数学基础专辑获取本站知识星球优惠券，复制链接直接打开：/qFiUFMV本站qq群70425。加入微信群请扫码：

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。