一周AI最火论文 | 再见,scikit-learn!终于等到新ML Python包

2020-03-03 19:15
北京

原创 文摘菌 大数据文摘

大数据文摘专栏作品

作者:Christopher Dossman

编译:Olivia、Junefish、云舟

呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!

AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

每周更新,做AI科研,每周从这一篇开始就够啦

本周关键词:GAN、物理建模、物联网设备识别

本周最佳学术研究

用于微调GAN的简单有效基准——冻结判别器

生成对抗网络(GANs)在大量计算机视觉问题中表现出色,但通常对训练数据和计算资源的需求量大。转移学习可以解决这个困难,但其间很容易导致过拟合或对分布转移的学习效果不好等问题。

为了应对这一挑战,研究人员现在提出了一个简单而有效的基准用于GAN的转移学习。他们发现,微调网络(生成器和判别器)的同时冻结判别器的底层效果出奇得好,因此冻结判别器就诞生了。

在StyleGAN和SNGAN投影架构下和Animal Face、Anime Face、Oxford Flower、CUB-200-2011和Caltech-256数据集中,研究人员提出的冻结判别器基准在无条件和有条件GAN中的表现均明显优于现有方法。

研究人员表示,使用者可以自行采用更复杂的设计来得到比本文提出的基准更优的结果,这表明该研究方向的前景可期。

Github传送门:

https://github.com/sangwoomo/freezeD

原文:

https://arxiv.org/abs/2002.10964v1

用于计算物理的轻量级Python框架

这项工作描述了一种新开发的计算框架turboPy。它是一个轻量级的物理建模框架,基于使用了胞中粒子法(PIC)编码的设计turboWAVE,来快速制定新的物理规范原型。

TurboPy实现了很多个类,包括驱动模拟并管理物理模块之间交流的Simulation,处理问题各部分动态细节的PhysicsModule和处理常见的各种辅助问题的Grid和Diagnostic等。

turboPy框架的使用可以减轻计算科学家的认知负担,同时实现新代码的设计来完成所需工作流程。使用者只需将工作流程描绘成一个在时间循环中重复发生的过程,再简单将其转化成turboPy框图即可。

创建GUI来开发turboPy框图并完成问题设定,进而提供python软件包便于用户的安装使用,如此turboPy可以更好地在将来的工作中发挥作用。

原文:

https://arxiv.org/abs/2002.08842

一劳永逸的两级开放式词汇语言模型

本文提出了一种神经语言模型,其中包含了用于单词拼写的生成模型。研究人员展示了在开放式词汇NLP任务中,使用已知单词的拼写帮助处理未知单词的过程。

这种方法可以用于扩展任何封闭式词汇生成模型,但是本文重点考虑了神经语言建模的情况。该贝叶斯生成模型将两个模型合并起来生成故事,其中标准的RNN语言模型用于生成每个句子中的单词标记,而基于RNN的拼写模型用于生成每种单词类型中的字母。

和语言学中一样,这两个RNN各自捕获的信息(句子结构和单词结构)是分离的。再调用第二个RNN为上下文中的新单词生成拼写,开放式词汇模型就完成了。

与基准相比,该模型的表现击败了之前的研究成果,并在多个数据集上得到了当前最优的结果。

这个两级开放式词汇生成模型不仅可以记住常用单词的拼写和嵌入信息,而且还可以根据词汇或非词汇的拼写风格,联系上下文生成新的单词类型。

该方法将来可以用在其他使用单词嵌入的生成式NLP模型中,并且在诸如文本分类(特别是在资源较少的语言和领域)等任务中发挥极大作用。

原文:

https://arxiv.org/pdf/1804.08205v4.pdf

用于快速机器学习模型开发的Python API

在本文中,德国明斯特大学的研究人员介绍了他们所谓的PHOTON,它是一种高级Python应用程序编程接口(API)。针对当前最佳实践的机器学习模型,它提供了一种方便使用且灵活的方法来实现快速,可重复且无偏见的效果。 PHOTON基于三个概念:设计,自动化和集成。

PHOTON旨在简化和加速机器学习模型开发的过程。它可以设计基本和高级机器学习管道架构,并自动化重复的训练、优化和评估工作流程。 PHOTON可以轻松访问已建立的机器学习工具箱,还可以针对模型构建和评估过程的任何部分,实现集成自定义算法和解决方案。它在概念上与scikit-learn相似,但在核心功能方面进行了扩展。

PHOTON旨在简化和加速机器学习工作流程,从而实现快速,可重复且无偏见的分析。它特别适合需要迭代评估新方法的环境,例如医学和生命科学中的应用机器学习研究。研究人员未来希望扩展更多功能和可用性,并吸引更多的开发人员和用户来建立一个繁荣的开源社区。

原文:

https://arxiv.org/abs/2002.05426

使用深度学习进行物联网设备识别

广泛采用的自带设备(BYOD)策略允许员工将任何物联网设备带入工作场所,这增加了组织网络被攻击的风险。

研究人员日前第一次将深度学习技术应用于网络流量的TCP有效负载,以进行IoT设备分类和识别。在这项工作中,他们提出了一种方法,该方法使用深度学习来识别网络流量中的已知和未经授权的IoT设备,识别出10种不同的IoT设备以及智能手机和计算机的流量,其准确率超过99%,总体上达到检测连接到网络的未授权IoT设备的高于99%的平均准确度。

与以前的研究不同,该方法通过使用从物联网设备的网络流量有效载荷中构建的小图像来表示物联网设备的“通信行为”,不需要在网络流量上应用复杂的特征工程。

该方法在架构方面很简单,并且没有特征工程的开销。它可用于检测网络流量中列入白名单的IoT设备。该技术只需要一个TCP会话即可检测到源物联网设备,而现有方法则需要多个TCP会话才能进行检测。

原文:

https://arxiv.org/abs/2002.11686v1

其他爆款论文

谷歌AI:致力于提升用于语言基础任务的街景全景入口:

https://ai.googleblog.com/2020/02/enhancing-research-communitys-access-to.html

3D人体姿势估计新解决方案,其性能优于先前在Human3.6M和MPI-INF-3DHP数据集上的最佳结果:

https://arxiv.org/abs/2002.10322v2

跨越Python理论与实际应用之间的鸿沟:

https://arxiv.org/abs/2002.11631

标签指导的文本分类,朝着有效性与稳健性迈进:

https://arxiv.org/abs/2002.10772v1

医学超声图像分割中的深度学习:

https://arxiv.org/abs/2002.07703v2

DNN迭代实例:改善Airbnb搜索的深度学习:

https://arxiv.org/abs/2002.05515

数据集

Google发布了Open Images V6数据集,该数据集目前具有本地化叙述特征,希望能刺激人们对真实场景的理解:

https://storage.googleapis.com/openimages/web/index.html

机器学习50个不容错过的免费数据库:

https://lionbridge.ai/datasets/the-50-best-free-datasets-for-machine-learning/

规则学习和评估工具的综合数据集,助你生成各种数据集和评估规则学习系统,包括新的绩效指标等:

https://arxiv.org/abs/1909.07095v2

最大的酒店推荐公开数据集:

https://github.com/Diego999/HotelRec

AI大事件

中国医院部署AI,助力诊断Covid-19病例:

https://www.wired.com/story/chinese-hospitals-deploy-ai-help-diagnose-covid-19/

Google宣布2019年Google大学研究奖获奖者,资助150项有关机器学习,人机交互等方面的极具前景的提案:

https://ai.googleblog.com/2020/02/announcing-2019-google-faculty-research.html

Qure.ai筹集了1600万美元,用于识别胸部和头部扫描异常的人工智能研究:

https://venturebeat.com/2020/02/26/qure-ai-raises-16-million-for-ai-that-spots-abnormalities-in-chest-and-head-scans/

自闭症儿童福音:机器人可以教授社交技巧,帮助儿童更好地发展:

https://www.technologyreview.com/s/615288/ai-robots-teach-autistic-kids-social-skills-development/?utm_source=newsletters&utm_medium=email&utm_campaign=the_download.unpaid.engagement

丰田向中国自动驾驶创业公司Pony.ai投资4亿美元:

https://www.msn.com/en-us/autos/news/toyota-invests-dollar400-million-in-chinese-self-driving-startup-ponyai/ar-BB10qQcy

专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/

志愿者介绍

后台回复“志愿者”加入我们

点「在看」的人都变好看了哦!

原标题:《一周AI最火论文 | 再见,scikit-learn!终于等到新ML Python包》

阅读原文

    特别声明
    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。