在本文中,我们将介绍2019年在MyBridge上备受瞩目的顶级开源机器学习项目。
该项目是SV2TTS论文的一个实现,提供了一个可以实时工作的声码器。通过这个仓库,用户可以在短短5秒内克隆语音,并实时生成任意说话内容。
SV2TTS的三阶段深度学习框架可以从几秒钟的音频中创建语音的数字表示。
UGATIT是U-GAT-IT的TensorFlow实现。该研究提出了一种新的无监督图像到图像转换方法,引入了新的注意力模块和可学习的端到端归一化函数。
注意力模块帮助模型关注更重要的区域,基于辅助分类器获得的注意力图区分源域和目标域。自适应层实例归一化(AdaLIN)函数则有助于模型通过学习参数控制图像中形状和纹理的变化。
这是以下论文的实现:
RAdam是一种Adam变体,通过校正自适应学习过程的方差来实现。作者利用图像分类、语言建模和神经机器翻译任务获得实验结果。
DLRM是一个先进的深度学习推荐模型,可以在PyTorch和Caffe2中实现。
该模型采用了一种专门的并行化方案,利用嵌入表上的模型并行性来迁移内存限制。这使得数据并行性可以从全连接层扩展计算。
TecoGAN的代码实现了时间一致性GAN。
该论文提出了一种对抗训练视频超分辨率方案,在不牺牲空间细节的前提下,实现了时间相关的解。此外,还提出了一种Ping-Pong损失,可以在不降低感知质量的情况下消除递归网络中的时间伪影。
Megatron是一个正在进行的研究项目,旨在大规模训练大型且强大的transformer语言模型。目前,它支持GPT2和BERT的模型并行、多节点训练。
Megatron可以训练一个具有72层、83亿参数的GPT2语言模型,具有8路模型和64路数据并行性,分布在512个GPU上。它可以在3天内训练多达64个V100 GPU的BERT。Megatron语言模型的困惑度为3.15,F1评分为90.7。
TensorNetwork是一个开源库,用于实现张量网络算法。它包括TensorFlow、JAX、PyTorch和NumPy的张量网络包装器。
张量网络是当前应用于机器学习研究的一种稀疏数据结构。目前,开发人员并不建议在生产环境中使用该工具。
这是一个基于TensorFlow的项目,旨在测试LSTM自动完成Python代码的能力。
Buffalo是一个快速、可扩展、面向实际生产的推荐系统开源项目。它有效地利用了系统资源,从而在低规格的机器上实现高性能。
这是「Few-Shot Adversarial Learning of Realistic Neural Talking Head Models」一文的实现。该论文提出了一种个性化的、逼真的说话头部模型,目的是在给定一组人脸标志的情况下合成具有真实感的个性化面部图像。
这种方法适用于远程呈现、视频会议、特效行业和多人游戏。该系统可以通过特定方式初始化生成器和判别器的参数,使训练过程中的图像能够快速使用。
展望2020年,随着机器学习工具变得更加先进和易于使用,我们一定能看到更多有趣的开源项目。敬请期待。
via:https://heartbeat.fritz.ai/2019s-top-open-source-machine-learning-projects-3cd082a02f78