新闻

【限时特惠】小米RedmiBook 16 2024：政府补贴立减...

在这个数字化时代，一款高性能、轻便且价格亲民的笔记本电脑，无疑是学习、办公和娱乐的理想伙伴。小米R...

粤港澳会计业“续约”：凝聚粤港澳共识，合力打开国...
“最近三年，我们感受到大湾区的发展确实在提速。目前我们的跨境业务占比已达约1/3，还有很多跨境服务需求正在对接中，相信跨境业务比重很快会突破50%。”12月11日，在《粤港澳会计师行业发展战略协议（2024）》（...

财经

金融支持文化产业复苏主攻六方面

21日，北京市文化改革和发展领导小组办公室印发《关于加强金融支持文化产业健康发展的若干措施》，这是...

创新

发挥技术优势主动参与抗疫

传递信息助力抗疫，支持企业线上运营，开放直播与行业融合……快手科技第一时间投身疫情防控阻击战，向武...

智能无人开采：能源供应的硬核力量
“知道它厉害，没想到这么厉害!”4月9日，谈及智能化无人采矿，国家能源集团宁夏煤业枣泉煤矿党委书记、矿长翟文，对着记者连说几个“没想到”。大年初三，枣泉煤矿收假复工的日子，不料新冠疫情将一部分回老家过...

Hugging Face发行了1000种模型，涉足机器翻译

发布时间：2020/05/19 科技 浏览：587

HuggingFace本周发布了1000多种模型，迈出了迈向机器翻译的第一步。研究人员使用无监督学习和开放并行语料库（OPUS）训练了模型。OPUS是由赫尔辛基大学和全球合作伙伴共同承担的一个项目，目的是收集和开源各种语言数据集，特别是针对资源匮乏的语言。低资源语言是指那些训练数据少于常用语言（如英语）的语言。

从2010年开始，OPUS项目整合了流行的数据集，例如JW300。耶和华见证人的文字可用380种语言提供支持，这些资源被许多开源项目用于Masahane等资源匮乏的语言，以创建从英语到2,000种非洲语言的机器翻译。翻译可以使说不同语言的人们之间进行人际交流，并使世界各地的人们能够参与在线和面对面的贸易，这对于可预见的未来而言尤其重要。

周四的发布意味着使用OPUS数据训练的模型现在构成了HuggingFace和最大的贡献组织赫尔辛基大学语言技术和研究小组提供的大多数模型。在本周之前，HuggingFace最出名的是能够轻松访问最新的语言模型和语言生成模型，例如Google的BERT，它可以预测下一个将出现在文本中的字符，单词或句子。

通过安装超过500,000个Pip，用于Python的HuggingFaceTransformers库包含高级和最先进的NLP模型的预训练版本，例如GoogleAI的BERT和XLNet，FacebookAI的RoBERTa和OpenAI的GPT-2。

HuggingFace首席执行官ClémentDelangue在接受VentureBeat采访时表示，机器翻译业务是一项社区驱动的计划，该公司在2019年末完成了1500万美元的融资后，致力于围绕前沿的NLP建立更多的社区。

“由于我们是开源的，所以有很多人正在使用我们的库，所以我们开始看到越来越多的不同语言的人们聚集在一起，以不同的语言（尤其是低资源语言）对我们的某些模型进行预训练。就像NLP社区中的很多人都忘记了一样，”他说。“这使我们意识到，在实现NLP民主化的目标中，要实现这一目标的很大一部分不仅是像我们一直在努力地获得最佳英语，而且越来越多的人可以使用该模型中的其他语言，还提供翻译。”

Delangue还说，这一决定是由于机器翻译和序列到序列（Seq2Seq）模型的最新进展。Delangue说，在过去的几个月中，HuggingFace首先开始使用Seq2Seq模型。最近著名的机器翻译模型包括Google的T5和FacebookAIResearch的BART，后者是用于训练Seq2Seq模型的自动编码器。

“即使在一年前，我们可能还不能仅仅因为纯机器翻译的结果就不够好。现在，它已经达到一种有意义并开始起作用的水平。”他说。Delangue补充说，HuggingFace将继续探索用于翻译的数据增强技术。

该消息是在本周早些时候与WeightsandBiases集成在一起的，以增强可视化功能来跟踪，记录和比较训练实验。HuggingFace于去年秋天将其Transformers库带到TensorFlow。

上一篇: 联想19/20财年营收3531亿元净利润46.3亿同比增12%

下一篇: 微软首席科学家：人类和人工智能协同工作比单独工作更好

发布时间: