新闻
-
粤港澳会计业“续约”:凝聚粤港澳共识,合力打开国...
“最近三年,我们感受到大湾区的发展确实在提速。目前我们的跨境业务占比已达约1/3,还有很多跨境服务需求正在对接中,相信跨境业务比重很快会突破50%。”12月11日,在《粤港澳会计师行业发展战略协议(2024)》(...
创新
-
智能无人开采:能源供应的硬核力量
“知道它厉害,没想到这么厉害!”4月9日,谈及智能化无人采矿,国家能源集团宁夏煤业枣泉煤矿党委书记、矿长翟文,对着记者连说几个“没想到”。 大年初三,枣泉煤矿收假复工的日子,不料新冠疫情将一部分回老家过...
Hugging Face发行了1000种模型,涉足机器翻译
发布时间:2020/05/19 科技 浏览:570
HuggingFace本周发布了1000多种模型,迈出了迈向机器翻译的第一步。研究人员使用无监督学习和开放并行语料库(OPUS)训练了模型。OPUS是由赫尔辛基大学和全球合作伙伴共同承担的一个项目,目的是收集和开源各种语言数据集,特别是针对资源匮乏的语言。低资源语言是指那些训练数据少于常用语言(如英语)的语言。
从2010年开始,OPUS项目整合了流行的数据集,例如JW300。耶和华见证人的文字可用380种语言提供支持,这些资源被许多开源项目用于Masahane等资源匮乏的语言,以创建从英语到2,000种非洲语言的机器翻译。翻译可以使说不同语言的人们之间进行人际交流,并使世界各地的人们能够参与在线和面对面的贸易,这对于可预见的未来而言尤其重要。
周四的发布意味着使用OPUS数据训练的模型现在构成了HuggingFace和最大的贡献组织赫尔辛基大学语言技术和研究小组提供的大多数模型。在本周之前,HuggingFace最出名的是能够轻松访问最新的语言模型和语言生成模型,例如Google的BERT,它可以预测下一个将出现在文本中的字符,单词或句子。
通过安装超过500,000个Pip,用于Python的HuggingFaceTransformers库包含高级和最先进的NLP模型的预训练版本,例如GoogleAI的BERT和XLNet,FacebookAI的RoBERTa和OpenAI的GPT-2。
HuggingFace首席执行官ClémentDelangue在接受VentureBeat采访时表示,机器翻译业务是一项社区驱动的计划,该公司在2019年末完成了1500万美元的融资后,致力于围绕前沿的NLP建立更多的社区。
“由于我们是开源的,所以有很多人正在使用我们的库,所以我们开始看到越来越多的不同语言的人们聚集在一起,以不同的语言(尤其是低资源语言)对我们的某些模型进行预训练。就像NLP社区中的很多人都忘记了一样,”他说。“这使我们意识到,在实现NLP民主化的目标中,要实现这一目标的很大一部分不仅是像我们一直在努力地获得最佳英语,而且越来越多的人可以使用该模型中的其他语言,还提供翻译。”
Delangue还说,这一决定是由于机器翻译和序列到序列(Seq2Seq)模型的最新进展。Delangue说,在过去的几个月中,HuggingFace首先开始使用Seq2Seq模型。最近著名的机器翻译模型包括Google的T5和FacebookAIResearch的BART,后者是用于训练Seq2Seq模型的自动编码器。
“即使在一年前,我们可能还不能仅仅因为纯机器翻译的结果就不够好。现在,它已经达到一种有意义并开始起作用的水平。”他说。Delangue补充说,HuggingFace将继续探索用于翻译的数据增强技术。
该消息是在本周早些时候与WeightsandBiases集成在一起的,以增强可视化功能来跟踪,记录和比较训练实验。HuggingFace于去年秋天将其Transformers库带到TensorFlow。