珠海都市网
您当前的位置 :首页 > 文传商讯 > 正文
技术创新研究所宣布推出全球规模居首的阿拉伯语自然语言处理模型NOOR
2022年04月16日 21:41:55来源:作者:

该模型是迄今为止功能极其强大的阿拉伯语模型,拥有100亿个参数
面向自动摘要、聊天机器人、个性化营销等应用

阿联酋阿布扎比--(美国商业资讯)--阿布扎比先进技术研究委员会旗下的全球研究中心和应用研究支柱部门技术创新研究所(TII)今天宣布推出NOOR语言处理模型,这是迄今为止全球规模居首的阿拉伯语自然语言处理(NLP)模型。

TII的高级研究人员和人工智能专家团队与LightOn联手,对这个阿拉伯语NLP模型进行了改进。LightOn是一家专为企业提供超大规模机器智能的技术公司。NOOR模型能够执行超出语言领域的任务,可提供覆盖整个端到端处理管道的高质量数据,包括大规模数据抓取、过滤和管理。该模型可促进超大规模数据的分布式训练和服务,基于该模型的应用具有高效推理能力,并可针对特定领域进行模型调整。

TII和ASPIRE首席执行官Ray O. Johnson博士表示:“这一进展将大幅提升我们的研究能力和资质,并提升阿布扎比和阿联酋作为重要研究生态系统的地位。我们的专家团队再次证明,阿布扎比和阿联酋地区可以取得具有世界影响力的、突破性的研发成果。”

TII人工智能跨学科中心部门主任Ebtesam Almazrouei博士表示:“在自然语言处理领域,大型语言模型不断涌现。能推出这个拥有100亿个参数的先进模型,我们感到很自豪。这是全球规模居首的阿拉伯语NLP模型。为训练该模型,我们采集了一套独一无二的大型阿拉伯语数据集。相关工作历经数月时间,包括对各种来源数据的整理、剔除和过滤。在此特别感谢参与该项目的整个团队,他们使NOOR成为世界各地学者和企业首选的阿拉伯语研究模型。”

TII数字科学研究中心和人工智能跨学科中心部门首席研究员Mérouane Debbah教授在发布会上表示:“通过NOOR,TII利用在大型语言模型方面的专有技术,扩大了现代标准阿拉伯语模型的范围,以在新一代人工智能研究中建立跨学科的先进专长。”

NOOR拥有超过300亿字的独特数据集,涵盖网络数据、书籍、诗歌、新闻文章和技术信息等来源,从而打造出全球规模居首的高质量跨领域阿拉伯语数据集,并大幅拓宽了该模型的适用范围。

Ebtesam Almazrouei博士表示,NOOR模型基于流行的Transformer架构,仅包含解码器,结构与GPT-3相似,其设计旨在处理生成类任务。经过升级的架构引入了机器学习领域的最新发展,包括更好的位置嵌入等改进。为确保NOOR大规模数据集的质量,TII团队设计了一个基于机器学习技术的自动过滤管道。相关工具可以识别优质参考文本,并保障模型不受垃圾内容污染。

NOOR利用先进的3D并行技术,在配备128个A100 GPU的高性能计算资源上进行了训练,该过程采用分布式计算模式,能够确保有效利用可用的硬件资源。

人工智能跨学科中心部门主任指出,NOOR只是该部门努力为更广泛的阿联酋人工智能战略做出贡献的第一步。

该模型以阿拉伯语中的“光”命名,以体现模型旨在启迪人类智慧的宗旨。

关于技术创新研究所(TII)

如需了解更多信息,请访问www.tii.ae

*来源:AETOSWire

照片/多媒体图库可从以下网址获得:https://www.businesswire.com/news/home/52671760/en

 

责任编辑: admin

看新闻,关注新闻

腾讯网友:念成疾 crize
评论:世界上没有绝对幸福圆满的婚姻,幸福只是来自于无限的容忍与互相尊重。

凤凰网友:迷局  Memory 
评论:爷爷说他们那个年代。谁考试不会答。就答说毛主席万岁。没人敢打叉。

搜狐网友:风筝不会断线
评论:每次考完试,我都要安慰自己,没关系,重在参与。

其它网友:℡說好不見面
评论:小时候哭着哭着就笑了,长大后笑着笑着就哭了。

淘宝网友:Warm| 浅珊瑚
评论:没事的话别来找我,有事那就更别来找我了。

本网网友:冷笑你的无知
评论:所谓大学:管理监狱化 素质流氓化 kiss公开化 消费白领化 上课梦境化 逃课普遍化 寝室网吧化

百度网友:她有我保护
评论:令我感到骄傲和自豪的是,至今为止,地球仍被我踩在脚下。

猫扑网友:偏心   ■
评论:有一个胖子,从二十楼顶往下跳。结果变成了… 死胖子!!

天猫网友:清高 Demon,
评论:世界上只有骗子是真心的,因为他是真心骗你的

天涯网友:渲染那份寂寞
评论:最郁闷的是:网上购票,钱从账户划去了,票没出来。

相关阅读
分享到:
版权和免责申明

珠海都市网所有文字、图片、视频、音频等资料均来自互联网,不代表本站赞同其观点,本站亦不为其版权负责。相关作品的原创性、文中陈述文字以及内容数据庞杂本站无法一一核实,如果您发现本网站上有侵犯您的合法权益的内容,请联系我们,本网站将立即予以删除!