欢迎来到爱乐透旧版本下载_爱乐透彩票足球_爱乐透福彩双色球下载! 联系我们 网站地图

爱乐透旧版本下载_爱乐透彩票足球_爱乐透福彩双色球下载

0379-65557469

学习园地
全国服务热线
0379-65557469

电话: 0379-65557469
0379-63930906
0379-63900388 
0379-63253525   
传真: 0379-65557469
地址:洛阳市洛龙区开元大道219号2幢1-2522、2501、2502、2503、2504、2505室 

学习园地
当前位置: 首页 | 新闻中心 > 学习园地

爱乐透旧版本下载-面临内容了解的准确性和功率问题,Facebook是这样使用自我监督技能的

作者:admin 发布时间:2019-05-10 19:59:02 浏览次数:275
打印 收藏 关闭
字体【
视力保护色

AI 科技谈论按,在各种交际渠道上,常常会呈现一些违规的内容,如恐惧视频、侮辱性的言语等。怎么将这些内容辨认出来并进行处理对渠道健康杰出的运作具有重大意义。近来,Facebook 人工智能研讨院宣告了一篇博文,探讨了这个问题。AI 科技谈论编译收拾如下文。

现在,咱们在 Facebook 的各种运用程序中运用人工爱乐透旧版本下载-面临内容了解的准确性和功率问题,Facebook是这样使用自我监督技能的智能技能——其间最重要的一点是协助人们安全地运用咱们的渠道。为了使一切这些体系更有用,咱们需求持续改善咱们的人工智能,特别是在两个方面:内容了解和有用地运用标签较少的练习数据。

咱们在自然言语处理(NLP)和核算机视觉(CV)方面的最新发展标明晰在内容了解方面的作业是怎么发生效益的。在 NLP 中,咱们开发了一个同享的多言语嵌入空间,它可以作为一种言语来协助处理有害内容,即便是用在低资源言语中也是有用的。在 CV 方面,咱们在咱们职业抢先的研讨根底上,去辨认图画中更多部分的内容,并运用标签来了解视频,然后完成记载设置的准确性。

跟着咱们内容了解才能的不断前进,咱们也在自我监督的新范畴取得了发展。这项技能将加速预练习体系的学习,它可认为下一代更快、更灵敏的东西奠定根底。

咱们将在这儿要点介绍咱们怎么前进内容了解体系的准确性和功率,并找到新的办法,在无监督学习中做更多的作业。

运用多语种语句嵌入处理违规内容

为了在人们发布违背咱们方针的内容时将它们检测出来,咱们的体系需求了解言语。具体来说,咱们的体系运用机器学习(ML)扫描一个给定的语句并答复一系列问题,例如「它是违规的吗?」或许「它是在要挟某人吗?」。运用这些问题的答案以及其时的上下文和其他的布景信息,咱们可以决议是否采纳举动,例如给一个人类的审稿人做符号。

为了让咱们的 ML 体系答复这些问题,咱们需求用给定言语的数千个例子来练习它们。可是,国际上大约有 6500 种言语,其间包含一些现在缺少大型练习数据集的言语,要找到满足的练习样本来支撑咱们支撑的一切言语的内容了解是一个应战。

通过在同享的嵌入空间顶用多种言语映射相似的语句,咱们可以在不翻译每个语句的情况下,更好地了解相关内容(包含违背规定的内容)。

为了协助补偿练习数据的缺少,咱们正在改善咱们最近开源的东西包「LASER」,它可以通过练习一个模型来了解各种言语。在从前,当咱们需求为每种言语运用不同的模型时,LASER 的标明空间答应咱们用一种言语进行练习,而不需求特定言语的练习数据。在练习之后,咱们可以将模型运用于一系列言语,也不需求翻译它们,这称为「零样本搬迁学习」。LASER 也让咱们在言语不知道的标明空间内,将那些互相更挨近的语句进行映射,来辨认意思相似的语句。

关于期望添加体系可以了解的言语数量的研讨人员来说,像这样的跨言语技能供给了一种更具可扩展性的代替办法去测验搜集和注释每种言语中的数据。这种办法还答应咱们为机器翻译发掘并行练习数据,特别是关于低资源言语(也便是练习示例较少的言语)十分有用。跨言语辨认相似的语句有助于在多种言语中一同捕获相似的违规行为。为了生成每个语句层面的嵌入,咱们首要运用字节对编码标明给定语句的单词,然后运用五层双向 LSTM(长短期内存)模型,紧接着运用 max pooling(因为语句包含的单词数目是不定的)。

通过大规划的练习这个体系——包含 93 种言语,这些言语隶属于 30 多个言语宗族,用 22 种不同的脚本编写而成,咱们可以取得不知道言语的语句嵌入,并且其支撑主动检测违背方针内容的才能关于低资源言语特别重要。

这种办法和咱们的跨言语预练习作业一同,将前进咱们在不需求额定的言语符号的练习数据的情况下,处理多种言语的仇视言辞、欺负和其他违背规定行为的才能。这两种技能都将支撑咱们现有的多言语单词嵌入的运用,它将不同言语的相似单词映射到同一空间(而不是 LASER 的语句级映射)。这些嵌入现已布置到产品中,用于广泛的跨言语了解使命,包含辨认内容抵触等。

前进对相片和视频的了解水平

人们在咱们的渠道上同享数十亿张相片,了解这些相片中的内容关于维护人们的隐私安全极为重要。即便对像素的直接剖析或许足以让咱们的体系辨认图片中的单个方针,咱们也会进一步推动职业抢先的 CV 技能的研讨,并教会体系了解这些方针之间的联系在什么情况下代表着违背方针。

咱们的体系拿手辨认相片远景中的物品,如狗或球。但直到最近,他们一直在尽力了解布景更大、包含更少的像素调集的相片。运用一种新的方针辨认办法,即全景特征金字塔网络(panoptic feature pyramid network,即 Panoptic FPN),咱们可以在一个一致的神经结构上一同履行实例切割使命(前台)和语义切割使命(后台)。

多年来爱乐透旧版本下载-面临内容了解的准确性和功率问题,Facebook是这样使用自我监督技能的,咱们的 CV 体系现已逐步辨认出更多的图画组件,现在可以用一个单一的网络对远景和布景中的物体进行检测。这样可以更好地了解相片的全体布景,更高效的进行图画辨认。

咱们的成果标明,与只进行实例和语义切割的网络比较,全景 FPN 可以将履行实例和语义切割所需的整体核算量简直折半。在实践中,这使体系对图画的故事布景有了更好的了解,而这一点在判别它是否违背咱们的方针时很重要。但这项作业也会影响到其他运用程序,例如,它或许会潜在地改善咱们用来向视力受损者描绘图画的主动代替文本。

在视频中发现违背方针的行为比在相片中发现违背方针的行为更难。了解视频意味着了解构成给定帧序列的很多图画以及该序列中的行为标明的动机,一同还要处理非视觉的输入,如音频等。

因为这些困难,视频了解还处于起步阶段。无论是在准确性或是功率方面,咱们一直在推动视频了解范畴最先进的技能的研讨,其间一部分作业是专心于咱们体系的注意力和在最相关的数据集上进行练习。例如,通过将咱们的三维卷积分解为独自的二维和一维卷积(别离与给定视频序列中的空间和时刻相关),咱们削减了可练习参数的数量。或许,咱们可以坚持相同数量的参数并前进精度。运用这个结构,咱们可以在准确性和功率之间找到平衡。

咱们的明显性抽样办法不是通过爱乐透旧版本下载-面临内容了解的准确性和功率问题,Facebook是这样使用自我监督技能的时空卷积神经网络传递给定视频中的每一帧,而是别离出包含明显动作的编排,以便进一步处理。

为了了解视频中发生了什么,咱们将其分红短片段(每个片段由少数接连帧组成),并通过咱们最新的时空模型发送一组接连帧。然后咱们可以聚合这些信息,并得到整个视频的猜测。

可是,在许多视频中,只要少数片段里边的信息对特定使命有意义,例如检测欺负内容时,其他片段要么是剩余的,要么是不相关的。因而,为了进一步前进咱们在视频中发现或许违背方针事情的速度和功率,咱们构建了一个明显性采样器。这个体系通过练习,专心于包含特定行为的视频部分,然后进一步更具体地处理这些结构集。这种更为会集的剖析和练习使得视频的了解更快、更准确。

运用 hashtags 记载设置精度以了解视频

咱们还开发了一种不同的办法来辨认行为(包含标明内容违规的行为),它是一种现在最前沿的技能。

这项技能直接建立在咱们去年在 F8 上宣告的作业的根底上,该作业的练习网络运用数十亿张带有标签的公共图画,并且可以在图画辨认使命中打败最先进的技能。在咱们的新办法中,带标签的视频扮演着弱监督数据的人物,这意味着练习示例的标签现已被人们运用,但没有全监督的精度。

与专门用于练习人工智能模型的标签比较,成果的注释噪音大且不准确。可是,这种办法供给的符号示例的数量标明,咱们不只可以通过在弱监督的练习数据上进行练习,也可以在史无前例的巨大数量的数据集上进行练习来明显前进视频了解才能。

在这种情况下,咱们练习的最大的数据集包含超越 6500 万个带有标签的公共 Instagram 视频。而比较之下,当时的动作分类数据集只包含几十万个视频。运用这些视频带来的技能应战和咱们辨认数以十亿记的图画辨认作业相似,例如有必要跨硬件渠道布置练习,并且还会遇到新的妨碍,包含处理的标签一般只适用于视频的一小部分这一现实。例如,一个带有「婚礼和舞蹈」标签的视频或许只会在一段更长的视频中展现一对新婚夫妇跳舞的几秒钟。

虽然存在这种时刻噪声问题,但咱们发现内容的多样性和示例的肯定规划抵消了标签中的噪声。通过运用明显性抽样器,咱们的视频辨认模型在三个首要的视频分类基准上达到了国际抢先水平的精度。这包含将视频分为 400 种不同的人类行为类别中的一种时,在 Kinetics 数据集上的准确度达到了 82.8%。这比从前最高 77.7% 的准确度前进了 5.1%,相对来说,差错削减了 25% 以上。咱们现已将这种办法运用到出产体系中,将欺负行为辨认率前进了近 85%。

通过将音频整合到这个模型中,咱们可以取得更好的作用。咱们的试验证明,与选用相同架构和练习流程的视觉模型比较,咱们联合了音频和视频的模型在音视频事情检测基准上达到了国际抢先水平,并在检测亵渎和成人内容的准确性上前进了 20%。

用自我监督进行内容了解的未来

言语、图画和视频了解方面的这些技能上的前进是咱们不断尽力改善方针履行才能的一部分。可是,当咱们着眼于坚持渠道安全的长时刻使命时,创立可以运用很多未符号数据进行练习的体系将变得越来越重要。

咱们现在的大多数体系都依托监督练习。这给练习带来了一系列的应战,例如在某些情况下咱们会缺少练习数据,在某些情况下咱们需求搜集和符号示例以从头构建新分类器以进行时长时刻的练习。因为新的内容违规事例发展迅速,推举等事情已成为有害内容的集合处,咱们有职责加速体系的开发,曾经进咱们的呼应才能。

一个潜在的处理办法是 Facebook 首席人工智能科学家 Yann LeCun 多年来一直在评论的一种办法:自我监督。比较于仅仅依托人类为了练习而符号的数据——乃至是弱监督的数据,例如带有公共标签的图画和视频,自我监控让咱们可以运用彻底未符号的数据。这种办法本质上是通用的,使自我监控体系可以运用少数符号的数据来处理不知道的使命,并有或许使咱们更挨近完成真实人工智能的方针。

实际上,这从前仅仅咱们人工智能团队的一项策略性研讨,而最近它现已改变为为团队供给强壮的内部成果的体系,一些自我监督的言语了解模型不断打败运用传统的、有监督的办法进行练习的体系。具体来说,咱们现已开发了一些模型,可以通过在给定信号的一部分上进行练习来猜测给定信号的另一部分。

例如,咱们练习了这些自我监督体系中的一个,通过在语句中躲藏单词来更好地了解言语,即便模型从前从未见过本来的语句。如果有一个短语,比方「A conversation about ________ and human connection」,人们可以很容易地猜出几个词来添补这个空白。但这项使命对人工智能来说更具应战性。这是一个有用且可扩展的练习使命的根底,和谷歌引进的 BERT 模型所处理的使命相似。咱们可以顺次删掉语句中的每个单词,然后在 10 亿个单词的数据集上重复这个进程,且这些单词不需求进行符号。

通过别离剖析躲藏单词左右两个语句的上下文,咱们的双向改换模型可以在不依托符号数据的情况下猜测漏掉的单词。

为了猜测每个躲藏的单词,咱们运用双向改换网络,通过核算语句的前向和后向状况——即躲藏单词右侧和左边的单词——来模仿语句的其他部分,然后结合这些标明来确认躲藏单词。一旦体系以这种未符号的办法进行了练习,咱们就可以运用符号的数据为特定使命(如辨认欺负性言语)对其进行微调。在内部测验中,这种自我监督和监督练习的结合运用使得咱们可以用比有监督少 10 倍的数据进行练习,却能取得与有监督模型附近的精度,或许在运用相同数量的练习数据的情况下削减 20% 的过错。

咱们还运用自我监督练习来前进语音辨认才能。咱们创立了一个音频编排的几个版别,其间某些版别的一部分已被更改,模型有必要确认哪一个版别是正确的。在这儿,只运用原始音频作为输入,没有转录或其他标签。

关于这种办法,咱们运用了两个叠加在一同的网络:一个编码器网络,它将原始音频映射到时刻频率较低的特征标明;一个上下文网络,它猜测正确的音频。为了使练习使命更有用,咱们要求上下文网络对未来进行愈加深化的猜测,然后使猜测问题变得越来越困难。

在运用两个卷积爱乐透旧版本下载-面临内容了解的准确性和功率问题,Facebook是这样使用自我监督技能的神经网络对原始的、未符号的音频数据预先生成模型后,体系进行了优化,以处理越来越困难的使命:在不同的时刻点猜测音频,其间,箭头指示对未来的猜测。

一旦这个通过预练习的自我监督模型对语音有了很强的了解,咱们就运用少数的监督数据——80 小时的转录音频来练习终究的语音辨认体系。咱们的体系运用的标签数据比之前最好的体系 Deep Speech 2 少 150 倍,一同将过错率降低了 9%。这项作业使咱们可以快速地将语音辨认才能扩展到更多的言语,而不需求在每种言语中都有很多的转录语音。

这两种办法都侧重于语音和言爱乐透旧版本下载-面临内容了解的准确性和功率问题,Facebook是这样使用自我监督技能的语了解,但它们也代表了咱们怎么探究乃至结合不同程度的数据监督的更根底的改变。这包含运用很多未符号的练习数据,以及运用少数符号的数据来开释自我监督体系的巨大潜力。在一切与人工智能相关的使命中,越来越着重自我监督,但没有一项使命比前进咱们产品的安全性更重要。

Via https://ai敖德萨的功勋.facebook.com/blog/

点击阅览原文,阅览 Facebook、谷歌别离改善何恺明 FPN 作业

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。

版权所有:洛阳市建设工程咨询有限责任公司 联系人:李经理 电话: 地址:洛阳市洛龙区开元大道219号2幢1-2522、2501、2502、2503、2504、2505室
版权所有 爱乐透旧版本下载 晋ICP备147250283号-2