创新8分钟阅读

网络安全焦点:为您的组织做好应对深度语音克隆欺诈的准备

神经网络已经成为人类声音的专家制造者, 这是内容创作者和网络罪犯都喜欢的技能. 来自联合国、Adobe和语音合成先驱describe的专家发表了意见.

克里斯托弗·霍洛威学院

克里斯托弗·霍洛威学院是Toptal的高级科技撰稿人. 一位屡获殊荣的记者，在调查科技如何改变零售等行业方面拥有十多年的经验, 制造业, 医疗保健, 和银行, 他曾在拉丁美洲享有盛誉的媒体公司担任编辑职务, 包括AmericaEconomia, La Tercera, 和Netmedia.

有特色的专家

Irakli Beridze

伊拉克利是联合国区域间犯罪和司法研究所人工智能和机器人中心的负责人，也是世界经济论坛人类人工智能全球未来理事会的成员. 他就预防犯罪和技术发展向各国政府和国际组织提供咨询.

杰勒伯夫

杰伊是描述公司的业务和企业发展主管, 一家语音克隆技术公司, 斯坦福大学媒体和娱乐技术讲师. 他最出名的作品是屡获殊荣的音频编辑软件Avid Pro 工具, 在好莱坞和音乐界广泛使用的是什么.

安迪·帕森斯

Andy是Adobe内容真实性倡议的高级主管. 他是一位创始人, 首席技术官, 以及成功跨越服务api的VP, 移动应用程序, 大规模数据智能. 安迪毕业于塔夫茨大学，获得电气工程学士学位，并在曼哈顿音乐学院获得硕士学位.

Ismael Peinado

Ismael, Toptal首席技术官, 一个在政府机构工作了20年的技术和网络安全领导者, 创业公司, 高增长公司. 他开发了先进的反欺诈系统, 创建了创新的网络犯罪对策, 领导着全球的IT和安全团队.

你听说过 deepfakes-展示公众人物或名人的照片或视频汤姆•克鲁斯 or 威尔史密斯他们从未去过的地方，做着从未做过的事. 但你可能不知道，一种新兴的机器学习工具使同样的音频伪造成为可能.

自1939年贝尔实验室推出Voder以来，语音合成技术已经取得了长足的进步. 那。机器人嗡嗡作响曾经由操作员使用按键和踏板控制的声音已经演变成与真实声音难以区分的数字声音，由人工智能驱动. 现在可用的语音合成技术是如此逼真和易于使用，以至于音频工程师使用它来复制播客主持人或配音演员的语音，并在不录音的情况下向内容添加新信息.

网络犯罪分子和诈骗犯也在使用这项技术, 迫使各行各业的组织采用新的网络安全模式，以尽量减少不可避免的风险.

一群正在崛起的窃贼

2019年，在首例已知病例语音克隆诈骗, 窃贼模仿了一家未公开身份的英国能源公司母公司高管的声音. 当公司的首席执行官接到“高管”的电话时,他听出了同事的德国口音和说话的节奏, 并迅速按要求进行了紧急资金转账. 几小时后，这些骗子再次联系，企图进行第二次盗窃, 但这一次, 首席执行官注意到电话来自一个未知的位置，并开始怀疑.

为了恶意目的而大规模使用语音克隆技术的所有因素都已到位.

2022年初，联邦调查局发表报告提醒公众注意虚拟会议平台上的一种新的诈骗技术. 在控制了高管的登录之后, 攻击者邀请员工参加会议，在会上部署克隆的声音, 声称他们的视频无法播放, 并要求提供限制性信息或紧急转账.

语音克隆诈骗的突然出现引起了全球的警觉. 据伊拉克的负责人伊拉克利·贝里泽说人工智能和机器人研究中心联合国区域间犯罪和司法研究所(犯罪和司法研究所), 为了恶意的目的，对这项技术进行大规模改造的所有因素都已经到位. “无论是因为欺诈, 框架的人, 政治进程脱轨, 或者破坏政治结构, 这些都是有可能的,他告诉Toptal.

这张图讲述了香港一起价值3500万美元的克隆语音银行抢劫案. In 2020, 一位银行经理接到一个电话，来电者的声音他听出是客户公司的董事. 董事告诉银行经理，他需要一笔紧急资金转账，并说一位名叫马丁·泽尔纳(Martin Zelner)的律师将负责协调. 此后，银行经理收到了几封来自泽尔纳的电子邮件, 包括一封看起来是客户公司董事授权资金转移的信. 确信来电者的身份，并通过电子邮件收到了必要的文件, 银行经理把三千五百万美元转到几个账户里. 但泽纳不是真正的律师. 这个声音是一个深度伪造的克隆. 一群17名罪犯成功地策划了一次复杂的盗窃. 他们选择的武器是AI.

冒充某一组织的高级管理人员以实施欺诈公司成本在2016年至2019年期间，全球超过260亿美元, 根据联邦调查局网络犯罪投诉中心的说法. 而这些仅仅是向执法部门报告的案件——大多数受害者为了保护自己的名誉而将此类袭击保密.

罪犯学得很快, 太, 因此，虽然语音克隆欺诈的发生率现在很低, 这种情况可能很快就会改变. Beridze说:“五年前，甚至连‘深度造假’这个词都没有被使用过. “从那时起, 我们从非常不准确开始, 非常原始的自动生成语音或视觉内容，以非常准确的深度伪造. 如果你从历史的角度分析趋势，这是一夜之间发生的. 这是一种极其危险的现象. 我们还没有看到它的全部潜力.”

制作赝品

音频深度伪造在神经网络上运行. 与传统算法不同, 人类程序员必须预先定义计算过程的每一步, 神经网络允许软件通过分析示例来学习执行指定的任务,000张长颈鹿的图片, 将内容标记为“长颈鹿”,网络最终将学会识别特定的哺乳动物，即使是在它以前从未喂过的图像中.

这个模型的问题是它需要很大, 精心策划和标记的数据集, 要回答的问题也很狭隘, 所有这些都花了几个月的时间来计划, 纠正, 并由人类程序员进行改进. 这种情况在引入生成对抗网络 (GANs). 可以把GAN想象成两个神经网络，它们通过测试和相互反馈来学习. gan可以快速生成和评估数百万张图像, 在几乎不需要人为干预的情况下，每一步都能获得新的信息.

GAN也可以处理音频波形:给GAN一些小时的人类语音, 它会开始识别模式. 从一个特定的人那里输入足够多的语音，它就会知道是什么让这个声音与众不同.

白帽用于深度假语音合成

深,这是一款由Groupon公司创立的音频编辑和转录工具安德鲁•梅森有一笔种子投资安山好瑞只需几分钟的音频样本，就能识别出每个声音中的DNA. 然后, 该软件可以生成该声音的副本, 加入新词，但保持说话的风格, 杰·勒伯夫说, 公司的业务和企业发展主管.

描述最受欢迎的功能, 录音的, 不仅仅是克隆声音, 它还允许用户像编辑文档一样编辑语音. 剪掉一个单词或短语，它就会从音频中消失. 输入额外的文本，它被添加为口语单词. 这种技术, 被称为绘画中的文本提示语音, 革命性的深度学习突破在五年前是不可想象的吗. 用户可以让人工智能说任何话，用他们编好的任何声音，只需输入即可.

“对我们来说，最像科幻小说的一件事就是能够重新输入你在配音工作中可能犯的错误,LeBoeuf告诉Toptal. “你说错了产品名称, 错误的发布日期, 你通常需要重做整个演示，或者至少是其中的一大部分.”

用户可以让人工智能说任何话，用他们编好的任何声音，只需输入即可.

语音克隆和配音技术可以节省内容创作者数小时的编辑和录制时间，而不会牺牲质量. 普希金工业公司，马尔科姆·格拉德威尔广受欢迎的播客背后的公司 历史修正主义, 使用describe生成主持人声音的数字版本，以便在组装一集时用作替身配音演员. 以前, 这个过程需要真正的格拉德威尔来阅读和记录内容，这样制作团队就可以检查一集的时间和流程. 经过多次拍摄和几个小时的工作才产生了预期的结果. 使用数字语音还可以让团队在稍后的过程中进行小的编辑修复.

勒博夫说，这项技术也被用于公司的内部沟通. 一个描述客户端, 例如, 克隆培训视频中所有演讲者的声音，这样公司就可以在后期制作中修改内容，而不必回到工作室. 制作培训视频的成本从每分钟1000到10000美元因此，语音克隆可以节省大量资金.

保护您的业务免受克隆语音犯罪

尽管这是一项相对较新的技术，但语音克隆的全球市场价值为761美元.到2020年将达到300万美元预计达到3美元.到2027年将达到80亿美元. 像Respeecher这样的创业公司, 像人工智能, and Veritone offer services similar to 深,; and Big Tech companies like IBM, 谷歌, 和微软都在自己的研究和工具上投入了大量资金.

持续的进化, 增长, 克隆声音的可用性实际上是有保证的, 技术的快速发展将使网络攻击无法避免.

This grid shows eight potential malicious uses of audio deepfakes against businesses: Destroying the image and credibility of an individual; perpetrating extortion and fraud; facilitating document fraud; falsifying online identities and fooling know-you-customer (KYC) mechanisms; falsifying or manipulating electronic evidence for criminal justice investigations; disrupting financial markets; distributing disinformation and influencing public opinion; and stroking social unrest and political polarization.

“你无法对抗深度造假,Ismael Peinado说, 全球网络安全专家，拥有20年领导安全和技术团队的经验, Toptal的首席技术官. “你越早接受越好. 也许不是今天，但我们将面对完美的语音或视频深度造假. 即使是受过充分风险意识培训的员工，也未必能识破假货.”

有专门的软件解决方案来检测深度伪造, 使用深度学习技术捕捉各种内容伪造证据的工具. 但我们咨询的每一位专家都对这种投资不屑一顾. 技术发展的速度意味着检测技术很快就会过时.

“从某种程度上说，纯粹追求检测是一场失败的战斗,——安迪·帕森斯, Adobe的高级主管内容真实性倡议(CAI), 告诉Toptal. 坦率地说, 坏人会赢，因为他们不需要开放他们的数据集或训练过的模型.”

那么解决方法是什么呢?

远离电子邮件

首先，停止使用电子邮件进行内部沟通. 你90%的安全担忧都会消失，”Peinado说. 大多数网络钓鱼攻击, 包括一些旨在进入私人公司空间的项目，比如Zoom, 从电子邮件开始. 所以使用不同的工具进行内部沟通, like Slack; set aggressive security protocols for every email received; and change the cybersecurity culture to address the most critical vulnerabilities. 如果你收到一封电子邮件或短信, don’t trust it’; that’s our policy, 组织里的每个人都知道. 这个单一的动作比市场上最好的杀毒软件更强大.”

采用云计算

Peinado还表示，所有的通信和协作工具都应该在云上，并包括多因素身份验证. 这是减少假身份危险的最有效方法，因为它大大减少了关键业务数据的入口点. 即使你CEO的笔记本电脑被偷了, 恶意行为者利用它访问公司信息或进行深度伪造攻击的风险将微乎其微.

支持数字溯源工作

“随着事情变得更加逼真和逼真, 我们需要在互联网上建立另一个基础来描绘真相，或者为消费者和事实核查者提供透明度,帕森斯说。. 为此目的, Adobe的蔡, 创造者联盟, 技术人员, 以及与Twitter和《欧博体育app下载》合作成立于2019年的记者, 有加入军队与微软、英特尔和其他主要厂商合作开发标准框架内容归属和数字来源. 它嵌入了不可改变的信息, 比如时间, 作者, 以及使用的设备类型, 每次创建或修改数字内容时.

这个框架的功能是为使用AI创造内容创造一个安全的环境. 即使是虚拟会议平台也可以集成这种技术来证明来电者是他们声称的那个人, 不管与会者认为他们听到的是什么声音. "在标准机构的成员中, 我们有情报, 手臂, 其他制造商也在寻找潜在的硬件实现, 所以各种各样的捕捉设备——包括流媒体摄像机, 音频设备, 计算机硬件本身也能从中受益. 我们希望并期待看到这种采用，”帕森斯说.

投资于威胁评估和教育

手边没有任何技术工具, 有限的战略安全行动, 还有一个越来越强大，越来越聪明的敌人, 没有什么灵丹妙药. 但政府、学术界和私营部门之间的合作的目标是保护企业和整个社会，Beridze.

“政府应该采用国家网络安全计划，并对其需求和竞争优势进行非常彻底的评估,他说. “私营部门也是如此:它们是否规模小, 媒介, 或者大型企业, 他们需要投资于威胁评估和知识.”

像CAI的标准框架这样的计划需要大量的采用才能成功, 这需要时间. 现在, 领导者必须优先考虑减少组织的攻击面，并传播这样的信息:拥有克隆声音的窃贼正在寻找受害者.

关于总博客的进一步阅读:

问一个网络安全工程师:关于网络安全中的人工智能的趋势问题

网络安全焦点:为您的组织做好应对深度语音克隆欺诈的准备

克里斯托弗·霍洛威学院

有特色的专家

一群正在崛起的窃贼

制作赝品

白帽用于深度假语音合成

保护您的业务免受克隆语音犯罪

远离电子邮件

采用云计算

支持数字溯源工作

投资于威胁评估和教育

关于总博客的进一步阅读:

标签

Toptal开发者

Toptal设计师

金融专家

欧博体育app下载

欧博体育app下载

网络安全焦点:为您的组织做好应对深度语音克隆欺诈的准备

By 克里斯托弗·霍洛威学院

有特色的专家

一群正在崛起的窃贼

制作赝品

白帽用于深度假语音合成

保护您的业务免受克隆语音犯罪

远离电子邮件

采用云计算

支持数字溯源工作

投资于威胁评估和教育

关于总博客的进一步阅读:

标签

Toptal开发者

Toptal设计师

金融专家

欧博体育app下载

欧博体育app下载

克里斯托弗·霍洛威学院