Новости и аналитика Интервью Сергей Воронин: "Иногда судьи требуют, чтобы в представленной как доказательство аудиозаписи телефонного разговора звучали фамилии, имена и отчества собеседников"

Сергей Воронин: "Иногда судьи требуют, чтобы в представленной как доказательство аудиозаписи телефонного разговора звучали фамилии, имена и отчества собеседников"

Сергей ВоронинВ ноябре 2016 года состоялась презентация очередного аудиоредактора, который способен создать имитацию голоса человека после 20-минутного обучения. Планируется, что программа сможет обрабатывать голоса людей и аудиозаписи по аналогии с тем, как сегодня это делают сервисы по работе с изображениями. Часто подобные технологии используют злоумышленники для подделок материалов, в том числе для последующего использования в суде в качестве доказательства.

Мы побеседовали с заместителем генерального директора по юридическим вопросам АНО Экспертный центр "Консультант" Сергеем Ворониным об особенностях экспертизы аудиозаписей и специфике распознавания подделок, изготовленных с помощью компьютерных программ.

Сергей Анатольевич, исходя из Вашего опыта, действительно ли современным компьютерным программам достаточно 20 минут, чтобы распознать человеческую речь и уловить для совершенной имитации тонкости интонаций и тембра голоса, или все равно в обработанной речи будет проскальзывать нечто механическое?

В принципе, программа может создать себе базу для имитации голоса и за 20 минут. Воспроизводить и распознавать человеческую речь она тоже сможет, но ошибки будут встречаться часто. При этом в тембре голоса, созданного такой программой, будет узнаваться механическая речь, а не человеческая. Современные программные продукты, которые способны воспроизводить качественные голоса, требуют длительного обучения. В частности, речь идет о широко используемых сегодня голосовых помощниках в смартфонах. Такие программы исполнены качественно – в 90% случаев нельзя сказать, что конкретный голос является компьютерным. Изначально в них внедрен стандартный набор фраз. Но при этом обучение программы происходит постоянно: модели обновляют, для этого могут также использоваться крупные дата-центры. И в целом для улучшения такого рода программ существует много разработок, в том числе стартапов.

Важным вопросом является использование языков в данных программах. У каждого языка есть определенный тембр. Загрузить тембры всех языков мира в программу не получится, и единого алгоритма не существует. 

На одном языке можно говорить по-разному, например, русский язык может звучать иначе в северных и южных регионах. Учитывается ли многообразие диалектов одного языка при обучении таких программ?

Диалекты языка в данном контексте представляют собой совершенно разные языки. Однако в случае с русским языком соседние диалекты отличаются друг от друга не слишком сильно, а вот в других языках отличия существенные.

По каким признакам гражданин может самостоятельно определить, что он услышал не настоящую запись, а подделку, то есть существуют ли очевидные особенности звучания фальшивой записи?

В любом разговоре используется определенный тембр голоса. Тембр поддельной речи существенно отличается от того, который принадлежит реальному человеку. Разница и будет свидетельствовать о том, что используется какая-то электронная программа и человека, например, разыгрывают телефонные хулиганы.

Кстати, еще лучше по тембру слышно изменение голоса в поддельной аудиозаписи с мужского на женский и наоборот. Тембры разительно отличаются, и человек отчетливо слышит разницу.

Как правило, "хорошая" подделка требует навыков. И наоборот, неумелая работа в любом редакторе, в том числе аудио-, порой видна невооруженным глазом. Часто ли встречаются действительно сложно различимые подделки, учитывая, что для этого злоумышленникам или хулиганам требуются специфические знания компьютерных программ?

Специфические знания потребуются в любом случае. Это связано с тем, что телефонные хулиганы или мошенники, подделывая голос, пользуются двумя методами. Первый способ – это изменение или искажение тембра голоса, а второй – нарезка. В последнем случае речь составляется из кусочков, а потом воспроизводится для ответов на те или иные вопросы. Оба способа можно выявить с помощью специального оборудования фоноскописта.

Определить искажение возможно, сопоставив измененную речь и тембр голоса реального человека, если есть образец записи такого голоса. А между нарезками будут характерные промежутки времени, по которым определяется, что это именно нарезка, а не единый и целостный текст.

Стоит отметить, злоумышленник может использовать и профессиональное оборудование. Например, для воспроизведения записанного голоса или изменения своего тембра прямо в процессе разговора.

Существует такая мера защиты записи от обработки, как цифровой водяной знак (специальные закодированные метки внутри аудиофайла). В том числе он позволяет выявить, была ли аудиозапись изменена. Насколько эффективен этот инструмент борьбы с преобразованием записей?

Данная мера эффективна, водяные знаки уже сейчас используются в лицензионных музыкальных произведениях, например, в фонограммах. Их необходимо использовать для того, чтобы определить, является музыкальное произведение лицензионным или нет. Иными словами, такая мера защиты затрагивает скорее правообладателей. Цифровые водяные знаки не на 100% ограждают запись от злоумышленников, но создают им преграды. 

Есть ли возможность вырезать такой знак?

Лицензионное ПО предполагает частое использование водяных знаков. Злоумышленнику придется видоизменять аудиозапись таким образом, чтобы обрезать все внедренные в нее знаки. К тому же существует вероятность, что при вырезке будут слышны остаточные элементы цифровых водяных знаков, следовательно, у мошенника в этом случае ничего не получится.

Цифровой водяной знак можно услышать после обработки аудиозаписи – он выдает определенные шумы. 

Если гражданин подозревает, что какая-либо запись является подделкой, как именно ему лучше сформулировать вопросы, которые ставятся перед экспертом, проводящим фоноскопическую экспертизу?

Перед экспертом необходимо ставить вопрос о том, принадлежит ли голос на протяжении всей записи конкретному человеку или нет. Для проведения экспертизы в этом случае потребуются образцы голоса на нескольких различных записях.

Кстати, на современные смартфоны можно установить программы, которые записывают все телефонные разговоры подряд. Обычно они издают звуковое предупреждение о том, что разговор будет записан. Но это касается не всех приложений – я сталкивался с ситуацией, когда аудиозапись разговора производилась автоматически, однако без какого-либо предупреждения.

Также можно поставить перед экспертом вопрос о том, является запись полной или частичной (то есть были ли вырезаны из нее или добавлены какие-либо фрагменты). Возможна и прямая формулировка: является ли запись поддельной.

Случается, что суды не принимают аудиозапись, сделанную без предупреждения, поскольку в принципе не рассматривают такую запись как доказательство по делу.

Какие ошибки часто допускают граждане, обращаясь за фоноскопической экспертизой?

Они в основном ставят вопрос, использовался ли монтаж в представленной ими записи. Но монтаж точно не использовался, если они сами эту запись и вели. Поэтому вопрос надо ставить не о записи, а о воспроизводимом звуке, который зафиксирован на ней.

Что бы Вы посоветовали гражданам, которые хотят использовать аудиозапись как доказательство в суде?

В первую очередь, для того, чтобы использовать доказательство в суде, всегда нужно

ФОРМЫ

Ходатайство о приобщении к делу доказательств
Ходатайство о приобщении к делу аудиозаписи в качестве доказательства (гражданский процесс)

Другие формы

ходатайствовать о приобщении данной аудиозаписи к материалам дела (ст. 119 Уголовно-процессуального кодекса, ч. 1 ст. 41 Арбитражного процессуального кодекса, ч. 1 ст. 35 Гражданского процессуального кодекса). Иногда судьи предъявляют требование о том, чтобы в ходе разговора были заранее известны фамилии, имена и отчества того, кто звонит, и того, кому звонят. То есть если вы делаете диктофонную запись или аудиозапись разговора по телефону, нужно, чтобы оба участника беседы озвучивали свои данные. Условно говоря: "Я, Иванов Иван Иванович, звоню Петрову Ивану Ивановичу". Второй участник также должен подтвердить, что это он. Тогда это будет иметь большое значение для вынесения решения по делу – уже в ходе фоноскопической экспертизы записи можно установить, принадлежит данный голос конкретному лицу или нет.

Может ли эксперт распознать подделку, если качество предоставленной для экспертизы аудиозаписи изначально плохое?

В любой методике проведения как судебных, так и внесудебных экспертиз есть этап установления качества представленных объектов исследования. Если по мнению эксперта качество удовлетворительное, то ее использовать можно. Когда имеются шумы, которые невозможно убрать, и при этом они мешают разобрать записанное, такую запись не признают действительной для проведения экспертизы.

Тем не менее, есть набор шумов, которые можно приглушить, используя профессиональное оборудование фоноскописта. Возможность убрать шум зависит от его звучания и громкости. Шумы низкого и среднего характера можно приглушить полностью. Но если шум настолько высокий, что голос на записи невозможно разобрать, даже фоноскопист ничего не сможет сделать.

Низкими шумами являются все известные нам шумы промышленных предприятий и транспорта, а также шумной толпы. Высокие шумы – это одиночные крики, плач, музыка (но не оглушающая) на заднем фоне или иное акустическое воздействие.

Какой из способов подделки аудиозаписи на Вашей практике встречался чаще всего (например, искажение голоса или синтез речи человека с нуля)?

Обычно используются имитаторы голоса, то есть искажение. Очень часто применяют монтаж аудиозаписи, склеивание и перестановку слов. Бывает так: одна из сторон утверждает, что не говорила ничего из представленного на записи, и экспертиза подтверждает наличие признаков монтажа в аудиозаписи.

Синтезация голоса обычно используется для провокации. Это так называемый "технопранк", когда публичную персону доводят до истерического состояния, записывая на носитель ее отдельные фразы. Потом их используют для отдельных звонков другим лицам. 

Исходя из вашей практики, что пользуется предпочтением в суде: показания стороны или материалы фоноскопической экспертизы? Например, если по итогам экспертизы не было выявлено монтажа или искажения, а сторона утверждает обратное.

Любая экспертиза оценивается в совокупности с другими доказательствами по гражданскому или уголовному делу. Если одна из сторон по делу не оспаривает результаты экспертизы, то суд может принять во внимание заключение эксперта и положить его в основу решения. В том случае, когда сторона оспаривает экспертизу, то может быть назначена повторная или дополнительная экспертиза для подтверждения или опровержения выводов эксперта. И таким образом в основу дела может лечь повторная экспертиза, подтверждающая выводы первоначальной.

Но истец и ответчик – заинтересованные в исходе дела лица, а эксперт предупреждается об уголовной ответственности за заведомо ложное заключение (ст. 171 ГПК РФ, ч. 5 ст. 55 АПК РФ, ч. 5 ст. 57 УПК РФ). Поэтому суды чаще обращают больше внимания на выводы эксперта-фоноскописта.

Хотел бы также отметить, что сегодня существует проблема восприятия судами аудиозаписей как доказательств. А учитывая степень развития современных технологий, подделки будут встречаться все чаще. Судам необходимо учесть подобные угрозы.

Документы по теме:

Читайте также: