Запуск моего первого подкаста, сгенерированного ИИ с помощью NotebookLM, научил меня одной вещи, которой следует избегать.
Это началось как шутка. «А что если я создам подкаст, где разговариваю с искусственно-интеллектуальными ботами и притворяюсь, что мне интересно то, что они говорят?» — спросил я моего друга.
Это было несколько месяцев назад, до того как я понял, что у Google есть инструмент ИИ под названием NotebookLM, который (в основном) позволяет в режиме реального времени вести беседу с двумя ведущими, звучащими по-человечески. Известный как интерактивный режим, он позволяет присоединиться к подкасту и задать вопрос в любой момент. Боты делают паузу, распознают вас как «слушателя» и затем комментируют то, что вы сказали.
Я решил опробовать NotebookLM, чтобы сделать настоящий подкаст, запустить его через Spotify for Creators и затем продвигать в своих соцсетях. В процессе я многому научился, но конечный результат многое показал о том, что нужно для создания подкаста. Чего следует избегать? Дела подкаст слишком роботизированным и бессердечным. Вот как мне удалось всё это сделать.
Запись в интерактивном режиме
Я сначала не понимал, но NotebookLM на самом деле не записывает ваши взаимодействия с роботизированными ведущими. Поскольку приложение (доступно для мобильных устройств, но его также можно запустить в браузере) находится в бета-версии, нет много хорошей документации или даже инструкций по его использованию. Вместо того чтобы полагаться на NotebookLM для записи интерактивной дискуссии, я использовал приложение «Диктофон» на iPhone. Настоящий подкастер, возможно, пренебрежительно относился бы к низкому качеству записи, но это было быстро и удобно.
Для начала нужно выбрать источник дискуссии. Я решил создать «Origins with John Brandon» как отчасти ироничный подкаст о том, как появились обычные вещи. Мой первый эпизод должен был быть о том, как появилась пузырчатая упаковка, поэтому я сначала нашёл несколько статей на эту тему и загрузил их в NotebookLM. Это те тренировочные данные, которые «ведущие» используют, так как обычно они общаются только друг с другом, но я не хотел, чтобы они просто начинали импровизировать на тему. Вместо этого я сразу вмешался и представился настоящим ведущим.
Как можно было ожидать, это не совсем то, как Google задумывал. Боты изображали удивление и даже отметили, что я не являюсь ведущим (упомянув меня по имени) и настаивали, что они и есть настоящие человеческие ведущие. Я задал несколько вопросов про пузырчатую упаковку, но в итоге разговор скатился к обсуждению сознания и самосознания ИИ. Мне показалась эта тема гораздо интереснее, поэтому мой подкаст приобрёл более сатирический оттенок, напоминая The Onion. Другими словами, хотя изначально это должно было быть про пузырчатую упаковку, в итоге речь шла больше про ИИ.
Я был доволен результатом, даже если качество записи оставляло желать лучшего. Я представлял, как всё могло бы выглядеть лучше, если бы я записывал живую дискуссию отдельным цифровым рекордером, но я не стремился выигрывать какие-то подкаст-номинации. Я хотел опубликовать первый эпизод, и NotebookLM впечатлил меня по крайней мере тем, что позволил получить связную дискуссию. Было также круто, что боты реагировали на мой комментарий в реальном времени.
Создание элементов подкаста
Конечно, подкаст — это не просто аудиофайл, который вы публикуете. Он включает также обложку подкаста, джингл, озвучку и другие элементы.
Когда у меня была запись первого эпизода, я обратился к Google Gemini, чтобы создать квадратное изображение, которое я мог бы использовать для шоу. У каждого подкаста есть такая обложка, помогающая людям найти подкаст в приложении вроде Apple Podcasts. Мой промпт был прост: «Создай квадратное изображение для подкаста под названием Origins with John Brandon». Я также предоставил ИИ-изображение себя. С первого раза Gemini создал исключительно хорошую обложку, как будто её сделал профессионал. Мне не понравилось, что там была моя фотография, поэтому я попросил бота попробовать ещё раз. Результат выглядел немного вульгарно, но приемлемо.
Я принялся за остальные задачи. Затем я использовал Suno для создания джингла для моего нового подкаста. Этот инструмент генерации звука на основе ИИ обычно работает с промптами типа: «Сделай новую песню, которая звучит как Coldplay, смешанный с Nirvana». Вместо этого мой промпт был более простым: сделать джингл для подкаста с синтезаторами и ударными, чтобы добавить энергии и возбуждения перед началом разговора.
Как и в случае с Gemini, Suno сразу выдал несколько вполне приличных джинглов. Мне не пришлось пробовать множество промптов, но я хотел доработать вступление озвучкой. Я обратился к Speechify, который может взять любой текст и сделать озвучку. Затем я использовал ChatGPT, чтобы объединить джингл и озвучку как наложение. Полное признание: я не знал, что ChatGPT позволяет создавать аудиофайлы.
Через несколько минут у меня было вступление в виде джингла с озвучкой. Я даже подкорректировал кроссфейд между музыкальным интро и началом озвучки, а затем сделал постепенное затухание. Я попросил ChatGPT добавить аудио подкаста для моего первого эпизода, и он сгенерировал финальный аудиофайл, который я загрузил в Spotify.
Чего следует избегать
Меня впечатлил результат и то, как всё собрано вместе, но я бы сказал, что я слишком полагался на ИИ при создании подкаста. Обложка выглядела слегка фальшиво и бессердечно, особенно потому, что изображение на ней было сгенерировано ИИ. Сам аудиофайл из NotebookLM обладает большей человечностью и душой, в основном потому, что я разговариваю с ботами, но эпизод в итоге звучал как человек, говорящий с чат-ботами — а это рецепт провала. Люди слушают подкасты, чтобы узнать что-то новое, но также потому, что говорящие люди — понятные, интересные и настоящие. По крайней мере это мотивировало меня сделать настоящий подкаст без ботов на ту же тему.
Мой главный вывод касается NotebookLM. Это хороший экспериментальный инструмент, который помог мне понять, как сделать и запустить подкаст. Тем не менее это всего лишь лабораторный эксперимент. «Ведущие» постоянно повторяют одни и те же аудио-фразы, особенно когда я присоединяюсь к их разговору. Как только вы несколько раз услышите фразу «о, у нас есть слушатель, который хочет прокомментировать», вы начинаете подозревать, что это всё компьютерная подделка. Они используют одни и те же голосовые тики и причудливые слуховые манеры снова и снова до такой степени, что это почти невозможно слушать — они раздражают.
Короче говоря, это скучно. Я бы не хотел держать такой подкаст в сети, и в основном это показывает, что разговоры ботов друг с другом в таком формате не удержат внимание слушателей. Это почти как смотреть, как два компьютера играют в видеоигру. Единственное, чего стоит избегать при создании подкаста — это настолько полагаться на ИИ, чтобы он удалил всю человечность из уравнения.
В развитии ИИ нам, возможно, придётся решить, является ли это желанным исходом.
Другие статьи
Запуск моего первого подкаста, сгенерированного ИИ с помощью NotebookLM, научил меня одной вещи, которой следует избегать.
Может ли NotebookLM сделать подкаст? Да, может. Будет ли подкаст звучать так, как будто его ведут настоящие люди? Вряд ли.
