Распознавание речи русской

Программы распознавания речи. Что понимает искусственный интеллект?

Искусственный интеллект неуклонно наступает на местами стройные, местами разрозненные ряды узких и широких специалистов разных мастей и профилей. У кого-то это вызывает беспокойство, кто-то относится к такому наступлению весьма скептически. Но факт заключается в том, что ареал обитания искусственного интеллекта постоянно расширяется. Переводческая отрасль — не исключение.

Письменные переводчики уже довольно давно ощущают давление машинного перевода в своей деятельности. Машинный перевод то и дело упоминается в различных источниках. Разработчики программного обеспечения придумывают разные движки, «скармливают» им библиотеки параллельных текстов, пугают все новыми понятиями, такими как «адаптивный машинный перевод», «нейронный машинный перевод» и т. п. На этом фоне устные переводчики чувствуют себя относительно вольготно. Эту работу без преувеличения можно назвать самой тяжелой в сфере лингвистики, ведь она требует не только профессиональной подготовки и владения языком на высоком уровне, но и специфического склада ума и невероятной стрессоустойчивости. Положение этой отрасли в рамках индустрии на данный момент настолько стабильно, что целые агентства базируют свою бизнес-стратегию на предоставлении услуг устного перевода.

Но долог ли будет век этой стабильности? Искусственный интеллект не стоит на месте и вряд ли обойдет вниманием и эту сферу. Вопрос в том, как скоро машины смогут соперничать с человеком в переводе устной речи. Чтобы иметь возможность строить предположения на этот счет, необходимо разобраться, что же может искусственный интеллект на данном этапе.

Когда речь идет об устном переводе, задача перевода разбивается на две подзадачи: собственно перевод и распознавание речи. О собственно переводе уже написано и будет написано довольно много. А в каком состоянии сейчас находятся технологии распознавания речи? Насколько они способны соперничать с человеком? Ответам именно на эти вопросы и посвящено данное исследование.

Средства распознавания речи можно разбить на две группы. В первую группу входит автономное программное обеспечение для ПК и мобильных устройств. Это классические инструменты, которые ориентированы в первую очередь на диктовку. Другими словами, большинство из таких программ предназначены для того, чтобы преобразовывать голос одного конкретного человека в текст или команды. Соответственно, для повышения качества распознавания голоса их требуется обучать на конкретных примерах, что, разумеется, не способствует повышению качества распознавания речи в общем случае (например, при работе с аудио- и видеозаписями), так как людей множество, и их речь сильно различается. Вторую группу составляют различные интернет-сервисы, количество которых постоянно растет. Анализ показал, что, несмотря на их обилие, число «движков», на базе которых они реализованы, как и в случае машинного перевода, не так уж велико.

Ниже каждая из названных групп будет рассмотрена более подробно.

АВТОНОМНОЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

Говоря о программах распознавания речи, в первую очередь необходимо упомянуть о Dragon NaturallySpeaking от компании Nuance Communications, Inc. Это одна из старейших программ распознавания речи, которая многими до сих пор считается лидером в данной области. Она предназначена прежде всего для диктовки, но также включает в себя функцию распознавания речи из звуковых файлов. Качество распознавания зависит от настроек и выбранного профиля (эталона речи). При этом поддерживается обучение, то есть «натаскивая» программу на определенную речь, можно постепенно улучшать качество распознавания текста. Обучение проводится путем исправления результатов работы — в ходе этого программа самостоятельно корректирует свою модель распознавания.

Работа программы исследовалась на примере небольшого видеоролика на английском языке. Данный видеоролик представляет собой короткий фильм, в котором автор ведет речь на фоне музыки. В конце фильма о его теме высказывают свое мнение еще несколько человек. Таким образом, видеоролик является довольно сложным для распознавания: в нем есть шум, фоновая музыка и многоголосая речь (хотя голоса в ней звучат не одновременно).

Следует отметить, что Dragon NaturallySpeaking поддерживает исключительно аудиофайлы с монозвуком. Напрямую с видеофайлами программа работать не умеет. Таким образом, при необходимости распознавания речи в видеозаписи требуется извлечь из последней звуковую дорожку в требуемом формате. Это, несомненно, осложняет работу, так как большинство файлов, с которым приходиться иметь дело на практике, не удовлетворяют требованиям Dragon NaturallySpeaking. Однако в Интернете есть много сервисов, которые способны бесплатно подготовить файл в нужном формате. Поэтому данное ограничение не является непреодолимым препятствием.

Результаты

Результат работы программы представлен ниже.

Him about 1500 km² century England created Britain is a small country with a large population nearly 59 million people live shot last the population of over 22 million visitors the magazine need to the pool not far from the peak district we see what industry can do to the environment and in the mid-on the new industrial revolution changed the face of the British countryside to his create money they also bring is been a problem in Britain since the 19th century London became famous a mixture smoke smoke continued to be a big problem in the 20th century to in 1952. Some people when the smoke lasted for several the government has introduced North to control pollution for example people onto lots of uncounted towns threats to the environment and 27 million called ancillaries on the roads in Britain for families to come on average the British East and trains one Jenny to take action to free environment has become an important part which is not in such a crowded country it’s essential to protect the countryside to the people can enjoy and you come to the district areas around Hensley’s wall in his name to also lay around she can say and a sister necessary for families to come it’s absolutely beautiful and in certain parts that I come to quite often variations releases lakes Russia is a good office on what one of the country signed so I left comfortable and I like to wildlife any such inability places to say and nice walks today when they are very friendly and I just so much to do in the area denies having the it’s really just

Распознавание нельзя признать идеальным (см. почти идеальный вариант в разделе, посвященном сервису Go Transcribe). Не все распознается правильно, есть пропуски. Однако в целом результат можно признать удовлетворительным: текст передается плавно, без вырезанных кусков (что имеет место в других программах, о чем будет сказано ниже). При этом процент правильно распознанных слов достаточно велик. Кроме того, программу можно обучать прямо в процессе распознавания. Например, добавление в приведенный фрагмент только одного слова «national», которое присутствует в видеоролике, уже позволило улучшить качество распознавания — в тексте появилась отсутствовавшая до этого связка «Manchester and Sheffield». Таким образом, в случае длительных видеозаписей можно добиваться очень хорошего качество распознавания за счет обучения программы на первых 5-10 минутах записи.

Влияние фоновой музыки и шума на качество распознавания

Как отмечалось выше, в анализируемом звуковом файле присутствовали фоновая музыка и шум. В связи с этим возник вопрос: а можно ли повысить качество распознавания речи за счет удаления фона? Чтобы выяснить это, была произведена обработка исходной аудиозаписи в программе Adobe Audition CC 2017, в ходе которой фоновая музыка и шум были полностью удалены из файла. При этом результат распознавания оказался абсолютно таким же, как с фоновой музыкой и шумом. Таким образом, Dragon NaturallySpeaking самостоятельно выделяет фон, и никаких дополнительных манипуляций для подготовки звуковых файлов не требуется. На качество распознавания они не влияют.

Выводы

Программа проста в работе, и разобраться в ее возможностях не составляет труда. С этой точки зрения нареканий нет. Однако качество распознавания без обучения (а на обучение требуется время) все-таки оставляет желать лучшего. И это при том, что на многих форумах и во многих обзорах ПО для распознавания речи Dragon NaturallySpeaking признается лучшей программой в своем классе. Также существенным недостатком является отсутствие поддержки русского языка. Компания Nuance реализовала такую поддержку только для мобильных устройств Apple. Пользователям других платформ остается только смириться с такой дискриминацией.

Достоинства:

Удобство в работе
Поддержка распознавания аудиофайлов (но ограниченная!)
Возможность повышения качества работы за счет обучения в процессе распознавания

Недостатки:

Невысокое качество распознавания без обучения
Отсутствие поддержки русского языка

Еще одна популярная программа для распознавания речи. В отличие от Dragon NaturallySpeaking, она поддерживает множество языков, включая русский, однако предназначена исключительно для диктовки, и поддержки распознавания звуковых файлов в ней нет. Впрочем, такое распознавание становится возможным при использовании так называемого «виртуального кабеля», который имитирует связь микрофона с динамиками. Это позволяет подавать звук из любого приложения, предназначенного для воспроизведения аудио- и видеофайлов, на вход программно реализованного микрофона. В данном исследовании в качестве такого инструмента была выбрана программа Voicemeeter.

Результаты

Местами Braina распознает лучше, чем Dragon NaturallySpeaking. Например, она «услышала» «Manchester and Sheffield» сразу, без какого-либо обучения. Кроме того, ей удалось распознать «Peak District National Park» в самом начале аудиозаписи, что никак не получалось у Dragon NaturallySpeaking. Однако у Braina есть один очень существенный недостаток: если в речи присутствуют большие паузы, она пропускает значительные куски текста, что является неприемлемым. Алгоритм таких пропусков понять не удалось. Просто иногда программа как бы уходит в себя и все. Обучение при этом не поддерживается. Из-за указанных пропусков среднее качество распознавания получается хуже, чем у Dragon NaturallySpeaking. Русский язык, несмотря на его поддержку, распознается из рук вон плохо.

Выводы

Интерфейс Braina еще проще, чем Dragon NaturallySpeaking. Программа поддерживает русский язык (хоть и номинально), имеет лестные отзывы на форумах и в обзорах. Тем не менее, она предназначена только для диктовки и не умеет работать со звуковыми файлами. Чтобы заставить ее работать с файлами, приходится пользоваться сторонними средствами. Обучение не поддерживается. При этом среднее качество распознавания в общем случае довольно низкое, хотя местами программа выдает очень неплохие результаты. Если речь равномерна, не прерывается и не слишком быстра, качество распознавания существенно повышается. Вообще говоря, результаты работы Braina очень похожи на результаты работы сервисов на основе технологии распознавания Google, что наводит на мысли об их родстве.

Достоинства:

Простота
Поддержка множества языков, в том числе русского

Недостатки:

Нестабильное качество распознавания, которое в среднем является неприемлемо низким
Невозможность непосредственной работы с аудиофайлами
Не поддерживается обучение

Программы для работы с русским языком

Как следует из вышесказанного, зарубежное программное обеспечение либо совсем не поддерживает распознавание русскоязычной речи, либо такая поддержка является чисто номинальной. Соответственно, можно предположить, что с такой задачей лучше всего справляются отечественные программы. А так ли на самом деле?

Voco Professional представляет собой отечественную программу с поддержкой распознавания звуковых файлов. Основная ее специализация, как и у большинства других программ, — диктовка. При этом она работает исключительно с русским языком.

Для работы с аудиофайлами Voco Professional не требуется никаких сторонних средств, однако реализована такая работа весьма своеобразно. В MS Word добавляется специальная надстройка, которая и отвечает за распознавание речи в файлах. При этом необходимо отметить, что MS Word должен иметь версию выше 2007, иначе надстройка не установится.

Данная программа исследовалась на примере видеозаписи с русской многоголосой речью без фоновой музыки.

Результаты

Распознавание в Voco Professional — процесс крайне медленный. При этом в отличие от других программ Voco Professional выдает результат только после завершения анализа всего файла. А до этого «счастливого» момента приходится довольствоваться лишь индикатором хода процесса. Сам результат не просто разочаровал, а вообще поставил под сомнение способность программы что-нибудь распознать. Полученный текст не имел ничего общего с исходной аудиозаписью. Понять, к чему относится тот или иной фрагмент, совершенно невозможно. Можно было лишь посмеяться над фразами типа «покойный на лыжных ботинках». Скорее всего, программа понимает исключительно очень качественную диктовку, в которой проговаривается каждое слово. Для работы с аудиозаписями с обычной речью Voco Professional абсолютно непригодна.

Выводы

Крайне низкое качество распознавания не позволяет использовать программу для работы с аудио- и видеозаписями.

Достоинства:

Пренебрежимо малы в связи с крайне низким качеством распознавания

Недостатки:

Крайне низкое качество распознавания речи

Real Speaker — еще один отечественный продукт, предназначенный для распознавания речи. Эта программа, как и многие другие, ориентирована в первую очередь на диктовку. Однако на сайте анонсирована новая версия продукта, которая способна работать и с файлами. Кроме того, там заявлено качество распознавания на уровне 99–100 %. Такое заявление впечатляет. Однако найти Real Speaker живьем пока нельзя. В наличии есть только демо-режим. И в этом режиме поддерживается лишь диктовка. Впрочем, «виртуальный кабель» позволяет обойти данное ограничение и получить представление о возможностях продукта.

Результаты

Качество распознавания Real Speaker в демо-режиме сравнимо с Braina. Никаких выдающих способностей этот продукт не продемонстрировал. Остается надеяться, что в демо-режиме работает еще прежняя версия Real Speaker. А новая версия с качеством распознавания на уровне 99–100 % еще только на подходе и вскоре порадует нас действительно новым уровнем.

Выводы

В текущем состоянии Real Speaker непригоден для распознавания звуковых файлов, но ожидается новая улучшенная версия. Ждем с нетерпением!

ИНТЕРНЕТ-СЕРВИСЫ

В интернете существует очень большое количество как платных, так и бесплатных сервисов, которые предлагают свои услуги в области распознавания речи. Однако, как оказалось, несмотря на такое изобилие, выбор не так уж и велик.

Поскольку подавляющее большинство интернет-сервисов для распознавания речи не сильно различаются по своим возможностям, нет смысла описывать все исследованные сервисы (а их было исследовано более десятка). Остановимся лишь на отдельных характерных представителях.

Сервисы на основе технологии распознавания речи Google

Сервисов на базе «движка» Google очень много. В качестве примеров можно привести Speechlogger и Speechpad. Все они поддерживают множество языков, включая русский, и не поддерживают работу с файлами напрямую. Таким образом, если речь идет не о диктовке, требуется обязательно использовать «виртуальный кабель». При этом работать с файлами можно лишь в одном браузере — Google Chrome.

Результаты

Характер распознавания у сервисов на основе технологии Google различается, однако в среднем качество примерно одинаково. Причем оно практически идентично качеству работы программа Braina: местами очень неплохо, но пропускаются большие куски. Как и у Braina, если речь равномерна, не прерывается и не слишком быстра, качество распознавания приемлемо.

Выводы

Основным достоинством сервисов на основе технологии Google является их доступность (по большей части они бесплатны) и простота. Качество распознавания не слишком высокое, но и низким назвать его нельзя (среднее для своего класса). Для распознавания речи в аудиофайлах, как правило, требуется «виртуальный кабель» и браузер Google Chrome.

Достоинства:

Недостатки:

Невысокое качество распознавания речи
Необходимость использования сторонних средств («виртуального кабеля»)

Технология распознавания речи Microsoft

У технологии распознавания речи Google есть прямой конкурент — технология распознавания речи Microsoft. Однако возможности данной технологии по всем обзорам и оценкам, которые можно найти в интернете, ниже, чем у Google и других, поэтому в данном исследовании она не участвовала.

После многочисленных исследований и испытаний создалось впечатление, что технология распознавания речи стоит на месте. Кто-то лучше, кто-то хуже, но прорывов в целом нет. И тут на горизонте возник очередной (но, как оказалось, не совсем очередной) сервис Go Transcribe.

Go Transcribe — платный интернет-сервис. Однако стоимость его услуг (см. ниже) не так уже велика, поскольку качество, забегая вперед, превосходит ожидания. Примерно за 100 долл. США можно распознать целых 10 часов речи. Причем первые 10 мин. можно обработать бесплатно.

Сервис Go Transcribe исследовался на тех же файлах, что и все прочие продукты. Но результаты оказались совершенно другими.

Результаты

Качество распознавания впечатляет и удивляет. Ниже представлен результат распознавания для того же фрагмента, который ранее приводился при описании Dragon NaturallySpeaking.

This is the Peak District National Park. It covers an area of about 1500 square kilometres in the centre of England. The government created national parks in 1949.

To protect the environment. Britain is a small country with a large population nearly fifty nine million people live. Seventy five percent in towns and cities.

The Peak District lies between Manchester and Sheffield and this several other large towns and cities. A third of the population of Britain can get here in less than an hour. In fact there are over 22 million visitors. Every year.

On the River Mersey near Liverpool not far from the Peak District we see what industry can do to the environment. Here in the Midlands and the North of England the industrial revolution changed the face of the British countryside. Factories create money and employment but they also bring problems. Pollution has been a problem in Britain since the 19th century. At that time London became famous for its smog a mixture of smoke and fog. Smog continued to be a big problem in the twentieth century too. In 1952 4000 people died when the smog lasted for several days. Since then the government has introduced laws to control pollution for example people aren’t allowed to burn coal in towns and cities. New threats to the environment have appeared. There are now 27 million cars vans and lorries on the roads in Britain. A quarter of families have two or more cars. On average the British use buses and trains for only one out of 10 journeys.

Many cities have taken action to deal with increasing traffic. This is the High Street in Oxford. Only buses taxis and bicycle. Can use this street during the day. Many other British cities now have traffic free areas.

Making after the environment has become an important part of British life in such a crowded country. It’s essential to protect the countryside so that people can enjoy it. Why do you come to the Peak District. As lovely areas around here and there’s loads of walks in nature walks when they’re out and you can see. And.

It’s just an accessory for families to come. It’s absolutely beautiful. I love walking. Here.

Certain parts that I come to quite often come along in variations as valleys as water streams and rivers lakes. Russia would have a good start when you’ve been there.

I love the countryside so I love to come for a walk and I like to know the wildlife there is such lovely places to see and nice walks to do and the people are very friendly. It’s just so much to do in the area. It’s very nice. And. When the weather’s good it’s really beautiful isn’t it.

Как можно видеть, английская речь распознается практически идеально (лучше даже представить трудно). Причем даже на фоне шума или музыкального сопровождения. Русский язык распознается хуже, но качество распознавания все равно на голову выше, чем у конкурентов. К тому же, Go Transcribe поддерживает не только все форматы звуковых файлов, но и видеофайлы.

Выводы

Сервис Go Transcribe очень прост в работе. Необходимо всего лишь загрузить нужный файл. Распознавание запускается автоматически сразу после загрузки файла. Результат можно редактировать, однако чаще всего это не требуется. На данный момент Go Trinscribe является несомненным лидером по качеству и, возможно, обеспечивает лучшее качество распознавания речи. Едва ли найдется что-то, что может его существенно превзойти.

Достоинства:

Качество, качество и еще раз качество

Недостатки:

Платный (98 долл. США за 10 часов речи), но качество превосходит стоимость

ЗАКЛЮЧЕНИЕ

В данном обзоре представлены результаты исследования программного обеспечения для распознавания речи, которое может стать посредником между человеком и машинным переводом. Пока таким продуктам еще очень далеко до людей. Однако есть среди них лидеры, которые ушли далеко вперед. Например, сервис Go Transcribe уже умеет распознавать речь на уровне, очень близком к уровню человека. Причем практически в любых условиях. Исключение составляет лишь многоголосая одновременная речь. Распознавать одновременную речь нескольких человек пока не способна ни одна программа. Это исключительная прерогатива человека. Но все развивается… И возможно, скоро устные и письменные переводчики окажутся в равных условиях.

(1 голосов, оценка: 5,00 из 5) Загрузка...

www.primavista.ru

Распознавание речи — Технологии Яндекса

Распознавание речи (speech-to-text — stt) — это процесс преобразования речи в текст. SpeechKit Cloud позволяет распознавать спонтанную речь на нескольких языках.

русский
английский
украинский
турецкий

SpeechKit решает задачу распознавания в два этапа. На первом этапе в аудиосигнале выделяются наборы звуков, которые могут быть интерпретированы как слова. Для каждого набора звуков обычно существует несколько вариантов слов — то есть несколько гипотез.

На втором этапе подключается языковая модель, которая позволяет проверить каждую гипотезу с точки зрения структуры языка и контекста — насколько данное слово согласуется со словами, распознанными ранее. Система распознавания проверяет гипотезы, пользуясь языковой моделью как словарем. Создание такого словаря — это сложная вычислительная задача, здесь используется машинное обучение нейронных сетей.

Нейронная сеть обучается на речи, которая обычно используется в той или иной области. Поэтому языковые модели специализируются на распознавании речи определенной тематики. Например, для распознавания номера телефона лучше всего подходит модель Числа, а для того чтобы распознать имя и фамилию абонента, следует использовать модель Имена.

Список доступных языковых моделей приведен ниже.

Русский язык
Английский язык
Украинский язык
Турецкий язык

Короткие запросы (queries) — фразы (3—5 слов) на различные темы, в том числе запросы в поисковых системах (на сайтах).

Например:
- [покажи следующий поворот]
- [соединить с отделом продаж]
- [еще чашку кофе и две мягких французских булочки]
- [какая погода во владивостоке]
- [напомни купить овощей и фруктов по дороге домой]
Адреса (maps) — адреса, названия организаций и географических объектов.

Например:
- [поехали на улицу кирпичные выемки пять]
- [сколько ехать от льва толстого до новой земли]
- [покажи маршрут до музея маяковского]
Даты (dates) — названия месяцев, порядковые и количественные числительные.

Например:
Имена (names) — имена и фамилии, просьбы соединить по телефону.
Например:
- [щукин платон]
- [соедините с людчиком]
- [переговорить с васей васиным]
Числа (numbers) — количественные числительные от 1 до 999 и разделители — точка, запятая, тире. Модель подходит для диктовки номеров телефонов, счетов, документов.

Например:
- [два двенадцать восемьдесят пять ноль шесть]
- [сто пятьдесят семь запятая пятнадцать сорок три]
Музыка (music) — названия музыкальных произведений и исполнителей. Модель не предназначена для распознавания музыкальных фрагментов. Подходит только для распознавания названий, имен авторов и исполнителей песен.

Например:
- [третий концерт рахманинова для фортепиано с оркестром]
- [алла пугачева любовь похожая на сон]
Заказы (buying) — фразы, связанные с оформлением заказов в интернет-магазинах (подтверждение заказа и форма доставки).

Например:
Полный список словосочетаний
адресная доставка, брак, в офис, верно, возврат, да, давай, давайте оформим, до двери, домой, доставка, другое, заказ, консультация, кредит, на работу, не знаю, не надо, не подтверждаю, не согласен, не хочу, неверно, нет, новая почта, ок, окей, оплата, отмена, оформить, ошибка, подтверждаю, поломался товар, попробуем, сам, сам заберу, самовывоз, сервис, склад, согласен, сотрудничество, статус, хочу, хочу купить.

Для подготовки моделей используются большие массивы данных из сервисов и приложений Яндекса. Это позволяет постоянно улучшать качество распознавания.

Точность распознавания зависит от качества исходного звука, качества кодирования аудио, разборчивости и темпа речи, сложности фраз и их длины. Важно, чтобы тематика речи соответствовала выбранной языковой модели — это повышает точность распознавания.

Скорость распознавания зависит от способа передачи звуковых данных. Если данные передаются частями, распознавание происходит одновременно с передачей данных. В этом случае разрыв между окончанием отправки данных и получением результата обычно не превышает 1 секунды.

Формат передаваемых данных описан в разделе Формат запроса. Следует учитывать, что SpeechKit Cloud преобразует полученные аудио данные в моно PCM/16 бит/16 кГц.

tech.yandex.ru

Перевод речи в текст: топ-5 программ

Ни одна программа не сможет полностью заменить ручную работу по расшифровке записанной речи. Однако существуют решения, которые позволяют существенно ускорить и облегчить перевод речи в текст, то есть, упростить транскрибацию.

Содержание: 1. Сайт speechpad.ru 2. Сервис dictation.io 3. RealSpeaker 4. Speechlogger 5. Dragon Dictation

Транскрибация – это запись аудио или видео-файла в текстовом виде. Есть в интернете оплачиваемые платные задания, когда за транскрибацию текста исполнителю выплачивается некоторая сумма денег.

Перевод речи в текст полезен

студентам для перевода записанных аудио- или видео-лекций в текст,
блогерам, ведущим сайты и блоги,
писателям, журналистам для написания книг и текстов,
инфобизнесменам, которым нужен текст после проведенного ими вебинара, выступления и т.д.,
людям, которым сложно печатать – они могут надиктовать письмо и послать его родным или близким,
другие варианты.

Опишем наиболее эффективные инструменты, доступные на ПК, мобильные приложения и онлайн-сервисы.

1 Сайт speechpad.ru

Это онлайн-сервис, который позволяет через браузер Google Chrome переводить речь в текст. Сервис работает с микрофоном и с готовыми файлами. Конечно, качество будет значительно выше, если использовать внешний микрофон и диктовать самому. Однако сервис неплохо справляется даже с видеороликами на YouTube.

https://speechpad.ru/

Нажимаем «Включить запись», отвечаем на вопрос про «Использование микрофона» – для этого кликаем «Разрешить».

Длинную инструкцию про использование сервиса можно свернуть, нажав на кнопку 1 на рис. 3. От рекламы можно избавиться, пройдя несложную регистрацию.

Рис. 3. Сервис speechpad

Готовый результат легко редактируется. Для этого нужно либо вручную исправить выделенное слово, либо надиктовать его заново. Результаты работы сохраняются в личном кабинете, их также можно скачать на свой компьютер.

Список видео-уроков по работе с speechpad:

https://speechpad.ru/help.php

Можно транскрибировать видео с Youtube или со своего компьютера, правда, понадобится микшер, подробнее:

Видео «транскрибирование аудио»

Работает сервис с семью языками. Есть небольшой минус. Он заключается в том, что если нужно транскрибировать готовый аудио-файл, то его звучание раздаётся в колонки, что создает дополнительные помехи в виде эха.

2 Сервис dictation.io

Замечательный онлайн-сервис, который позволит бесплатно и легко переводить речь в текст.

Рис. 4. Сервис dictation.io

1 на рис. 4 – русский язык можно выбрать в конце страницы. В браузере Google Chrome язык выбирается, а в Мозилле почему-то нет такой возможности.

Примечательно то, что реализована возможность автосохранять готовый результат. Это убережет от случайного удаления в результате закрытия вкладки или браузера. Готовые файлы этот сервис не распознает. Работает с микрофоном. Нужно называть знаки препинания, когда производите диктовку.

Перейти на сервис: https://dictation.io/

Текст распознается достаточно корректно, орфографических ошибок нет. Можно самостоятельно вставлять знаки препинания с клавиатуры. Готовый результат можно сохранить на своем компьютере.

3 RealSpeaker

Эта программа позволяет легко переводить человеческую речь в текст. Она предназначена для работы в разных системах: Windows, Android, Linux, Mac. С ее помощью можно преобразовывать речь, звучащую в микрофон (например, он может быть встроен в ноутбук), а также записанную в аудиофайлы.

Может воспринимать 13 языков мира. Существует бета-версия программы, которая работает в режиме онлайн-сервиса:

https://transcribe.realspeaker.org/

Нужно перейти по указанной выше ссылке, выбрать русский язык, загрузить на онлайн-сервис свой аудио- или видео-файл и оплатить его транскрибацию. После транскрибации можно будет скопировать полученный текст. Чем больше файл для транскрибации, чем больше времени понадобится на его обработку, подробнее:

В 2017-ом году был бесплатный вариант транскрибации с помощью RealSpeaker, в 2018-ом году такой возможности нет. Сильно смущает тот момент, что транскрибированный файл доступен всем пользователям для скачивания, возможно это будет доработано.

Контакты разработчика (ВКонтакте, Facebook, Youtube, Telegram, Твиттер, электронная почта, телефон) программы можно найти на странице его сайта (точнее, в подвале сайта):

http://www.realspeaker.me/ru

4 Speechlogger

Альтернатива предыдущему приложению для мобильных устройств, работающих на Android. Доступно бесплатно в магазине приложений:

https://chrome.google.com/webstore/detail/speech-recognition-transl/jjgohjmefljmabkekbfgfhockfegohfp?hl=ru

Текст редактируется автоматически, в нем расставляются знаки препинания. Очень удобно для того, чтобы надиктовывать себе заметки или составлять списки. В результате текст получится весьма достойного качества.

5 Dragon Dictation

Это приложение, которое распространяется бесплатно для мобильных устройств от компании Apple.

Программа может работать с 15 языками. Она позволяет редактировать результат, выбирать из списка нужные слова. Нужно четко проговаривать все звуки, не делать лишних пауз и избегать интонации. Иногда возникают ошибки в окончаниях слов.

Приложение Dragon Dictation используют обладатели яблочных гаджетов, например, чтобы, перемещаясь по квартире, надиктовать список покупок в магазине. Приду туда, можно будет посмотреть на текст в заметке, и не надо слушать.

Какую бы программу Вы ни использовали в своей практике, будьте готовы перепроверять результат и вносить определенные коррективы. Только так можно получить безукоризненный текст без ошибок.

Также полезные сервисы:

1. Программы для создания электронной книги

2. Оповещения Google Alerts – зачем и как пользоваться, примеры использования

3. Голосовой поиск на компьютере через Гугл Хром или Яндекс Браузер

Получайте актуальные статьи по компьютерной грамотности прямо на ваш почтовый ящик. Уже более 3.000 подписчиков

Важно: необходимо подтвердить свою подписку! В своей почте откройте письмо для активации и кликните по указанной там ссылке. Если письма нет, проверьте папку Спам.

www.compgramotnost.ru

Распознавание речи онлайн

Это приложение является средством считывания речи/голоса Что это значит? Это значит, что Вы можете просто надиктовать текст не пошевелив пальцем - и система запишет его.

Приложение имеет такие функциональные особенности:

Оно бесплатно и доступно онлайн
Не требует загрузок, установки или регистрации. Поддерживает разные платформы
Имеет мультиязычную поддержку
Вы можете поставить на паузу или остановить диктовку (будет сохранено положение последнего слова)
Распознает голосовые команды для знаков пунктуации: например, скажите «запятая» - и синтезатор напечатает «,»
Умное проставление заглавных букв
Вы можете сохранять, копировать, распечатывать или отправлять надиктованный текст.

Средство распознавания речи предназначено для тех, кто испытывает проблемы со здоровьем: глазами и/или спиной. Вы можете просто диктовать текст лежа на диване и не напрягая глаз.

Также это средство предназначено для людей, которые печатают медленно или просто слишком ленивы, чтобы печатать:)

Могут возникнуть следующие проблемы:

Аппаратная проблема с микрофоном
Браузер не поддерживает синтез речи (последняя версия «Chrome» поддерживает его)
Нет разрешения доступа к микрофону
Браузер слушает не тот микрофон

Для решения проблемы с разрешением доступа к микрофону нажмите на иконку камеры в адресном рядке браузера (она появится, когда Вы нажмете на кнопку «Воспроизвести»), далее выставьте разрешение для использования микрофона и выберите необходимый микрофон из выпадающего списка.

В случае каких-либо других проблем, просто попробуйте перезагрузить бразуер несколько раз или свяжитесь с нами, детально описав суть проблемы.

СкажитеПолучите

Точка	.
Запятая	,
Точка с запятой	;
Двоеточие	:
Тире, Дефис	-
Знак вопроса	?
Восклицательный знак	!
Открытая скобка	(
Закрытая скобка	)
Новая строчка, Новая строка	↵
Новый абзац	↵↵

www.textfromtospeech.com

Распознавание речи русской

Программы распознавания речи. Что понимает искусственный интеллект?

Распознавание речи — Технологии Яндекса

Перевод речи в текст: топ-5 программ

1 Сайт speechpad.ru

2 Сервис dictation.io

3 RealSpeaker

4 Speechlogger

5 Dragon Dictation

Распознавание речи онлайн

Смотрите также