Чем занимается цифровой лингвист

Компьютерный лингвист

разрабатывает программы для обработки естественного языка, создает инструменты распознавания текста и речи, системы перевода, голосовых ассистентов, персональных помощников, «умных» чат-ботов

Человека окружает большое количество языковой информации, представленной в разных форматах: аудио-, видео-, текстовом. Используя алгоритмы обработки текста, лингвист имеет возможность собрать информацию о необходимых объектах: например, нравится ли зрителям определенный фильм или за кого будут голосовать пользователи твиттера на выборах.

Компьютерные лингвисты разрабатывают программы, которые воспроизводят когнитивную языковую деятельность человека — умение читать, понимать на слух, говорить, участвовать в диалоге, переводить с одного языка на другой. В их задачи входит создание инструментов, которые помогают извлекать лингвистическую информацию из текстов, размечать лингвистические признаки в текстах, создавать ресурсы для хранения лингвистических единиц, например, для хранения слов, их значений, их семантических и морфологических свойств.

Компьютерные лингвисты востребованы крупными IT-компаниями, чья деятельность связана с обработкой больших объемов текстовых или речевых данных. Они могут работать в науке, СМИ, торговле, финансах, здравоохранении — везде, где требуется применение современных информационных технологий к лингвистическим данным.

Оценки рынка

16,1%
составит ожидаемый среднегодовой рост рынка обработки естественного языка в мире в период с 2016 по 2021 год (с 7,63 до 16,07 миллиардов долларов)

Источник

Цифровой лингвист: как учить роботов разговаривать по-человечески

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

Кто такой цифровой лингвист

Цифровой (или компьютерный) лингвист — это специалист, который обрабатывает данные на естественных для алгоритмов машинного обучения языках, в том числе нейросетей. Благодаря такой обработке и последующей работе дата-сайентистов машины «учатся» распознавать человеческий язык и делать автоматические переводы с одного человеческого языка на другой, выявлять ошибки в текстах, превращать устную речь в письменную, правильно реагировать на голосовые команды, отвечать на вопросы в чат-ботах.

Например, чтобы научить алгоритмы находить ошибки, цифровой лингвист обрабатывает огромный массив текстовых данных, в котором размечает правильные, и неправильные варианты использования слов. Он работает над созданием электронных словарей и тезаурусов, оптическим распознаванием символом — когда машина считывает текстовые данные с изображений и делает их доступными для редактирования.

Благодаря работе цифровых лингвистов существует и пополняется Национальный корпус русского языка — открытая база русскоязычных текстов с более чем 900 млн слов, которую используют для языковых исследований.

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

Ключевые навыки цифрового лингвиста

Естественные и компьютерные языки роднит то, что они все относятся к знаковым системам. Поэтому хороший цифровой лингвист — это человек, который умеет работать с обеими системами и находить в них точки соприкосновения. Желательно, чтобы он владел не только английским, но и другими иностранными языками.

Для такого специалиста крайне важно обладать системным мышлением, хорошей памятью и способностью долго концентрироваться на монотонных задачах, поскольку ему предстоит обрабатывать большие массивы данных. Чтобы алгоритмы и нейросети запоминали верную информацию, от цифрового лингвиста требуется знание достоверных источников данных для анализа и безупречная грамотность для их верной разметки и трактовки.

Кроме того, цифровому лингвисту предстоит много общаться с разработчиками и дата-сайентистами, которые будут работать с размеченными данными. Поэтому ему важно не просто работать с данными, но и создавать методологию, объяснять ее принципы коллегам. Хорошие навыки межотраслевой коммуникации в этом плане будут не лишними.

Откуда придет профессия

Первый машинный перевод был сделан в ходе «Джорджтаунского эксперимента» 1954 года. Тогда компьютер IBM 701 перевел с русского языка на английский более 60 предложений. Так что можно говорить о том, что цифровая лингвистика де-факто существует почти 70 лет. В 1960-х годах этот раздел лингвистики появился в качестве составной части специальности «Теоретическая и прикладная лингвистика» в МГУ имени М.В. Ломоносова. Хотя инструменты и технологии за эти годы изменились, суть работы специалистов осталась прежней.

Тренды и направления профессии

Если говорить о задачах синтеза речи, машинного перевода и развитии диалоговых систем, то в них устойчивый тренд — достижение максимальной естественности языка при минимальных затратах.

Например, переводчики используют CAT-программы, которые сокращают время работы с помощью машинных переводов или технологии Translation Memory ™. Благодаря последней алгоритмы запоминают исходный и переведенный тексты и при загрузке следующих ищет совпадения, чтобы автоматически их перевести.

Уже есть языковые модели вроде GPT-3 и YaLM, которые пишут полные предложения, подсчитывая из терабайтов данных их наиболее вероятный ответ на введенные в специальное поле слова. Они используются для поисковиков, чат-ботов и создания простых текстов.

Сейчас такой настройкой машин в основном занимается человек, но в будущем и алгоритмы будут обучать друг друга естественным языкам. Ведь искусственный интеллект «Google Переводчика» уже научился самостоятельно искать перевод слов.

Также цифровая лингвистика — основа технологий для людей с ограниченными возможностями. Перевод устной речи в текст и автоматическое чтение готовых материалов, распознавание голосовых команд компьютерами, смартфонами и других «умных» устройств — направления, востребованные в здравоохранении.

По мнению продуктового аналитика 65apps и прикладного лингвиста Анны Куликовой, главная задача цифровой лингвистики сегодня — подготовка оцифрованных лингвистических данных высокого качества, особенно для языков, отличных от английского, и внедрение лингвистических технологий в производственные процессы.

«На мой взгляд, современные алгоритмы обработки естественного языка дают более чем хороший результат, в том числе в смысле «естественности». Тест Тьюринга, когда человек не может отличить, с кем он разговаривает — с человеком или компьютерной программой, уже давно и не раз был пройден. Когда-то именно он был сформулирован в качестве основного критерия способности машины мыслить, однако восстания машин мы до сих пор не наблюдаем. Новые разработки при прочих равных условиях дают прирост в сотые доли процентов точности, в то время как хорошо подобранные и грамотно размеченные лингвистические данные являются определяющим фактором эффективности работы компьютерных программ. Думаю, что общество сначала должно суметь «переварить» то, что предложила ему наука, прежде чем наука сможет совершить новый качественный скачок».

Как стать цифровым лингвистом

В России есть несколько способов получить такое образование:

Источник

Цифровой лингвист

Для обеспечения потребности в обучении ИИ планируется введение новой профессии – цифровой лингвист, которая по данным «Атласа новых профессий» должна появиться в начале третьего десятилетия 21 века. Сегодня мы предлагаем вам узнать, чем именно будут заниматься эти специалисты и какие перспективы развития их ожидают.

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

В эпоху цифровизации особо актуальным вопросом является «налаживание отношений» между человеком и искусственным интеллектом. Ранее считалось, что эффективная работа с компьютерами подвластна только людям с техническим складом ума. Но теперь, когда компьютер можно найти практически в каждом доме, а техника научилась разговаривать и понимать человеческую речь, значительно увеличился спрос на специалистов, которые смогут сделать работу с искусственным интеллектом еще проще, еще понятнее.

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

Кто такой цифровой лингвист?

Цифровой лингвист – эксперт в области разработки лингвистических систем для семантического перевода текстов, обработки текстовой информации и создания новых способов общения между человеком и компьютером.

История развития лингвистики, как науки, длится уже не одно столетие. За все это время множество известных личностей посвящали жизнь изучению проблематики различных языков. Но изменившиеся условия жизни требуют от лингвистов, как и от специалистов других рыночных сегментов, освоения новых навыков межотраслевой коммуникации. Цифровой лингвист – очередной этап профессионального развития, на котором специалисту потребуется преодолеть множество подводных камней, которые, конечно же, принесут свои плоды.

Для освоения профессии цифрового лингвиста потребуется:

В компетенцию специалиста по цифровой лингвистике входит:

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

Какими личностными качествами должен обладать цифровой лингвист?

По сути, цифровой лингвист – это сочетание языковеда и специалиста в области компьютерных наук. Поэтому в этом специалисте объединяются качества, характерные для этих двух, казалось бы, несовместимых профессий.

Работа с компьютером и базами данных предполагает наличие математических и аналитических способностей, а также умения работать с большими потоками информации. Лингвистический же аспект дополняет профессию такими качествами, как:

Кроме того, обучение искусственного интеллекта потребует от специалиста усидчивости и терпения. А поскольку деятельность цифрового лингвиста связана с обнаружением ошибок, которые так или иначе возникают при работе с машинами, и поиском решений по их устранению, для него свойственно стремление к совершенствованию, упорство, способность длительное время концентрироваться на одной задаче, выполнять монотонную работу и структурировать большие потоки данных.

Преимущества профессии цифровой лингвист

В 2019 году вопрос о совершенствовании и распространении искусственного интеллекта был включен в национальную стратегию развития. Данное решение, а также тот факт, что цифровая лингвистика включена в перечень профессий будущего, открывает большие перспективы перед специалистами, работающими в этой области. Увеличение спроса на цифровых лингвистов, способных эффективно обучать речи машину, отмечается уже сейчас, а в дальнейшем он будет только возрастать.

Нельзя не сказать о том, что появление этой новой профессии открывает большие возможности для профессионального роста гуманитариев, чьи компетенции длительное время были ограничены. По данным аналитиков, многие лингвистические специальности постепенно устаревают, поэтому освоение нового направления позволит им сохранить конкурентоспособность на рынке труда.

Поскольку данная профессия находится на этапе становления, компании испытывают существенный дефицит кадров. Другими словами, сегодня, и в ближайшие годы, молодому специалисту будет очень просто найти место в крупнейших компаниях, работающих в сфере информационных технологий, которые смогут сделать выгодное предложение не только по дальнейшему обучению своего сотрудника, но и по заработной плате.

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

Недостатки профессии цифровой лингвист

Для цифровых лингвистов, как и для других профессий, связанных с компьютерными технологиями, характерен сидячий образ жизни и постоянное зрительное напряжение. Это увеличивает риск возникновения заболеваний опорно-двигательного аппарата, ухудшения зрения, дисфункции сосудистой системы.

Хотя получение образования по этому направлению не займет много времени, профессиональная деятельность подразумевает непрерывное обучение и развитие новых навыков, что потребует от цифрового лингвиста дополнительных усилий, готовности к совмещению работы с учебой и отказом от многих увлечений, ради карьерного роста.

Где можно получить профессию цифровой лингвист?

Специальность подойдет для людей, склонных к изучению информатики, иностранных языков и математики. По окончанию школы можно поступить в высшее учебное заведение, выбрав направление «Фундаментальная и прикладная лингвистика». Сразу скажем, что в некоторых ВУЗах страны уже сегодня действуют магистерские программы по обучению компьютерной и когнитивной лингвистике, которые позволяют работать в области автоматического анализа естественного языка. Поэтому выпускники этого года могут без проблем получить перспективную новую профессию, которая откроет перед ними большие возможности.

Для освоения профессии абитуриентам стоит обратить внимание на следующие образовательные организации:

Стоит отметить, что профессия цифрового лингвиста доступна не только выпускникам школ. Опытные программисты, переводчики и другие специалисты из смежных направлений могут пройти профессиональную переподготовку и дополнить свою базу знаний. Да и выпускникам ВУЗов, обучавшимся на факультетах иностранных языков или компьютерных технологий, можно будет увеличить уровень профессиональной компетенции на специальных курсах.

Источник

Чем занимается цифровой лингвист

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвистRyan McGuire, Gratisography.com


новые профессии

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

«Изменение языка – самая нормальная вещь в мире»

Цифровой лингвист – новая профессия, которая выделится и станет востребованной предположительно к 2020 году. Эти специалисты будут разрабатывать системы семантического перевода, а также интерфейсы для естественного общения людей с компьютерами. Цифровой лингвистикой занимаются и сейчас – мы попросили лингвиста Ноа Бубенхофера рассказать, в чем суть этой профессии, а заодно узнали, как относиться к языковому пуризму и интернет-языку.

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

Лингвист. Занимается исследованием социальных и культурных явлений. Изучал германистику, коммуникации, журналистику и социологию в Базельском и Фрайбургском университетах. С марта 2015 года ведет проект «Визуальная лингвистика» в Институте вычислительной лингвистики Цюрихского университета. Научный сотрудник на кафедре прикладной лингвистики в Институте германистики Дрезденского технологического университета. Соучредитель исследовательской группы Semtracks Research Group. Ранее работал научным сотрудником в Институте немецкого языка в Мангейме и координатором проекта в гейдельбергском Центре американских исследований.

Ноа, что изучает цифровая лингвистика и чем цифровой лингвист занимается изо дня в день? Расскажите о своей исследовательской работе?

Ноа Бубенхофер: Мы живем в цифровом мире, наша коммуникация полностью цифровая, мы дружим в соцсетях, и массовая коммуникация тоже стала совершенно цифровой. Для лингвистов интересно вот что. С одной стороны, у нас есть легкий доступ к лингвистическим данным, корпусам текстов. То, что пишут люди, – интересный источник информации для анализа и выяснения важных тем, обсуждаемых в обществе. Мы исследуем, о чем и как говорят политики и правительства, институции, компании, организации, сообщества и т. д., какой нарратив о событиях более или менее удачен. Например, как различаются дискуссии об украинском конфликте в России и Германии, какие термины используются и какой от этого эффект.

С другой стороны, цифровой мир интересен тем, что мы сталкиваемся с новыми формами коммуникации, которые не существовали раньше: email, дистанционная переписка, твиты, посты в блогах и соцсетях и т. д. Мы изучаем, как медиа влияют на язык пользователей.

Расскажите об отношениях цифровой, вычислительной, визуальной лингвистики, интернет-лингвистики и других сегментов этого большого поля? Связаны ли они с Big Data? Какова практическая польза от этих исследований для общества?

Ноа Бубенхофер: Работа с лингвистическими данными из цифровых источников связана с некоторыми сложностями. Часто это Big Data, большие данные, которые предварительно нужно обработать автоматически. Вычислительная лингвистика помогает разработать инструменты для автоматической обработки естественного языка. Так что становится возможным оценить, к примеру, позитивно высказывание или негативно, какие синтаксические структуры мы обнаружили в этом высказывании и – до некоторой степени – что оно означает.

Зачастую полезно визуализировать лингвистические данные, чтобы получить лучшее представление. Например, использовать сетевой граф, чтобы увидеть, какие слова часто встречаются в текстовых корпусах. Какова практическая ценность использования этих методов? Это возможность лучше понять общество и роли разных игроков. Мы видим, как использование языков формирует наше представление о мире, – и это вселяет надежду, что как члены общества мы можем участвовать в дискурсах более эмансипированно.

Что вы думаете о создании новых языков посредством Интернета и цифровых технологий? Часто звучит идея, что нужно сохранять чистые классические языки и их правила. Может быть, на самом деле мы уже говорим на новых цифровых языках с их собственной логикой – и нет нужды останавливать этот процесс или мешать ему?

Ноа Бубенхофер: Изменение языка – самая нормальная вещь в мире. Языки всегда менялись и будут меняться. Это жизненно важно для языков – адаптироваться к новым реалиям. Попробуйте пообщаться со своими друзьями на латыни или старославянском – у вас не будет слов и выражений, чтобы сказать то, что вы хотите, и передать свои чувства, например, с помощью смайликов.

Конечно, при использовании языка зачастую приходится что-то делать с отличиями. Молодые люди или специфические комьюнити вырабатывают собственные вариации языка, чтобы показать другим людям: «Мы – сообщество, и вы к нему не принадлежите».

Что вы думаете об идее, что мы превращаемся в «цифровое человечество» с другим типом языковой логики? По вашему мнению, языки программирования станут нашей «общей семантикой» в будущем?

Ноа Бубенхофер: Искусственные языки обычно не слишком удачны. В целом сложно систематически влиять на использование языка. Новые медиа и технические реалии, конечно, формируют наш язык, и это важно для того, чтобы догонять эти новые реалии.

В «Атласе новых профессий» говорится о том, что цифровой лингвист будет разрабатывать лингвистические системы семантического перевода с учетом контекста и смысла, а также новые интерфейсы общения между человеком и компьютером на естественных языках.

Ноа Бубенхофер: Это важная тема в вычислительной лингвистике, там есть цель – научить компьютеры «понимать» высказывания и обрабатывать их, например, переводить на другие языки. Это будет получаться все лучше в ближайшие годы. Google Translate уже работает довольно хорошо, а вокруг много еще более специализированных инструментов. Благодаря исследованиям в области вычислительной лингвистики, уже в наши дни можно поговорить со своим смартфоном и сказать ему, что делать.

Видела интригующую фразу на вашем сайте о 10 причинах удалиться из Facebook – интересно мнение лингвиста на этот счет.

Ноа Бубенхофер: Ну, это изнанка цифрового мира. Наши жизни стали цифровыми, и поэтому таким компаниям, как Facebook, а также спецслужбам легко следить за нами, как показали нам недавно Эдвард Сноуден и другие разоблачители. Так что самое главное – защищать конфиденциальность ваших данных, критически смотреть на собирателей данных и их цели.

По моему мнению, для свободной демократии исключительно важна прозрачность в том, что касается принятия решений (и цифровые медиа справляются с этим прекрасно), – но также важно и защищать частную жизнь граждан. Моя задача как цифрового лингвиста – предвидеть, прогнозировать методы сбора данных и дата-майнинга, чтобы оценивать, что другие, вероятно, сделают, – и рассказывать об этом.

Zillion: 1. В лингвистике «корпус» – это подобранная и обработанная по правилам совокупность текстов, используемых в качестве базы для исследования языка: статистического анализа, проверки гипотез и подтверждения правил в языке. 2. Сетевой граф – граф, который отражает взаимосвязи. 3. Дата-майнинг (Data Mining) – «интеллектуальный анализ данных», «глубинный анализ данных», собирательное название для методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных знаний.

Источник

ScienceHub #06: Компьютерная лингвистика

Продолжая поездки по лабораториям ученых, мы попали в компанию ABBYY, и побеседовали с Анатолием Старостиным, руководителем группы семантического анализа и преподавателем кафедры «Компьютерная лингвистика» в МФТИ. Он рассказал о работе своей группы, направлениях компьютерной лингвистики в ABBYY и кто такие онтоинженеры.

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

Для начала нужно определиться с терминологией. Итак, компьютерная лингвистика – это наука, с одной стороне, о языке, а с другой стороны – о том, как работать с языком (не всегда естественным) с помощью компьютерных методов. Это наука, возникшая на стыке лингвистики и computer science. Компьютерная лингвистика под разными углами рассматривает естественный, формальный язык. В центре этой науки понятие языка, которое можно рассматривать с разных сторон. Его можно рассматривать, например, формально. Есть еще такая область, как математическая лингвистика, она возникла раньше компьютерной и представляет собой раздел математики, в котором есть свои теоремы, доказательства, формальные объекты.

В компьютерной лингвистике важно, что всегда в центре стоит практическая конкретная задача, которую нужно решить. Например, синтаксический автоматический анализ, машинный перевод, распознавание речи.

Что такое синтаксический анализ: когда есть стандартная для школьников задача – определить, где в предложении какие члены, какие слова главные, а какие – подчиненные, но сделать это без участия человека, автоматическим способом. Для этого у компьютера на входе есть цепочка символов, которую нужно правильно проинтерпретировать, разбить на слова, связать их между собой и построить синтаксическое дерево. Так как структура предложения естественного языка – древесная, и это понятный факт из обычной, не компьютерной лингвистики.

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

Омоним как проблема

Основной трудностью в синтаксическом анализе является проблема омонимии, когда два слова одинаково пишутся, но имеют разное значение, в этом случае машина должна понять, что именно имеется в виду.

Анатолий Старостин: «Омонимия возникает и на следующих уровнях. Например, когда мы пытаемся понять, как слова связаны друг с другом, есть типичный пример предложения, который всегда приводят: «Эти типы стали есть на складе». В этом предложении все виды омонимии представлены. С одной стороны, мы слышим, что какие-то люди начали питаться на складе, а с другой стороны, что на складе есть разные типы металла. Это типы стали? Или типы начали? Эта омонимия слышна. И если рисовать синтаксические деревья, то в одном случае сказуемым является слово «стали» (то есть форма глагола «стать»), а в другом случае сказуемым является слово «есть». Соответственно, если нарисовать два дерева, они будут разными. Это пример синтаксической омонимии».

Проблема в том, как автоматическим способом считывать контекст предложения и решать омонимы. Это одно из направлений в компьютерной лингвистике.

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

История

Компьютерная лингвистика как направление возникла в середине XX века. И первой задачей стразу стало сильно амбициозное по тем временам желание создать программу по автоматического перевода текста. При этом надо помнить, что компьютеры не отличались мощностью. И со временем люди пришли к осознанию того, насколько сложна эта задача.

Одновременно с этим было популярно направление, которое называется искусственный интеллект. Люди хотели, чтобы компьютер решал интеллектуальные задачи. Хотя искусственный интеллект – это более широкая область, чем компьютерная лингвистика, обработка естественного языка рассматривалась как его часть.

А. С. :«В какой-то момент был бум методов машинного обучения. Он случился, когда люди поняли, что с помощью методов математической статистики и специальных алгоритмов можно делать так, чтобы компьютер достаточно точно воспроизводил какое-то интеллектуальное поведение человека. Могу привести пример задачи, которая по сей день очень актуальна. Это задача нахождения в текстах именованных сущностей, когда нужно найти в тексте все упоминания персон или все упоминания организаций. Оказывается, что эту задачу можно решать аналитически (писать правила, сложные алгоритмы). А можно решать эту задачу другим образом, взяв пачку текстов, разметить в ней руками, где персоны, а где организации. После этого дать ее компьютеру, сказать: «Посмотри, в этих текстах персоны здесь, а организации – здесь». И с помощью методов научного обучения компьютер может впитать в себя это знание. И на других текстах, которые он до этого еще не видел, это повторить с довольно высокой точностью. То есть, он возьмет другой текст, которого он еще раньше не читал, и по аналогии с теми текстами угадает, где там упоминание персон, где – организаций. В этот момент он, естественно, воспользуется некоторыми признаками, которые он сам выучил. Эти признаки: большие буквы, какие-то морфологические формы. Есть разные зацепки и крючки, которые в тексте на самом деле есть. Мы читаем, понимаем, что это персона. А на самом деле персона обычно употребляется в таких-то контекстах. Мы даже этого не знаем. А компьютер с помощью метода машинного обучения может в себя впитать эти контексты и воспроизвести. Когда люди это поняли, возникло очень много приложений на базе машинного обучения. Методы машинного обучения сегодня очень существенная часть компьютерной лингвистики применительно к задачам анализа текстов с разных сторон. С помощью машинного обучения решается очень много разных задач».

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

Профессия «компьютерный лингвист»

Есть несколько основных профессий, использующихся для компьютерной лингвистики. Одна профессия – это программист. Другое дело, что обычно все программисты приходят работать недоученными, и их нужно доучивать. Но нужны и лингвисты, потому что они носители знаний о естественном языке. Лингвисты, попадая в зону компьютерной лингвистики, тоже должны получить новые знания, стать более структурными и формальными для работы в Computer science.

А. С.: «Компьютерная лингвистика предполагает сотрудничество лингвистов и программистов. И они идут друг другу навстречу. Программисты, которые занимаются компьютерной лингвистикой, поскольку они описывают объект, должны в нем разобраться. Любой программист, например, у нас (в ABBYY), понимает, что такое синтаксическое дерево, понимает, как слова связываются друг с другом, много знает о лингвистике, понимает, что такое род, число, падеж. И у нас в ABBYY в чистом виде делают специальные уровни абстракции. То есть, для лингвистов создают какие-то формальные языки, среды, внутри которых они работают, и которые приближены к их взгляду на мир. Они приближены к языку, естественно. И лингвисты варятся в этих средах. Но при этом все равно они хорошо знают, что здесь они сейчас напишут такое-то правило. И это правило будет подхвачено таким-то алгоритмом и так-то использовано. Такие представления у лингвистов есть. Без этого они не смогли бы работать. Подготовка лингвистов с оглядкой на компьютерную лингвистику существенно влияет и на самих лингвистов. Более или менее современные лингвисты сегодня (если говорить о людях, которые занимаются естественным языком, пишут теоретические работы об этом), давно перешли на представления о компьютерных методах».

Чем занимается цифровой лингвист. Смотреть фото Чем занимается цифровой лингвист. Смотреть картинку Чем занимается цифровой лингвист. Картинка про Чем занимается цифровой лингвист. Фото Чем занимается цифровой лингвист

Онтоинженеры в ABBYY

Базовый лингвистический компонент, который является фундаментом технологии Compreno, разрабатывают в ABBYY последние много лет. Это программа, которая строит семантико-синтаксические деревья.

Используя базовую прослойку, которая любое предложение на естественном языке превращает в семантико-синтаксическое дерево, можно решать более высокоуровневые задачи. В частности извлечение информации. Это разные аббревиатуры, в основном англоязычные, но они все имеют и русские аналоги. Собственно это комплекс задач вокруг анализа информации. Если на входе есть текст, то нужно его определенным образом проинтерпретировать. Этим Анатолий и занимается в своей группе в ABBYY.

А.С.: «Если говорить чуть детальней, что значит определенным образом проинтерпретировать и что-то извлечь? Задачи изучения информации всегда ставятся следующим образом. Первым делом описывается модель предметной области. То есть, мы всегда знаем, какую задачу мы решаем. И формально это фиксируем. Эта модель предметной области еще называется онтологией. Мы заранее рисуем, что нас интересуют, к примеру, персоны: организации, факты работы персон в организациях. Или нас интересуют локации: факты расположения организаций в локациях. То есть, мы рисуем концептуальную схему предметной области. И под призмой этой концептуальной схемы рассматриваем текст. То есть нам нужно из текста извлечь не всю информацию, которая есть в тексте (что было бы абсолютно неопределенно, потому что в любом тексте очень много разной информации). Нам нужно извлечь только ту информацию, которая укладывается в полочки, которые мы себе заранее нарисовали. Так ставятся задачи изучения информации».

Сами онтологии бывают очень разные, обычно они тематические. Это может быть онтология медицины, бизнеса, это может быть онтология спорта. Всегда сначала описывается онтология. Дальше начинается разработка. Это делают специальные люди, которые называются онтоинженерами.

Онтоинженеры — хороший пример симбиоза лингвиста и программиста, обычно, это выпускники математических вузов, потому что они должны хорошо концептуализировать действительность, разбивать задачи на подзадачи, понимать, где какие сущности, как они связаны. С другой стороны, они должны хорошо представлять себе, что такое семантико-синтаксические деревья, то есть иметь лингвистические знания.

А. С.: «Онтоинженеры садятся и на высокоуровневом языке пишут правила. На входе этот язык получает семантико-синтаксические деревья, а на выходе порождает концептуальный граф соответствующей модели предметной области. Простой пример, у вас в компании есть персоны, организация и факты работы. И у вас есть предложение «Вася работает в ABBYY». Программа должна извлечь персону «Вася» (то есть конкретный экземпляр концепта персоны), извлечь организацию ABBYY (конкретный экземпляр концепта организация) и понять, что эти два экземпляра связаны между собой отношением работы. Это типичный пример извлечения информации. Сложность здесь в том, что в естественном языке один и тот же концепт можно выражать очень разными способами. Это всегда огромное многообразие способов сказать одно и то же. Можно сказать: «Вася сотрудник ABBYY». Можно сказать: «Вася работает в ABBYY». Можно сказать: «Вася был уволен из ABBYY», и это все равно будет значит, что он когда-то был сотрудником. Можно сказать: «Вася работает в ABBYY на полставки». Все эти фразы надо понять и свести к общему знаменателю. Вот задача извлечения информации в модельном виде».

Если подытожить, что можно сказать, что компьютерная лингвистика становится инструментом извлечения информации оттуда, откуда раньше ее не могли извлечь.

А.С. :«Если кто-то положил в структурированную базу данных, мы взять можем, потому что они структурированы. Надо только разобраться в формате, то есть в том, как они их выложили. А если это написано текстом, то, казалось бы, это может понять только человек. Оказывается, что с помощью таких методов можно написать программы, которые поймут вместо человека. Это, грубо говоря, конвертеры неструктурированной информации в структурированную. Вот что мы создаем в рамках моей группы в ABBYY».

Все то же самое, но в видео формате можно узнать здесь.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *