Одной из важнейших задач химии является создание веществ с заданными свойствами. Особенно отчетливо данную мысль выразил Дж. Хэммонд: «Наиболее фундаментальной и привлекательной задачей химии является не создание новых молекул, а создание свойств». Очевидно, что часто применяющийся метод проб и ошибок для создания вещества с заданными свойствами является крайне неэффективным. По этой причине особенно острым становится вопрос предсказания свойств еще не полученных химических соединения или материалов. Именно эта задача является основной для хемоинформатики.
Хемоинформатика – это мультидисциплинарное направление теоретической химии, находящееся на стыке химии, информатики, биологии, фармакологии, физики и математической статистики, ориентированное на разработку математических моделей связывающих физические, химические или биологические свойства молекул на основе известных экспериментальных данных. Главным ее применением является компьютерный дизайн новых молекул, материалов или реакций, обладающих требуемыми характеристиками на основе компьютерной обработки имеющихся данных. Высокая эффективность такого виртуального синтеза позволяет существенно уменьшить финансовые и трудовые ресурсы, создать безопасный для живых систем продукт и минимизировать влияние химического производства на окружающую среду. Это является крайне привлекательным для таких наукоемких технологий как создание новых материалов, веществ для промышленности и лекарственных препаратов. В настоящее время практически в каждой крупной фармацевтической компании существует отдел хемоинформатики, биоинформатики и молекулярного моделирования. Актуальной задачей для мировой науки и техники является также приложение подходов хемоинформатики к предсказанию свойств новых материалов и наноматериалов, в частности. Это обусловливает существенный спрос на квалифицированных специалистов в области хемоинформатики в мире. Реализация принятой Стратегии развития фармацевтической промышленности Российской Федерации на период до 2020 года обуславливает крайнюю необходимость подготовки специалистов-хемоинформатиков уже в ближайшее время.
В настоящее время элементы хемоинформатики преподаются во многих университетах мира, в двух зарубежных университетах – Страсбургском (Франция) и Университете штата Индиана (США) – действуют магистерские программы по данной дисциплине. В России первая магистерская программа «Хемоинформатика и молекулярное моделирование» открыта в 2012 году в Казанском федеральном университете. В 2013 году после объединения усилий со старейшей магистратурой в данной области, созданной в Страсбургском университете в 2001 году, в КФУ начала действовать магистратура двойного диплома Казань-Страсбург. Отдельные главы хемоинформатики преподаются в МФТИ и МГУ им. М.В. Ломоносова, и есть основания полагать, что данная дисциплина будет активно внедряться в учебные программы университетов нашей страны.
Опыт преподавания хемоинформатики в Страсбургском, Казанском федеральном и Московском государственном университетах был использован при подготовке первого в России учебника по хемоинформатике, который в настоящее время публикуется в Казанском федеральном университете в виде серии учебных пособий под общим названием «Введение в хемоинформатику». До настоящего времени опубликовано 3 пособия «Компьютерное представление химических структур», «Химические базы данных» и «Моделирование «структура-свойство». Ждет выхода в свет еще два пособия с рабочими названиями «Методы машинного обучения» и «Концепция химического пространства, визуализация данных и дизайн библиотек».
Первое пособие «Введение в хемоинформатику: Ч. 1. Компьютерное представление химических структур» определяет предмет хемоинформатики, ее связь с другими науками, особенности и базовые концепции науки. Вторая глава дает подробную информацию о представлении химических объектов (соединений и химических реакций) в виде графов, дескрипторов, молекулярных «отпечатков пальцев», широко распространенных в химии линейных нотаций SMILES, SLN, InChI и форматов файлов: MOL, SDF, MOL2, RDF и прочих.
Второе пособие «Введение в хемоинформатику: Ч. 2. Химические базы данных» дает основные сведения о структуре и строении баз данных, классификацию химических баз данных. Отдельная часть посвящена поискам различных типов в базах данных химических соединений, реакций и структур Маркуша. Имеется специальная глава, посвященная алгоритмам для работы с графами, созданная для интересующегося читателя, желающего глубже понять математическую и техническую сторону работы алгоритмов. В третьей главе пособия в сжатом виде приведено описание наполнения, поисковых инструментов и дополнительного функционала наиболее важных в хемоинформатике информационных систем: CAS, Reaxys, ChEMBL, ZINC, CSD и прочих.
Третье пособие «Введение в хемоинформатику: Ч. 3. Моделирование «структура-свойство» рассматривает разные этапы построения моделей, связывающих структуру химических объектов и их свойства. Первая глава приводит классификацию и развернутое описание различных молекулярных дескрипторов, наиболее широко используемых в хемоинформатике. Во второй главе описываются теоретические основы и техника использования методов машинного обучения для построения регрессионных и классификационных моделей, основные принципы проверки и применения моделей. В третьей главе приводится краткое и упрощенное описание важнейших и наиболее распространенных методов машинного обучения. В четвертой главе приведен обзор методов 3D и nD QSAR, широко используемых в создании лекарственных препаратов и других применениях хемоинформатики. В конце пособия описано использование моделирования структура-свойство для прогнозирования характеристик молекул, реакций, смесей, полимеров, наноматериалов, кристаллов и других химических объектов.
Особенностью данной серии пособий является большое количество ссылок на литературу, предоставление в табличном виде информации о наиболее широко используемых программах различного назначения, базах данных, интернет ресурсах с указанием уровня доступа к ним: ссылок и коммерческой/свободной доступности. Эта информация предоставляется в конце почти каждой главы учебника.