Научный журнал
Международный журнал экспериментального образования

ISSN 2618–7159
ИФ РИНЦ = 0,757

ИССЛЕДОВАНИЕ МЕТОДОЛОГИИ СЕМАНИЧЕСКОГО АНАЛИЗА В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ ОБРАБОТКИ НАУЧНОЙ ИНФОРМАЦИИ И ПРИМЕНЕНИЕ ЕЕ К ОЦЕНКЕ КОГНИТИВНОСТИ ДИДАКТИЧЕСКИХ МАТЕРИАЛОВ НА ПРИМЕРЕ ИННОВАЦИОННОГО АВТОРИЗИРОВАННОГО ЗАДАЧНИКА ПО ТЕОРЕТИЧЕСКОЙ ИНФОРМАТИКЕ

Щеголев П.А. 1 Шигапов Н.И. 1 Деркунский М.М. 1 Кучерук Д.Е. 1 Напеденина А.Ю. 1
1 ФГБОУВО «Московский государственный университет информационных технологий радиотехники и электроники»
1. Заличев Н.Н. Разработка и практическое применение методологии семантического анализа в автоматизированных системах обработки научной информации: дисс. д-ра техн. наук. – М., 1994.
2. Шеннон К. Работы по теории информации и кибернетики. – М.: Иностранная литература, 1963.
3. Заличев Н.Н. Энтропия информации и сущность жизни. – М.: Радиоэлектроника, 1995. – 16-53 с.
4. Powers, David, M W. Applications and explanations of Zipf’s law. Stroudsburg PA: Association for Computational Linguistics, 1998. 151-160 pp.
5. Li W. Random Text Exhibt Zipf’s Law-Like Word Frequency Distribution // Santa Fe Institute. 1991 [Электронный ресурс]. – Режим доступа: http://www.santafe.edu/media/workingpapers/91-03-016.pdf (дата обращения: 10.06.2015).
6. Щеголев П.А., Деркунский М.М., Кучерук Д.Е. Задачник с решениями по дисциплине «Информатика». 1-е изд. – М.: МИРЭА, МГДД(Ю)Т, 2012. – 75 с.
7. Shannon C., Weaver W. The mathematical theory of communication // Bell System Technical Journal, Vol. 3, No. 27, 1948. pp. 379-423.

Повышение эффективности управления информационными массивами во всех отраслях науки и техники – одна из центральных и первоочередных задач, стоящих на нынешнем этапе развития перед нашим обществом. Ее решение неразрывно связано с преобразованием системы управления наукой и производством, т.е. всем механизмом, системой, регулирующими оборот знаний. Ключевым фактором в данном механизме является образование, т.е. передача людям самого важного – знаний.

Новизна исследования представлена двумя позициями. Первая – это расширение информационного наполнения по базисным представлениям и вытекающая отсюда вторая – неизбежное расширение тезауруса и методология сокращения и упорядочивания этого тезауруса на основе применения обновляющих методов, учитывающих специфику распределения событий в системе запросов и ответов.

Актуальность следует из расширенного применения онтологических поисковых механизмов, и, как следствие, тенденция к гиперболизму образовательных информационных порталов и массивов данных потребовали видоизменений в модельных подходах на основе семантического анализа и системного подхода.

Применяемая методология специалиста в этой области д.т.н. Николая Николаевича Заличева в его трудах [1, 2] направлена на оборот научной информации. Автор настоящей статьи применил вышеуказанную методологию в направлении обслуживания многомодульных однородных расширяющихся знаниевых массивов, свойственных современным компьютеризированным задачникам, учебникам, справочникам и применил ее к корректировке качества дидактических (образовательных) материалов. Автор счел целесообразным использовать следующий алгоритм действий и методов исходной методологии для применения ее к дидактическому полю. В качестве примера был использован авторизованный инновационный сборник задач по теоретической информатике [6].

В качестве семантической меры «количества» включенной в оборот знаний информации Q. принимается степень уменьшения разнообразия «среды» существования дидактической системы, т.е. степень уменьшения сложности восприятия конечными пользователями в рамках анализируемого образовательного материала, таким образом:

tehn2.wmf, (1)

где Q – степень уменьшения разнообразия «среды» существования дидактической системы, x – случайная величина, Smax(x) – максимальная информационная энтропия по данному направлению дидактического поля, Sc(x) – энтропия по нормированию контента (далее – условно-нормированная), определяет семантическую меру эффективности, характеризующую предельные познавательные возможности в рамках данной образовательной системы.

Применительно целеполаганию настоящего исследования в качестве меры разнообразия истинности элементарных семантических единиц (ЭСЕ) по мнению автора настоящей работы целесообразно выбрать энтропию по Шеннону [2, 8] в следующей форме записи:

tehn3.wmf, (2)

где x – случайная величина характеристики истинности ЭСЕ в рамках определенной группы знаний, p(xi) – вероятность встречи случайной величины x. Число букв алфавита в основании логарифма здесь сведено к 2 по признакам эргодической ценности: есть – 1, нет – 0.

При фиксированном наборе алфавита n энтропия принимает максимальное значение, в случае, когда вероятность встречи значений случайной величины, т.е. все p(xi) одинаковы, тогда:

tehn4.wmf (3)

и, следовательно, руководствуясь формулами (2) и (3) получаем формулу для подсчета максимальной энтропии:

tehn5.wmf. (4)

При Sc(x) = 0, т.е. Q = Smax(x) данная дидактическая система показывает максимальные когнитивные параметры и предельно высокую степень пертинентности.

Отсюда следует, что необходимо стремиться к минимизации Sc(x).

Однако такое ее представление для теории анализа дидактической информации не является универсальным, в частности, из-за того, что максимальная энтропия может быть различны для разных образовательных направлений.

Поэтому удобнее в качестве семантической меры «количества» включенной в оборот знаний информации выбрать относительную величину ξ:

tehn6.wmf, (5)

Исходя из формулы (5), можно вывести конечную формулу подсчета относительной величины ξ :

tehn7.wmf. (6)

Однако использованная методика анализа и выделения элементарных семантических единиц Н.Н. Заличевым [3] имеет в своем вооружении подсчет информационной энтропии с помощью распределения Зипфа [3, 4]. Однако несколько позже, американский биолог Ли Веньтянь показал [5], что закону Зипфа подчиняется случайная последовательность символов, таким образом Ли Веньтянь считает, что распределение Зипфа является чисто статистическим феноменом, и не имеет отношения к семантике текста.

Таким образом, в ходе исследования методологии д.т.н. Н.Н. Заличева было определено, что она пригодна для оценки когнитивности информационных дидактических систем. То есть, появилась возможность оценить степень уменьшения сложности восприятия конечными пользователями релевантной информации в рамках анализируемого образовательного материала. Однако, к сожалению, в методологии Н.Н. Заличева была выявлена недостаточно эффективная составляющая, а именно, используемое распределение Зипфа, которое не учитывает семантику текста.


Библиографическая ссылка

Щеголев П.А., Шигапов Н.И., Деркунский М.М., Кучерук Д.Е., Напеденина А.Ю. ИССЛЕДОВАНИЕ МЕТОДОЛОГИИ СЕМАНИЧЕСКОГО АНАЛИЗА В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ ОБРАБОТКИ НАУЧНОЙ ИНФОРМАЦИИ И ПРИМЕНЕНИЕ ЕЕ К ОЦЕНКЕ КОГНИТИВНОСТИ ДИДАКТИЧЕСКИХ МАТЕРИАЛОВ НА ПРИМЕРЕ ИННОВАЦИОННОГО АВТОРИЗИРОВАННОГО ЗАДАЧНИКА ПО ТЕОРЕТИЧЕСКОЙ ИНФОРМАТИКЕ // Международный журнал экспериментального образования. – 2015. – № 9. – С. 105-106;
URL: http://expeducation.ru/ru/article/view?id=8233 (дата обращения: 03.12.2020).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1.074