• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новый метод кластеризации упрощает анализ больших массивов информации

Новый метод кластеризации упрощает анализ больших массивов информации

© iStock

Исследователи из ВШЭ и Института проблем управления РАН предложили новый метод анализа данных — туннельную кластеризацию. Он помогает быстро находить группы похожих объектов и требует меньше вычислительных ресурсов, чем традиционные методы. В зависимости от конфигурации данных алгоритм может работать в десятки раз быстрее аналогов. Исследование опубликовано в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».

С каждым годом объем информации, которую нужно обработать, становится все больше. Данные поступают из разных источников: научных исследований, финансовых отчетов, медицинских обследований и множества других. Для поиска закономерностей и структурирования информации в таких массивах применяют методы кластеризации — группировки данных по схожим характеристикам. Группы, полученные таким способом, называют кластерами.

Один из самых популярных методов кластеризации — метод k-средних. Он делит данные на заданное количество кластеров, предварительно выбирая их центры (центроиды). Однако у этого метода есть ограничение: перед началом работы необходимо знать, сколько кластеров должно получиться, что не всегда возможно при анализе сложных данных.Ученые из НИУ ВШЭ и Института проблем управления имени В.А. Трапезникова РАН предложили новый подход, который упрощает этот процесс, — туннельную кластеризацию. В отличие от метода k-средних, этот алгоритм не требует заранее задавать число кластеров: он сам определяет, сколько кластеров необходимо, анализируя структуру данных.

Фуад Алескеров

«Алгоритм  формирует “туннели” данных — области в многомерном пространстве, в которых группируются объекты с похожими характеристиками, — объясняет руководитель департамента математики факультета экономических наук НИУ ВШЭ Фуад Алескеров. — Пользователь может выбрать один из трех вариантов работы алгоритма: с фиксированными границами кластеров, с адаптивными границами, которые подстраиваются под структуру данных, или комбинированный подход. Это делает метод гибким и подходящим для разных типов задач».

Метод протестировали на синтетическом (сгенерированном) наборе данных из 100 000 объектов, а также на реальных задачах в области государственного управления и банковского сектора.

Визуализация исходных данных и итогов туннельной кластеризации в 4-мерной системе параллельных координат.
© Aleskerov, F.T., Myachin, A.L. & Yakuba, V.I. Tunnel Clustering Method. Dokl. Math. 110, 474–479 (2024)

Главное преимущество нового метода — скорость. В отличие от классических алгоритмов, требующих больших вычислительных ресурсов, туннельная кластеризация в зависимости от конфигурации данных может справляться с анализом в десятки раз быстрее. 

Кроме того, ученые ввели понятие «степень перехода» — параметр, который показывает, сколько характеристик объекта нужно изменить, чтобы он оказался в другом кластере. Это помогает оценить четкость границ кластеров и выявлять объекты, находящиеся на стыке групп.

Алексей Мячин

«Люди создают все больше данных, и этот процесс только ускоряется. Согласно последнему отчету “Digital 2025: Global Overview Report”, в начале 2025 года в интернете насчитывалось 5,56 миллиарда пользователей — это почти 68% населения планеты. Взрослые проводят в Cети в среднем по 6 часов 38 минут в день, общаясь, работая, смотря видео и потребляя контент, — рассказывает старший научный сотрудник Международного центра анализа и выбора решений НИУ ВШЭ Алексей Мячин. — Компании, которые игнорируют анализ данных, теряют большие деньги».

Авторы продолжают работать над усовершенствованием алгоритма, включая исследования по снижению размерности данных, что позволит еще больше сократить временные затраты при поиске закономерностей в данных. 

Работа выполнена при частичной поддержке РНФ.

Вам также может быть интересно:

РНФ поддержал 15 проектов молодых ученых НИУ ВШЭ

Российский научный фонд подвел итоги молодежных конкурсов 2025 года на получение грантов. По результатам конкурса инициативных проектов молодых ученых поддержано 14 проектов Высшей школы экономики. По итогам конкурса научных групп под руководством молодых ученых поддержан один проект университета.

Математики из НИУ ВШЭ в Нижнем Новгороде решили задачу Пола Чернова, поставленную 57 лет назад

В 1968 году американский математик Пол Чернов предложил теорему, позволяющую приближенно вычислять полугруппы операторов — сложные, но полезные математические конструкции, описывающие, как со временем изменяются состояния многочастичных систем. Метод основан на последовательности приближений — шагов, с каждым из которых результат становится точнее. Но до сих пор было неясно, насколько быстро эти шаги приводят к результату и что именно влияет на эту скорость. Полностью эту задачу впервые решили математики Олег Галкин и Иван Ремизов из нижегородского кампуса НИУ ВШЭ. Их работа открывает путь к более надежным вычислениям в разных областях науки. Результаты опубликованы в престижном журнале Israel Journal of Mathematics (Q1).

«Возникла потребность разрабатывать и осмыслять феномен цифрового доверия граждан государству»

Цифровая трансформация госуправления должна повысить скорость обработки данных и выполнения рутинных процедур, усовершенствовать технологии внутриведомственного и межведомственного взаимодействия. Это создает условия для перехода к более эффективному управлению, основанному на данных. Об особенностях цифровизации госструктур «Вышка.Главное» побеседовала с заведующим Международной лабораторией цифровой трансформации в государственном управлении ИГМУ ВШЭ Евгением Стыриным.

Ученые выяснили, как организованный беспорядок усиливает сверхпроводимость

Сверхпроводимость — особое состояние материала, при котором электрический ток проходит через него без потерь энергии. Обычно в материалах с дефектами она возникает при очень низких температурах и в несколько этапов. Международная команда ученых, включая физиков МИЭМ ВШЭ, показала: если дефекты распределены внутри материала не случайно, а по определенной схеме, сверхпроводимость возникает при более высокой температуре и охватывает весь материал. Данные могут помочь в создании сверхпроводников, работающих без экстремального охлаждения. Исследование опубликовано в журнале Physical Review B.

Нейролингвисты ВШЭ выяснили, какие приложения лучше помогают восстановить речь

Ученые Центра языка и мозга НИУ ВШЭ выявили факторы, которые делают цифровые приложения для реабилитации больных с афазией более эффективными. Обратная связь, разнообразие игровых задач, длительный период реабилитации и постоянный контакт с лечащим врачом оказались наиболее важными для восстановления речевой функции. Статья опубликована в журнале NeuroRehabilitation.

«Нет цели сказать, как правильно. Мы стремимся исследовать вариативность»

В НИУ ВШЭ работает Международная лаборатория языковой конвергенции факультета гуманитарных наук, в центре внимания которой взаимодействие языков разных народов, живущих в регионах со смешанным полиэтничным населением. Исследования ученых Вышки помогают лучше понять историю развития языков и изучить особенности восприятия и использования языков в многоязычной среде. Подробнее об этом в интервью «Вышке.Главное» рассказал заведующий лабораторией Георгий Мороз.

От нейронных сетей до фондовых рынков: как развивают компьютерные науки в нижегородской ВШЭ

Созданная в 2011 году Международная лаборатория алгоритмов и технологий анализа сетевых структур (ЛАТАСС) НИУ ВШЭ в Нижнем Новгороде ведет широкий спектр фундаментальных и прикладных исследований, в том числе совместные проекты с крупными компаниями: Сбером, Яндексом и другими лидерами IT-отрасли. Разработанные учеными Вышки методы не только обогащают науку, но и позволяют улучшить работу транспорта компаний, более успешно вести медицинские и генетические исследования. О работе лаборатории «Вышка.Главное» побеседовала с ее заведующим — профессором Валерием Калягиным.

Ученые выявили когнитивные механизмы биполярного расстройства

Международная команда исследователей с участием ученых из НИУ ВШЭ экспериментально показала, что люди, страдающие биполярным расстройством, считают мир более нестабильным, чем он есть на самом деле, и из-за этого чаще принимают нерациональные решения. Ученые предполагают, что полученные результаты позволят в будущем разработать более точные методы диагностики и терапии биполярного аффективного расстройства. Статья опубликована в журнале Translational Psychiatry.

Гражданская идентичность помогает россиянам поддерживать психологическое здоровье в условиях санкций

Исследователи НИУ ВШЭ выяснили, что осознание себя частью страны может психологически помогать в трудные периоды, особенно, если человек склонен переосмысливать происходящее или обращаться к духовным и культурным ценностям. Переосмысление, в том числе, способно несколько снизить уровень депрессии. Исследование опубликовано в Journal of Community Psychology.

Когда мысли становятся движением: как нейроинтерфейсы меняют медицину и жизнь

В начале XXI века человек все чаще становится не просто наблюдателем, а активным участником технологической революции. Среди достижений, способных изменить судьбы миллионов людей, особое место занимают нейроинтерфейсы — системы, связывающие мозг с внешними устройствами. Именно они стали центральной темой весенней Международной школы «Нейроинтерфейсы нового поколения», прошедшей в стенах НИУ ВШЭ.