DOI: https://doi.org/10.20535/2617-8974.2018.1(1).152464

Метод нечітких k-середніх з обмеженою масою робочої області формування кластерів довільної форми

Є.А. Настенко, В.С. Уманець

Анотація


Завдання визначення функціонального зв'язку між біофізичними показниками є складовою частиною вирішення актуальної проблеми пошуку оптимальних впливів на біологічний об'єкт і не вирішено на даний час в повній мірі. Однією з важливих задач в цій області є розбиття простору ознак на області (кластери), які відносяться до різних функціональних співвідношень, що зв'язують біофізичні показники, шукані кластери при цьому можуть мати довільну форму. Такі кластери назвемо функціональними, в роботі ставиться задача розробки методу виділення з вихідної вибірки даних кластерів довільної форми. Для вирішення поставленої задачі в роботі розглядається нечітка версія кластеризації для алгоритму k-середніх з обмеженою масою робочої області формування кластерів. Оцінка кількості кластерів проводиться за гістограмою частот, для визначення оптимальної кількості стовпців гістограми обґрунтовується застосування формули Скотта. Алгоритм дозволяє формувати кластери довільної конфігурації з отриманням значення міри належності об'єкта до кожного з кластерів. Ефективність алгоритму продемонстрована на прикладі кластеризації набору даних «Іриси Фішера». Проведено порівняльне тестування: класичний алгоритм k-середніх, метод Варда та розроблений алгоритм. Результати, що одержано, дозволили віддати перевагу в задачі аналізу кластерів довільної форми розробленій в даній роботі версії нечіткого k-середніх з обмеженою масою робочої області формування кластерів. Розрахунок функції належності дозволяє отримати додаткову інформацію про структуру кластерних утворень, а також здійснити поправки результату кластеризації k-середніх з обмеженою масою, що особливо важливо для алгоритмів, що отримують результат кластеризації за один прохід. Відносно порівняння якісних результатів розробленого алгоритму та алгоритму Варда слід відмітити, що розроблений алгоритм має нижчу обчислювальну вартість так як не вимагає додаткової пам'яті для зберігання матриці відстаней та часу на її перерахунок. Крім того, розроблений алгоритм не має проблем, пов'язаних з розрізом дендрограми для отримання кластерів.


Ключові слова


Кластеризація; k-середніх; міра належности; оцінка кількості кластерів; нечітка кластеризація

Повний текст:

PDF

Посилання


E. Nastenko, «The use of Cluster Analysis for Partitioning,» J. of Automation and Information Sciences, pp. 77-83, 1996.

Болдак, А.А.; Сухарев, Д.Л., «Определение количества кластеров в статистических данных,» Вісник НТУУ «КПІ». Інформатика, управління та

обчислювальна техніка, p. 118–122, 2011.

C. Shannon, «A Mathematical Theory of Communication», Bell System Tech, pp. 379- 423, 623-656, 1948.

S. Kullback та R. Leibler, The Annals of Mathematical Statistics, p. 79–86, 1951D.

D. Scott, «On optimal and data-based histograms,» Biometrika, pp. 605-610, 1979.

R. Fisher, «Iris Data Set,» [Онлайновий]. Available: http://archive.ics.uci.edu/ml/datasets/Iris.

V. Asch, «Macro- and Micro-Averaged Evaluation Measures,» 2012. [Онлайновий]. Available: https://www.clips.uantwerpen.be//~vincent/pdf/microaverage.pdf.