АЛГОРИТМИ ТРЕНУВАННЯ ТА ОЦІНКИ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ ДЛЯ СТРУКТУРОВАНОГО НАБОРУ ДАНИХ
DOI:
https://doi.org/10.32782/IT/2023-3-1Ключові слова:
машинне навчання, дані, алгоритм, обробка даних, регресійні моделі машинного навчання, лінійна регресія, дерево прийняття рішень, випадковий ліс.Анотація
В статті розглядається послідовний процес попереднього аналізу та обробки структурованих даних про будівельні транспортні засоби різних типів. Наведений алгоритм побудови моделей машинного навчання, зокрема таких як лінійна регресія, дерево прийняття рішень та випадковий ліс, оцінка якості отриманих моделей та продукуючих результатів. Робота описує дослідження сфери покупки та продажу авто на вторинному ринку з використанням сучасних технологій data mining. Основна мета цього дослідження – передбачити вартість транспортного засобу з використанням атрибутів, що сильно корелюють з ціною. Пропонується розглянути концепти ціноутворення побудувавши наступні моделі машинного навчання: з урахуванням ознак специфічних певних марок автомобілів, з урахування ознак специфічних для певних типів автомобілів, а також загальну модель, яка включає усі наявні в наборі ознаки. Моделі було побудовано на основі методів лінійної регресії та дерева рішень. Метою відбору алгоритмів машинного навчання була мінімізація похибок при прогнозуванні вартості, швидкість роботи, легкість інтерпретації отриманих результатів: на основі яких даних приймалося рішення та які дані найбільше впливають на формування вартості. Для мінімізації похибки прогнозування було проведено детальний аналіз даних та їх підготовку для кожного типу будівельного транспортного засобу. Проведено багато експериментів з різними методами для пошуку та видалення аномальних спостережень, для пошуку та використання найбільш важливих ознак, при цьому використовувалися такі методи, як Z-index, міжквартильний розмах, рекурсивне видалення ознак, пошук ознак на основі виявлення залежностей з використанням статистичних методів. Було проведено порівняльний аналіз результатів кожної з моделей, проаналізовано можливі причини тих чи інших результатів. Наведені проблеми, які виникають при вирішенні даної задачі регресійного типу – відбір даних, що якнайкраще узагальнюють систему формування вартості технічного транспортного засобу.
Посилання
Massey F. J. The Kolmogorov-Smirnov Test for Goodness of Fit. Journal of the American Statistical Association. 2021. № 46 (253). Р. 68–78. DOI: 10.1080/01621459.1951.10500769.
Leslie J. R., Stephens M. A., Fotopoulos S. Asymptotic Distribution of the Shapiro-Wilk $W$ for Testing for Normality. Ann. Statist.2018. № 14(4). Р. 214-224. DOI: 10.1214/aos/1176350172.
Fushiki T. Estimation of prediction error by using K-fold cross-validation. Stat Comput. 2011. № 21(2). Р. 137–146. DOI: 10.1007/s11222-009-9153-8.
Mammadov H. Car Price Prediction in the USA by using Liner Regression. International Journal of Economic Behavior (IJEB). 2021. № 11(1). Р. 56-68. DOI: 10.14276/2285-0430.3049.
Pandey A., Rastogi V., Singh S. Car’s Selling Price Prediction using Random Forest Machine Learning Algorithm. SSRN Journal. 2020. № 1. Р. 146-159. DOI: 10.2139/ssrn.3702236.
Fadzilah S. Nur A. A. Used Car Price Estimation: Moving from Linear Regression towards a New S-Curve Model. IJBS.2021. № 22(3). Р. 1174–1187. DOI: 10.33736/ijbs.4293.2021.
Chen C., Hao L., Xu C. Comparative analysis of used car price evaluation models. Hangzhou. 2017. № 1. Р.201-210. DOI: 10.1063/1.4982530.
Sharma A. D., Sharma V., Mittal S., Jain G., Narang S. Predictive analysis of used car prices using machine learning. International Research Journal of Modernization in Engineering Technology and Science. 2020. № 3(6). Р. 11-20.
Chen Y., Li C., Xu M. Business Analytics for Used Car Price Prediction with Statistical Models. 3rd International Conference on Economic Management and Cultural Industry (ICEMCI 2021), Guangzhou, China, 2021. Р. 20-32. DOI: 10.2991/assehr.k.211209.090.
Karakoç M. M., Çeli̇K G., Varol A. Car Price Prediction Using An Artificial Neural Network. 2019. № 2. Р. 5-19.
Samruddhi K., Ashok Kumar R. Used Car Price Prediction using K-Nearest Neighbor Based Model. International Journal of Innovative Research in Applied Sciences and Engineering. 2020. № 4(3). Р. 686–689. DOI: 10.29027/IJIRASE.v4.i3.2020.686-689.
Asghar M., Mehmood K., Yasin S., and Khan Z., Used Cars Price Prediction using Machine Learning with Optimal Features. Pakistan Journal of Engineering and Technology. 2021. vol. 4, no. 2. Р. 113-119.