Факултет организационих наука Центар за пословно одлучивање Системи за препоруку
П8: Системи за препоруку Закључивање на основу случајева Системи за препоруку 2
Закључивање на основу случајева ПРОНАЂЕНО ЗНАЊЕ ПРОБЛЕМ, КОНТЕКСТ НОВО ЗНАЊЕ 5. Чување знања БАЗА ЗНАЊА 6. Рафинисање базе знања 2. Адаптација дела пронађеног знања МОГУЋЕ НОВО ЗНАЊЕ 3. Ревизија знања ИЗАБРАНО ЗНАЊЕ 3
Претпоставке ЗОС, али не само ЗОС Свет је заснован на одређеном реду, не на хаосу. Проблеми се понављају, зато је добро памтити их. Слични проблеми имају слична решења. 4
Шта је случај? Запис решења одређеног проблема из прошлости. Најчешће га структурирамо као ред у табели (исто као код ОЗП). Мора садржати вектор улазних атрибута и може садржати вектор излазних атрибута. 5
Изазови код ЗОС Индексирање случајева Које атрибути изабрати као индексе? Како изабрати индексе? Чување случајева (знања) У којој форми чувати случајеве? Проналажење случајева Коју методу користити за претраживање случајева? Адаптација случајева Како прилагодити старе случајеве новом проблему? 6
Мерење сличности проналежење случаја -Алгоритам најближег суседа к-нн, -Стабла одлучивања, -Кластеровање итд. 7
Алгоритам најближих суседа (NN) - knn F (P, S) = f (Pi, Si) * Ti i = (1, n) P: нови проблем; S : случај у бази знања; f(pi,si): сличност између атрибута i P, S; Тi: тежина атрибута ( Тi = 1); n: број атрибута. 8
Ограничења к-нн алгоритма Није скалабилан У основној верзији не ради са ненумеричким подацима Одређивање параметра к је оптимизациони проблем. Како да се реши? 9
Случај 1:Одобравање кредита Credit application form Credit application form Person Bank clerk Information system Credit Credit approved Solved demand Credit demand $ Bank KMS 10
База случајева Sex Years Years at address Owner status Phone Occupation Area of occupation Years work Years bank Guarant Account Expenses Balance Decision M 28.67 9.335 owner given office_st government 5 6 no given 381 168 accept M 33.5 1.75 owner given expert government 4 4 yes given 253 857 accept M 33.58 2.75 owner given manager private 4 6 no given 204 0 accept M 31.92 4.46 owner given semi-expert government 6 3 no given 311 300 accept M 27 0.75 owner given creative government 4 3 yes given 312 150 accept F 60.92 5 owner given salesperson private 4 4 no given 0 99 accept M 27.58 3.25 rent not_given office_st government 5 2 yes given 369 1 reject F 25 12.33 owner given semi-expert government 3 6 no given 400 458 accept M 28.25 5.125 owner given expert private 4 2 no given 420 7 accept M 22.67 1.585 rent not_given production private 3 6 no given 80 0 accept F 30 5.29 owner given executive студент 2 5 yes given 99 500 accept M 29.17 3.5 owner given production private 3 3 yes given 329 0 reject M 28 2 owner given worker government 4 2 yes given 181 0 accept M 33.17 3.165 rent not_given expert private 3 3 yes given 380 0 accept F 58.67 4.46 owner given office_st government 3 6 no given 43 560 accept F 45.83 10.5 owner given office_st private 5 7 yes given 0 0 accept F 31.92 3.125 owner given unemployeed unemployeed 3 2 yes given 200 4 reject M 34.92 5 owner given expert government 7 6 yes given 0 1000 accept M 35.17 2.5 owner given worker private 4 7 no given 150 1270 accept F 23.5 9 owner given office_st private 8 5 yes given 120 0 accept M 26.67 2.71 rent not_given semi-expert private 5 1 no given 211 0 accept M 22.17 12.125 owner given creative private 3 2 yes given 180 173 reject F 21.5 6 owner given salesperson private 2 3 no given 80 918 accept M 29.58 4.5 owner given production private 7 2 yes given 330 0 accept F 47.75 8 owner given creative private 7 6 yes given 0 1260 accept 11
Индекси 1. Years with bank; 2. Years at work; 3. Balance; 4. Monthly expenses; 5. Years at address 6. Age 12
Алгоритам најближег суседа F (P, S) = f (Pi, Si) * Ti, i = (1, n) P: нови проблем; S : случај у бази знања; f(pi,si): сличност између атрибута i P, S; Тi: тежина атрибута ( Тi = 1); n: број атрибута. 13
Мерење сличности (Валидација знања) Preference functions P(х) Criteria Type 1 0 P(x) х P(x) = Type 1. Simple criteria 0, x 0 1, x > 0 1 0 P(x) m х P(x) = Type 2: Quasi criteria 0, x m 1, x > m m 1 0 P(x) n х P(x) = Type 3: Linear criteria 0, x < 0 х/n, 0 х n 1, x > n n 1 1/2 0 P(x) m n х P(x) = Type 4. Level criteria 0, x m 1/2, m < х < 1, x n m, n 1 0 P(x) m n х P(x) = Type 5. Indifference criteria 0, x m (х-m) / (n-m), m < х n 1, x > n м, н 1 0 P(x) х Type 6. Gauss criteria P(х) = 1 - е х / 2* 14
Параметри Атрибут Тип преф. m ( ) n Years with bank 6 5 Years at work 6 3 Balance 5 500 5000 Monthly 3 760 expenses Years at address 3 28 Years 2 10 15
Одређивање тежина код ЗОС Како бисте одредили тежине код ЗОС? Експертски приступ Приступ вођен подацима 16
Тежине добијене АХП методом Експертски приступ 17
Тежине критеријума 1. Years with bank (38,2%); 2. Years at work (25%); 3. Balance (16%); 4. Monthly expenses (10,1%); 5. Years at address (6,4%); 6. Years (4,3%). 18
Улазни подаци 19
Препорука - излаз 20
Евалуација решења 65535 тест примера Еуклидска удаљеност Теорија преф. Разлика Тачан 63871 65384 1513 одговор Проценат 97,46% 99,77% 2,31% 21
Случај 2: Саветник за студирање (ФОН) 1. Који одсек да упишем? 2. Колико дуго ћу студирати? 3. Која ће ми бити просечна оцена? Студент БП СС ФОН База случајева 22
База података студената (4.688) 23
База случајева(167) 24
Улазни подаци 25
Препорука 26
Препорука (детаљно) 27
Евалуација решења Избор одсека: 74% Просечна оцена: грешка 0,29 Трајање студија: грешка 1,06 28
Системи препоруке Колаборативно филтрирање Филтрирање базирано на садржају Хибридни приступи 29
Почеци Филтрирање садржаја Корисници нису посматрани као социјална мрежа, већ је Проблем посматран у почетку као проблем класификације ОЗП, ЗОС Нетфликс (Netflix) награда Факторизација матрице, техника линеарне алгебре и статистичке анализе матрица, се истакла као најпогоднија за дати проблем 30
Матрица оцена корисника 31
Колаборативно филтрирање Засновано на суседима (neighborhoodbased) Засновано на производима (item-based) Засновано на моделима (model-based) 32
Колаборативно филтрирање засновано на суседима 1. Сваком кориснику се додељује тежина у односу на активног корисника. 2. Бира се к корисника са највећом сличношћу са активним корисником тзв. суседство, комшилук. 3. Предикција представља отежану суму оцена корисника из суседства. 33
Колаборативно филтрирање засновано на суседима W a,u представља сличност између активног и изабраног корисника. Најчешће се та тежина одређује помоћу коефицијента корелације. 34
Колаборативно филтрирање засновано на суседима Предикције се рачунају као просек отежаних девијација од просека суседства. 35
Колаборативно филтрирање (КФ) засновано на производима КФ нису скалабилна решења, па су предложена и КФ алгоритми засновано на производима (item-to-item) 36
Колаборативно филтрирање засновано на моделима Некадашњи приступ: Модел класификације за сваког корисника Напреднији приступ: Модел латентних (скривених) фактора и факторизација матрице Претпоставља да везу између корисника и одговарајућег производа одређује одређена латентна структура фактора. 37
Колаборативно филтрирање засновано на моделима факторизација матрице 38
Колаборативно филтрирање засновано на моделима факторизација матрице 39
Филтрирање базирано на садржају Додатни критеријуми за одлучивање Демографски подаци Подаци о производу, о произвођачу итд. 40
Евалуационе метрике Обично RMSE и слично али су могуће и мере као што су AUC, alfa greška, beta greška 41
Изазови и ограничења Проређеност података Хладан старт Преваре 42
Факултет организационих наука Центар за пословно одлучивање Системи за препоруку