Essay:
1. Apa perbedaan supervised learning dan unsupervised learning?
2. Berikut adalah decision tree
Suatu object X memiliki nilai-nilai atribut seperti berikut, X=(A=100; B=0; C=20). Klasifikasikan kelas apakah object X?
3. Buatlah rules dari tree diatas (nomor 2)
4. Berikut adalah confusion matrix
Predicted
class
|
|||
Spam
|
Inbox
|
||
Actual Class
|
Spam
|
5800
|
1200
|
Inbox
|
100
|
2900
|
Berapakah akurasi classifier dari confusion matrix ditas?
Case:
Seorang manager marketing memiliki database pelanggannya seperti dalam tabel dibawah berikut:
ID Pelanggan
|
Jenis Kelamin
|
Jenis Mobil
|
Ukuran Baju
|
Class
|
1
|
M
|
Family
|
Small
|
C0
|
2
|
M
|
Sports
|
Medium
|
C0
|
3
|
M
|
Sports
|
Medium
|
C0
|
4
|
M
|
Sports
|
Large
|
C0
|
5
|
M
|
Sports
|
Extra Large
|
C0
|
6
|
M
|
Sports
|
Extra Large
|
C0
|
7
|
F
|
Sports
|
Small
|
C0
|
8
|
F
|
Sports
|
Small
|
C0
|
9
|
F
|
Sports
|
Medium
|
C0
|
10
|
F
|
Luxury
|
Large
|
C0
|
11
|
M
|
Family
|
Large
|
C1
|
12
|
M
|
Family
|
Extra Large
|
C1
|
13
|
M
|
Family
|
Medium
|
C1
|
14
|
M
|
Luxury
|
Extra Large
|
C1
|
15
|
F
|
Luxury
|
Small
|
C1
|
16
|
F
|
Luxury
|
Small
|
C1
|
17
|
F
|
Luxury
|
Medium
|
C1
|
18
|
F
|
Luxury
|
Medium
|
C1
|
19
|
F
|
Luxury
|
Medium
|
C1
|
20
|
M
|
Luxury
|
Large
|
C1
|
Manager marketing tersebut ingin mengetahui klasifikasi para pelanggannya berdasarkan loyalitas terhadap produknya. Karena itu dia ingin membuat model berdasarkan data training yang ada dalam databasenye tersebut. Class C0 = loyal, sedangkan class C1 = tidak loyal.
1. Anda diminta membantu manager marketing tersebut untuk membuat model dengan menggunakan decision tree. Dalam membuat decision tree, Anda ingin menggunakan Gini index multi-split untuk menentukan atribut yang digunakan untuk menentukan simpul root dan simpul cabang-cabangnya. Jadi buatlah decision tree berdasarkan dataset di atas!
Berikut adalah daftar Gini-Index yang bisa anda gunakan untuk petunjuk dalam membuat tree anda: a) gini index untuk atribut ‘Jenis Mobil’ = 0.1625, b) gini index untuk atribut ‘Ukuran Baju’ = 0.4914, dan c) untuk atribut ‘Jenis Kelamin’ = 0.5)
2. Suatu data baru dengan customer ID adalah 21 memiliki atribut Jenis Kelamin = F; Jenis Mobil = Luxury; Ukuran Baju = Large. Klasifikasikan kelas dari data pelanggan dengan ID nomor 21 tersebut dengan menggunakan Bayes classifier!
Jawaban:
Essay
1. Supervised learning: label kelas sudah diketahui sebelumnya (klasifikasi)
Unsupervised learning: label kelas tidak diketahui sebelumnya / tidak ada label kelas (clustering)
2. Object X masuk ke Class II
3. If attr A <= 50 and Attr C < 20 Then Class I
If attr A <= 50 and Attr C >= 20 and Attr B = 10 Then Class I
If attr A <= 50 and Attr C >= 20 and Attr B = 0 Then Class II
If attr A < 5 and Attr B = 0 Then Class I
If attr A < 5 and Attr B = 10 and Attr A < 20 Then Class II
If attr A < 5 and Attr B = 10 and Attr A >= 20 Then Class III
4. Akurasi = TP + TN / Total
= 5800 + 2900 / 10000
= 87%
Kasus:
1. Root adalah gini terkecil: atribut ‘Jenis Mobil’
2. P(Class = C0) = 10/20 = 0.5
P(Class = C1) = 10/20 = 0.5
P(Jenis Kelamin = F | Class = C0) = 4 / 10 = 0.4
P(Jenis Kelamin = F | Class = C1) = 5 / 10 = 0.5
P(Jenis Mobil = Luxury | Class = C0) = 1 / 10 = 0.1
P(Jenis Mobil = Luxury | Class = C1) = 7 / 10 = 0.7
P(Ukuran Baju = Large | Class = C0) = 2 / 10 = 0.2
P(Ukuran Baju = Large | Class = C1) = 2 / 10 = 0.2
ID 21?
P(21 | Class C0) = 0.4 * 0.1 * 0.2 * 0.5 = 0.004
P(21 | Class C1) = 0.5 * 0.7 * 0.2 * 0.5 = 0.035
Karena Class C1 > Class C0 maka ID 21 diprediksi akan masuk Class C1
No comments:
Post a Comment