Binning (Diskritisasi) menggunakan K-Means Clustering

Binning (Diskritisasi) menggunakan K-Means Clustering#

Clusterisasi dengan K-Means#

Clusterisasi dengan K-Means digunakan untuk mengelompokkan data pada fitur Sepal Length menjadi 4 kelompok (klaster) yaitu 0, 1, 2, 3, 4 berdasarkan tingkat kemiripan nilai. Proses ini dilakukan dengan cara mengelompokkan data yang memiliki nilai panjang sepal yang saling berdekatan ke dalam satu klaster yang sama. Nantinya setiap klaster yang terbentuk akan mewakili satu interval nilai.

from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import silhouette_score, accuracy_score
import pandas as pd

# Baca data fitur dan label
df_features = pd.read_excel("data_iris.xlsx")   
df_class = pd.read_excel("class.xlsx")          

# Gabungkan data fitur dan label
df = df_features.copy()
df['class'] = df_class['class']

# Ambil hanya kolom sepal_length
features = df[['sepal_length']]

# Normalisasi fitur
scaler = MinMaxScaler()
scaled_features = scaler.fit_transform(features)

# Clustering KMeans dengan 4 klaster
kmeans = KMeans(n_clusters=4, random_state=42, n_init=10)
kmeans.fit(scaled_features)

# Simpan hasil cluster ke dataframe
df['cluster'] = kmeans.labels_

# Evaluasi
print(f"Jumlah iterasi sampai konvergen: {kmeans.n_iter_}")
print(f"Inertia (SSE): {kmeans.inertia_:.4f}")
sil_score = silhouette_score(scaled_features, kmeans.labels_)
print(f"Silhouette Score: {sil_score:.4f}")

# Pemetaan cluster ke class mayoritas
mapping = (
    df.groupby('cluster')['class']
    .agg(lambda x: x.mode()[0])
    .to_dict()
)
df['predicted_class'] = df['cluster'].map(mapping)

# Hitung akurasi prediksi clustering terhadap label asli
y_true = df['class']
y_pred = df['predicted_class']
acc = accuracy_score(y_true, y_pred)
print(f"\nAkurasi keseluruhan clustering terhadap label asli: {acc:.4%}")

# Tampilkan distribusi cluster per kelas
dist = pd.crosstab(df['class'], df['cluster'], rownames=['Class'], colnames=['Cluster'])
print("\nDistribusi cluster per kelas:")
print(dist)

# Simpan hasil ke Excel
df.to_excel("clus_dis.xlsx", index=False)

# Jika ingin tampilkan semua hasil
pd.set_option('display.max_rows', None)
print(df[['class', 'cluster', 'predicted_class']])

Jumlah iterasi sampai konvergen: 2
Inertia (SSE): 0.6416
Silhouette Score: 0.5920

Akurasi keseluruhan clustering terhadap label asli: 72.0000%

Distribusi cluster per kelas:
Cluster           0   1   2   3
Class                          
Iris-setosa      10   0  40   0
Iris-versicolor  29   0   5  16
Iris-virginica   10  12   1  27
               class  cluster  predicted_class
      Iris-setosa        2      Iris-setosa
      Iris-setosa        2      Iris-setosa
      Iris-setosa        2      Iris-setosa
      Iris-setosa        2      Iris-setosa
      Iris-setosa        2      Iris-setosa
      Iris-setosa        0  Iris-versicolor
      Iris-setosa        2      Iris-setosa
      Iris-setosa        2      Iris-setosa
      Iris-setosa        2      Iris-setosa
      Iris-setosa        2      Iris-setosa
     Iris-setosa        0  Iris-versicolor
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        0  Iris-versicolor
     Iris-setosa        0  Iris-versicolor
     Iris-setosa        0  Iris-versicolor
     Iris-setosa        2      Iris-setosa
     Iris-setosa        0  Iris-versicolor
     Iris-setosa        2      Iris-setosa
     Iris-setosa        0  Iris-versicolor
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        0  Iris-versicolor
     Iris-setosa        2      Iris-setosa
     Iris-setosa        0  Iris-versicolor
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        0  Iris-versicolor
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
     Iris-setosa        2      Iris-setosa
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        2      Iris-setosa
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        2      Iris-setosa
 Iris-versicolor        2      Iris-setosa
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        2      Iris-setosa
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        0  Iris-versicolor
 Iris-versicolor        3   Iris-virginica
 Iris-versicolor        2      Iris-setosa
 Iris-versicolor        0  Iris-versicolor
 Iris-virginica        3   Iris-virginica
 Iris-virginica        0  Iris-versicolor
 Iris-virginica        1   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        1   Iris-virginica
 Iris-virginica        2      Iris-setosa
 Iris-virginica        1   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        1   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        0  Iris-versicolor
 Iris-virginica        0  Iris-versicolor
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        1   Iris-virginica
 Iris-virginica        1   Iris-virginica
 Iris-virginica        0  Iris-versicolor
 Iris-virginica        3   Iris-virginica
 Iris-virginica        0  Iris-versicolor
 Iris-virginica        1   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        1   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        0  Iris-versicolor
 Iris-virginica        3   Iris-virginica
 Iris-virginica        1   Iris-virginica
 Iris-virginica        1   Iris-virginica
 Iris-virginica        1   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        0  Iris-versicolor
 Iris-virginica        1   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        0  Iris-versicolor
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        0  Iris-versicolor
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        3   Iris-virginica
 Iris-virginica        0  Iris-versicolor

Cari Min Max dan Centroid dari fitur sepal length#

Pada tahap ini diperoleh informasi statistik yang mencakup nilai minimum (min), maksimum (max), dan centroid (nilai rata-rata) dari masing-masing cluster yang terbentuk. Statistik min dan max yang diperoleh dari hasil clustering ini nantinya dapat digunakan sebagai batas interval dalam proses diskritisasi fitur Sepal Length, sedangkan centroid dapat dimanfaatkan sebagai representasi numerik atau label diskrit dari masing-masing interval. Setiap data Sepal Length yang berada dalam suatu rentang (min hingga max) akan diberi label sesuai klaster tempatnya berada, menjadikan fitur tersebut tidak lagi berbentuk kontinu, melainkan sudah dalam bentuk kategori.

from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler
import pandas as pd

# Contoh Data
df = pd.read_excel("clus_dis.xlsx")
features = df[['sepal_length']]

# Normalisasi
scaler = MinMaxScaler()
scaled_features = scaler.fit_transform(features)

# KMeans Clustering
kmeans = KMeans(n_clusters=4, random_state=42, n_init=10)
kmeans.fit(scaled_features)

# Tambahkan hasil cluster ke data
df['cluster'] = kmeans.labels_

# Ambil centroid dari hasil clustering (dalam skala normalisasi)
centroids_scaled = kmeans.cluster_centers_

# Konversi centroid ke skala asli
centroids_original = scaler.inverse_transform(centroids_scaled)

# Hitung min, max, dan centroid per klaster
cluster_stats = df.groupby('cluster')['sepal_length'].agg(['min', 'max']).copy()
cluster_stats['centroid'] = centroids_original.flatten()

# Tampilkan hasil
print("\nStatistik Sepal Length per Cluster:")
print(cluster_stats)

Statistik Sepal Length per Cluster:
         min  max  centroid
cluster                    
0        5.4  6.1  5.734694
1        7.1  7.9  7.475000
2        4.3  5.3  4.895652
3        6.2  7.0  6.525581

Output tersebut adalah statistik dari fitur Sepal Length yang telah dikelompokkan ke dalam 4 klaster menggunakan KMeans Clustering. Untuk masing-masing klaster ditampilkan:

min: Nilai terkecil dari Sepal Length dalam klaster tersebut. Bisa digunakan sebagai batas bawah interval.
max: Nilai terbesar dari Sepal Length dalam klaster tersebut. Bisa digunakan sebagai batas atas interval.
centroid: Nilai rata-rata (mean) dari Sepal Length dalam klaster tersebut, yang merupakan pusat dari klaster (hasil centroids_ dari KMeans).

Statistik min max dapat digunakan sebagai interval untuk diskritisasi pada fitur sepal_length

Hasil Diskritisasi fitur sepal length#

Pada tahap ini dilakukan proses diskritisasi terhadap fitur numerik sepal_length berdasarkan hasil klasterisasi sebelumnya. Setiap data telah dikelompokkan ke dalam klaster menggunakan algoritma K-Means, dan hasil klaster tersebut kemudian digunakan untuk memberi label diskrit pada nilai sepal_length. Contoh, pada baris pertama, nilai sepal_length_original adalah 5.1 dan termasuk dalam klaster 2 berdasarkan rentang min max, sehingga label diskritisasi menjadi ‘C’. Dengan pendekatan ini, fitur sepal_length yang semula berupa nilai kontinu kini telah dikonversi menjadi fitur kategori.

# Pemetaan cluster ke label huruf
cluster_to_label = {
    0: 'A',
    1: 'B',
    2: 'C',
    3: 'D'
}

# Salin kolom sepal_length asli ke kolom baru (agar data numerik tetap tersimpan)
df['sepal_length_original'] = df['sepal_length']

# Gantikan nilai sepal_length dengan huruf berdasarkan klaster
df['sepal_length'] = df['cluster'].map(cluster_to_label)

# Tampilkan hasil
print(df[['cluster', 'sepal_length', 'sepal_length_original']])

     cluster sepal_length  sepal_length_original
        2            C                    5.1
        2            C                    4.9
        2            C                    4.7
        2            C                    4.6
        2            C                    5.0
        0            A                    5.4
        2            C                    4.6
        2            C                    5.0
        2            C                    4.4
        2            C                    4.9
       0            A                    5.4
       2            C                    4.8
       2            C                    4.8
       2            C                    4.3
       0            A                    5.8
       0            A                    5.7
       0            A                    5.4
       2            C                    5.1
       0            A                    5.7
       2            C                    5.1
       0            A                    5.4
       2            C                    5.1
       2            C                    4.6
       2            C                    5.1
       2            C                    4.8
       2            C                    5.0
       2            C                    5.0
       2            C                    5.2
       2            C                    5.2
       2            C                    4.7
       2            C                    4.8
       0            A                    5.4
       2            C                    5.2
       0            A                    5.5
       2            C                    4.9
       2            C                    5.0
       0            A                    5.5
       2            C                    4.9
       2            C                    4.4
       2            C                    5.1
       2            C                    5.0
       2            C                    4.5
       2            C                    4.4
       2            C                    5.0
       2            C                    5.1
       2            C                    4.8
       2            C                    5.1
       2            C                    4.6
       2            C                    5.3
       2            C                    5.0
       3            D                    7.0
       3            D                    6.4
       3            D                    6.9
       0            A                    5.5
       3            D                    6.5
       0            A                    5.7
       3            D                    6.3
       2            C                    4.9
       3            D                    6.6
       2            C                    5.2
       2            C                    5.0
       0            A                    5.9
       0            A                    6.0
       0            A                    6.1
       0            A                    5.6
       3            D                    6.7
       0            A                    5.6
       0            A                    5.8
       3            D                    6.2
       0            A                    5.6
       0            A                    5.9
       0            A                    6.1
       3            D                    6.3
       0            A                    6.1
       3            D                    6.4
       3            D                    6.6
       3            D                    6.8
       3            D                    6.7
       0            A                    6.0
       0            A                    5.7
       0            A                    5.5
       0            A                    5.5
       0            A                    5.8
       0            A                    6.0
       0            A                    5.4
       0            A                    6.0
       3            D                    6.7
       3            D                    6.3
       0            A                    5.6
       0            A                    5.5
       0            A                    5.5
       0            A                    6.1
       0            A                    5.8
       2            C                    5.0
       0            A                    5.6
       0            A                    5.7
       0            A                    5.7
       3            D                    6.2
       2            C                    5.1
       0            A                    5.7
      3            D                    6.3
      0            A                    5.8
      1            B                    7.1
      3            D                    6.3
      3            D                    6.5
      1            B                    7.6
      2            C                    4.9
      1            B                    7.3
      3            D                    6.7
      1            B                    7.2
      3            D                    6.5
      3            D                    6.4
      3            D                    6.8
      0            A                    5.7
      0            A                    5.8
      3            D                    6.4
      3            D                    6.5
      1            B                    7.7
      1            B                    7.7
      0            A                    6.0
      3            D                    6.9
      0            A                    5.6
      1            B                    7.7
      3            D                    6.3
      3            D                    6.7
      1            B                    7.2
      3            D                    6.2
      0            A                    6.1
      3            D                    6.4
      1            B                    7.2
      1            B                    7.4
      1            B                    7.9
      3            D                    6.4
      3            D                    6.3
      0            A                    6.1
      1            B                    7.7
      3            D                    6.3
      3            D                    6.4
      0            A                    6.0
      3            D                    6.9
      3            D                    6.7
      3            D                    6.9
      0            A                    5.8
      3            D                    6.8
      3            D                    6.7
      3            D                    6.7
      3            D                    6.3
      3            D                    6.5
      3            D                    6.2
      0            A                    5.9

Mengganti fitur sepal_length(numeriks) ke sepal_length (kategorikal)#

Pada tahap ini, dilakukan proses transformasi fitur sepal_length dari tipe data numerik menjadi kategorikal. Proses ini diawali dengan membaca ulang data iris asli serta data kelas referensi. Data kemudian digabungkan agar fitur sepal_length dapat diproses bersama label kelasnya. Selanjutnya, nilai sepal_length dinormalisasi menggunakan Min-Max Scaler agar seluruh nilai berada dalam rentang 0 hingga 1. Proses normalisasi ini penting untuk meningkatkan performa algoritma K-Means, yang sensitif terhadap skala data.

Setelah dinormalisasi, dilakukan proses klasterisasi menggunakan algoritma K-Means dengan jumlah klaster sebanyak empat. Setiap data kemudian memperoleh label klaster tertentu berdasarkan nilai sepal_length yang dimilikinya. Hasil klasterisasi disimpan dalam kolom baru bernama cluster.Kemudian, nilai klaster tersebut dipetakan ke dalam label kategorikal berupa huruf (‘A’, ‘B’, ‘C’, ‘D’) untuk menggantikan nilai numerik pada fitur sepal_length. Dengan demikian, fitur sepal_length yang semula bertipe numerik kini telah diubah menjadi fitur kategorikal atau diskrit.

import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler

df_features = pd.read_excel("clus_dis.xlsx")
df_class = pd.read_excel("class.xlsx")

# Gabungkan dengan class
df = df_features.copy()
df['class'] = df_class['class']

# Clustering ulang fitur sepal_length
features = df[['sepal_length']]
scaler = MinMaxScaler()
scaled_features = scaler.fit_transform(features)

kmeans = KMeans(n_clusters=4, random_state=42, n_init=10)
kmeans.fit(scaled_features)
df['cluster'] = kmeans.labels_

# Map hasil cluster ke kategori
cluster_to_category = {
    0: 'A',
    2: 'B',
    3: 'C',
    1: 'D'
}
df['sepal_length'] = df['cluster'].map(cluster_to_category)

# Hapus kolom yang tidak perlu
df_result = df.drop(columns=[col for col in ['cluster', 'class', 'predicted_class'] if col in df.columns])

# Simpan
df_result.to_excel("data_iris_sepal_kategori.xlsx", index=False)

# Tampilkan sebagian hasil
pd.set_option('display.max_rows', None)
print(df_result)

      id  petal_length  petal_width sepal_length  sepal_width
    1           1.4          0.2            B          3.5
    2           1.4          0.2            B          3.0
    3           1.3          0.2            B          3.2
    4           1.5          0.2            B          3.1
    5           1.4          0.2            B          3.6
    6           1.7          0.4            A          3.9
    7           1.4          0.3            B          3.4
    8           1.5          0.2            B          3.4
    9           1.4          0.2            B          2.9
   10           1.5          0.1            B          3.1
  11           1.5          0.2            A          3.7
  12           1.6          0.2            B          3.4
  13           1.4          0.1            B          3.0
  14           1.1          0.1            B          3.0
  15           1.2          0.2            A          4.0
  16           1.5          0.4            A          4.4
  17           1.3          0.4            A          3.9
  18           1.4          0.3            B          3.5
  19           1.7          0.3            A          3.8
  20           1.5          0.3            B          3.8
  21           1.7          0.2            A          3.4
  22           1.5          0.4            B          3.7
  23           1.0          0.2            B          3.6
  24           1.7          0.5            B          3.3
  25           1.9          0.2            B          3.4
  26           1.6          0.2            B          3.0
  27           1.6          0.4            B          3.4
  28           1.5          0.2            B          3.5
  29           1.4          0.2            B          3.4
  30           1.6          0.2            B          3.2
  31           1.6          0.2            B          3.1
  32           1.5          0.4            A          3.4
  33           1.5          0.1            B          4.1
  34           1.4          0.2            A          4.2
  35           1.5          0.1            B          3.1
  36           1.2          0.2            B          3.2
  37           1.3          0.2            A          3.5
  38           1.5          0.1            B          3.1
  39           1.3          0.2            B          3.0
  40           1.5          0.2            B          3.4
  41           1.3          0.3            B          3.5
  42           1.3          0.3            B          2.3
  43           1.3          0.2            B          3.2
  44           1.6          0.6            B          3.5
  45           1.9          0.4            B          3.8
  46           1.4          0.3            B          3.0
  47           1.6          0.2            B          3.8
  48           1.4          0.2            B          3.2
  49           1.5          0.2            B          3.7
  50           1.4          0.2            B          3.3
  51           4.7          1.4            C          3.2
  52           4.5          1.5            C          3.2
  53           4.9          1.5            C          3.1
  54           4.0          1.3            A          2.3
  55           4.6          1.5            C          2.8
  56           4.5          1.3            A          2.8
  57           4.7          1.6            C          3.3
  58           3.3          1.0            B          2.4
  59           4.6          1.3            C          2.9
  60           3.9          1.4            B          2.7
  61           3.5          1.0            B          2.0
  62           4.2          1.5            A          3.0
  63           4.0          1.0            A          2.2
  64           4.7          1.4            A          2.9
  65           3.6          1.3            A          2.9
  66           4.4          1.4            C          3.1
  67           4.5          1.5            A          3.0
  68           4.1          1.0            A          2.7
  69           4.5          1.5            C          2.2
  70           3.9          1.1            A          2.5
  71           4.8          1.8            A          3.2
  72           4.0          1.3            A          2.8
  73           4.9          1.5            C          2.5
  74           4.7          1.2            A          2.8
  75           4.3          1.3            C          2.9
  76           4.4          1.4            C          3.0
  77           4.8          1.4            C          2.8
  78           5.0          1.7            C          3.0
  79           4.5          1.5            A          2.9
  80           3.5          1.0            A          2.6
  81           3.8          1.1            A          2.4
  82           3.7          1.0            A          2.4
  83           3.9          1.2            A          2.7
  84           5.1          1.6            A          2.7
  85           4.5          1.5            A          3.0
  86           4.5          1.6            A          3.4
  87           4.7          1.5            C          3.1
  88           4.4          1.3            C          2.3
  89           4.1          1.3            A          3.0
  90           4.0          1.3            A          2.5
  91           4.4          1.2            A          2.6
  92           4.6          1.4            A          3.0
  93           4.0          1.2            A          2.6
  94           3.3          1.0            B          2.3
  95           4.2          1.3            A          2.7
  96           4.2          1.2            A          3.0
  97           4.2          1.3            A          2.9
  98           4.3          1.3            C          2.9
  99           3.0          1.1            B          2.5
 100           4.1          1.3            A          2.8
101           6.0          2.5            C          3.3
102           5.1          1.9            A          2.7
103           5.9          2.1            D          3.0
104           5.6          1.8            C          2.9
105           5.8          2.2            C          3.0
106           6.6          2.1            D          3.0
107           4.5          1.7            B          2.5
108           6.3          1.8            D          2.9
109           5.8          1.8            C          2.5
110           6.1          2.5            D          3.6
111           5.1          2.0            C          3.2
112           5.3          1.9            C          2.7
113           5.5          2.1            C          3.0
114           5.0          2.0            A          2.5
115           5.1          2.4            A          2.8
116           5.3          2.3            C          3.2
117           5.5          1.8            C          3.0
118           6.7          2.2            D          3.8
119           6.9          2.3            D          2.6
120           5.0          1.5            A          2.2
121           5.7          2.3            C          3.2
122           4.9          2.0            A          2.8
123           6.7          2.0            D          2.8
124           4.9          1.8            C          2.7
125           5.7          2.1            C          3.3
126           6.0          1.8            D          3.2
127           4.8          1.8            C          2.8
128           4.9          1.8            A          3.0
129           5.6          2.1            C          2.8
130           5.8          1.6            D          3.0
131           6.1          1.9            D          2.8
132           6.4          2.0            D          3.8
133           5.6          2.2            C          2.8
134           5.1          1.5            C          2.8
135           5.6          1.4            A          2.6
136           6.1          2.3            D          3.0
137           5.6          2.4            C          3.4
138           5.5          1.8            C          3.1
139           4.8          1.8            A          3.0
140           5.4          2.1            C          3.1
141           5.6          2.4            C          3.1
142           5.1          2.3            C          3.1
143           5.1          1.9            A          2.7
144           5.9          2.3            C          3.2
145           5.7          2.5            C          3.3
146           5.2          2.3            C          3.0
147           5.0          1.9            C          2.5
148           5.2          2.0            C          3.0
149           5.4          2.3            C          3.4
150           5.1          1.8            A          3.0

Melakukan proses diskritisasi dengan K-means clustering pada fitur lainya#

Setelah sebelumnya dilakukan diskritisasi pada fitur sepal_length, tahap ini melanjutkan proses diskritisasi terhadap fitur numerik lainnya, yaitu sepal_width, petal_length, dan petal_width. Metode yang digunakan adalah K-Means Clustering, yang diterapkan secara terpisah pada masing-masing fitur. Pertama, data iris asli dan versi data yang sudah mengandung sepal_length kategorikal dibaca. Kemudian dibuat sebuah fungsi cluster_kategori_stat() yang bertugas melakukan normalisasi menggunakan Min-Max Scaler, proses clustering dengan KMeans, serta menghasilkan kategori huruf berdasarkan label cluster. Fungsi ini juga menghasilkan statistik nilai minimum, maksimum, dan centroid (rata-rata) untuk setiap cluster dari fitur yang didiskritisasi.

Fitur sepal_width dikelompokkan ke dalam 3 kategori (‘A’, ‘B’, ‘C’).
Fitur petal_length dikelompokkan ke dalam 4 kategori (‘A’, ‘B’, ‘C’, ‘D’).
Fitur petal_width juga dikelompokkan ke dalam 3 kategori (‘A’, ‘B’, ‘C’).

import pandas as pd
from sklearn.preprocessing import KBinsDiscretizer
import numpy as np # Untuk np.nan jika perlu

# --- 1. Baca data awal ---
# Menggunakan nama file yang telah Anda sediakan
try:
    df_numerik = pd.read_excel("data_iris_sepal_kategori.xlsx")
    # Untuk df_kategori, kita akan memulainya dari df_numerik dan menambahkan kolom kategori.
    # Asumsi: sepal_length sudah ada di df_numerik.
    df_kategori = df_numerik[['id', 'sepal_length']].copy()
except FileNotFoundError as e:
    print(f"Error loading file: {e}. Pastikan file berada di direktori yang sama.")
    exit()

# --- 2. Fungsi bantu diskritisasi + mapping + statistik ---
def discretize_kbins_stat(data_col, n_bins, label_map, strategy='kmeans'):
    """
    Melakukan diskritisasi menggunakan KBinsDiscretizer dan menghitung statistik.

    Args:
        data_col (pd.Series): Kolom data numerik yang akan didiskritisasi.
        n_bins (int): Jumlah bin/kategori yang diinginkan.
        label_map (dict): Kamus untuk memetakan label numerik (0, 1, ...) ke label kategori (A, B, ...).
        strategy (str): Strategi diskritisasi ('uniform', 'quantile', 'kmeans'). Default 'kmeans'.

    Returns:
        tuple: (pd.Series kategori, pd.DataFrame statistik)
    """
    # Inisialisasi KBinsDiscretizer
    # encode='ordinal' berarti outputnya adalah integer (0, 1, ...)
    # strategy='kmeans' akan mencoba membuat bin berdasarkan klaster KMeans
    discretizer = KBinsDiscretizer(n_bins=n_bins, encode='ordinal', strategy=strategy)

    # Melakukan fitting dan transformasi
    # Reshape data_col agar sesuai dengan input yang diharapkan oleh scikit-learn (2D array)
    labels_numeric = discretizer.fit_transform(data_col.values.reshape(-1, 1)).flatten().astype(int)

    # Membuat seri kategori huruf
    kategori_series = pd.Series(labels_numeric).map(label_map)

    # Menghitung statistik min, max, centroid per cluster/bin
    df_temp = pd.DataFrame({
        'nilai_asli': data_col,
        'cluster_id': labels_numeric # Menggunakan ID cluster/bin numerik
    })

    # Hitung statistik
    stat = df_temp.groupby('cluster_id')['nilai_asli'].agg(['min', 'max', 'mean'])
    stat = stat.rename(columns={'mean': 'centroid'}) # Mengganti nama 'mean' menjadi 'centroid'

    # Tambahkan kolom kategori ke statistik
    stat['kategori'] = stat.index.map(label_map)
    stat = stat.set_index('kategori')

    return kategori_series, stat

# --- 3. Sepal Width (3 kategori) ---
map_sepal_width = {0: 'A', 1: 'B', 2: 'C'}
# Menggunakan 'kmeans' strategy untuk mendekati perilaku asli
df_kategori['sepal_width'], stat_sepal_width = discretize_kbins_stat(
    df_numerik['sepal_width'], 3, map_sepal_width, strategy='kmeans'
)

# --- 4. Petal Length (4 kategori) ---
map_petal_length = {0: 'A', 1: 'B', 2: 'C', 3: 'D'}
df_kategori['petal_length'], stat_petal_length = discretize_kbins_stat(
    df_numerik['petal_length'], 4, map_petal_length, strategy='kmeans'
)

# --- 5. Petal Width (3 kategori) ---
map_petal_width = {0: 'A', 1: 'B', 2: 'C'}
df_kategori['petal_width'], stat_petal_width = discretize_kbins_stat(
    df_numerik['petal_width'], 3, map_petal_width, strategy='kmeans'
)

df_kategori.to_excel("data_iris_kategori_lengkap.xlsx", index=False)
print("Hasil kategori disimpan ke 'data_iris_kategori_lengkap.xlsx'")


# --- 7. Gabungkan semua statistik dan tampilkan ---
print("\n=== Statistik Sepal Width (3 kategori) ===")
print(stat_sepal_width[['min', 'max', 'centroid']])

print("\n=== Statistik Petal Length (4 kategori) ===")
print(stat_petal_length[['min', 'max', 'centroid']])

print("\n=== Statistik Petal Width (3 kategori) ===")
print(stat_petal_width[['min', 'max', 'centroid']])

Hasil kategori disimpan ke 'data_iris_kategori_lengkap.xlsx'

=== Statistik Sepal Width (3 kategori) ===
          min  max  centroid
kategori                    
A         2.0  2.8  2.585106
B         2.9  3.4  3.118987
C         3.5  4.4  3.758333

=== Statistik Petal Length (4 kategori) ===
          min  max  centroid
kategori                    
A         1.0  1.9  1.464000
B         3.0  4.3  3.884000
C         4.4  5.3  4.808889
D         5.4  6.9  5.903333

=== Statistik Petal Width (3 kategori) ===
          min  max  centroid
kategori                    
A         0.1  0.6  0.244000
B         1.0  1.7  1.337037
C         1.8  2.5  2.073913

Menampilkan semua data hasil diskritisasi setiap fitur#

import pandas as pd

# Baca file Excel yang sudah berisi kategori
df_kategori = pd.read_excel("data_iris_kategori_lengkap.xlsx")

# Tampilkan semua baris
pd.set_option('display.max_rows', None)
print(df_kategori)

      id sepal_length sepal_width petal_length petal_width
    1            B           C            A           A
    2            B           B            A           A
    3            B           B            A           A
    4            B           B            A           A
    5            B           C            A           A
    6            A           C            A           A
    7            B           B            A           A
    8            B           B            A           A
    9            B           B            A           A
   10            B           B            A           A
  11            A           C            A           A
  12            B           B            A           A
  13            B           B            A           A
  14            B           B            A           A
  15            A           C            A           A
  16            A           C            A           A
  17            A           C            A           A
  18            B           C            A           A
  19            A           C            A           A
  20            B           C            A           A
  21            A           B            A           A
  22            B           C            A           A
  23            B           C            A           A
  24            B           B            A           A
  25            B           B            A           A
  26            B           B            A           A
  27            B           B            A           A
  28            B           C            A           A
  29            B           B            A           A
  30            B           B            A           A
  31            B           B            A           A
  32            A           B            A           A
  33            B           C            A           A
  34            A           C            A           A
  35            B           B            A           A
  36            B           B            A           A
  37            A           C            A           A
  38            B           B            A           A
  39            B           B            A           A
  40            B           B            A           A
  41            B           C            A           A
  42            B           A            A           A
  43            B           B            A           A
  44            B           C            A           A
  45            B           C            A           A
  46            B           B            A           A
  47            B           C            A           A
  48            B           B            A           A
  49            B           C            A           A
  50            B           B            A           A
  51            C           B            C           B
  52            C           B            C           B
  53            C           B            C           B
  54            A           A            B           B
  55            C           A            C           B
  56            A           A            C           B
  57            C           B            C           B
  58            B           A            B           B
  59            C           B            C           B
  60            B           A            B           B
  61            B           A            B           B
  62            A           B            B           B
  63            A           A            B           B
  64            A           B            C           B
  65            A           B            B           B
  66            C           B            C           B
  67            A           B            C           B
  68            A           A            B           B
  69            C           A            C           B
  70            A           A            B           B
  71            A           B            C           C
  72            A           A            B           B
  73            C           A            C           B
  74            A           A            C           B
  75            C           B            B           B
  76            C           B            C           B
  77            C           A            C           B
  78            C           B            C           B
  79            A           B            C           B
  80            A           A            B           B
  81            A           A            B           B
  82            A           A            B           B
  83            A           A            B           B
  84            A           A            C           B
  85            A           B            C           B
  86            A           B            C           B
  87            C           B            C           B
  88            C           A            C           B
  89            A           B            B           B
  90            A           A            B           B
  91            A           A            C           B
  92            A           B            C           B
  93            A           A            B           B
  94            B           A            B           B
  95            A           A            B           B
  96            A           B            B           B
  97            A           B            B           B
  98            C           B            B           B
  99            B           A            B           B
 100            A           A            B           B
101            C           B            D           C
102            A           A            C           C
103            D           B            D           C
104            C           B            D           C
105            C           B            D           C
106            D           B            D           C
107            B           A            C           B
108            D           B            D           C
109            C           A            D           C
110            D           C            D           C
111            C           B            C           C
112            C           A            C           C
113            C           B            D           C
114            A           A            C           C
115            A           A            C           C
116            C           B            C           C
117            C           B            D           C
118            D           C            D           C
119            D           A            D           C
120            A           A            C           B
121            C           B            D           C
122            A           A            C           C
123            D           A            D           C
124            C           A            C           C
125            C           B            D           C
126            D           B            D           C
127            C           A            C           C
128            A           B            C           C
129            C           A            D           C
130            D           B            D           B
131            D           A            D           C
132            D           C            D           C
133            C           A            D           C
134            C           A            C           B
135            A           A            D           B
136            D           B            D           C
137            C           B            D           C
138            C           B            D           C
139            A           B            C           C
140            C           B            D           C
141            C           B            D           C
142            C           B            C           C
143            A           A            C           C
144            C           B            D           C
145            C           B            D           C
146            C           B            C           C
147            C           A            C           C
148            C           B            C           C
149            C           B            D           C
150            A           B            C           C

Klasifikasi Naive Bayes Data Diskrit#

from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import CategoricalNB
from sklearn.metrics import classification_report, accuracy_score
import pandas as pd

# Load both files
data_iris = pd.read_excel("data_iris_kategori_lengkap.xlsx")
class_asli = pd.read_excel("class.xlsx")

# Gabungkan data kategorikal dengan kelas asli berdasarkan 'id'
data_gabungan = pd.merge(data_iris, class_asli[['id', 'class']], on='id')

# Encode fitur kategorikal (A, B, dst.) ke numerik
fitur_kategori = ['petal_length', 'petal_width', 'sepal_length', 'sepal_width']
for kolom in fitur_kategori:
    encoder = LabelEncoder()
    data_gabungan[kolom] = encoder.fit_transform(data_gabungan[kolom])

# Encode label kelas
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(data_gabungan['class'])
X = data_gabungan[fitur_kategori]

# Model Naive Bayes
model = CategoricalNB()
model.fit(X, y)
y_pred = model.predict(X)

# Buat DataFrame hasil prediksi vs kelas asli
hasil_prediksi = data_gabungan[['id']].copy()
hasil_prediksi['kelas_asli'] = label_encoder.inverse_transform(y)
hasil_prediksi['kelas_prediksi'] = label_encoder.inverse_transform(y_pred)

# Simpan ke Excel
output_path = "naive_bayes.xlsx"
hasil_prediksi.to_excel(output_path, index=False)

# Evaluasi hasil prediksi
akurasi = accuracy_score(y, y_pred)
laporan_klasifikasi = classification_report(y, y_pred, target_names=label_encoder.classes_)

# Tampilkan hasil
print("\n=== Hasil Prediksi Kelas ===")
print(hasil_prediksi)

print("\n=== Akurasi ===")
print(f"Akurasi: {akurasi:.2f}")

print("\n=== Laporan Klasifikasi ===")
print(laporan_klasifikasi)

=== Hasil Prediksi Kelas ===
      id       kelas_asli   kelas_prediksi
    1      Iris-setosa      Iris-setosa
    2      Iris-setosa      Iris-setosa
    3      Iris-setosa      Iris-setosa
    4      Iris-setosa      Iris-setosa
    5      Iris-setosa      Iris-setosa
    6      Iris-setosa      Iris-setosa
    7      Iris-setosa      Iris-setosa
    8      Iris-setosa      Iris-setosa
    9      Iris-setosa      Iris-setosa
   10      Iris-setosa      Iris-setosa
  11      Iris-setosa      Iris-setosa
  12      Iris-setosa      Iris-setosa
  13      Iris-setosa      Iris-setosa
  14      Iris-setosa      Iris-setosa
  15      Iris-setosa      Iris-setosa
  16      Iris-setosa      Iris-setosa
  17      Iris-setosa      Iris-setosa
  18      Iris-setosa      Iris-setosa
  19      Iris-setosa      Iris-setosa
  20      Iris-setosa      Iris-setosa
  21      Iris-setosa      Iris-setosa
  22      Iris-setosa      Iris-setosa
  23      Iris-setosa      Iris-setosa
  24      Iris-setosa      Iris-setosa
  25      Iris-setosa      Iris-setosa
  26      Iris-setosa      Iris-setosa
  27      Iris-setosa      Iris-setosa
  28      Iris-setosa      Iris-setosa
  29      Iris-setosa      Iris-setosa
  30      Iris-setosa      Iris-setosa
  31      Iris-setosa      Iris-setosa
  32      Iris-setosa      Iris-setosa
  33      Iris-setosa      Iris-setosa
  34      Iris-setosa      Iris-setosa
  35      Iris-setosa      Iris-setosa
  36      Iris-setosa      Iris-setosa
  37      Iris-setosa      Iris-setosa
  38      Iris-setosa      Iris-setosa
  39      Iris-setosa      Iris-setosa
  40      Iris-setosa      Iris-setosa
  41      Iris-setosa      Iris-setosa
  42      Iris-setosa      Iris-setosa
  43      Iris-setosa      Iris-setosa
  44      Iris-setosa      Iris-setosa
  45      Iris-setosa      Iris-setosa
  46      Iris-setosa      Iris-setosa
  47      Iris-setosa      Iris-setosa
  48      Iris-setosa      Iris-setosa
  49      Iris-setosa      Iris-setosa
  50      Iris-setosa      Iris-setosa
  51  Iris-versicolor  Iris-versicolor
  52  Iris-versicolor  Iris-versicolor
  53  Iris-versicolor  Iris-versicolor
  54  Iris-versicolor  Iris-versicolor
  55  Iris-versicolor  Iris-versicolor
  56  Iris-versicolor  Iris-versicolor
  57  Iris-versicolor  Iris-versicolor
  58  Iris-versicolor  Iris-versicolor
  59  Iris-versicolor  Iris-versicolor
  60  Iris-versicolor  Iris-versicolor
  61  Iris-versicolor  Iris-versicolor
  62  Iris-versicolor  Iris-versicolor
  63  Iris-versicolor  Iris-versicolor
  64  Iris-versicolor  Iris-versicolor
  65  Iris-versicolor  Iris-versicolor
  66  Iris-versicolor  Iris-versicolor
  67  Iris-versicolor  Iris-versicolor
  68  Iris-versicolor  Iris-versicolor
  69  Iris-versicolor  Iris-versicolor
  70  Iris-versicolor  Iris-versicolor
  71  Iris-versicolor   Iris-virginica
  72  Iris-versicolor  Iris-versicolor
  73  Iris-versicolor  Iris-versicolor
  74  Iris-versicolor  Iris-versicolor
  75  Iris-versicolor  Iris-versicolor
  76  Iris-versicolor  Iris-versicolor
  77  Iris-versicolor  Iris-versicolor
  78  Iris-versicolor  Iris-versicolor
  79  Iris-versicolor  Iris-versicolor
  80  Iris-versicolor  Iris-versicolor
  81  Iris-versicolor  Iris-versicolor
  82  Iris-versicolor  Iris-versicolor
  83  Iris-versicolor  Iris-versicolor
  84  Iris-versicolor  Iris-versicolor
  85  Iris-versicolor  Iris-versicolor
  86  Iris-versicolor  Iris-versicolor
  87  Iris-versicolor  Iris-versicolor
  88  Iris-versicolor  Iris-versicolor
  89  Iris-versicolor  Iris-versicolor
  90  Iris-versicolor  Iris-versicolor
  91  Iris-versicolor  Iris-versicolor
  92  Iris-versicolor  Iris-versicolor
  93  Iris-versicolor  Iris-versicolor
  94  Iris-versicolor  Iris-versicolor
  95  Iris-versicolor  Iris-versicolor
  96  Iris-versicolor  Iris-versicolor
  97  Iris-versicolor  Iris-versicolor
  98  Iris-versicolor  Iris-versicolor
  99  Iris-versicolor  Iris-versicolor
 100  Iris-versicolor  Iris-versicolor
101   Iris-virginica   Iris-virginica
102   Iris-virginica   Iris-virginica
103   Iris-virginica   Iris-virginica
104   Iris-virginica   Iris-virginica
105   Iris-virginica   Iris-virginica
106   Iris-virginica   Iris-virginica
107   Iris-virginica  Iris-versicolor
108   Iris-virginica   Iris-virginica
109   Iris-virginica   Iris-virginica
110   Iris-virginica   Iris-virginica
111   Iris-virginica   Iris-virginica
112   Iris-virginica   Iris-virginica
113   Iris-virginica   Iris-virginica
114   Iris-virginica   Iris-virginica
115   Iris-virginica   Iris-virginica
116   Iris-virginica   Iris-virginica
117   Iris-virginica   Iris-virginica
118   Iris-virginica   Iris-virginica
119   Iris-virginica   Iris-virginica
120   Iris-virginica  Iris-versicolor
121   Iris-virginica   Iris-virginica
122   Iris-virginica   Iris-virginica
123   Iris-virginica   Iris-virginica
124   Iris-virginica   Iris-virginica
125   Iris-virginica   Iris-virginica
126   Iris-virginica   Iris-virginica
127   Iris-virginica   Iris-virginica
128   Iris-virginica   Iris-virginica
129   Iris-virginica   Iris-virginica
130   Iris-virginica   Iris-virginica
131   Iris-virginica   Iris-virginica
132   Iris-virginica   Iris-virginica
133   Iris-virginica   Iris-virginica
134   Iris-virginica  Iris-versicolor
135   Iris-virginica  Iris-versicolor
136   Iris-virginica   Iris-virginica
137   Iris-virginica   Iris-virginica
138   Iris-virginica   Iris-virginica
139   Iris-virginica   Iris-virginica
140   Iris-virginica   Iris-virginica
141   Iris-virginica   Iris-virginica
142   Iris-virginica   Iris-virginica
143   Iris-virginica   Iris-virginica
144   Iris-virginica   Iris-virginica
145   Iris-virginica   Iris-virginica
146   Iris-virginica   Iris-virginica
147   Iris-virginica   Iris-virginica
148   Iris-virginica   Iris-virginica
149   Iris-virginica   Iris-virginica
150   Iris-virginica   Iris-virginica

=== Akurasi ===
Akurasi: 0.97

=== Laporan Klasifikasi ===
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        50
Iris-versicolor       0.92      0.98      0.95        50
 Iris-virginica       0.98      0.92      0.95        50

       accuracy                           0.97       150
      macro avg       0.97      0.97      0.97       150
   weighted avg       0.97      0.97      0.97       150

Klasifikasi Naive Bayes Data Tanpa Diskritisasi#

import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Memuat dataset
try:
    df_iris = pd.read_excel('data_iris.xlsx')
    df_class = pd.read_excel('class.xlsx')
except FileNotFoundError as e:
    print(f"Error loading file: {e}. Pastikan file berada di direktori yang sama.")
    exit()

# Menyiapkan data
# Fitur (X) diambil dari df_iris, mengecualikan kolom 'id'
X = df_iris.drop('id', axis=1)

# Label sebenarnya (y_true) diambil dari kolom 'class' di df_class
y_true = df_class['class']

# Memastikan jumlah baris di X dan y_true cocok
if X.shape[0] != y_true.shape[0]:
    print("Error: Jumlah baris pada fitur dan variabel target sebenarnya tidak cocok.")
    exit()

# Menginisialisasi model Gaussian Naive Bayes
model = GaussianNB()

# Melatih model menggunakan fitur dari df_iris dan label sebenarnya dari df_class
model.fit(X, y_true)

# Membuat prediksi pada fitur yang sama
y_pred = model.predict(X)

# Membandingkan prediksi dengan kelas aktual (y_true)
comparison_df = pd.DataFrame({'True Class': y_true, 'Predicted Class': y_pred})
print("\nPerbandingan Kelas Aktual dan Kelas Prediksi:")
print(comparison_df.head())

# Mengevaluasi model
accuracy = accuracy_score(y_true, y_pred)
conf_matrix = confusion_matrix(y_true, y_pred)
class_report = classification_report(y_true, y_pred)

print(f"\nAkurasi: {accuracy:.4f}")
print("\nMatriks Konfusi:")
print(conf_matrix)
print("\nLaporan Klasifikasi:")
print(class_report)

comparison_df.to_excel('naive_bayes_classification_results.xlsx', index=False)

Perbandingan Kelas Aktual dan Kelas Prediksi:
    True Class Predicted Class
0  Iris-setosa     Iris-setosa
1  Iris-setosa     Iris-setosa
2  Iris-setosa     Iris-setosa
3  Iris-setosa     Iris-setosa
4  Iris-setosa     Iris-setosa

Akurasi: 0.9600

Matriks Konfusi:
[[50  0  0]
 [ 0 47  3]
 [ 0  3 47]]

Laporan Klasifikasi:
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        50
Iris-versicolor       0.94      0.94      0.94        50
 Iris-virginica       0.94      0.94      0.94        50

       accuracy                           0.96       150
      macro avg       0.96      0.96      0.96       150
   weighted avg       0.96      0.96      0.96       150

Klasifikasi Decision Tree Data Diskrit#

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split # Meskipun tidak digunakan untuk split di sini, ini adalah praktik baik
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import OneHotEncoder

# --- 1. Memuat data yang sudah didiskritisasi ---
try:
    df_discretized = pd.read_excel('data_iris_kategori_lengkap.xlsx')
    df_true_class = pd.read_excel('class.xlsx')
except FileNotFoundError as e:
    print(f"Error loading file: {e}. Pastikan file berada di direktori yang sama.")
    exit()

# --- 2. Menyiapkan data ---
categorical_features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
X_categorical = df_discretized[categorical_features]

# Variabel target (y) dari file kelas aktual
y = df_true_class['class']

encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)
X_encoded = encoder.fit_transform(X_categorical)

feature_names = encoder.get_feature_names_out(categorical_features)
X_df_encoded = pd.DataFrame(X_encoded, columns=feature_names)

if X_df_encoded.shape[0] != y.shape[0]:
    print("Error: Jumlah baris pada fitur yang di-encode dan variabel target tidak cocok.")
    exit()

# --- 3. Melatih pengklasifikasi Decision Tree ---
# random_state digunakan untuk reproduksibilitas hasil
model = DecisionTreeClassifier(random_state=42)

# Melatih model
model.fit(X_df_encoded, y)

# --- 4. Membuat prediksi ---
y_pred = model.predict(X_df_encoded)

# --- 5. Mengevaluasi model ---
accuracy = accuracy_score(y, y_pred)
conf_matrix = confusion_matrix(y, y_pred)
class_report = classification_report(y, y_pred)

print(f"\nAkurasi Model Decision Tree (Data Diskritisasi): {accuracy:.4f}")
print("\nMatriks Konfusi:")
print(conf_matrix)
print("\nLaporan Klasifikasi:")
print(class_report)

# Secara opsional, simpan perbandingan kelas aktual dan prediksi ke file CSV
comparison_df_dt = pd.DataFrame({'True Class': y, 'Predicted Class': y_pred})
comparison_df_dt.to_excel('decision_tree_discretized_classification_results.xlsx', index=False)

Akurasi Model Decision Tree (Data Diskritisasi): 0.9800

Matriks Konfusi:
[[50  0  0]
 [ 0 49  1]
 [ 0  2 48]]

Laporan Klasifikasi:
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        50
Iris-versicolor       0.96      0.98      0.97        50
 Iris-virginica       0.98      0.96      0.97        50

       accuracy                           0.98       150
      macro avg       0.98      0.98      0.98       150
   weighted avg       0.98      0.98      0.98       150

import pandas as pd
df= pd.read_excel('decision_tree_discretized_classification_results.xlsx')
# Tampilkan semua baris
pd.set_option('display.max_rows', None)
print(df)

          True Class  Predicted Class
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor   Iris-virginica
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica  Iris-versicolor
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica  Iris-versicolor
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica

Klasifikasi Decision Tree Data Tanpa Diskritisasi#

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split # Termasuk untuk praktik baik
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# --- 1. Memuat data Iris asli ---
try:
    df_iris_original = pd.read_excel('data_iris.xlsx')
    df_true_class = pd.read_excel('class.xlsx')
except FileNotFoundError as e:
    print(f"Error loading file: {e}. Pastikan file berada di direktori yang sama.")
    exit()

# --- 2. Menyiapkan data ---
# Fitur (X) dari data Iris asli, mengecualikan kolom 'id'
features = ['petal_length', 'petal_width', 'sepal_length', 'sepal_width']
X = df_iris_original[features]

# Variabel target (y) dari file kelas aktual
y = df_true_class['class']

# Memastikan jumlah sampel di X dan y cocok
if X.shape[0] != y.shape[0]:
    print("Error: Jumlah baris pada fitur dan variabel target tidak cocok.")
    exit()

# Untuk tujuan demonstrasi ini, kita akan melatih dan mengevaluasi pada seluruh dataset.
# Dalam skenario dunia nyata, sangat disarankan untuk menggunakan train_test_split
# untuk membagi data menjadi set pelatihan dan pengujian guna mendapatkan evaluasi model yang lebih realistis.
# Contoh penggunaan train_test_split:
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# --- 3. Melatih pengklasifikasi Decision Tree ---
# random_state digunakan untuk reproduksibilitas hasil
model = DecisionTreeClassifier(random_state=42)

# Melatih model
model.fit(X, y)

# --- 4. Membuat prediksi ---
y_pred = model.predict(X)

# --- 5. Mengevaluasi model ---
accuracy = accuracy_score(y, y_pred)
conf_matrix = confusion_matrix(y, y_pred)
class_report = classification_report(y, y_pred)

print(f"\nAkurasi Model Decision Tree (Data Iris Asli): {accuracy:.4f}")
print("\nMatriks Konfusi:")
print(conf_matrix)
print("\nLaporan Klasifikasi:")
print(class_report)

comparison_df_dt_original = pd.DataFrame({'True Class': y, 'Predicted Class': y_pred})
comparison_df_dt_original.to_excel('decision_tree_original_iris_classification_results.xlsx', index=False)

Akurasi Model Decision Tree (Data Iris Asli): 1.0000

Matriks Konfusi:
[[50  0  0]
 [ 0 50  0]
 [ 0  0 50]]

Laporan Klasifikasi:
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        50
Iris-versicolor       1.00      1.00      1.00        50
 Iris-virginica       1.00      1.00      1.00        50

       accuracy                           1.00       150
      macro avg       1.00      1.00      1.00       150
   weighted avg       1.00      1.00      1.00       150

import pandas as pd
df= pd.read_excel('decision_tree_original_iris_classification_results.xlsx')

# Tampilkan semua baris
pd.set_option('display.max_rows', None)
print(df)

          True Class  Predicted Class
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
      Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
     Iris-setosa      Iris-setosa
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-versicolor  Iris-versicolor
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica
 Iris-virginica   Iris-virginica

Kesimpulan#

\( \begin{array}{lcccc} \hline \textbf{Model} & \textbf{Akurasi} \\ \hline \text{Naive Bayes (diskritisasi)} & 0.97 \\ \text{Naive Bayes (iris-asli)} & 0.96 \\ \text{Decision Tree (diskritisasi)} & 0.98 \\ \text{Decision Tree (iris-asli)} & 1.00 \\ \hline \end{array} \)

Secara keseluruhan, Decision Tree menunjukkan kinerja yang lebih unggul dibandingkan Naive Bayes pada kedua jenis data.Pengolahan data (diskritisasi) memberikan dampak yang berbeda pada kedua model:

Pada Naive Bayes, proses diskritisasi justru meningkatkan kinerja model dari 0.96 menjadi 0.97. Ini menunjukkan bahwa model Naive Bayes dalam kasus ini bekerja lebih baik dengan fitur-fitur yang bersifat kategorikal (hasil diskritisasi).
Pada Decision Tree, proses diskritisasi sedikit menurunkan kinerja model dari 1.00 menjadi 0.98. Hal ini menandakan bahwa Decision Tree mampu memanfaatkan informasi dari data numerik kontinu pada set data Iris asli secara lebih efektif untuk mencapai hasil yang sempurna.