วิธีการปรับข้อมูลตัวอย่างแบบผสมผสานเพื่อเพิ่มประสิทธิภาพการจำแนกข้อมูลที่มีจำนวนตัวอย่างในแต่ละคลาสไม่สมดุลกัน

วันทนี ประจวบศุภกิจ

Abstract


ปัญหาความไม่สมดุลกันของจำนวนตัวอย่างในแต่ละคลาสเป็นปัญหาที่เกิดจากจำนวนตัวอย่างในคลาสใดคลาสหนึ่งมีการกระจายตัวลักษณะลาดเอียงสูงกว่าอีกคลาสหนึ่งเป็นจำนวนมาก ซึ่งการจำแนกบนชุดข้อมูลที่มีปัญหาแบบนี้ส่งผลให้ตัวจำแนกพื้นฐานจะจำแนกให้ผลลัพธ์ที่ดีกับคลาสที่มีจำนวนมาก (คลาสลบ) แต่ให้ผลลัพธ์ในการจำแนกที่แย่ลงกับคลาสที่มีจำนวนน้อย (คลาสบวก) ดังนั้น งานวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาขั้นตอนวิธีสำหรับการจำแนกประเภทข้อมูลที่มีจำนวนตัวอย่างในแต่ละความไม่สมดุลกัน โดยนำเสนอแนวทางการปรับปรุงการจำแนกข้อมูลโดยใช้เทคนิคการจัดกลุ่ม (k-means) เพื่อลดข้อมูลตัวอย่างในกลุ่มมากควบคู่เทคนิคการสุ่มเพิ่มข้อมูลตัวอย่างในกลุ่มน้อย ในชื่อ Clustering Switching Method for Sampling Imbalanced Data หรือ ClusIM ที่สามารถเพิ่มประสิทธิภาพการจำแนกข้อมูลในข้อมูลกลุ่มน้อยหรือคลาสบวกให้มีความแม่นยำมากขึ้น จากผลการทดลองจะแสดงให้เห็นว่า ClusIM  ให้ประสิทธิภาพในการจำแนกได้ดีกว่าขั้นตอนวิธีอื่น ๆ ที่นำมาเปรียบเทียบโดยเฉพาะอย่างยิ่งการจำแนกในคลาสบวกซึ่ง ClusIM มีค่า F-measure และ G-mean เฉลี่ยที่ร้อยละ 90 ในทุกชุดข้อมูล นอกจากนี้ยังพบว่า ClusIM สามารถลดความซ้อนทับและลดอัตราความไม่สมดุลกันระหว่างคลาสบวกและคลาสลบได้อย่างมีประสิทธิภาพ


Keywords


Imbalanced data, Sampling Data, Classification, Data mining

Full Text:

PDF

Refbacks

  • There are currently no refbacks.


SCIENCE  AND  TECHNOLOGY  RMUTT  JOURNAL
คณะวิทยาศาสตร์และเทคโนโลยี
Faculty of Science and Technology
http://www.sci.rmutt.ac.th/stj