การศึกษาเกี่ยวกับ Machine Learning มีคำศัพท์ที่เกี่ยวข้องเป็นจำนวนมาก บางอย่างเรียกได้หลายคำ ฉะนั้นใครที่กำลังเริ่มต้นศึกษา Machine Learning ควรรู้คำศัพท์เอาไว้ จะช่วยให้เรียนรู้และเข้าใจได้ดีขึ้น (ตอนนี้คุณอาจยังอ่านไม่เข้าใจ ก็ไม่เป็นไร เพราะคุณยังเป็นมือใหม่ แต่เมื่อคุณศีกษา เรียนรู้ และทำไปเรื่อย ๆ คุณจะเริ่มเข้าใจมันดีขึ้นโดยไม่รู้ตัวเลยละ 😇😊😍)

Data set หรือ Dataset: หมายถึงข้อมูลที่ได้รวบรวมไว้ เพื่อนำมาสอน (Train) ให้กับคอมพิวเตอร์เพื่อสร้างเป็น Model หรือใช้ทดสอบความถูกต้องแม่นยำของ Model คำว่า data set บางทีเรียกว่า ตัวอย่าง/Samples/Instances/observations

Training Set/Training Data/Learning data: ชุดข้อมูลที่นำไปทำการสอนให้กับคอมพิวเตอร์ โดยปกติ จะแบ่ง Data set ออกเป็น 2 ส่วนคือ Training set สำหรับการ Train และ Test set สำหรับทดสอบ

Test set: ชุดข้อมูลที่แบ่งมาจาก Data set เพื่อนำมาทดสอบความแม่นยำ ความถูกต้องของ Model ที่ Train เรียบร้อยแล้ว

Features/attributes/measurements/variables/dimensions: คุณลักษณะเด่นของข้อมูล เพื่อนำไปใช้ในการเรียนรู้ของ Machine Learning เช่น ระบบแยกแยะ มะนาว กับส้มเขียวหวาน คุณลักษณะเด่นที่สามารถใช้แยกแยะได้ คือ ขนาด ลักษณะเปลือก สี ตัวอย่างการแยกแยะชนิดดอกไม้ตระกูล Iris คุณลักษณะเด่น คือ ขนาดความกว้าง ความยาวของกลีบ (Petal, Sepal) ส่วน Class คือ ชนิดดอกไม้ เช่น Setosa Versicolor Vriginica เป็นต้น

Target/Class/Label/Output: เป็นเป้าหมายหรือ Output ที่ต้องการให้ระบบ Machine Learning มีความสามารถทำนาย จำแนกแยกแยะ เช่น ระบบคัดแยกเสื้อ 3 กลุ่ม ได้แก่ เสื้อโปโล เสื้อคอกลม เสื้อกล้าม แบบนี้ถือว่ามี 3 Class หรือ 3 กลุ่ม ระบบก็จะมีความสามารถแยกแยะเสื้อ 3 แบบนี้ได้เท่านั้น จะแยกแยะชุดราตรี เสื้ออื่น ๆ ไม่ได้ หรือระบบคัดแยกมะนาวกับส้ม แบบนี้ถือว่ามี 2 Class สามารถจำแนกหรือคัดแยกได้เฉพาะมะนาวกับส้มเท่านั้น ระบบคัดแยกใบหน้าพนักงาน 100 คน ถือว่ามี 100 Class (Class ละคน) ระบบคัดแยกเมล์ Spam หรือไม่ใช้ Spam ถือว่ามี 2 Class ระบบแยกแยะสัตว์ว่าเป็นแมวหรือสุนัข ถือว่ามี 2 Class ตัวอย่างระบบแยกแยะดอกไม้ 3 ชนิด Class คือชนิดดอกไม้ 3 ชนิด ได้แก่ Setosa Vesicolor และ Verginic เป็นต้น

Training: กระบวนการนำข้อมูล Training set สอนให้กับคอมพิวเตอร์แล้วได้ Model หรือเรียกขั้นตอนนี้ว่า การสอนให้เครื่องรู้จักข้อมูล คล้าย ๆ กับเราสอนเด็กโดยให้ดูรูป แมว แล้วก็บอกว่านี่คือ แมว ให้ดูรูปสุนัข แล้วก็บอกว่านี่คือ สุนัข

Predict: เป็นการนำข้อมูลใหม่ (New input data/New Observation) ป้อนเข้าระบบเพื่อคำนวณหรือทำนาย โดยปกติแล้วการนำข้อมูลใหม่เข้ามาคำนวณประมวลใน Machine Learning (คือป้อน dataset เข้าไปแล้วให้ Model คำนวณผลลัพธ์ออกมา เรียกว่า ทำนาย หรือ Predict เนื่องจากเป็นการคาดการณ์ อาจได้ผลที่ไม่ถูกต้อง 100%)

Classification: การจำแนก แยกแยะ New Input Data ว่าอยู่ในกลุ่มใด เช่น เครดิตสินเชื่อของคนนี้ ดี หรือ ไม่ดี การแยกแยะหน้าคนว่าเป็น จอร์จ เคธี ญาญ่า มารีญา การแยกแยะชิ้นเนื้อว่าเป็น ชิ้นเนื้อดี หรือ ชิ้นเนื้ออันตราย ผลการจำแนกแยกแยะจะได้เป็นข้อมูลแบบ Category

Model: เป็นเหมือนกับ main program ในการคิดคำนวณประมวลผล การตัดสินใจ เพื่อให้ได้ผลลัพธ์ออกมา เช่น เราใช้การพล็อตจุดและการคำนวณเพื่อมากำหนดเป็นสมการ y = slope * x + b ซึ่งสมการนี้ก็เปรียบเสมือน Model หรือแกนหลักในการคิดคำนวณของโปรแกรมนี้ โดย Model จะได้มาจากการนำข้อมูลไปสอน (Train) ให้กับคอมพิวเตอร์ 

Algorithm: คือวิธีหรือขั้นตอนกระบวนการคิดคำนวณทางคณิตศาสตร์เพื่อให้ได้ผลลัพธ์ออกมk ในศาสตร์ Machine Learning จะมี Algorithm อยู่เป็นจำนวนมาก เช่น Linear Regression, Decision Tree, SVM เป็นต้น

การทำ Label: การใส่ค่าเป้าหมาย การตั้งชื่อ หรือการตั้งสถานะให้กับข้อมูล Data set เช่น ทำระบบคัดแยกเสื้อ ประกอบด้วย 3 กลุ่ม (เรียกว่า 3 Class) ได้แก่ เสื้อโปโล เสื้อคอกลม เสื้อกล้าม เราก็จะต้องเตรียมรูป เสื้อทุกชนิดหลาย ๆ รูป โดยแต่ละรูปจะต้องกำกับสถานะไว้ว่า นี่คือเสื้อโปโล นี่คือเสื้อคอกลม นี่คือเสื้อกล้าม เพื่อเวลานำข้อมูลไป Train สร้าง Model ระบบจะได้รับรู้ว่านี้คือเสื้ออะไร คล้าย ๆ กับเราสอนเด็กโดยให้ดูรูป “แมว” แล้วก็บอกว่านี้คือแมว ให้ดูรูป ”สุนัข” แล้วก็บอกว่า นี่คือสุนัข ตัว Label ที่หมายถึงคือ แมว, สุนัขLabeled data: ข้อมูลที่ได้กำกับเป้าหมายหรือสถานะไว้แล้ว พร้อมนำไปใช้ Train สร้าง Model และ Test ทดสอบประเมินความแม่นยำ Model

LEAVE A REPLY

Please enter your comment!
Please enter your name here

15 + 6 =