การหาชุดข้อมูล หรือ Dataset ที่เหมาะสมในการทำ Machine Learning เป็นสิ่งที่ยากพอสมควรสำหรับมือใหม่ ขนาดมือเก๋าบางทีก็ยังหาได้ยากเช่นกัน เพราะเราไม่สามารถเก็บรวมรวม Dataset ในปริมาณที่มากพอที่จะนำไปสร้าง Model ที่แม่นยำได้เอง (มันต้องใช้ dataset เยอะมาก ๆ ๆ ๆ ๆ ๆ ๆ ๆ ๆ ๆ ๆ เลยล่ะ) แต่ไม่ต้องกังวลอีกต่อไป บทความของเราช่วยคุณได้ เราจะมาบอกเล่าเก้าสิบ ถึง dataset ที่เหล่านักวิจัย, องค์กร และบุคคลในสายงาน Machine Learning จำนวนมากร่วมกันแบ่งปันชุดข้อมูล หรือ dataset ให้เราได้ใช้กันฟรี ๆ ซึ่งมีมากกว่า 70 ชุดเลยนะ รอช้าอยู่ไย รีบมาดูดเก็บไว้กันเลย  

Machine Learning Datasets for Data Science Beginners

1. Mall Customers Dataset

The Mall Customers เป็นชุดข้อมูลเกี่ยวกับผู้คนที่มาเยี่ยมชมห้างสรรพสินค้า ภายในชุดข้อมูลประกอบไปด้วย เพศ, รหัสลูกค้า, อายุ, รายได้ต่อปี และคะแนนการใช้จ่ายในแต่ละครั้ง ถูกเก็บรวบรวมและจัดกลุ่มลูกค้าตามพฤติกรรมการใช้บริการของลูกค้าแต่ละคน

Data Link: mall customers dataset

Data Science Project Idea: การแบ่งกลุ่มลูกค้าตามอายุ เพศ ความสนใจ เป็นสิ่งสำคัญในการแบ่งฐานลูกค้าออกเป็นกลุ่มย่อย ๆ ซึ่งแต่ละกลุ่มมีความคล้ายคลึงกันมาก มีประโยชน์ในการทำการตลาด (Customised Marketing)

2. Iris Dataset

เป็นชุดข้อมูลดอก Iris ซึ่งเป็นดอกไม้ชนิดหนึ่ง ภายในชุดข้อมูลประกอบไปด้วยข้อมูลเกี่ยวกับขนาดของกลีบดอก(Petal) และขนาดของกลีบเลี้ยง(Sepal) ชุดข้อมูลมีทั้งหมด 3 Class แต่ละ Class มี 50 ดอก รวมเป็น 150 ดอก หรือ 150 แถว ในแต่ละดอกหรือแต่ละแถว จะเก็บข้อมูลความกว้าง-ยาวของกลีบดอก และความกว้าง-ยาวของกลีบเลี้ยง รวมเป็น 4 คอลัมน์

Data Link: Iris dataset

Data Science Project Idea: ทำ Machine Learning โดยใช้ classification model หรือ regression model สำหรับจำแนกหมวดหมู่ของดอก Iris 

3. MNIST Dataset

เป็นข้อมูลของตัวเลขที่เขียนด้วยลายมือ ประกอบด้วยภาพสำหรับการ Training 60,000 ภาพและภาพสำหรับการ Testing อีก 10,000 ภาพ ถือได้ว่าเป็นชุดข้อมูลที่ใช้จัดประเภทรูปภาพ และจำแนกเป็นตัวเลขได้ตั้งแต่ 0 ถึง 9 ที่ดีที่สุดเลยก็ว่าได้

Data Link: MNIST Dataset

Data Science Project Idea: ทำ Machine Learning เพื่อจดจำตัวเลขที่เขียนด้วยลายมือจากกระดาษ

4. The Boston Housing Dataset

เป็นชุดข้อมูลเกี่ยวกับบ้านหลังต่าง ๆ ในเมืองบอสตัน คนนิยมนำไปใช้ในการทำ pattern recognition ภายในชุดข้อมูลประกอบไปด้วย อัตราการเกิดอาชญากรรม ภาษี จำนวนห้อง ฯลฯ มีทั้งหมด 506 แถว แต่ละแถวมี 14 ตัวแปร เราสามารถใช้ชุดข้อมูลนี้เพื่อทำนายราคาบ้านได้

Data Link: Boston Housing Dataset

Data Science Project Idea: ทำนายราคาที่อยู่อาศัยของบ้านหลังใหม่โดยใช้ linear regression ซึ่ง linear regression ใช้ในการทำนายค่าของอินพุตที่ไม่รู้จัก เมื่อข้อมูลมีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอินพุตและเอาต์พุต

5. Fake News Detection Dataset

เป็นไฟล์ CSV ที่มี 7796 แถว 4 คอลัมน์ คอลัมน์แรก คือ ID ของข่าว คอลัมน์ที่สอง คือ ชื่อข่าว คอลัมน์ที่สาม คือ เนื้อหาข่าว และคอลัมน์ที่สี่ คือ label ที่บอกว่าเป็นข่าวจริง(TRUE) หรือหรือปลอม(FAKE)

Data Link: Fake News Detection Dataset

Data Science Project Idea: สร้างแบบจำลองการตรวจจับข่าวปลอมด้วยอัลกอริธึม Passive Aggressive Classifier ซึ่งอัลกอริธึมนี้สามารถจำแนกสตรีมข้อมูลจำนวนมากได้ ทำให้ทำงานได้อย่างรวดเร็ว

6. Wine quality dataset

เป็นชุดข้อมูลที่ภายในประกอบไปด้วยข้อมูลทางเคมีที่แตกต่างกันเกี่ยวกับไวน์ มีทั้งหมด 4898 ขวด แต่ละขวดมี 14 ตัวแปร ชุดข้อมูลนี้เหมาะสำหรับการทำ classification และ regression เพื่อใช้ทำนายคุณภาพไวน์ได้

Data Link: Wine quality dataset

Data Science Project Idea: ใช้ Machine Learning algorithm แบบต่าง ๆ เช่น regression, decision tree, random forests เพื่อแยกความแตกต่างของไวน์ และวิเคราะห์คุณภาพไวน์ได้

7. SOCR data – Heights and Weights Dataset

เป็นชุดข้อมูลที่ง่ายต่อการทำ Machine Learning และเหมาะกับผู้ที่เริ่มต้นเป็นอย่างมาก เพราะมันมีเพียงข้อมูลส่วนสูง(นิ้ว) และน้ำหนัก(ปอนด์) ของมนุษย์ที่มีอายุ 18 ปี รวมทั้งหมด 25,000 คน ชุดข้อมูลนี้สามารถใช้เพื่อสร้างแบบจำลองที่สามารถทำนายความสูงหรือน้ำหนักของมนุษย์ได้

Data Link: Heights and Weights Dataset

Data Science Project Idea: สร้างแบบจำลองการทำนายความสูงหรือน้ำหนักของมนุษย์ โดยใช้แบบจำลองการถดถอยเชิงเส้น(regression model)

8. Parkinson Dataset

พาร์กินสันเป็นความผิดปกติของระบบประสาทที่ส่งผลต่อการเคลื่อนไหว ชุดข้อมูลประกอบด้วยข้อมูลผู้ป่วยพาร์กินสัน 195 คน ที่มีคุณลักษณะอาการป่วยที่แตกต่างกัน 23 รายการ ที่ได้จากการตรวจวัดทางการแพทย์ ข้อมูลนี้ใช้เพื่อแยกผู้ที่มีสุขภาพแข็งแรงออกจากผู้ที่เป็นโรคพาร์คินสันได้

Data Link: Parkinson Dataset

Data Science Project Idea: แบบจำลองนี้สามารถใช้เพื่อแยกคนที่มีสุขภาพดีออกจากคนที่เป็นโรคพาร์คินสัน โดยใช้อัลกอริทึมที่มีชื่อว่า XGboost ย่อมาจาก Extreme Gradient boosting ซึ่งใช้หลักการของ decision tree 

9. Titanic Dataset

เมื่อวันที่ 15 เมษายน พ.ศ. 2455 เรือไททานิกที่ชนเข้ากับภูเขาน้ำแข็งได้จมลงและคร่าชีวิตผู้โดยสารไป 1,514 คน จากผู้โดยสารทั้งหมด 2,223 คน ชุดข้อมูลประกอบด้วยข้อมูลผู้โดยสาร เช่น ชื่อ อายุ เพศ จำนวนพี่น้องที่อยู่บนเรือ ฯลฯ โดยแบ่งชุดข้อมูลสำหรับ Training 891 ชุด และข้อมูลสำหรับ Testing 418 ชุด

Data Link: Titanic Dataset

Data Science Project Idea: สร้างแบบจำลองเพื่อทำนายว่าบุคคลไหนจะรอดชีวิตบนเรือไททานิกหรือไม่ โดยใช้ linear regression สำหรับทำ Machine Learning

10. Uber Pickups Dataset

เป็นชุดข้อมูลเกี่ยวกับการที่ใช้บริการ Uber จำนวน 4.5 ล้านครั้ง ในนิวยอร์ก ตั้งแต่เมษายน 2014 ถึงกันยายน 2014 และอีก 14 ล้านครั้งจากมกราคม 2015 ถึงมิถุนายน 2015 เราสามารถทำการวิเคราะห์ข้อมูลและรวบรวมข้อมูลเชิงลึกจากข้อมูลเหล่านี้ได้

Data Link: Uber Pickups Dataset

Data Science Project Idea: วิเคราะห์ข้อมูลการเดินทางของลูกค้า และทำ visualization เพื่อช่วยปรับปรุงธุรกิจให้ดีขึ้นได้ การวิเคราะห์ข้อมูลและการทำ visualization เป็นส่วนสำคัญของวิทยาศาสตร์ข้อมูล(Data science)

11. Chars74k Dataset

เป็นชุดข้อมูลที่ประกอบไปด้วยภาพสัญลักษณ์ที่ใช้ในภาษาอังกฤษและ Kannada มี 64 Class (0-9, A-Z, a-z) แบ่งเป็น 7,700 ตัวอักษรตามธรรมชาติ, 3,400 ตัวอักษรที่วาดด้วยมือ และ 620 ตัวอักษร เป็นฟอนต์ที่สังเคราะห์ด้วยคอมพิวเตอร์ 

Data Link: Chars 74k dataset

Data Science Project Idea: สามารถทำ character recognition ในภาษาธรรมชาติได้ การจดจำตัวอักษรเป็นกระบวนการในการระบุตัวอักษรโดยอัตโนมัติจากกระดาษที่เขียนหรือพิมพ์

12. Credit Card Fraud Detection Dataset

เป็นชุดข้อมูลการทำธุรกรรมด้วยบัตรเครดิตซึ่งมี label ที่บอกว่าเป็นการหลอกลวง(fraudulent) หรือเป็นการทำธรุกรรมจริง(genuine) เพื่อสร้างแบบจำลองสำหรับตรวจจับการทำธุรกรรมหลอกลวงได้

Data Link: Credit Card Fraud Detection Dataset

Data Science Project Idea: ใช้อัลกอริทึมแบบต่าง ๆ เช่น decision tree, logistic regression และโครงข่ายประสาทเทียม(artificial neural networks) เพื่อดูว่าอัลกอริทึมใดให้ความแม่นยำมากกว่ากัน

13 Chatbot Intents Dataset

เป็นชุดข้อมูลในรูปแบบไฟล์ JSON ที่ประกอบไปด้วย tag ต่าง ๆ เช่น greetings, goodbye, hospital_search, pharmacy_search ฯลฯ แต่ละ tag ประกอบไปด้วย pattern ของคำถาม ที่ผู้ใช้สามารถถามได้ และ pattern ของคำตอบ ที่ chatbot สามารถตอบกลับได้  ชุดข้อมูลนี้เหมาะสำหรับการทำความเข้าใจว่าข้อมูล chatbot ทำงานอย่างไร

Data Link: Intents JSON Dataset

Data Science Project Idea: ปรับแต่งและขยายข้อมูลด้วยการสังเกตของคุณเพื่อสร้างและทำความเข้าใจการทำงานของแชทบ็อตในองค์กร Chatbot ต้องการให้คุณเข้าใจแนวคิดการประมวลผลภาษาธรรมชาติ

Machine Learning Datasets for Deep Learning

1. Youtube 8M Dataset

ชุดข้อมูล youtube 8M เป็นชุดข้อมูลวิดีโอขนาดใหญ่ที่มีวิดีโอมากถึง 6.1 ล้านวิดีโอ มีความยาววิดีโอมากถึง 350,000 ชั่วโมง มี audio/visual features มากถึง 2.6 พันล้านรายการ รวมแล้วมี 3862 Class แต่ละวิดีโอมี label ชื่อ 3avg กำกับอยู่  วัตถุประสงค์เพื่อใช้ในการจัดหมวดหมู่วิดีโอ

Data Link: Youtube 8M

Machine Learning Project Idea: การจัดประเภทวิดีโอสามารถทำได้โดยใช้ dataset และ model ที่สามารถอธิบายได้ว่าวิดีโอนั้นเกี่ยวกับอะไร วิดีโอหนึ่ง ๆ ใช้ Input มากกว่า 1 Input เพื่อจำแนกประเภทของวิดีโอนั้น ๆ

2. Urban Sound 8K dataset

ชุดข้อมูลเสียงในที่ชุมชนกว่า 8732 เสียง จากทั้งหมด 10 Class เช่น เสียงเครื่องปรับอากาศ, เสียงสุนัขเห่า, เสียงเจาะไซเรน, เสียงเพลงข้างถนน เป็นต้น ชุดข้อมูลดังกล่าวเป็นที่นิยมมากสำหรับใช้ในการจำแนกเสียงในที่ชุมชน

Data Link: Urban Sound 8K dataset

Machine Learning Project Idea: เราสามารถสร้างระบบการจำแนกเสียงเพื่อตรวจจับประเภทของเสียงในที่ชุมชนที่สอดแทรกอยู่เบื้องหลัง วิธีนี้จะช่วยให้เราเริ่มต้นใช้งานข้อมูลเสียงและเข้าใจวิธีทำงานกับข้อมูลที่ไม่มีโครงสร้างมากขึ้น

3. LSUN Dataset

Large scale scene understanding (LSUN) คือชุดข้อมูลของภาพสีของฉากและวัตถุประกอบฉากประมาณ 59 ล้านภาพ ซึ่งใหญ่กว่า ImageNet dataset (ข้อมูลรูปที่ถูกจัดลำดับแล้วโดย WordNet มีรูปกว่า 1,500,000 รูป ดาวน์โหลดได้ที่นี่)  มีการแบ่งหมวดหมู่ฉากที่ต่างกันกว่า 10 ฉาก และแบ่งหมวดหมู่วัตถุประกอบฉากที่ต่างกันกว่า 20 หมวดหมู่

Data Link: LSUN Dataset

Machine Learning Project Idea: สร้าง Model สำหรับตรวจจับฉากที่อยู่ในภาพ ตัวอย่างเช่นห้องเรียน, สะพาน, ห้องนอน เป็นต้น เป้าหมายของการทำความเข้าใจฉากแต่ละฉาก คือ การเรียนรู้ฉากแต่ละฉากผ่านภาพที่กำหนดให้ได้มากที่สุด เพื่อทำการจัดหมวดหมู่, การตรวจจับวัตถุ, การแบ่งแยกวัตถุออกจากฉาก

4. RAVDESS Dataset

RAVDESS เป็นคำย่อของ The Ryerson Audio-Visual Database of Emotional Speech and Song ประกอบด้วยไฟล์เสียงของนักแสดง 24 คน (ชาย 12 คน หญิง 12 คน) ที่มีอารมณ์ที่แตกต่างกัน เช่น สงบ, โกรธ, เศร้า, มีความสุข, กลัว เป็นต้น ชุดข้อมูลมีประโยชน์มากสำหรับทำการจดจำอารมณ์ที่ได้จากการพูด

Data Link: RAVDESS dataset

Machine Learning Project Idea: สร้างตัวจำแนกประเภทการรู้จำอารมณ์เสียงเพื่อตรวจจับอารมณ์ของผู้พูด คลิปเสียงของผู้คนแบ่งออกเป็นอารมณ์ต่าง ๆ เช่น ความโกรธ, ความสุข, ความเศร้า เป็นต้น

5. Librispeech Dataset

ชุดข้อมูลสุนทรพจน์ภาษาอังกฤษจำนวนมากที่ได้มาจากโครงการ LibriVox มีคำพูดที่ได้จากการอ่านภาษาอังกฤษความยาวกว่า 1,000 ชั่วโมงในสำเนียงที่แตกต่างกัน ใช้สำหรับการรู้จำเสียง(speech recognition)

Data Link: Librispeech Dataset

Machine Learning Project Idea: สร้าง Model การรู้จำเสียงเพื่อตรวจจับสิ่งที่พูดและแปลงเป็นข้อความ วัตถุประสงค์ของการรู้จำเสียงคือการระบุสิ่งที่พูดเป็นเสียงโดยอัตโนมัติ

6. Baidu Apollo scape Dataset

ชุดข้อมูลได้รับการออกแบบมาเพื่อส่งเสริมการพัฒนาเทคโนโลยีการขับขี่อัตโนมัติ ประกอบด้วยวิดีโอความละเอียดสูงพร้อมคำอธิบาย, ภาพถ่าย 2 มิติ แบบ stereo เป็นต้น ชุดข้อมูลมีองค์ประกอบที่แตกต่างกันกว่า 25 รายการ เช่น รถยนต์ คนเดินถนน ไฟจราจร เป็นต้น

Data Link: Baidu Apollo scape Dataset

Machine Learning Project Idea: สร้างหุ่นยนต์ขับเคลื่อนอัตโนมัติที่สามารถระบุวัตถุต่าง ๆ บนท้องถนนและตอบสนองตามสิ่งที่เห็นในทันที ซึ่ง Model ที่สร้างขึ้นต้องสามารถแบ่งวัตถุในภาพเพื่อช่วยในการป้องกันการชนกันและสร้างเส้นทางเดินรถอัตโนมัติได้

Machine Learning Datasets for Finance and Economics

1. quandl Data Portal

quandl เป็นพื้นที่เก็บข้อมูลขนาดใหญ่สำหรับข้อมูลทางเศรษฐกิจและการเงิน มี dataset ให้ใช้ฟรีและเสียเงิน 

Data Link: quandl datasets

2. The World Bank Open Data Portal

เป็นแหล่งรวมข้อมูลสถิติประชากรและตัวบ่งชี้การพัฒนาและเศรษฐกิจจำนวนมากจากทั่วโลก สามารถเข้าถึงข้อมูลได้ฟรี 

Data Link: World bank open dataset

3. IMF Data Portal

IMF เป็นกองทุนการเงินระหว่างประเทศที่เผยแพร่ข้อมูลการเงินระหว่างประเทศ อัตราหนี้สิน ทุนแลกเปลี่ยนเงินตราต่างประเทศ ราคาสินค้า และการลงทุน

Data Link: IMF datasets

4. American Economic Association (AEA) Data Portal

เป็นสมาคมเศรษฐกิจอเมริกันที่เผยแพร่ข้อมูลเศรษฐกิจมหภาคของสหรัฐฯ 

Data Link: AEA datasets

5. Google Trends Data Portal

Google Trends คือการนำปริมาณการค้นหาคำ (หรือ Keyword) บน Google Web Search / Youtube / Image / News / Shopping มาคำนวณเป็นค่า Index เพื่อบอกว่ามีคนสนใจคำนั้นๆมากหรือน้อยเพียงใดในช่วงเวลาที่เรากำหนด สามารถเลือกดูได้หลายประเทศ และหลากหลายภาษาทั่วโลก คุณยังสามารถดาวน์โหลดชุดข้อมูลเป็นไฟล์ CSV ได้อีกด้วย

Data Link: Google trends datasets

6. Financial Times Market Data Portal

มีข้อมูลการตลาดทางการเงินจากทั่วโลก รวมถึงดัชนีราคาหุ้น สินค้า และการแลกเปลี่ยนเงินตราต่างประเทศ 

Data Link: Financial times market datasets

LEAVE A REPLY

Please enter your comment!
Please enter your name here

thirteen − 9 =