big-data-banner

Big data คืออะไร

หลายท่านอาจจะคุ้นเคยกับคำว่า database แล้ว หรือสามารถอ่านบทความเพิ่มเติมเรื่อง database และ oracle ได้ สำหรับบทความนี้เรามาทำความรู้จักว่า Big data คืออะไร และต่างกับ database ที่ใช้งานกันอยู่อย่างไร ในความหมายของ Big data เองนั้นหมายถึง ข้อมูลขนาดใหญ่และมีทั้งแบบโครงสร้างปกติ และโครงสร้างข้อมูลทีไม่มีรูปแบบ ซึ่งทั้งหมดเป็นข้อมูลที่ใช้ในเชิงธรุกิจทั้งหมด ปัญหาไม่ได้อยู่ที่ปริมาณข้อมูลที่มาก แต่อยู่ที่ว่าเราจะนำเอาข้อมูลนี้มาวิเคราะห์อย่างไรเพื่อสร้างกลยุธให้กับธรุกิจของเรา ความยากเลยอยู่ที่ว่าจะเก็บข้อมูลอย่างไร , วิเคราะห์ด้วยอะไร, ค้นหาข้อมูลวิธีไหน รวมถึง แก้ไขข้อมูลที่เป็นความลับได้อย่างไร

โดยปกติแล้ว Big data มักจะถูกใช้กับงานพวกที่ต้องวิเคราะห์พยากรณ์ หรือ วิเคราะห์ลักษณะนิสัยของผู้ใช้งาน รวมถึงการวิเคราะห์ข้อมูลที่มีความซับซ้อน และไม่สามารถประเมิณขนาดข้อมูลได้ ตัวอย่างเช่น แนวโน้มของธุรกิจ หรือ ข้อมูลอาชญากรรม ซึ่งข้อมูลพวกนี้มักมีขนาดใหญ่ รวมถึงพวก search engine

 

คุณสมบัติของ Big data

ในขณะที่ Big data เองเกี่ยวข้องกับการรวบรวมข้อมูลขนาดใหญ่เข้าด้วยกัน เพื่อใช้ในการวิเคราะห์ข้อมูล จึงได้เกิด concept ของ Big data ขึ้นโดยใช้หลักการ 4 V คือ

1. Volume

จัดการเก็บรวบรวมข้อมูลจากหลากหลายที่ รวมถึง ข้อมูล transaction ของธรุกิจที่เกิดขึ้นทั้งหมด และ ข้อมูลใน social media ต่างๆ ซึ่งในอดีตเองการเก็บข้อมูลพวกนี้ย่อนมเป็นปัญหาใหญ่ แต่ด้วย techonology ปัจจุบันที่ชื่อ Hadoop ได้ลบข้อจำกัดนั้นทิ้งไป

2. Velocity

ด้วยชุดข้อมูลที่ส่งกันด้วยความเร็วสูง และด้วยข้อจำกัดด้านเวลา ที่ต้องรองรับการใช้งานของ user ที่ต้องการในลักษณะ near-real time

3. Variety

ความหลากหลายของข้อมูลหลายรูปแบบ ดังเช่น ตัวอักษร, ตัวเลข, email, video, audio, ข้อมูล ticker ของตลาดหุ้น และ ข้อมูลด้านการเงิน

4. Value

ข้อมูลที่เข้ามาต้องมีการตรวจสอบด้วยวิธีการบางอย่างเพื่อดึงเอาข้อมูลที่มีประโยชน์ เพื่อให้พื่นที่ที่ใช้เก็บข้อมูลสามารถใช้ได้อย่างคุ้มค่า เช่นการเก็บข้อมูลสถิติทั้งหมด กับการสุ่มเอาตัวอย่างข้อมูลเก็บไว้เท่านั้น

 

Big data technology

ข้อมูลจำพวกที่ไม่มีรูปแบบตายตัวมักจะมีปัญหาในการเก็บใน data warehouse เพราะทำงานด้วย relational database ซึ่งต้องกำหนดโครงสร้างของข้อมูลก่อน มากไปกว่านั้น data warehouse อาจจะไม่สามารถประมวลผลชุดข้อมูลขนาดใหญ่ที่ต้องทำการ update ตลอดเวลานี้ได้ ในกรณีข้อมูลที่เป็น real-time เช่น ข้อมูตลาดหุ้น หรือ ข้อมูลผู้เข้าใช้บริการบนหน้า website

ผลสุดท้ายคือหลายๆบริษัทเก็บข้อมูล และ ประมวลผลบน NoSQL database , Hadoop รวมถึงระบบอื่นๆ

  • YARN: เป็น technology cluster ซึ่งเป็นหัวใจหลักของ Hadoop
  • MapReduce: เป็น software ที่ช่วยให้ developer สามารถเขียน program ที่ประมวลผลข้อมูลขนาดใหญ่ที่ไม่มีรูปแบบ โดยอาศัย CPU หลายๆตัวทำงานพร้อมกัน
  • Spark: เป็น open-sources framwork ที่ทำงานแบบ parallel process ซึ่งช่วยให้ user สามารถทำงานวิเคราะห์ข้อมูลระหว่าง cluster ได้
  • HBase: เก็บข้อมูลในลักษณะ key-value ทำงานอยู่บน Hadoop Distributed File System (HDFS)
  • Hive: ระบบ data warehouse ที่เป็น open-source ใช้ในการ query และวิเคราะห์ข้อมูลที่เก็บใน Hadoop file
  • Kafka: เป็นระบบ distributed publish-subscribe messaging ออกแบบมาเพื่อทำหน้าที่เป็น message broker ค่อยส่งต่อข้อมูล
  • Pig: เป็น open-source technology ที่ช่วยให้ MapReduce job ทำกงานบน Hadoop cluster

ในบางกรณี Hadoop cluster และ NoSQL ถูกใช้เป็นด่านหน้าในการรับข้อมูลก่อนที่จะ load เข้าสู่ data warehouse หรือ analytical database

 

bigdata2

 

 

Author: Suphakit Annoppornchai

Credit: https://saixiii.com, http://searchbusinessanalytics.techtarget.com

Leave a Reply