Data Management II & Business Intelligence
· Data Warehouse Processing เป็นกระบวนการจัดทำ Data Warehouse โดยมีขั้นตอนทั้งหมด 5 ขั้นตอน ดังนี้
1. รวบรวมข้อมูล - ทั้งจากภายในองค์กร (Operational Data) และ ภายนอกองค์กร (External Data)
2. ทำ Meta Data- หลังจากที่ได้รวบรวมข้อมูลแล้ว จึงนำข้อมูลที่รวบรวมมา มาสร้าง Meta Data หรือ ข้อมูลของข้อมูล ที่ซึ่งใช้อธิบายเกี่ยวกับ Data ที่อยู๋ใน Warehouse ซึ่งจะมีทีมงานเข้ามาเกี่ยวข้องด้วย
3. ทำ Data Staging -หลังจากรวบรวมข้อมูลได้แล้ว นอกจากจะทำ Meta Data แล้ว ยังเอาข้อมูลที่รวบรวมมาไปทำ Data Staging ซึ่งเป็นการจัดระบบข้อมูลที่มี และสร้างเป็น Data Cube ซึ่งประกอบไปด้วยการทำ Extract, Clean, Transform และ Load
4. สร้าง Data Warehouse - เมื่อได้ Data Cube แล้วจึงทำ Data Warehouse โดยยึด Business Object เป็นหลัก
5. สร้าง Business View - เมื่อได้ Data Warehouse แล้ว การนำเสนอข้อมูลจะต้องอยู่ในรูปแบบที่ง่าย เพื่ออำนวยความสะดวกในการนำไปใช้ของผู้บริหาร ซึ่งจะอกมาในรูปแบบของ Dash Board
· ประโยชน์ที่สำคัญของ Data Warehouse
1. เข้าถึงข้อมูลได้รวดเร็วเนื่องจากมีข้อมูลที่จัดเรียงแล้วรวมกันอยู่ที่เดียว ซึ่งสามารถเข้าใช้ผ่านช่องทางต่างๆได้ ไม่ว่าจะเป็น VPN Web browser LAN เป็นต้น
2. ลดความซ้ำซ้อนของข้อมูล ทำให้สะดวกรวดเร็วในการค้นหาข้อมูลต่างๆ ทำให้องค์กรได้เปรียบเชิงแข่งขัน
· Data Mart
ในองค์กรที่มีผู้ใช้ข้อมูลจำนวนมาก การที่จะให้ผู้ใช้งานข้อมูลทุกคนเข้าใช้งานโดยตรงจาก Enterprise data warehouse อาจทำให้เกิดปัญหากับระบบได้ จึงมีความจำเป็นที่จะต้องสร้าง Data martไว้สำหรับใช้ในแต่ละแผนก
โดยที่ Data mart จะเป็นการตัดแบ่งข้อมูล / คัดลอกเฉพาะบางส่วนของ Data warehouse มาไว้ที่ Data mart ในมุมมองของผู้ใช้ ดังนั้นในแต่ละแผนกจะสร้าง Data mart ไว้เป็นของแผนกเอง
Data mart แบ่งออกเป็น 2 ประเภท ได้แก่
Data mart แบ่งออกเป็น 2 ประเภท ได้แก่
1. Replicated data mart : คือกลุ่มย่อยขนาดเล็กของ Data Warehouse ซึ่งก็คือการคัดลอกกลุ่มย่อยบางกลุ่มในคลังข้อมูล มาไว้ในตลาดข้อมูลเล็กๆ หลายๆ อัน ซึ่งในแต่ละอันจะใช้ตอบสนองต่อความต้องการเฉพาะส่วนที่แน่นอน หนึ่ง ๆ เท่านั้น ทำให้สามารถตอบสนองต่อความต้องการที่หลายหลายของแต่ละหน่วยงานในองค์กรได้อย่างรวดเร็ว
2.Stand-alone data mart : เกิดขึ้นกับองค์กรที่ยังไม่พร้อมที่จะสร้าง Data Warehouseขององค์กร จึงสร้างเฉพาะ data mart ในส่วนที่พร้อมเป็นอิสระออกจากกัน เช่น สร้าง Data Mart เฉพาะในฝ่ายการตลาดและบัญชี
2.Stand-alone data mart : เกิดขึ้นกับองค์กรที่ยังไม่พร้อมที่จะสร้าง Data Warehouseขององค์กร จึงสร้างเฉพาะ data mart ในส่วนที่พร้อมเป็นอิสระออกจากกัน เช่น สร้าง Data Mart เฉพาะในฝ่ายการตลาดและบัญชี
· Data Cube
· “Multidimensional Databases” (AKA OLAP) : เป็น database ที่มีการจัดเรียงข้อมูลตามมิติต่างๆ เพื่อความสะดวกการวิเคราะห์ข้อมูลที่มีอยู่เป็นจำนวนมาก โดยจะสามารถวิเคราะห์ข้อมูลในลักษณะต่างๆ เช่น
1.Slices and Dices : การดูข้อมูลที่แบ่งออกเป็นมิติต่าง เช่น ข้อมูลเกี่ยวกับ Wine ทั้งในแง่ของราคา ฐานลูกค้าในแต่ละระยะเวลา
2.Rollups : ดูข้อมูลที่เป็นรายละเอียด ไปยังข้อมูลที่เป็นภาพรวม เพื่อความสะดวกในการเปรียบเทียบ และวิเคราะห์แนวโน้ม
3.Drill Downs : ดูข้อมูลสรุปแบบเจาะลึก โดยเริ่มจากภาพกว้างแล้วเจาะลงไปในแต่ละเรื่องย่อย เพื่อศึกษาในรายละเอียด
1.Slices and Dices : การดูข้อมูลที่แบ่งออกเป็นมิติต่าง เช่น ข้อมูลเกี่ยวกับ Wine ทั้งในแง่ของราคา ฐานลูกค้าในแต่ละระยะเวลา
2.Rollups : ดูข้อมูลที่เป็นรายละเอียด ไปยังข้อมูลที่เป็นภาพรวม เพื่อความสะดวกในการเปรียบเทียบ และวิเคราะห์แนวโน้ม
3.Drill Downs : ดูข้อมูลสรุปแบบเจาะลึก โดยเริ่มจากภาพกว้างแล้วเจาะลงไปในแต่ละเรื่องย่อย เพื่อศึกษาในรายละเอียด
· Business Intelligence
คือการนำ architectures, tools, database, application และ methodologies มารวมกัน
โดยมีกระบวนการ transform ข้อมูลดิบ ไปสู่ข้อมูลเพื่อให้สามารถนำไปตัดสินใจได้ และนำไปสู่การปฎิบัติจริง ซึ่งมีจุดมุ่งหมายให้ผู้บริหารสามารถเข้าถึงข้อมูล และจัดการข้อมูล เพื่อให้เหมาะสมในการนำไปใช้ในการวิเคราะห์ได้
Business intelligence มี function และ feature แบ่งออกเป็น 3 กลุ่ม ได้แก่
โดยมีกระบวนการ transform ข้อมูลดิบ ไปสู่ข้อมูลเพื่อให้สามารถนำไปตัดสินใจได้ และนำไปสู่การปฎิบัติจริง ซึ่งมีจุดมุ่งหมายให้ผู้บริหารสามารถเข้าถึงข้อมูล และจัดการข้อมูล เพื่อให้เหมาะสมในการนำไปใช้ในการวิเคราะห์ได้
Business intelligence มี function และ feature แบ่งออกเป็น 3 กลุ่ม ได้แก่
1. Data integration ex. ETL, EII
2. Analytics ex. Predictive analytics , Data mining, OLAP
3. Reporting and Analysis ex. Scorecards, Dashboards, Visualization tools
- Dashboard and Scorecards เป็นส่วนที่่ช่วยในการวัด Performance ดังนั้นผู้ใช้จึงอยู่ในระดับผู้บริหาร
Performance Dashboard เป็นตัวช่วยทำให้เห็นภาพ และควบคุมในการวัด Performance
Performance Scorecards เป็นตัวช่วยทำให้เห็นภาพ ทำให้เห็นเป็น chart progress เทียบกับ strategic , tactical , goal และ target
Performance Scorecards เป็นตัวช่วยทำให้เห็นภาพ ทำให้เห็นเป็น chart progress เทียบกับ strategic , tactical , goal และ target
- Online Analytical Processing (OLTP) เป็น Software ที่ช่วยให้ผู้บริหารสามารถเข้าถึงข้อมูลได้รวดเร็ว สม่ำเสมอ และสามารถปรับเปลี่ยนข้อมูล เช่น จากตารางเป็นกราฟ ทำให้ผู้บริหารสามารถดึงข้อมูลที่ตนเองต้องการได้
- Data mining คือการ Extract ข้อมูลที่ไม่เคยรู้มาก่อนจาก database ขนาดใหญ่ และต้องทำกับข้อมูลจำนวนมากเพื่อขจัด bias ช่วยทำให้เห็นภาพ trend / pattern ได้ ทั้งนี้ประโยชน์จะมากหรือน้อยขึ้นกับความสามารถในการตีความ
· เทคนิคในการทำ Data mining
1.Clustering : เป็นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน โดยมีเกณฑ์แบ่งตัวแปรนั้นออกเป็นกลุ่ม เช่น เพศ รายได้
2.Classification : เป็นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ ตัวอย่างเช่น จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี โดยพิจารณาจากประวัติและผลการรียน หรือแบ่งประเภทของลูกค้าว่าเชื่อถือได้หรือไม่ โดยพิจารณาจากข้อมูลที่มีอยู่ ซึ่ง model ที่สร้างนั้น จะเป็นตัวกรองข้อมูลต่างๆออกเป็นกลุ่มๆที่มีลักษณะแตกต่างกัน
3.Association : เป็นการค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ที่มีอยู่ เพื่อนำไปใช้ในการวิเคราะห์ปรากฏการณ์ต่างๆ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “Market Basket Analysis” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ “กฎความสัมพันธ์”(Association Rule) เพื่อหาความสัมพันธ์ของข้อมูล เช่น การใช้บริการเปิดบัญชีออมทรัพย์ มักมีการเปิดใช้บริการ ATM ด้วย
4.Sequence Discovery : เกิดผลตามหลัง
5.Prediction : เป็นการ Forecast ไปข้างหน้า
1.Clustering : เป็นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน โดยมีเกณฑ์แบ่งตัวแปรนั้นออกเป็นกลุ่ม เช่น เพศ รายได้
2.Classification : เป็นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ ตัวอย่างเช่น จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี โดยพิจารณาจากประวัติและผลการรียน หรือแบ่งประเภทของลูกค้าว่าเชื่อถือได้หรือไม่ โดยพิจารณาจากข้อมูลที่มีอยู่ ซึ่ง model ที่สร้างนั้น จะเป็นตัวกรองข้อมูลต่างๆออกเป็นกลุ่มๆที่มีลักษณะแตกต่างกัน
3.Association : เป็นการค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ที่มีอยู่ เพื่อนำไปใช้ในการวิเคราะห์ปรากฏการณ์ต่างๆ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “Market Basket Analysis” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ “กฎความสัมพันธ์”(Association Rule) เพื่อหาความสัมพันธ์ของข้อมูล เช่น การใช้บริการเปิดบัญชีออมทรัพย์ มักมีการเปิดใช้บริการ ATM ด้วย
4.Sequence Discovery : เกิดผลตามหลัง
5.Prediction : เป็นการ Forecast ไปข้างหน้า
- Text mining เป็นการจัดกระทำกับข้อมูลที่ไม่มีรูปแบบ (Unstructured Data) เช่น ความคิดเห็นของลูกค้า ซึ่งเครื่องมือนี้จะช่วยในการหา hidden content จากข้อมูลที่ไม่มีรูปแบบ และจับกลุ่มข้อมูลที่มีลักษณะเดียวกันเข้าด้วยกัน สำหรับการนำไปใช้นั้น เครื่องมือนี้จะออกมาในรูปแบบของการ detect e-mail spam โดยการ detect keyword บางคำ หรือการส่งต่อกระบวนการทำงานอย่างอัตโนมัติให้แก่ผู้ที่รับผิดชอบ เช่น โทรศัพท์ตอบรับอัตโนมัติที่ให้กดเบอร์ตามฝ่ายที่ต้องการและจะโอนให้โดยตรง
นางสาววศินี ตั้งทองหยก
Id.no. 5202113022