วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

Week9 : Data Management II & Business Intelligence

Data Management II & Business Intelligence
·        Data Warehouse Processing เป็นกระบวนการจัดทำ Data Warehouse โดยมีขั้นตอนทั้งหมด 5 ขั้นตอน ดังนี้
1.       รวบรวมข้อมูล  - ทั้งจากภายในองค์กร (Operational Data) และ ภายนอกองค์กร (External Data)
2.       ทำ Meta Data- หลังจากที่ได้รวบรวมข้อมูลแล้ว จึงนำข้อมูลที่รวบรวมมา มาสร้าง Meta Data หรือ ข้อมูลของข้อมูล ที่ซึ่งใช้อธิบายเกี่ยวกับ Data ที่อยู๋ใน Warehouse ซึ่งจะมีทีมงานเข้ามาเกี่ยวข้องด้วย
3.       ทำ Data Staging -หลังจากรวบรวมข้อมูลได้แล้ว นอกจากจะทำ Meta Data แล้ว ยังเอาข้อมูลที่รวบรวมมาไปทำ Data Staging ซึ่งเป็นการจัดระบบข้อมูลที่มี และสร้างเป็น Data Cube ซึ่งประกอบไปด้วยการทำ Extract, Clean, Transform และ Load
4.       สร้าง Data Warehouse - เมื่อได้ Data Cube แล้วจึงทำ Data Warehouse โดยยึด Business Object เป็นหลัก
5.       สร้าง Business View - เมื่อได้ Data Warehouse แล้ว การนำเสนอข้อมูลจะต้องอยู่ในรูปแบบที่ง่าย เพื่ออำนวยความสะดวกในการนำไปใช้ของผู้บริหาร ซึ่งจะอกมาในรูปแบบของ Dash Board
·        ประโยชน์ที่สำคัญของ Data Warehouse
1.      เข้าถึงข้อมูลได้รวดเร็วเนื่องจากมีข้อมูลที่จัดเรียงแล้วรวมกันอยู่ที่เดียว ซึ่งสามารถเข้าใช้ผ่านช่องทางต่างๆได้ ไม่ว่าจะเป็น VPN Web browser  LAN เป็นต้น
2.      ลดความซ้ำซ้อนของข้อมูล ทำให้สะดวกรวดเร็วในการค้นหาข้อมูลต่างๆ ทำให้องค์กรได้เปรียบเชิงแข่งขัน
·        Data Mart
ในองค์กรที่มีผู้ใช้ข้อมูลจำนวนมาก  การที่จะให้ผู้ใช้งานข้อมูลทุกคนเข้าใช้งานโดยตรงจาก Enterprise data warehouse อาจทำให้เกิดปัญหากับระบบได้ จึงมีความจำเป็นที่จะต้องสร้าง Data martไว้สำหรับใช้ในแต่ละแผนก
 โดยที่ Data mart จะเป็นการตัดแบ่งข้อมูล / คัดลอกเฉพาะบางส่วนของ Data warehouse มาไว้ที่ Data mart ในมุมมองของผู้ใช้ ดังนั้นในแต่ละแผนกจะสร้าง Data mart ไว้เป็นของแผนกเอง
         Data mart แบ่งออกเป็น 2 ประเภท ได้แก่
1.       Replicated data mart : คือกลุ่มย่อยขนาดเล็กของ Data Warehouse ซึ่งก็คือการคัดลอกกลุ่มย่อยบางกลุ่มในคลังข้อมูล มาไว้ในตลาดข้อมูลเล็กๆ หลายๆ อัน ซึ่งในแต่ละอันจะใช้ตอบสนองต่อความต้องการเฉพาะส่วนที่แน่นอน หนึ่ง ๆ เท่านั้น ทำให้สามารถตอบสนองต่อความต้องการที่หลายหลายของแต่ละหน่วยงานในองค์กรได้อย่างรวดเร็ว
2.Stand-alone data mart : เกิดขึ้นกับองค์กรที่ยังไม่พร้อมที่จะสร้าง Data Warehouseขององค์กร จึงสร้างเฉพาะ data mart ในส่วนที่พร้อมเป็นอิสระออกจากกัน เช่น สร้าง Data Mart เฉพาะในฝ่ายการตลาดและบัญชี
·        Data Cube
·        “Multidimensional Databases” (AKA OLAP) : เป็น database ที่มีการจัดเรียงข้อมูลตามมิติต่างๆ เพื่อความสะดวกการวิเคราะห์ข้อมูลที่มีอยู่เป็นจำนวนมาก โดยจะสามารถวิเคราะห์ข้อมูลในลักษณะต่างๆ เช่น
1.Slices and Dices : การดูข้อมูลที่แบ่งออกเป็นมิติต่าง เช่น ข้อมูลเกี่ยวกับ Wine ทั้งในแง่ของราคา ฐานลูกค้าในแต่ละระยะเวลา
2.Rollups : ดูข้อมูลที่เป็นรายละเอียด ไปยังข้อมูลที่เป็นภาพรวม เพื่อความสะดวกในการเปรียบเทียบ และวิเคราะห์แนวโน้ม
3.Drill Downs : ดูข้อมูลสรุปแบบเจาะลึก โดยเริ่มจากภาพกว้างแล้วเจาะลงไปในแต่ละเรื่องย่อย เพื่อศึกษาในรายละเอียด
·        Business Intelligence
คือการนำ architectures, tools, database, application และ methodologies มารวมกัน
โดยมีกระบวนการ transform ข้อมูลดิบ ไปสู่ข้อมูลเพื่อให้สามารถนำไปตัดสินใจได้ และนำไปสู่การปฎิบัติจริง  ซึ่งมีจุดมุ่งหมายให้ผู้บริหารสามารถเข้าถึงข้อมูล  และจัดการข้อมูล  เพื่อให้เหมาะสมในการนำไปใช้ในการวิเคราะห์ได้
              Business intelligence มี function และ feature แบ่งออกเป็น 3 กลุ่ม  ได้แก่ 
1.       Data integration ex. ETL, EII
2.       Analytics ex. Predictive analytics , Data mining, OLAP
3.       Reporting and Analysis ex. Scorecards, Dashboards, Visualization tools
  •  Dashboard and Scorecards   เป็นส่วนที่่ช่วยในการวัด Performance  ดังนั้นผู้ใช้จึงอยู่ในระดับผู้บริหาร  
         Performance Dashboard  เป็นตัวช่วยทำให้เห็นภาพ  และควบคุมในการวัด Performance
         Performance Scorecards  เป็นตัวช่วยทำให้เห็นภาพ  ทำให้เห็นเป็น chart progress เทียบกับ strategic , tactical , goal และ target 
  • Online Analytical Processing (OLTP)  เป็น Software ที่ช่วยให้ผู้บริหารสามารถเข้าถึงข้อมูลได้รวดเร็ว  สม่ำเสมอ  และสามารถปรับเปลี่ยนข้อมูล  เช่น  จากตารางเป็นกราฟ  ทำให้ผู้บริหารสามารถดึงข้อมูลที่ตนเองต้องการได้
  • Data mining   คือการ Extract ข้อมูลที่ไม่เคยรู้มาก่อนจาก database  ขนาดใหญ่  และต้องทำกับข้อมูลจำนวนมากเพื่อขจัด bias  ช่วยทำให้เห็นภาพ trend / pattern ได้ ทั้งนี้ประโยชน์จะมากหรือน้อยขึ้นกับความสามารถในการตีความ
·         เทคนิคในการทำ Data mining
1.Clustering : เป็นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน โดยมีเกณฑ์แบ่งตัวแปรนั้นออกเป็นกลุ่ม เช่น เพศ รายได้
2.Classification : เป็นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ ตัวอย่างเช่น จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี โดยพิจารณาจากประวัติและผลการรียน หรือแบ่งประเภทของลูกค้าว่าเชื่อถือได้หรือไม่ โดยพิจารณาจากข้อมูลที่มีอยู่ ซึ่ง model ที่สร้างนั้น จะเป็นตัวกรองข้อมูลต่างๆออกเป็นกลุ่มๆที่มีลักษณะแตกต่างกัน
3.Association : เป็นการค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ที่มีอยู่ เพื่อนำไปใช้ในการวิเคราะห์ปรากฏการณ์ต่างๆ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “Market Basket Analysis” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ กฎความสัมพันธ์”(Association Rule) เพื่อหาความสัมพันธ์ของข้อมูล เช่น การใช้บริการเปิดบัญชีออมทรัพย์ มักมีการเปิดใช้บริการ ATM ด้วย
4.Sequence Discovery : เกิดผลตามหลัง
5.Prediction : เป็นการ Forecast ไปข้างหน้า
  • Text mining  เป็นการจัดกระทำกับข้อมูลที่ไม่มีรูปแบบ (Unstructured Data) เช่น ความคิดเห็นของลูกค้า ซึ่งเครื่องมือนี้จะช่วยในการหา hidden content จากข้อมูลที่ไม่มีรูปแบบ และจับกลุ่มข้อมูลที่มีลักษณะเดียวกันเข้าด้วยกัน สำหรับการนำไปใช้นั้น เครื่องมือนี้จะออกมาในรูปแบบของการ detect e-mail spam โดยการ detect keyword บางคำ หรือการส่งต่อกระบวนการทำงานอย่างอัตโนมัติให้แก่ผู้ที่รับผิดชอบ เช่น โทรศัพท์ตอบรับอัตโนมัติที่ให้กดเบอร์ตามฝ่ายที่ต้องการและจะโอนให้โดยตรง
นางสาววศินี  ตั้งทองหยก
Id.no. 5202113022

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

Class8 :: Data management

12-11-2011
Data คือ ข้อเท็จจริง ซึ่งหาได้จากแหล่งข้อมูลต่างๆ เป็นข้อมูลพื้นฐานที่ยังไม่มีความหมาย หรือยังไม่สามารถสื่อความหมายได้ด้วยตนเอง
Information คือ การนำ Data มาผ่านกระบวนการต่างๆ (Process) ให้สามารถสื่อความหมายเพื่อให้นำไปใช้ประโยชน์ได้
Information System คือ การนำ Data มาผ่านกระบวนการ (Process) เป็น Information เพื่อให้เกิดเป็น Knowledge เป็นระบบที่ทำหน้าที่ในการรวบรวมข้อมูลเพื่อนำมาประมวลผล วิเคราะห์ เพื่อสร้างสารสนเทศสำหรับวัตถุประสงค์เฉพาะด้าน และนำเสนอสารสนเทศให้กับผู้ที่ต้องการ ซึ่งต้องเป็นผู้มีสิทธิ์ได้รับสารสนเทศ รวมทั้งการจัดเก็บบันทึกข้อมูลที่นำเข้ามาสู่ระบบไว้เพื่อการใช้งานในอนาคต Information System มี 6 องค์ประกอบ ได้แก่
            1. Hardware
            2. Software
            3. Data
            4. Network
            5. Procedure
            6. People
Data Management มี 4 องค์ประกอบ ได้แก่
            1. Data profiling
            2. Data quality management
            3. Data integration
            4. Data augmentation
Data Life Cycle Process
            1. New data collection
            2. Stored in a database
            3. Users access the database and take a copy of the needed data for analysis
            4. Use Data analysis tools or Data mining tools for analyzing
Data Source
            1. Organization data
            2. End user data
            3. External data
Data Processing
            1. Transactional เป็นระบบปฏิบัติการ (Operational Systems) ใช้ TPS ในจัดเก็บข้อมูลและแปลผลจากส่วนกลาง
            2. Analytical ระบบการวิเคราะห์ข้อมูลที่รวบรวมมาจากหลายแหล่ง ส่วนใหญ่มาจาก End-Users เช่น DSS, EIS, Web เป็นต้น
Characteristic of data warehouse
            1. Organization
            2. Consistency
            3. Time variant
            4. Non-volatile
            5. Relational
            6. Client/Server

วศินี   ตั้งทองหยก
5202113022