Các loại lược đồ của Kho dữ liệu (Data warehouse)

Discussion in 'Giải pháp ERP, CRM, EPM and BI' started by tableau, May 27, 2014.

  1. tableau

    tableau Well-Known Member

    DATA WAREHOUSE DIMENSIONAL MODELLING (TYPES OF SCHEMAS)
    < Các loại lược đồ của Kho dữ liệu >
    Có 4 loại lược đồ có sẵn trong Kho dữ liệu. Trong đó các lược đồ hình sao chủ yếu được sử dụng trong các mẫu thiết kế kho dữ liệu. Các lược đồ kho dữ liệu chủ yếu được sử dụng sau lược đồ hình sao đó là lược đồ bông tuyết.

    ***STAR SCHEMA***
    Một lược đồ hình sao gồm 1 bảng Fact (bảng sự kiện) nằm ở trung tâm và được bao quanh bởi những bảng Dimension (bảng chiều). Dữ liệu của lược đồ hình sao không được chuẩn hóa. Các câu hỏi nhằm vào bảng Fact và được cấu trúc bởi các bảng Dim.

    STAR_SCHEMA1.jpg
    Ưu điểm: Fact và Dim được mô tả rõ ràng, dễ hiểu. Bảng Dim là dữ liệu tĩnh. Bảng Fact là dữ liệu động, được nạp vào bằng thao tác. Lược đồ hình sao còn giúp cải thiện hiệu suất truy vấn. Dễ sử dụng, trực quan là ưu điểm của lược đồ hình sao. Khóa của Fact được tạo bởi khóa của các bảng Dim. Nghĩa là khóa chính của các bảng Dim chính là khóa của bảng Fact như hình vẽ.
    Khuyết điểm: Các chiều không được chuẩn hóa.
    Ví dụ: Như hình vẽ chúng ta có các bảng Dimension (bảng chiều) là Time, Store , Product và bảng Fact (bảng sự kiện) . Các bảng Dim thể hiện các trường hợp mà chúng ta cần phân tích như thời gian nào, cửa hàng nào, sản phẩm nào. Lưu ý, một bảng Dim tiên quyết mà khi xây dựng Data Warehouse phải có đó là Time. Còn bảng Sales Facts thể hiện cái gì mình cần phân tích như bao nhiêu Units, bao nhiêu Dollars. Từ 4 bảng nào ta lấy được gì? Ví dụ ông sếp muốn biết sản phẩm nào của siêu thị Coop Cống Quỳnh đem lại doanh thu cao nhất vào tháng 4/2014. Thì chúng ta lấy ở đâu? Tháng 4/2014 lấy từ Time Dim. Sản phẩm lấy từ Product Dim. Siêu thị Coop Cống Quỳnh lấy từ Store Dim. Và Doanh thu lấy từ Sales Fact (Dollars).

    ***SNOW FLAKE SCHEMA***
    Một lược đồ bông tuyết là dạng mở rộng của lược đồ hình sao bằng cách bổ sung các Dimension. Bảng Fact giống lược đồ hình sao. Bảng Dim được chuẩn hóa. Các chiều được cấu trúc rõ ràng. Một bảng Dim được chia thành chiều chính hay chiều phụ thì đó là dạng bông tuyết hoặc hình sao mở rộng.

    SNOWFLAKE_SCHEMA1.jpg
    Ưu điểm: Là dạng cải tiến của lược đồ hình sao. Số chiều được phân cấp thể hiện dạng chuẩn của bảng Dim.
    Khuyết điểm: Cấu trúc phi dạng chuẩn của lược đồ hình sao thích hợp hơn cho việc duyệt các chiều.
    Ví dụ: Với bảng Fact như lược đồ sao, còn bảng Dim được mở rộng như hình vẽ. Bây giờ lấy ví dụ một nhánh Product như sau: Nhìn trên lược đồ sao ta biết được sản phẩm nào với nhãn hàng nào. Nhưng nếu số lượng sản phẩm lên đến hàng nghìn sản phẩm, hàng trăm loại hàng hoặc ông sếp muốn thay đổi hoặc tách, thêm loại hàng cho sản phẩm cũ thì chuyện gì sẽ xảy ra? Không thể thay đổi trong cùng một bảng Product như trước. Lúc này buộc phải tách Product và Product Category thôi. Và dữ liệu lúc này đã được chuẩn hóa. Nếu muốn thay đổi chỉ cần thay đổi ở duy nhất một bảng, không ảnh hưởng gì đến dữ liệu chung.

    ***GALAXY SCHEMA***
    Lược đồ này chứa nhiều bảng Fact cùng sử dụng chung một số bảng Dim. Lược đồ này là sự kết hợp của nhiều Data Mart.

    03 Galaxy1.jpg
    Ví dụ: Ở đây chúng ta có 2 Data Mart đó là Sales (bán hàng) và Purchase (mua hàng) đều dùng chung bảng Time Dim và Product Dim nên khi vẽ kết hợp 2 Data Mart khác nhau thì sẽ có hình như trên.

    ***FACT CONSTELLATION SCHEMA***
    Ở lược đồ này thì Dimension trong lược đồ được tách biệt thành Dimension độc lập dựa trên các cấp độ của hệ thống phân cấp. Ví dụ Geo có 5 cấp Region, Branch, Area, Province, District thay vì chỉ có một Geo chung.
    04 Coll1.jpg
     
    Last edited by a moderator: Aug 28, 2014
    HangLe, tableau and Phu Ton like this.
  2. Loading...


  3. Phu Ton

    Phu Ton Well-Known Member Staff Member

    Cho tớ biết mấy cái ưu/nhược của mấy cái anh còn lại với, đang ngu người ra rồi, không biết chọn cái nào để làm nè. híc híc:(
     
  4. tableau

    tableau Well-Known Member

    Hi anh, theo chút hiểu biết hạn hẹp của em thì em xin trả lời như sau:

    Galaxy Schemas như hình trên anh nhìn vào sẽ thấy 2 bảng Sales Fact và Purchase Fact ở 2 Data Mart (DM) khác nhau được thể hiện trên cùng 1 lược đồ. Lược đồ này có độ phức tạp cao hơn lược đồ hình sao/bông tuyết vì kết hợp nhiều DM. Điểm liên kết giữa 2 DM là 2 bảng Time Dim và Product Dim. Đó là các bảng dùng chung vì theo thực tế, quy trình mua hàng và bán hàng đều cần phân tích về thời gian và cần bán sản phẩm gì thì sẽ mua sản phẩm đó.
    Và Galaxy thực chất là Star/Snowflake Schemas thể hiện nhiều Data Mart mà thôi.

    Fact Constellation Schemas là lược đồ dạng chòm sao. Lược đồ này phức tạp hơn so với lược đồ sao/bông tuyết vì có chứa nhiều bảng Fact. Điều này có nghĩa là các bảng chiều được các bảng Fact chia sẻ/dùng chung tương tự như Galaxy Schemas.
    Như thể hiện ở hình trên thì Fact Constellation Schemas có sự phân cấp bậc rõ ràng các Dimension. Ví dụ: Cấu trúc địa lý Geo sẽ phân thành những Dimension độc lập: Region, Branch, Area, Province, District thay vì chỉ có một Geo chung. Tương tự cấu trúc Dimension của Snowflake Schemas.
    Điểm khác nữa của lược đồ này là có những Dimension bị trùng lắp và dùng cho các bảng Fact khác nhau. Ví dụ Supplier Dim như hình trên.

    Tóm lại, 2 loại Schemas này đều được phát triển từ Star/Snowflake Schemas. Nhưng nó được phát triển theo hướng phức tạp hơn, thể hiện nhiều Data Mart trên cùng 1 khung nhìn để phân tích các vấn đề phức tạp liên quan chặt chẽ đến nhau vì theo thực tế, toàn bộ quy trình kinh doanh đều hoạt động liên tục, hỗ trợ và liên quan đến nhau: Purchase - Manufacturing - Inventory - Sales - Promotion.
     
    tableau and Phu Ton like this.

Share This Page