Thiết kế cơ sở dữ liệu

1. THIẾT KẾ LOGIC CSDL

Có hai hướng tiếp cận để mô hình hoá dữ liệu:

  • Vẽ mô hình thực thực liên kết – Cách tiếp cận từ trên xuống (Top – down): Để xây dựng mô hình thực thể liên kết cần xác định một cách trực giác các đối tượng quan trọng mà một hệ thống cần phải lưu trữ như dữ liệu (đó là các thực thể) và xác định các thuộc tính mô tả cho các thực thể đó cùng với quan hệ giữa các thực thể. Nếu áp dụng đúng các luật trong mô hình thực thể liên kết thì ta sẽ có các quan hệ đã được chuẩn hoá.
  • Chuẩn hoá – Các tiếp cận từ dưới lên (Bottom – up): Để chuẩn hoá cần nhóm tất cả các thuộc tính liên quan của hệ thống vào trong một quan hệ. Áp dụng các luật chuẩn hoá để tách quan hệ đó thành các quan hệ có cấu trúc tốt hơn giảm bớt dư thừa dữ liệu.

** Mỗi cách tiếp cận đều có ưu điểm và nhược điểm riêng vì vậy trong thực tế người ta thường phối hợp cả hai cách tiếp cận này để có được một mô hình dữ liệu chính xác nhất.

Kết quả cuối cùng của phần thiết kế logic CSDL là tập các bản ghi logic biểu diễn các quan hệ trong CSDL.

1.1. Chuyển đổi từ mô hình thực thể liên kết thành các bản ghi logic

a. Các luật chuyển đổi

  • Mỗi thực thể trong mô hình thực thể liên kết trở thành một quan hệ.
  • Mỗi thuộc tính trong mô hình thực thể liên kết trở thành một thuộc tính trong quan hệ tương ứng.
  • Định danh thực thể trong mô hình thực thể liên kết trở thành khoá chính trong quan hệ tương ứng. Nếu khoá chính không đáp ứng được các tiêu chuẩn về tính tối thiểu, tính xác định duy nhất và tính ổn định thì đưa vào một khoá giả làm khoá chính.
  • Thi hành các liên kết thông qua việc đặt khóa ngoài vào quan hệ
    • Với liên kết 1-1: đặt khoá chính của một trong hai quan hệ vào quan hệ kia làm khoá ngoài.

Ví dụ: Với mô hình thực thể liên kết

Ta có các quan hệ:

CÔNG NHÂN (mã CN, họ tên, ngày sinh, số máy)

MÁY (số máy, mác, công suất)

Hay: CÔNG NHÂN (mã CN, họ tên, ngày sinh)

MÁY (số máy, mác, công suất, mã CN)

    • Với liên kết 1-N: đặt khoá chính của quan hệ đầu một vào quan hệ đầu nhiều làm khoá ngoài.

Ví dụ: Với mô hình thực thể liên kết

Ta có các quan hệ:

SINH VIÊN (mã SV, họ tên, ngày sinh, tên lớp)

LỚP (tên lớp, phòng học)

    • Với liên kết N-N: Cần tách thành quan hệ 1-N rồi  mới chuyển thành quan hệ. Khi đó quan hệ tương ứng với thực thể kết hợp sẽ có khoá ghép và mỗi thuộc tính khoá của quan hệ này là một khoá ngoài.

Ví dụ: Với mô hình thực thể liên kết

Ta có các quan hệ:

GIÁO VIÊN (mã SV, tên GV, đại chỉ, điện thoại)

MÔN HỌC (mã MH, tên MH, số trình)

GIẢNG DẠY (mã GV, mã MH, ngày bắt đầu)

  • Một số liên kết đặc biệt:
    •  Tự liên kết:

Ví dụ: Mỗi nhân viên có không hoặc một người quản lý (giám đốc không có người quản lý nào). Mỗi nhân viên có thể quản lý 0, 1 hay nhiều nhân viên.

Ta có một quan hệ:

NHÂN VIÊN (mã NV, họ tên, ngày sinh, giới tính, địa chỉ, mã NV quản lý)

Trong đó Mã NV quản lý là một mã NV nào đó.

    • Liên kết phụ thuộc

Ví dụ: Một mặt hàng có nhiều giá khác nhau trong những giai đoạn khác nhau.

Ta có các quan hệ:

MẶT HÀNG (Mã hàng, Tên hàng)

GIÁ (Mã hàng, Ngày bắt đầu, đơn giá) hệ:

b. Ví dụ

Chuyển mô hình thực thể liên kết sau thành các bản ghi logic biểu diễn các quan hệ:

 Mô hình liên kết thực thể của hệ thống bán hàng trong công ty Y

Các bản ghi logic mô tả các quan hệ trong công ty thương mại Y:

NHÀ CUNG CẤP ( mã NCC, tên NCC, địa chỉ, điện thoại, fax)

HÀNG (mã hàng, tên hàng, đơn giá, số lượng, mô tả, mã NCC, số kho) KHO (số kho, diện tích, mô tả)

PHIẾU XUẤT (số phiếu, ngày xuất, số cửa hàng)

DÒNG PHIẾU XUẤT (mã hàng, số phiếu, số lượng xuất) CỬA HÀNG (số cửa hàng, địa điểm, mô tả)

1.2. Chuẩn hoá quan hệ

a. bước tiến hành:

 B1. Từ một  biểu mẫu (tài liệu xuất: hoá đơn, chứng từ,…) lấy ra một danh sách các thuộc tính cho quan hệ chưưa đưược chuẩn hoá (dạng chuẩn 0).

  • Mỗi tiêu đề trong biểu mẫu là một thuộc tính.
  • Bỏ qua phần đầu đề và phần dưưới cùng (một số ghi chú, chữ ký …) của biểu mẫu.
  • Không lấy các thuộc tính đưược suy diễn từ những thuộc tính khác (như thành tiền = đơn giá x số lượng) và các thuộc tính trình bày như ‘số thứ tự’ nếu có.
  • Bổ sung thêm một số thuộc tính định danh tương ứng với một số thuộc tính tên gọi chưa có định danh nếu cần thiết.
  • Xác định nhóm thuộc tính lặp, các phụ thuộc hàm giữa các thuộc tính.

B2. Chuẩn hoá về dạng chuẩn 1 (1NF): Tách nhóm thuộc tính lặp.

  • Tách các thuộc tính không nằm trong nhóm lặp thành một quan hệ (R1). Xác định khoá chính của quan hệ này.
  • Các thuộc tính của nhóm lặp và khoá chính của quan hệ trên (R1) tạo thành một quan hệ (R2). Xác định khóa chính cho quan hệ R2 (khoá chính của R2 sẽ là một khoá ghép giữa khoá của R1 và một thuộc tính khác trong R2)
  • Ví dụ:  R{A, B, C, D, E} và khoá là {A}. Tồn tại nhóm thuộc tính lặp {C,D} thì tách thành 2 quan hệ R1{A, B, E} và R2{A,C,D}.

B3. Chuẩn hoán về dạng chuẩn 2 (2NF): Loại bỏ phụ thuộc bộ phận vào khoá (chỉ áp dụng với các quan hệ có khoá ghép.

Tách các thuộc tính tham gia vào phụ thuộc hàm được xác định bởi một phần của khoá vào một quan hệ mới (R3). Khoá chính của quan hệ là thuộc tính xác định hàm.

Phần còn lại với khoá chính của quan hệ trên (R3) là một quan hệ giữ nguyên khoá chính như quan hệ ban đầu.

Ví dụ: R{A, B, C, D} và khoá  là {A,B}. Tồn tại phụ thuộc hàm A, C thì tách thành 2 quan hệ R1{A,C} và R2{A, B, D}.

B4. Chuẩn hoá về dạng chuẩn 3(3NF): Loại bỏ phụ thuộc hàm giữa các thuộc tính không khoá.

  • Tách các thuộc tính tham gia vào phụ thuộc hàm giữa các thuộc tính không khoá vào một quan hệ mới (R4). Khoá chính của quan hệ là thuộc tính xác định hàm.
  • Phần còn lại và khoá chính của quan hệ trên (R4) là một quan hệ giữ nguyên khoá chính của quan hệ ban đầu.
  • Ví dụ: R{A, B, C, D} mà khoá  là {A,B}. Tồn tại phụ thuộc hàm Cà D thì tách thành 2 quan hệ R1{C, D} và R2{A, B, C}

b. Ví dụ

Hãy xây dựng mô hình dữ liệu cho hệ thống từ mẫu phiếu xuất của công ty thương mại Y dưới đây.

– Danh sách thuộc tính: số PX, ngày, số đại lý, địa chỉ, tên hàng, đơn vị tính, đơn giá, số lượng.

– Bổ sung thêm thuộc tính mã hàng.

– Phụ thuộc hàm: (quy định giá bán của mặt hàng không thay đổi) số PX -> ngày, mã KH số đại lý -> địa chỉ mã hàng -> tên hàng, đơn vị tính, đơn giá {số PX, mã hàng }-> số lượng

– Khoá chính: số PX.

Nhóm lặp (*): mã hàng, tên hàng, đơn vị tính, đơn giá, số lượng. Chuẩn hoá quan hệ:

Các bản ghi logic biểu diễn các quan hệ: ĐẠI LÝ (số đại lý, địa chỉ)

PHIẾU XUẤT (số PX, ngày, số đại lý)

HÀNG (mã hàng, tên hàng, đơn vị tính, đơn giá) HÀNG XUẤT (số PX, mã hàng, số lượng xuất)

1.3. Hoàn thiện mô hình CSDL logic

a. Một số quy tắc

Sau khi tiến hành theo hai hướng khác nhau: xây dựng mô hình thực thể liên kết và chuẩn hoá dữ liệu chúng ta sẽ có hai tập bản ghi logic khác nhau của cùng một hệ thống. Khi đó cần phải kết hợp lại để có một mô hình CSDL logic thống nhất cho hệ thống.

Một số nguyên tắc kết hợp:

  • Kiểm tra sự thống nhất về tên gọi của các quan hệ và các thuộc tính trong hai kết quả. Nếu cùng tên những khác nghĩa thì phải đặt lại tên cho khác nhau. Nếu cùng nghĩa nhưng khác tên thì phải đặt lại tên cho giống nhau.
  • Lấy tất cả các quan hệ khác nhau từ hai kết quả.
  • Với hai quan hệ trùng nhau thì lấy tất cả các thuộc tính có trong hai quan hệ từ hai kết quả.

b. Ví dụ:

Trong ví dụ phần 1 ta thu được tập các bản ghi logic mô tả các quan hệ trong hệ thống công ty  thương mại Y là:

Nhóm 1:

NHÀ CUNG CẤP ( mã NCC, tên NCC, địa chỉ, điện thoại, fax)

HÀNG (mã hàng, tên hàng, đơn giá, số lượng, mô tả, mã NCC, số kho) KHO (số kho, diện tích, mô tả)

PHIẾU XUẤT (số phiếu, ngày xuất, số cửa hàng)

DÒNG PHIẾU XUẤT (mã hàng, số phiếu, số lượng xuất) CỬA HÀNG (số cửa hàng, địa điểm, mô tả)

Trong ví dụ phần 2 ta thu được tập các bản ghi logic mô tả các quan hệ trong hệ thống công ty  thương mại Y là:

Nhóm 2:

ĐẠI LÝ (số đại lý, địa chỉ)

PHIẾU XUẤT (số PX, ngày, số đại lý)

HÀNG (mã hàng, tên hàng, đơn vị tính, đơn giá)

DÒNG PHIẾU XUẤT (số PX, mã hàng, số lượng xuất)

Ta thấy

  • Trong nhóm 1 có thực thể CỬA HÀNG và nhóm 2 có thực thể ĐẠI LÝ là hai thực thể khác tên nhưng cùng nghĩa.
  • Thuộc tính số phiếu số PX, thuộc tính ngày xuất ngày là cùng nghĩa.

** Kết quả thiết kế logic CSDL của hệ thống công ty thương mại Y là: NHÀ CUNG CẤP ( mã NCC, tên NCC, địa chỉ, điện thoại, fax)

HÀNG (mã hàng, tên hàng, đơn vị tính, đơn giá, số lượng, mô tả, mã NCC, số kho)

KHO (số kho, diện tích, mô tả)

PHIẾU XUẤT (số phiếu, ngày xuất, số đại lý)

DÒNG PHIẾU XUẤT (mã hàng, số phiếu, số lượng xuất) ĐẠI LÝ (số đại lý, địa chỉ đại lý, mô tả)

2. THIẾT KẾ VẬT LÝ CSDL

2.1. Các vấn đề liên quan khi thiết kế vật lý CSDL

Phần thiết kế vật lý CSDL sẽ phụ thuộc vào một HQTCSDL mà bạn sẽ sử dụng để cài đặt CSDL. Chúng ta cần chuyển từ các bản ghi logic với các thuộc tính thành các quan hệ được biểu diễn dưới dạng bảng với các trường hay các cột được cài đặt trong một HQTCSDL cụ thể.

  • Với mỗi bảng cần chỉ rõ:
    • Khoá chính (có thể gồm một hay nhiều thuộc tính).
    • Mô tả của tất cả các cột (trường).
  • Với mỗi cột (trường) cần phải có:
    • Một tên duy nhất (trong bảng lưu giữ nó).
    • Một mô tả ngắn gọn.
    • Một kiểu dữ liệu (ví dụ: integer, char, date, logical,… phụ thuộc vào HQTCSDL cụ thể cài đặt CSDL)
    • Một kích thước (mặc định hay chỉ rõ tuỳ từng kiểu dữ liệu)
    • Chú ý: tên của bảng, cột không nên quá dài, cần đủ nghĩa và thường không có dấu.
  • Các cột (trường) tuỳ chọn và các cột (trường) bắt buộc:
    • Nếu cột là bắt buộc thì người sử dụng cần phải cung cấp một giá trị cho cột này trong mỗi dòng (bản ghi)  thêm vào bảng khi cập nhật CSDL. Cột sẽ cần phải được chỉ rõ là NOT NULL
    • Nếu cột là tuỳ chọn thì nó có thể nhận giá trị null.

Chú ý: có thể lưu trữ một giá trị 0 cho một cột tuỳ chọn khi nó không có giá trị những cách này không phải là cách hay

  • Khoá chính và các khoá ngoài
    •  Hầu hết các HQTCSDL hiện đại cho phép chỉ rõ khoá chính, khoá ngoài khi định nghĩa các bảng.
    •  Nếu các HQTCSDL không cho phép định nghĩa tự động thì cần phải chỉ rõ. Khoá chính cần phải duy nhất và not null. Khoá ngoài cần phải liên quan tới một thể hiện của khoá chính đã có hoặc là nhận giá trị null.
  • Giá trị hợp lệ và giá trị mặc định

Ví dụ: Một mã KH được định nghĩa nằm trong khoảng từ 1 đến 1000 (giá trị hợp lệ). Giá trị mặc định cho số lượng bán là 1 (giá trị mặc định).

  • Thuận lợi của việc chỉ rõ giá trị hợp lệ là nó sẽ được gắn vào trong tất cả các chương trình khi lập trình. Đảm bảo sự thống nhất trong việc kiểm tra tính đúng đắn của dữ liệu.
  • Giá trị mặc định có thể được sử dụng để giảm bớt việc gõ máy cho người sử dụng. Nó giúp cho việc nhập dữ liệu nhanh hơn và giảm bớt lỗi.
  • Khoá giả
  • Để tăng tốc độ tìm kiếm, tiết kiệm không gian nhớ và giảm lỗi các khoá cần phải ngắn. Nếu một vài khoá quá dài cần phải thay chúng bằng một khoá giả.
  • Có hai vấn đề khi đưa ra một khoá giả:
    • Cần phải thiết lập một kỹ thuật để sinh tự động các giá trị duy nhất cho khoá (sinh khoá tự động)
    • Cần phải cung cấp một ràng buộc duy nhất cho các định danh tự nhiên để ngăn chặn việc lưu trữ một vài bản ghi cho cùng một thực thể có cùng một dữ liệu nhưng chỉ khác nhau về giá trị khoá.
  • Các quan hệ
    •  Các quan hệ giữa các bảng sẽ được thiết lập bởi các khoá ngoài.
    • Cần phải đảm bảo là cái ràng buộc khoá ngoài sẽ được cài đặt.

5.2. Xem xét hiệu suất thực thi CSDL

  • Cần phải đánh giá việc thực thi CSDL, đó là tính hợp lý của thời gian đáp ứng các câu hỏi truy vấn.
  • Chạy thử CSDL với một tập đủ lớn các bản ghi trong môi trường thực tế.
  • Mô phỏng một số người dùng cùng thực hiện một truy vấn trong CSDL đa người sử dụng.
  • Chạy trộn lẫn một số chức năng với thời gian quy định.

a. Chỉ số

– Xác định một số chỉ số trong CSDL là một vấn đề quan trọng cần phải quan tâm khi thiết kế CSDL

  • Theo quy luật chung cần phải có
    • Một chỉ số duy nhất cho mỗi khoá chính
    • Một chỉ số trên mỗi khoá ngoài
    • Những dữ liệu được truy nhập thường xuyên cũng cần phải tạo chỉ số
  • Với chỉ số ghép trên nhiều cột cần phải cung cấp thứ tự các cột.

– Ưu và nhước điểm của chỉ số

  • ưu điểm
    •  Tăng tốc độ tìm kiếm và khôi phục các bản ghi.
    • Có hiệu suất cao trong việc truy nhập nhiều bảng.
    • Tạo các cách sắp xếp khác nhau trên cùng một bảng.
    •  Tạo nhiều mức sắp xếp bằng cách tạo một chỉ số trên một số cột.
  • Nhược điểm
    • Cần nhiều không gian nhớ hơn để lưu giữ các chỉ số
    • Tốn thời gian cập nhật tất cả các chỉ số khi cập nhật dữ liệu.

b. Phá vỡ chuẩn

Đôi khi chúng ta cần cân nhắc đưa một số dư thừa dữ liệu vào cơ sở dữ liệu để tăng tốc độ truy vấn. Khi đó có thể chúng ta đã phá vỡ dạng chuẩn của các quan hệ đã được chuẩn hoá.

– Phân rã: Căn cứ vào yêu cầu sử dụng nếu có những cột thuộc tính hay dùng và ít dùng hoặc vì một lý do nào đó(ví dụ để bảo mật) thì phân rã chúng ra. Những cột thuộc tính hay dùng cho vào cùng một bảng.

Ví dụ: Quan hệ ĐIỂM THI gồm các thuộc tính SBD, Số phách, điểm. Nhưng để đảm bảo bí mật thường được tách thành hai bảng PHÁCH (SBD, số phách) và BÀI THI (Số phách, điểm)

– Gộp hai hay nhiều bảng khi việc sử dụng chúng thường đi liền với nhau.

– Lặp lại các cột thuộc tính từ các bảng khác nhau, thêm một số cột thuộc tính suy diễn vào bảng(ví dụ: thành tiền, tổng tiền) nếu nó được truy vấn thường xuyên.

– Lập các bảng chỉ dẫn căn cứ vào đường truy nhập và theo các cột thuộc tính có tần số sử dụng cao. Thêm một số bảng để lưu trữ các thông tin kết quả truy vấn sẽ được sử dụng lại.

Ví dụ: Trong hệ thống tuyển sinh vì yêu cầu xem điểm nhiều nên có thể tạo ra một tệp có các thuộc tính SBD và điểm để giúp cho việc tìm kiếm thông tin được nhanh chóng.

Trong hệ thống bán hàng có thể thêm một số bảng hỗ trợ cho việc tính hàng tồn, tính thu chi.

2.3. Điều chỉnh thực thi CSDL

  • Tạo các thủ tục sao lưu và phục hồi CSDL.
  • Tổ chức bảo trì và bảo mật cho CSDL.
  • Thiết lập các ràng buộc toàn vẹn cho CSDL.
  •  Xác định không gian nhớ cho các bảng CSDL và các chỉ số.
  • Thiết lập vùng nhớ đệm cho CSDL
  • Phân cụm CSDL, tổ chức lưu trữ vật lý tối ưu cho CSDL trên đĩa.
  • Đảm bảo điều khiển tương tranh trong CSDL đa người sử dụng.
  • Tạo ra các view của CSDL cho từng đối tượng người dùng.
  • Xác định sự phân tán dữ liệu và xử lý giữa các client và server trong một hệ thống phân tán.

2.4. Ví dụ một mẫu thiết kế

NHÀ CUNG CẤP ( mã NCC, tên NCC, địa chỉ, điện thoại, fax)

HÀNG (mã hàng, tên hàng, đơn vị tính, đơn giá, số lượng, mô tả, mã NCC, số kho)

KHO (số kho, diện tích, mô tả)

PHIẾU XUẤT (số phiếu, ngày xuất, số đại lý)

DÒNG PHIẾU XUẤT (mã hàng, số phiếu, số lượng xuất)

ĐẠI LÝ (số đại lý, địa chỉ đại lý, mô tả)

*Chú ý:

  • Kiểu dữ liệu và kích thước của các cột khoá ngoài cần phải giống hệt kiểu dữ liệu và kích thước của các cột khoá chính tương ứng.
  • Khi tạo bảng, nếu bảng A có cột thuộc tính làm khoá ngoài trong bảng B thì bảng A cần phải được tạo trước bảng B.
  • Khi cài đặt, các đặc tính như khuôn dạng, giá trị hợp lệ , khoá chính, khoá ngoài,…chính là các ràng buộc của CSDL. Các HQTCSDL hiện đại hỗ trợ rất nhiều cho việc cài đặt các ràng buộc này. Nếu một HQTCSDL nào đó mà không hỗ trợ việc cài đặt các ràng buộc này thì cần phải tạo các thủ tục để kiểm tra dữ liệu nhập vào.
  • Đôi khi trong thực tế người ta không sử dụng ràng buộc khoá ngoài vì một số lý do: ví dụ để biết hoá đơn là do nhân viên nào lập, thuộc tính mã NV được đặt làm khoá ngoài trong bảng HOÁ ĐƠN. Ràng buộc khoá ngoài đòi hỏi thông tin về nhân viên chỉ được xoá khi tất cả các hoá đơn liên quan đến nhân viên đó đã bị xoá hết. Nhưng thực tế người ta lại cần lưu trữ các hoá đơn liên quan đến nhân viên, trong khi nhân viên đó đã rời khỏi công ty. Vì vậy trong trường hợp này phải dùng một thủ tục kiểm tra khác thay cho ràng buộc khoá ngoài.