Phân tích cơ sở dữ liệu

1. TỔNG QUAN

Tất cả mọi hệ thống đều phải sử dụng một cơ sở dữ liệu của mình, đó có thể là một cơ sở dữ liệu đã có hoặc một cơ sở dữ liệu được xây dựng mới. Cũng có những hệ thống sử dụng cả cơ sở dữ liệu cũ và mới. Việc phân tích và thiết kế cơ sở dữ liệu cho một hệ thống có thể tiến hành đồng thời với việc phân tích và thiết kế hệ thống hoặc có thể tiến hành riêng. Vấn đề đặt ra là cần xây dựng một cơ sở dữ liệu giảm được tối đa sự dư thừa dữ liệu đồng thời phải dễ khôi phục và bảo trì.

1.1. Các khái niệm

  • Cơ sở dữ liệu (CSDL): CSDL máy tính là một kho chứa một bộ sưu tập có tổ chức các file dữ liệu, các bản ghi và các trưường.
  • Hệ quản trị cơ sở dữ liệu (HQTCSDL) là một phần mềm điều khiển mọi truy nhập đối với CSDL.

  • Các HQTCSDL được phân loại theo mô hình dữ liệu như sau:
  • Các HQTCSDL phân cấp ứng với mô hình phân cấp (VD: IMS của IBM)
  • Các HQTCSDL mạng ứng với mô hình mạng (VD: IDMS của Cullinet Software)
  • Các HQTCSDL quan hệ ứng với mô hình quan hệ (VD: ORACLE của Oraccle, DB2 của IBM, Access và SQL server của Microsoft)
  • Các HQTCSDL hướng đối tượng ứng với mô hình hướng đối tượng (VD: Jasmine, …)

1.2. Các bước tiến hành phân tích và thiết kế CSDL

  • Phân tích – bước này độc lập với các hệ quản trị CSDL.
    • Xác định các yêu cầu về dữ liệu: Phân tích các yêu cầu dữ liệu của hệ thống để xác định các yêu cầu về dữ liệu.
    • Mô hình hoá dữ liệu: Xây dựng mô hình thực thể liên kết biểu diễn các yêu cầu về dữ liệu.
  • Thiết kế cơ sở dữ liệu quan hệ
    • Thiết kế logic CSDL: độc lập với một hệ quản trị CSDL.
      • Xác định các quan hệ: Chuyển từ mô hình thực thể liên kết sang mô hình quan hệ.
      • Chuẩn hoá các quan hệ: chuẩn hoá các quan hệ về dạng chẩn ít nhất là chuẩn 3 (3NF)
    • Thiết kế vật lý CSDL: dựa trên một hệ quản trị CSDL cụ thể.
      • Xây dựng các bảng trong CSDL quan hệ: quyết định cấu trúc thực tế của các bảng lưu trữ trong mô hình quan hệ.
      • Hỗ trợ các cài đặt vật lý trong CSDL: cài đặt chi tiết trong HQTCSDL lựa chọn.

2. MÔ HÌNH THỰC THỂ LIÊN KẾT

2.1. Mục đích

  • Mô tả thế giới thực gần với quan niệm, suy nghĩ của ta. Đây là mô hình tốt với lượng thông tin ít nhất, mô tả thế giới dữ liệu đầy đủ nhất
  • Việc xây dựng mô hình nhằm thành lập một biểu đồ cấu trúc dữ liệu bao gồm dữ liệu cần xử lý và cấu trúc nội tại của nó.
  • Ví dụ một mô hình thực thể liên kết

2.2. Các thành phần

Mô hình thực thể liên kết còn gọi là mô hình dữ liệu logic hoặc sơ đồ tiêu chuẩn. Nó được xây dựng dùng bốn kiểu khối xây dựng: thực thể, kiểu thực thể, thuộc tính, liên kết

a. Thực thể

Một thực thể là khái niệm để chỉ một đối tượng, một nhiệm vụ, một sự kiện trong thế giới thực hay tư duy được quan tâm trong quản lý. Một thực thể tương đương với một dòng trong bảng nào đó

VD: sinh viên Lê An, Đơn hàng số 123, …

b. Kiểu thực thể

– Kiểu thực thể là việc nhóm tự nhiên một số thực thể lại, mô tả cho một loại thông tin chứ không phải là bản thân thông tin. Kiểu thực thể thường là tập hợp các thực thể có cùng bản chất. Tên kiểu thực thể: là một danh từ.

– Ví dụ: Lê An là một thực thể, được quan tâm tới vì anh ta đang học tại một trường đại học A, tức anh ta là một sinh viên. SINH VIÊN là một kiểu thực thể vì nó mô tả cho một số thực thể và dựa trên đó thông tin được lưu giữ.

– Kiểu thực thể được biểu diễn dạng hình chữ nhật

Chú ý: Một cách gọi khác của Kiểu thực thể Thực thể đó là Thực thể – Thể hiện của thực thể.

Ví dụ: có thể nói kiểu thực thể SINH VIÊN có các thực thể Lê An, Hoàng Thị Hà

Hay thực thể SINH VIÊN có các thể hiện Lê An, Hoàng Thị Hà,…

Bài tập: Tìm các kiểu thực thể trong hệ thống quản lý bến xe

(Khách hàng, Vé, Phương tiện, Nhà cung cấp, Đơn hàng)

c. Liên kết và kiểu liên kết

– Liên kết (còn gọi là quan hệ) là sự kết hợp giữa hai hay nhiều thực thể phản ánh sự ràng buộc trong quản lý.

Đặc biệt: Một thực thể có thể liên kết với chính nó ta thường gọi là tự liên kết.

Giữa hai thực thể có thể có nhiều hơn một liên kết.

– Kiểu liên kết là tập hợp các liên kết có cùng bản chất. Các kiểu liên kết cho biết số thể hiện lớn nhất của mỗi thực thể tham gia vào liên kết với một thể hiện của một thực thể khác. Có ba kiểu liên kết: một – một, một – nhiều, nhiều – nhiều.

– Loại thành viên: là điều kiện một thể hiện của thực thể tham gia vào liên kết với một thực thể khác. Nó có thể là bắt buộc hay tuỳ chọn trong quan hệ. Các loại thành viên cho biết số thể hiện nhỏ nhất của mỗi thực thể tham gia vào liên kết với một thể hiện của một thực thể khác.

Chú ý :

– Mô hình dữ liệu không chỉ là công cụ phân tích thiết kế mà còn như một phương pháp kiểm tra chặt chẽ các yêu cầu nghiệp vụ của người sử dụng. Liên kết một – nhiều biểu thị ràng buộc là một phần của mô tả yêu cầu nghiệp vụ : Khi chiều một nhiều là mở, không xác định (khách hàng có thể có nhiều đơn hàng) thì chiều từ nhiều sang một là hoàn toàn xác định (một đơn hàng phải thuộc về một khách hàng).

– Nếu hai thực thể có quan hệ một – một thường có ít lý do để coi chúng như hai bảng tách biệt => người ta thường gộp hai thực thể làm một bảng với mỗi dòng dài hơn.

– Nếu hai thực thể có quan hệ nhiều – nhiều thì không có sự khác biệt về bản chất giữa các chiều (không nói lên được kẻ thống trị) => ít khi được sử dụng.

Tóm lại trong ba kiểu liên kết trên, liên kết một nhiều là quan trọng hơn cả và hầu như các mối quan hệ trong mô hình thực thể liên kết đều là một nhiều.

Bài tập: Xác định các liên kết của các kiểu thực thể trong hệ thống quản lý bến xe

Khách hàng – Vé (1-n); Vé – Phương tiện (n-1); Đơn hàng- Nhà cc(n-1); Đơn hàng-Phương tiện (1-n)

d. Thuộc tính

– Thuộc tính là giá trị thể hiện một đặc điểm nào đó của một thực thể hay một liên kết. Mỗi thuộc tính có một tập giá trị gọi là miền giá trị của thuộc tính đó. Ký hiệu miền giá trị của thuộc tính A là D(A).

– Ví dụ: Thực thể SINH VIÊN có các thuộc tính như: Mã SV, tên SV, ngày sinh, giới tính, địa chỉ,…

–  Các kiểu thuộc tính :

  • Thuộc tính định danh (còn gọi là định danh thực thể, đôi khi còn gọi là thuộc tính khoá): Là một hoặc một số thuộc tính mà giá trị của nó cho phép phân biệt các thực thể khác nhau. Một thực thể bao giờ cũng được xác định một thuộc tính định danh làm cơ sở để phân biệt các thể hiện cụ thể của nó. Ví dụ : Số hiệu khách hàng, Mã mặt hàng, Mã sinh viên,…
  • Thuộc tính mô tả: Là các thuộc tính mà giá trị của chúng chỉ có tính mô tả cho thực thể hay liên kết mà thôi. Hầu hết các thuộc tính trong một kiểu thực thể đều là mô tả.

Một số thuộc tính mô tả đặc biệt:

  • Thuộc tính tên gọi là thuộc tính mô tả để chỉ tên các đối tượng thuộc thực thể. Thuộc tính tên gọi để phân biệt các thực thể (tách các thực thể).
  • Thuộc tính kết nối (thuộc tính khoá ngoài): là thuộc tính chỉ ra mối quan hệ giữa một thực thể đã có và một thực thể trong bảng khác. Thuộc tính kết nối giống thuộc tính mô tả thông thường trong thực thể chứa nó nhưng nó lại là thuộc tính khoá của một thực thể trong bảng khác.

2.3. Xây dựng mô hình thực thể liên kết của hệ thống

a. Các bước tiến hành

B1: Xác định các thực thể và các định danh thực thể

  • Xác định các thực thể là các mục thông tin cần thiết cho hệ thống và hệ thống cần lưu giữ. Tìm các thực thể từ ba nguồn :
  • Thông tin tài nguyên: con người, kho bãi, tài sản (VD: nhà cung cấp, mặt hàng, kho…)
  • Thông tin giao dịch: là các luồng thông tin đến từ môi trường và kích hoạt một chuỗi hoạt động của hệ thống (VD: đơn hàng (mua,bán), dự trù, phiếu yêu cầu,…)
  • Thông tin tổng hợp: thường ở dưới dạng thống kê liên quan đến các kế hoạch hoặc kiểm soát (VD: dự toán chi tiêu, tính lương…)
  • Ghi lại các tên đồng nghĩa của thực thể trong từ điển dữ liệu.
  • Kiểm tra rằng mỗi thực thể thoả mãn:
    • Tên gọi là danh từ.
    • Có nhiều thể hiện.
    • Có duy nhất một định danh.
    • Có ít nhất một thuộc tính mô tả.
    • Có quan hệ với ít nhất một thực thể khác.

B2: Xác định liên kết giữa các thực thể

Thiết lập sự tồn tại của liên kết (Vẽ đường thẳng và đặt tên quan hệ tại hai đầu)

Xác định loại liên kết (1-1, 1-N, N-N) và loại thành viên (tuỳ chọn hay bắt buộc).

Tách liên kết N-N thành hai liên kết 1-N với một thực thể kết hợp. Khi đó thực thể kết hợp sẽ có định danh được tạo thành từ hai  thuộc tính định danh của các thực thể ban đầu.

Ví dụ :

B3: Xác định các thuộc tính mô tả cho các thực thể

  • Mỗi thuộc tính chỉ xuất hiện một lần trong thực thể tương ứng.
  • Nếu không chắc chắn là thuộc tính hay thực thể cần tiếp tục nghiên cứu và phân tích nó.
  • Chú ý: Khi một thuộc tính của thực thể A có nhiều giá trị ta sẽ mô hình hoá thuộc tính đó là một thực thể B có quan hệ phụ thuộc với thực thể A. Định danh của thực thể B sẽ bao gồm các thuộc tính định danh của thực thể A và một số thuộc tính khác của thực thể B. Liên kết giữa thực thể A và thực thể B được gọi là liên kết phụ thuộc.

Ví dụ: Một nhân viên có thể có nhiều trình độ ngoại ngữ với các ngôn ngữ khác nhau. Khi đó trình độ ngoại ngữ của nhân viên không được mô hình hoá là một thuộc tính mà được mô hình hoá là một thực thể như sau:

Định danh của thực thể TRÌNH ĐỘ NN gồm hai thuộc tính mã NV ngoại ngữ.

b. Ví dụ

Một công ty thương mại Y chuyên kinh doanh các mặt hàng điện tử. Công ty nhập các mặt hàng từ các nhà cung cấp khác nhau. Chi tiết về các mặt hàng gồm có: mã hàng (duy nhất), tên hàng và các mô tả mặt hàng.

Công ty cũng cần lưu giữ thông tin về các nhà cung cấp như tên, địa chỉ, điện thoại, fax. Mỗi nhà cung cấp có một mã duy nhất. Mỗi nhà cung cấp có thể cung cấp nhiều mặt hàng nhưng mỗi mặt hàng chỉ được cung cấp từ một nhà cung cấp.

Các mặt hàng được lưu giữ trong các kho. Mỗi kho hàng có một diện tích khác nhau và chỉ chứa một loại mặt hàng.

Công ty có nhiều cửa hàng đại lý để bán các mặt hàng. Hàng được cung cấp cho các cửa hàng thông qua các các phiếu xuất. Thông tin trên mỗi phiếu xuất cần có mã số cửa hàng nhận hàng, ngày xuất, thông tin về các mặt hàng được xuất như tên hàng, số lượng, đơn giá, thành tiền.

Yêu cầu: Vẽ mô hình thực thể liên kết của hệ thống.

  • Xác định các thực thể, định danh thực thể và các thuộc tính mô tả: HÀNG – mã hàng, tên hàng, đơn giá, số lượng, mô tả

NHÀ CUNG CẤP – mã NCC, tên NCC, địa chỉ, điện thoại, fax

KHO – số kho, diện tích, mô tả

PHIẾU XUẤT – số phiếu, ngày xuất, số cửa hàng

CỬA HÀNG – số cửa hàng, địa điểm, mô tả

  • Xác định liên kết giữa các thực thể
    • Một mặt hàng cần được cung cấp bởi một nhà cung cấp. Một nhà cung cấp cần cung cấp một hoặc nhiều mặt hàng.
    • Một mặt hàng cần được lưu giữ trong một kho. Mỗi kho lưu giữ 0 hoặc một loại hàng.
    • Một mặt hàng được xuất trong 0, 1 hoặc nhiều phiếu xuất. Một phiếu xuất có thể xuất 1 hoặc nhiều mặt hàng.
    • Một cửa hàng nhận được 0, 1 hoặc nhiều phiếu xuất. Mỗi phiếu xuất cần được xuất cho chỉ một cửa hàng.
  • Vẽ mô hình thực thể liên kết

Mô hình liên kết thực thể của hệ thống bán hàng trong công ty Y

  • Quan hệ N-N  giữa HÀNG và PHIẾU XUẤT có thể được tách thành  2 quan hệ 1-N với thực thể kết hợp DÒNG PHIẾU XUẤT như sau:

Tách liên kết nhiều – nhiều giữa Hàng- Phiếu xuất

3. MÔ HÌNH QUAN HỆ

3.1. Khái niệm

a. Quan hệ

Mô hình CSDL quan hệ hay ngắn gọn là mô hình quan hệ được E.F.Codd phát triển vào đầu những năm 1970. Mô hình này được thiết lập trên cơ sở lý thuyết tập hợp nên nó rất dễ hiểu và được sử dụng rất rộng rãi trong việc tổ chức dữ liệu cho các hệ thống.

– Các thành phần trong mô hình quan hệ gồm: Các quan hệ – các bộ – các thuộc tính.

Tương ứng với các thành phần trong mô hình thực thể liên kết là: Các thực thể – các thể hiện của thực thể – các thuộc tính.

Mô hình thực thể liên kết => Mô hình quan hệ => Các bảng trong HQTCSDL. So sánh tương ứng giữa mô hình thực thể liên kết, mô hình quan hệ và hệ quản trị CSDL chúng ta có bảng sau:

  • Biểu diễn quan hệ dưới dạng bản ghi logic:

Quan hệ  SINH VIÊN (mã SV, họ tên, ngày sinh, quê quán, lớp) Các bộ: (SV01, Vũ Thị Lan, 12/3/1985, Hà Nội, T5_K2)

(SV41, Đặng Nhật Minh, 1/8/1981, Thái Bình, T4_K4)

  • Biểu diễn quan hệ dưới dạng bảng:

Chú ý:

  • Các bộ trong một quan hệ không được trùng nhau.
  • Thuộc tính được xác định bởi tên, thứ tự của các thuộc tính trong quan hệ là không quan trọng. Trong một quan hệ, tên các thuộc tính phải khác nhau (các miền giá trị của các thuộc tính không nhất thiết khác nhau)

b. Khoá

  • Khoá chính: Khoá chính của một quan hệ (Primary Key-PK) là một hoặc một nhóm thuộc tính xác định duy nhất một bộ trong quan hệ. Khoá chính của quan hệ là định danh của thực thể tương ứng. Trong quan hệ các thuộc tính thuộc khoá chính được gạch chân và được gọi là các thuộc tính khoá.

Ví dụ: SINH VIÊN (mã SV, họ tên, ngày sinh, quê quán, lớp) – mã SV là khoá chính của quan hệ SINH VIÊN.

Khi chọn khoá chính cần phải xem xét các tiêu chuẩn sau: khoá chính phải xác định được duy nhất một bộ trong quan hệ, phải có số thuộc tính ít nhất, phải không thay đổi theo thời gian.

  • Khoá ghép: Khoá ghép là khoá có từ hai thuộc tính trở lên

Ví dụ: GIẢNG DẠY(mã GV, mã MH, ngày bắt đầu, ngày kết thúc) – khoá chính của quan hệ GIẢNG DẠY là một khoá ghép gồm hai thuộc tính mã GV mã MH.

  • Khoá ngoài: Một khoá ngoài được sử dụng để thiết lập một mối quan hệ. Đó là thuộc tính mô tả của quan hệ này nhưng đồng thời lại là thuộc tính khoá trong quan hệ khác. Trong quan hệ các thuộc tính khoá ngoài được in nghiêng hoặc gạch chân bằng nét đứt.

Ví dụ: LỚP (tên lớp, khoa, phòng học)

SINH VIÊN (mã SV, họ tên, ngày sinh, quê quán, tên lớp) – tên lớp là khoá ngoài của quan hệ SINH VIÊN

  • Khoá giả: Là thuộc tính do con người đặt ra để làm khoá chính. Thuộc tính này không mô tả đặc điểm của các đối tượng quan tâm mà chỉ có tác dụng để xác định duy nhất đối tượng đó. Ví dụ: mã SV, số hoá đơn…Thông thường khi khoá chính có từ 3 thuộc tính trở lên người ta thường đặt ra một khoá giả làm khoá chính để tiện lợi hơn trong việc truy vấn dữ liệu.

– Ràng buộc thực thể: là một ràng buộc trên khoá chính. Nó yêu cầu khoá chính phải tối thiểu, xác định duy nhất và không null. (Giá trị null tức là không có giá trị. Nó khác với giá trị 0 hay dấu cách.)

– Ràng buộc tham chiếu (ràng buộc khoá ngoài): liên quan đến tính toàn vẹn của mối quan hệ tức là liên quan đến tính toàn vẹn của khoá ngoài. Một ràng buộc tham chiếu yêu cầu một giá trị khoá ngoài trong một quan hệ cần phải tồn tại là một giá trị khoá chính trong một quan hệ khác hoặc là giá trị null.

Ví dụ: trong quan hệ sau:

Tên lớp là T4-K7  trong quan hệ SINH VIÊN không có trong quan hệ LỚP vì vậy nó vi phạm ràng buộc tham chiếu.

  • Các ràng buộc được định nghĩa bởi người dùng: đây là các ràng buộc liên quan đến miền giá trị của dữ liệu thực tế.

3.2. Các dạng chuẩn

a. Phụ thuộc hàm

– Trong một quan hệ R, thuộc tính B phụ thuộc hàm vào thuộc tính A (hay thuộc tính A xác định hàm thuộc tính B) ký hiệu AàB nếu với mỗi giá trị của thuộc tính A xác định một giá trị duy nhất của thuộc tính B.

Ví dụ: Mã SV->Ngày sinh


– Phụ thuộc hàm giữa nhiều thuộc tính: thuộc tính B phụ thuộc hàm vào các

thuộc tính A1 và A2 ký hiệu{A1,A2} → B nếu với mỗi cặp giá trị của A1 và A2 xác định duy nhất một giá trị của B.

Ví dụ: {Số hoá đơn, Mã hàng}-> Số lượng


Chú ý: A1-> {A2,A3}   A1-> A2 và A1-> A3

{A1,A2}-> A3    A1-> A3 và A2-> A3

– Các loại phụ thuộc hàm

  • Phụ thuộc hàm đầy đủ: Thuộc tính B gọi là phụ thuộc đầy đủ vào tập thuộc tính A (có từ 2 thuộc tính trở lên) nếu nó chỉ phụ thuộc hàm vào A và không phụ thuộc hàm vào bất cứ tập con nào của A. Ngược lại B gọi là phụ thuộc hàm bộ phận vào tập thuộc tính A.
  • Phụ thuộc hàm bắc cầu: Nếu có A1 -> A2 và A2 -> A3 thì A1 -> A3. Khi đó A3 được gọi là phụ thuộc bắc cầu vào A1.

– Định nghĩa khoá theo quan niệm phụ thuộc hàm : Trong quan hệ R, tập các thuộc tính K là khoá của quan hệ nếu có K -> Bi với Bi là tất cả các thuộc tính còn lại.

b. Các dạng chuẩn

– Dạng chuẩn 1 (1NF): Một quan hệ là ở dạng chuẩn 1 nếu toàn bộ các miền thuộc tính đều là các miền đơn và không tồn tại nhóm thuộc tính lặp.

Một thuộc tính A là thuộc tính lặp nếu với một giá trị cụ thể của khoá chính có nhiều giá trị của thuộc tính A kết hợp với khoá chính này.

Ví dụ: Khoá chính là Mã SV. Nhóm thuộc tính lặp là Môn học Điểm.


– Dạng chuẩn 2 (2NF): Một quan hệ ở  dạng chuẩn 2 nếu nó đã ở dạng chuẩn 1 và không tồn tại phụ thuộc hàm bộ phận vào khoá.

Ví dụ:     Cho một quan hệ: R (A, B, C, D, E) Khoá chính là A,B

Các phụ thuộc hàm:

{A,B} -> D;

A ->   C;     (Phụ thuộc hàm bộ phận vào khoá) D  -> E

* Chú ý: Quan hệ có khoá chính là một thuộc tính luôn ở dạng chuẩn 2

– Dạng chuẩn 3 (3NF): Một quan hệ ở  dạng chuẩn 3 nếu nó đã ở dạng chuẩn 2 và không tồn tại phụ thuộc hàm bắc cầu vào khoá (hay phụ thuộc hàm giữa các thuộc tính không khoá).

Ví dụ: Cho một quan hệ: R (A, B, D, E) Khoá chính là A,B

Các phụ thuộc hàm:

{A,B} -> D;

D   -> E (Phụ thuộc hàm giữa các thuộc tính không khoá)