Cách hoạt động của tích hợp dữ liệu

May 14 2008
Tích hợp dữ liệu là một ý tưởng đơn giản, nhưng quá trình này có thể khá phức tạp. Khi một máy tính nhận được thông tin từ người dùng, làm thế nào nó biết phải làm gì tiếp theo?

Đối với Joe bình thường, công nghệ thông tin (IT) là một vũ trụ bí ẩn chứa đầy những ngôn ngữ lập trình khó giải mã và phần cứng đắt tiền. Nghe trộm các kỹ thuật viên CNTT gần giống như nghe lén một cuộc trò chuyện bằng tiếng nước ngoài. Nhưng bất chấp rào cản ngôn ngữ dường như không thể vượt qua này, nó có thể cực kỳ quan trọng đối với những người ra quyết định trong các doanh nghiệp và tổ chức để hiểu thế giới CNTT. Một trong những khái niệm CNTT quan trọng nhất là tích hợp dữ liệu .

Nhìn bề ngoài, tích hợp dữ liệu nghe có vẻ như là một ý tưởng đơn giản. Bởi vì nhiều tổ chức lưu trữ thông tin trên nhiều cơ sở dữ liệu , họ cần một cách để lấy dữ liệu từ các nguồn khác nhau và tập hợp nó theo một cách thống nhất. Ví dụ, hãy tưởng tượng rằng một công ty điện tử đang chuẩn bị tung ra một thiết bị di động mới. Bộ phận tiếp thị có thể muốn lấy thông tin khách hàng từ cơ sở dữ liệu của bộ phận bán hàng và so sánh với thông tin từ bộ phận sản phẩm để tạo danh sách bán hàng được nhắm mục tiêu. Một hệ thống tích hợp dữ liệu tốt sẽ cho phép bộ phận tiếp thị xem thông tin từ cả hai nguồn theo một cách thống nhất, loại bỏ bất kỳ thông tin nào không áp dụng cho tìm kiếm.

Trong thực tế, tích hợp dữ liệu là một lĩnh vực phức tạp. Không có một cách tiếp cận phổ biến nào để tích hợp dữ liệu và nhiều kỹ thuật mà các chuyên gia CNTT sử dụng vẫn đang phát triển. Một số phương pháp tích hợp dữ liệu có thể hoạt động tốt hơn các phương pháp khác đối với một tổ chức, tùy thuộc vào nhu cầu của tổ chức đó. Chúng ta sẽ xem xét kỹ một số chiến lược chung mà các chuyên gia CNTT sử dụng để tích hợp nhiều nguồn dữ liệu và tham gia vào thế giới quản lý cơ sở dữ liệu.

Những điều cơ bản của tích hợp dữ liệu là gì? Tìm hiểu trong phần tiếp theo.

Nội dung này không tương thích trên thiết bị này.

Nội dung
  1. Kiến thức cơ bản về tích hợp dữ liệu
  2. Các phương pháp tiếp cận tích hợp dữ liệu
  3. Kho dữ liệu
  4. Cơ sở dữ liệu nối mạng

Kiến thức cơ bản về tích hợp dữ liệu

Bảng đơn giản này hiển thị các giao dịch mua của khách hàng.

Tích hợp dữ liệu tập trung chủ yếu vào cơ sở dữ liệu . Cơ sở dữ liệu là một tập hợp dữ liệu có tổ chức. Nó tương tự như một hệ thống tệp , là một cấu trúc tổ chức cho các tệp để chúng dễ dàng tìm thấy, truy cập và thao tác.

Có nhiều cách khác nhau để phân loại cơ sở dữ liệu. Một số người thích phân loại chúng theo loại dữ liệu mà cơ sở dữ liệu lưu trữ. Ví dụ: bạn có thể phân loại cơ sở dữ liệu là cơ sở dữ liệu phương tiện nếu tất cả thông tin được lưu trữ ở đó được chứa trong tệp video hoặc âm thanh .

Một phương pháp phân loại khác xem xét cách cơ sở dữ liệu tổ chức dữ liệu. Sự sắp xếp tổ chức của một cơ sở dữ liệu được gọi là một lược đồ . Một kỹ thuật tổ chức phổ biến là sử dụng các bảng để chỉ ra mối quan hệ giữa các điểm dữ liệu khác nhau. Các bảng giống như bảng tính. Các cột xác định các loại dữ liệu, trong khi các hàng là các bản ghi . Cơ sở dữ liệu sử dụng cách tiếp cận này là cơ sở dữ liệu quan hệ .

Cơ sở dữ liệu lập trình hướng đối tượng ( OOP ) có một cách tiếp cận khác để tổ chức dữ liệu. Ngôn ngữ OOP là sự khởi đầu từ các cách tiếp cận truyền thống đối với lập trình, theo mô hình chèn dữ liệu vào một tập hợp các lệnh và sau đó tạo ra đầu ra. Thay vào đó, ngôn ngữ OOP tập trung vào việc xác định dữ liệu dưới dạng các đối tượng và sau đó xác định cách các đối tượng khác nhau liên hệ và tương tác với nhau.

Để tạo cơ sở dữ liệu OOP, trước tiên bạn phải xác định tất cả các đối tượng mà bạn định lưu trữ trong cơ sở dữ liệu. Sau đó, bạn sẽ xác định cách mỗi đối tượng liên quan đến mọi đối tượng khác trong cơ sở dữ liệu. Sau khi bạn xác định một đối tượng, bạn đặt nó vào một lớp hoặc một tập hợp các đối tượng. Để định nghĩa một lớp, bạn phải xác định dữ liệu mà mỗi đối tượng trong lớp đó phải có và chuỗi logic nào, được gọi là phương thức , sẽ ảnh hưởng đến các đối tượng đó. Các đối tượng trong hệ thống có thể giao tiếp với bạn hoặc các đối tượng khác bằng giao diện được gọi là thông điệp .

Sẽ dễ hiểu hơn với một ví dụ. Giả sử bạn đang xây dựng một cơ sở dữ liệu chứa thông tin về các môn thể thao của Mỹ. Bạn quyết định bắt đầu bằng việc xác định các đội bóng chày . Khi bạn đã tạo định nghĩa về đội bóng chày, bạn có thể khái quát nó thành một lớp trong cơ sở dữ liệu. Atlanta Braves sẽ là một ví dụ cụ thể của lớp đó, còn được gọi là một đối tượng. Lớp các đội bóng chày thuộc về một lớp siêu của các đội thể thao Hoa Kỳ, cũng sẽ bao gồm các lớp khác như bóng đá và các đội bóng đá .

Để truy cập thông tin trong cơ sở dữ liệu (bất kể nó tổ chức dữ liệu như thế nào), bạn sử dụng một truy vấn . Một truy vấn chỉ là một yêu cầu thông tin. Mọi người và ứng dụng có thể gửi truy vấn đến cơ sở dữ liệu. Cơ sở dữ liệu phản hồi các truy vấn bằng cách gửi dữ liệu đáp ứng các tham số của yêu cầu ban đầu. Các truy vấn dựa trên các ngôn ngữ máy tính đặc biệt như Ngôn ngữ truy vấn có cấu trúc ( SQL ). Nếu bạn đã từng sử dụng công cụ tìm kiếm trên Internet, bạn đã gửi một truy vấn - cụm từ tìm kiếm của bạn.

Chế độ xem này chỉ hiển thị dữ liệu có liên quan đến truy vấn "những khách hàng đã mua sản phẩm trên $ 100".

Cơ sở dữ liệu phản hồi các truy vấn bằng cách tạo một dạng xem dữ liệu. Chế độ xem là một cách cụ thể để hiển thị dữ liệu. Trong hệ thống tích hợp dữ liệu, dạng xem trả về chỉ hiển thị dữ liệu liên quan trực tiếp đến truy vấn ban đầu. Trong ví dụ bảng của chúng tôi, nếu bạn gửi một truy vấn yêu cầu tất cả những khách hàng đã mua sản phẩm trị giá hơn 100 đô la, bạn sẽ nhận được kết quả sau:

Chế độ xem này chỉ hiển thị dữ liệu có liên quan đến truy vấn "những khách hàng đã mua sản phẩm trên $ 100". Lưu ý rằng nó không hiển thị loại sản phẩm đã được mua, cũng như không hiển thị những khách hàng đã mua sản phẩm dưới $ 100.

Các cách tiếp cận khác nhau để tích hợp dữ liệu là gì? Tìm hiểu trong phần tiếp theo.

Dữ liệu là gì?

Dữ liệu có thể là bất kỳ loại thông tin nào. Nó có thể là nội dung của một ô trên bảng tính. Nó có thể là một tệp âm thanh hoặc một video. Nó có thể là một chuỗi các từ trong một tài liệu. Nó có thể là thông tin thô được tạo ra dưới dạng đầu ra từ một chương trình máy tính. Hoặc nó có thể là thông tin được sử dụng để mô tả một tệp. Tích hợp dữ liệu tập trung vào thông tin, không phải tệp.

Các phương pháp tiếp cận tích hợp dữ liệu

Dựa trên phần trước, bạn có thể nghĩ rằng cơ sở dữ liệu khá phức tạp. Đó là một giả định công bằng và nó giúp giải thích tại sao tích hợp dữ liệu vẫn là một lĩnh vực đang phát triển mặc dù nó đã hơn 30 năm tuổi. Mục tiêu của tích hợp dữ liệu là thu thập dữ liệu từ các nguồn khác nhau, kết hợp và trình bày dữ liệu theo cách sao cho nó trở thành một thể thống nhất.

Giả sử bạn chuẩn bị khởi hành một chuyến du lịch và bạn muốn xem tình hình giao thông như thế nào trước khi quyết định tuyến đường nào sẽ đi ra khỏi thành phố. Đây là cách các phương pháp tiếp cận tích hợp dữ liệu khác nhau sẽ xử lý truy vấn của bạn.

Phương pháp tích hợp thủ công sẽ để lại tất cả công việc cho bạn. Trước tiên, bạn phải biết nơi tìm kiếm dữ liệu của mình. Bạn sẽ cần biết vị trí thực tế cho cả báo cáo giao thông và bản đồ cho thị trấn của bạn. Bạn sẽ cần truy xuất báo cáo giao thông và dữ liệu bản đồ trực tiếp từ cơ sở dữ liệu tương ứng của chúng, sau đó so sánh hai bộ dữ liệu với nhau để tìm ra tuyến đường tốt nhất ra khỏi thị trấn.

Nếu bạn đã sử dụng phương pháp tiếp cận giao diện người dùng thông thường , bạn sẽ phải thực hiện ít công việc hơn một chút. Bạn sẽ sử dụng một giao diện như World Wide Web để thực hiện một truy vấn. Kết quả truy vấn sẽ xuất hiện dưới dạng xem trên giao diện. Bạn vẫn phải so sánh báo cáo giao thông với bản đồ để xác định tuyến đường tốt nhất, nhưng ít nhất giao diện sẽ đảm nhiệm việc định vị và truy xuất dữ liệu.

Một số phương pháp tích hợp dựa vào các ứng dụng để thực hiện tất cả công việc cho bạn. Các ứng dụng, là các chương trình máy tính chuyên dụng , sẽ định vị, truy xuất và tích hợp thông tin cho bạn. Trong quá trình tích hợp, các ứng dụng phải thao tác dữ liệu để thông tin từ nguồn này tương thích với thông tin từ nguồn khác. Trong ví dụ của chúng tôi, điều đó có nghĩa là bạn gửi một truy vấn đến một ứng dụng và nó sẽ hiển thị một chế độ xem kết hợp bản đồ thị trấn của bạn với dữ liệu từ các báo cáo giao thông. Vấn đề với cách tiếp cận này là các ứng dụng trở nên phức tạp và khó lập trình khi số lượng nguồn dữ liệu và định dạng tăng lên.

Sau đó, có phương pháp lưu trữ dữ liệu phổ biến , còn được gọi là kho dữ liệu . Sử dụng phương pháp này, tất cả dữ liệu từ các cơ sở dữ liệu khác nhau mà bạn dự định tích hợp sẽ được trích xuất , chuyển đổitải. Điều đó có nghĩa là kho dữ liệu đầu tiên lấy tất cả dữ liệu từ các nguồn dữ liệu khác nhau. Sau đó, kho dữ liệu chuyển đổi tất cả dữ liệu thành một định dạng chung để một bộ dữ liệu này tương thích với một bộ dữ liệu khác. Sau đó, nó tải dữ liệu mới này vào cơ sở dữ liệu của chính nó. Khi bạn gửi truy vấn của mình, kho dữ liệu sẽ định vị dữ liệu, truy xuất và trình bày cho bạn ở dạng xem tích hợp. Sử dụng ví dụ của chúng tôi, kho dữ liệu sẽ định vị thông tin mới nhất mà nó có trên các báo cáo giao thông và bản đồ của thị trấn của bạn. Sau đó, nó sẽ tích hợp cả hai lại với nhau và gửi chế độ xem lại cho bạn. Có một số ưu điểm và nhược điểm đối với hệ thống này, chúng ta sẽ xem xét trong phần tiếp theo.

Hầu hết các nhà thiết kế hệ thống tích hợp dữ liệu cho rằng mục tiêu cuối cùng là tạo ra càng ít công việc cho người dùng cuối càng tốt, vì vậy họ có xu hướng tập trung vào các ứng dụng và kỹ thuật lưu trữ dữ liệu.

Chính xác thì kho dữ liệu làm gì? Tìm hiểu trong phần tiếp theo.

Đây là một chiến thắng

Các trang cổng thông tin như iGoogle hoặc My Yahoo là những ví dụ về giao diện người dùng phổ biến. Cổng lấy thông tin từ nhiều nguồn, nhưng không tích hợp dữ liệu vào một chế độ xem thống nhất.

Kho dữ liệu

Như chúng ta đã thấy trước đó, kho dữ liệu là một cơ sở dữ liệu lưu trữ thông tin từ các cơ sở dữ liệu khác bằng cách sử dụng một định dạng chung. Điều đó càng cụ thể càng tốt khi bạn mô tả kho dữ liệu. Không có định nghĩa thống nhất nào quy định kho dữ liệu là gì hoặc cách các nhà thiết kế nên xây dựng chúng. Do đó, có một số cách khác nhau để tạo kho dữ liệu và một kho dữ liệu có thể trông và hoạt động rất khác với kho dữ liệu khác.

Nói chung, các truy vấn đến kho dữ liệu mất rất ít thời gian để giải quyết. Đó là bởi vì kho dữ liệu đã thực hiện công việc chính là trích xuất, chuyển đổi và kết hợp dữ liệu. Phía người dùng của kho dữ liệu được gọi là giao diện người dùng , vì vậy từ quan điểm đầu cuối, lưu trữ dữ liệu là một cách hiệu quả để có được dữ liệu tích hợp.

Từ góc độ back-end , đó là một câu chuyện khác. Các nhà quản lý cơ sở dữ liệu phải suy nghĩ rất nhiều vào một hệ thống kho dữ liệu để làm cho nó hoạt động hiệu quả. Việc chuyển đổi dữ liệu thu thập được từ các nguồn khác nhau thành một định dạng chung có thể đặc biệt khó khăn. Hệ thống yêu cầu một cách tiếp cận nhất quán để mô tả và mã hóa dữ liệu.

Kho phải có cơ sở dữ liệu đủ lớn để lưu trữ dữ liệu được tập hợp từ nhiều nguồn. Một số kho dữ liệu bao gồm một bước bổ sung được gọi là kho dữ liệu . Kho dữ liệu đảm nhận nhiệm vụ tổng hợp dữ liệu, trong khi kho dữ liệu phản hồi các truy vấn của người dùng bằng cách truy xuất và kết hợp dữ liệu thích hợp từ kho.

Một vấn đề với các kho dữ liệu là thông tin trong đó không phải lúc nào cũng cập nhật. Đó là do cách các kho dữ liệu hoạt động - chúng lấy thông tin từ các cơ sở dữ liệu khác theo định kỳ. Nếu dữ liệu trong các cơ sở dữ liệu đó thay đổi giữa các lần trích xuất, các truy vấn tới kho dữ liệu sẽ không dẫn đến các chế độ xem hiện tại và chính xác nhất. Nếu dữ liệu trong hệ thống hiếm khi thay đổi, thì đây không phải là vấn đề lớn. Tuy nhiên, đối với các ứng dụng khác, nó có vấn đề.

Quay trở lại ví dụ của chúng tôi từ trước với báo cáo lưu lượngbản đồ , bạn có thể thấy đây sẽ là một vấn đề như thế nào. Mặc dù bản đồ của thị trấn có thể không yêu cầu cập nhật thường xuyên, nhưng điều kiện giao thông có thể thay đổi đáng kể trong một khoảng thời gian tương đối ngắn. Kho dữ liệu có thể không trích xuất dữ liệu thường xuyên, có nghĩa là thông tin nhạy cảm về thời gian có thể không đáng tin cậy. Đối với những loại ứng dụng đó, tốt hơn nên thực hiện một cách tiếp cận tích hợp dữ liệu khác.

Giải pháp thay thế cho kho dữ liệu là gì? Tìm hiểu trong phần tiếp theo.

Meta? Tôi hầu như không biết cô ấy!

Mô tả dữ liệu được gọi là siêu dữ liệu . Siêu dữ liệu hữu ích để đặt tên và xác định dữ liệu cũng như mô tả mối quan hệ của một tập dữ liệu này với các tập hợp khác. Hệ thống tích hợp dữ liệu sử dụng siêu dữ liệu để định vị thông tin liên quan đến các truy vấn.

Cơ sở dữ liệu nối mạng

Đối với các hệ thống tích hợp dữ liệu dựa vào thông tin thay đổi thường xuyên, cách tiếp cận kho dữ liệu không phải là lý tưởng. Một cách mà các chuyên gia CNTT cố gắng giải quyết vấn đề này là thiết kế các hệ thống lấy dữ liệu trực tiếp từ các nguồn dữ liệu riêng lẻ. Vì không có cơ sở dữ liệu tập trung dành riêng cho việc phân tích, phân loại và tích hợp dữ liệu để chuẩn bị cho các truy vấn của người dùng, những trách nhiệm đó thuộc về các phần khác của hệ thống.

IT experts define data integration systems in terms of schemata. The unified view produced from a processed query is the global schema. The structure of the various data sources and the way they relate to one another is the source schema. The way the global and source schemata interrelate is called mapping. Think of the source schema as a blueprint for all the data within the system, while the global schema is a blueprint for the view presented in response to a query.

There are two main approaches to resolving queries in a data integrated system: global-as-view and local-as-view. Each approach focuses on a particular part of the overall system and has its advantages and disadvantages.

In a global-as-view approach, the focus is on the global schema. As long as the data sources remain consistent, the global-as-view approach works well. It's easy to change the set-up of the global schema. That means it's not difficult to analyze the same overall set of data in different ways. However, adding or removing data sources to the system is problematic, because it affects data across the system as a whole.

Kỹ thuật local-as-view có cách tiếp cận ngược lại. Nó tập trung vào các nguồn dữ liệu. Miễn là lược đồ toàn cục không đổi, bạn có thể dễ dàng thêm hoặc xóa các nguồn dữ liệu vào hệ thống. Lược đồ tìm kiếm các loại dữ liệu và các mối quan hệ giống nhau trong các nguồn dữ liệu mới. Trong cách tiếp cận này, việc thay đổi các tham số của lược đồ toàn cục là rất khó. Nếu bạn muốn phân tích các nguồn dữ liệu theo một cách mới, bạn sẽ phải xác định lại toàn bộ hệ thống.

Vì vậy, đó là câu chuyện về tích hợp dữ liệu. Lần tới khi bạn xem bản đồ thời tiết hoặc gọi lên một lựa chọn dữ liệu đã lọc, bạn sẽ nhận thức được hàng loạt quy trình phức tạp đang diễn ra trong nền khiến cho tất cả đều có thể thực hiện được.

Để tìm hiểu thêm về tích hợp dữ liệu, hãy chuyển sang các liên kết trên trang sau.

Câu lạc bộ Fed

Hệ thống cơ sở dữ liệu liên kết (FDBMS) là tập hợp các cơ sở dữ liệu được nối mạng, tự quản . Các hệ thống này xử lý một số tác vụ khó khăn:

  • Chấp nhận các truy vấn của người dùng
  • Chia chúng thành nhiều truy vấn phụ
  • Sử dụng các thẻ đặc biệt được gọi là trình bao bọc để xác định các truy vấn con theo cách mà mỗi cơ sở dữ liệu tương ứng có thể hiểu
  • Gửi các truy vấn con được bao bọc đó đến cơ sở dữ liệu thích hợp
  • Chấp nhận dữ liệu được gửi lại từ các cơ sở dữ liệu đó
  • Tích hợp tất cả dữ liệu vào một chế độ xem thống nhất và
  • Trình bày chế độ xem đó cho người dùng.

Chúng khó tạo và duy trì, chủ yếu là do tính chất phức tạp của cơ sở dữ liệu.

Nhiều thông tin hơn

Những bài viết liên quan

  • Cách Boolean Logic hoạt động
  • Cơ sở dữ liệu quan hệ là gì?
  • Cách máy chủ tên miền hoạt động
  • Cách hoạt động của mạng gia đình
  • Cơ sở hạ tầng Internet hoạt động như thế nào
  • Cách thức hoạt động của các công cụ tìm kiếm trên Internet
  • Cách hoạt động của web ngữ nghĩa
  • Cách các trang web hoạt động
  • Cách máy chủ web hoạt động
  • Cách thức hoạt động của kiến ​​trúc thông tin

Các liên kết tuyệt vời hơn

  • Trung tâm thông tin kho dữ liệu
  • SearchDataManagement

Nguồn

  • Baldwin, James R. "Kho Dữ liệu: Tổng quan." Mùa xuân năm 1997. http://varietysoftworks.com/jbaldwin/Escape/CS615-DataWarehouse.html
  • Haas, Laura và Lin, Eileen. "Công nghệ Cơ sở dữ liệu Liên bang của IBM." IBM. Ngày 1 tháng 3 năm 2002. http://www-128.ibm.com/developerworks/db2/library/techarticle/0203haas/0203haas.html
  • Halevy, Alon Y. và cộng sự. "Tích hợp thông tin doanh nghiệp: Thành công, Thách thức và Tranh cãi." Hội nghị quốc tế về quản lý dữ liệu. Năm 2005.
  • Koch, Christoph. "Tích hợp dữ liệu chống lại nhiều Schemata tự trị đang phát triển." Luận án Tiến sĩ. Đại học Kỹ thuật, Vienna. Ngày 16 tháng 5 năm 2001. http://www.csd.uoc.gr/~hy562/Papers/thesis_final.pdf
  • Lenzerini, Maurizio. "Tích hợp dữ liệu: Một quan điểm lý thuyết." Đại học Rome. ACM PODS. 2002. http://delivery.acm.org/10.1145/550000/543644/p233-lenzerini.pdf?key1=543644&key2=8368337021&coll=&dl=&CFID=15151515&CFTOKEN=6184618
  • Poje, Richard J. "Kho bạc và tích hợp CNTT bằng tiếng Anh đơn giản." Ngày 1 tháng 9 năm 2003. http://www.allbusiness.com/management/channel-management/659425-1.html
  • SearchDataManagement. http://searchdatamanagement.techtarget.com/home/0,289692,sid91,00.html
  • Singh, Munindar P. "Sổ tay Thực hành về Máy tính Internet." CRC Nhấn. Năm 2005.
  • Trung tâm Thông tin Kho dữ liệu. http://www.dwinfocenter.org/
  • Ziegler, Patrick và Dittrich, Klaus R. "Ba thập kỷ tích hợp dữ liệu - Mọi vấn đề đã được giải quyết?" Đại học Zurich. Hội nghị IFIP quốc tế đầu tiên về ngữ nghĩa của một thế giới được nối mạng. Năm 2004.