Silo giữa Data Analysts and Data Engineers là gì?

Silo giữa Data Analysts and Data Engineers là gì?

Trong thế giới của dữ liệu ngày nay, hai vai trò quan trọng là Nhà phân tích dữ liệu (Data Analysts) và Kỹ sư dữ liệu (Data Engineers). Tuy nhiên, thường xuyên xảy ra hiện tượng silo giữa hai nhóm này, khiến cho việc cộng tác và tương tác giữa họ trở nên khó khăn. Silo này có thể ảnh hưởng đến hiệu quả của các dự án dữ liệu, khiến cho các dữ liệu không được sử dụng hiệu quả và gây mất mát cho doanh nghiệp. Vì vậy, cần có giải pháp để vượt qua silo này và tăng cường sự hợp tác giữa Data Analysts và Data Engineers. 

Nhiệm vụ của Data Analysts và Data Engineers

Hầu hết các kỹ sư dữ liệu thực tế là những kỹ sư phần mềm viết mã để xử lý và phân tích dữ liệu.

Hãy nhìn vào các kỹ sư dữ liệu xung quanh bạn và kiểm tra xem điều này có đúng không:

  • Họ đã hoặc vẫn đang làm việc như kỹ sư phần mềm, thường chuyên về các công việc nền tảng hoặc phụ trợ.
  • Do một số yêu cầu kinh doanh mới xuất hiện, họ phải thiết lập các chương trình phân tích dữ liệu phù hợp.
  • Họ bị kéo vào công việc này vì a) không có ai khác phù hợp để làm việc này và b) họ cảm thấy thú vị và xứng đáng để thử.

Sự khác biệt giữa Data Analysts và Data Engineers

Hiện nay, sự khác biệt giữa kỹ sư dữ liệu và nhà phân tích dữ liệu là rõ ràng.

Trong khi nhà phân tích dữ liệu tập trung vào việc hiểu bối cảnh kinh doanh và ý nghĩa của dữ liệu, kỹ sư dữ liệu (hay còn được gọi là kỹ sư phần mềm) thường ít quan tâm đến điều này. Họ thích tập trung vào xây dựng và tối ưu hóa các quy trình và hệ thống phía sau việc tạo ra các con số đó.

Đối với kỹ sư dữ liệu, các con số thường không có nhiều ý nghĩa vì họ thiếu ý thức về bối cảnh kinh doanh. Họ sẽ chuyển giao các quyết định về mức độ cao hay thấp của các con số đó cho các chuyên gia dữ liệu và doanh nghiệp. Tuy nhiên, họ cảm thấy mình là một kỹ sư hơn là một chuyên gia dữ liệu.

Trong khi đó, các nhà phân tích dữ liệu thường đạt được thành công thông qua việc phân tích dữ liệu một cách xuất sắc để thay đổi hướng đi của doanh nghiệp. Trái lại, kỹ sư dữ liệu thường thích tập trung vào việc tối ưu hóa một hệ thống nào đó để thời gian thực hiện được giảm từ 40 phút xuống còn 20 phút. Họ tự hào nói rằng, “Đây là một cải tiến tốc độ lớn!”

Việc nào quan trọng hơn với kỹ sư dữ liệu

  • Trích xuất và xử lý bảng dữ liệu đặc biệt từ Hệ thống kế toán và lưu vào kho dữ liệu để phân tích cho bộ phận Tài chính.
  • Chuyển đổi công cụ lưu trữ dữ liệu từ CSV sang Parquet (một định dạng dữ liệu nén) để cải thiện hiệu suất truy vấn và giảm dung lượng lưu trữ.

Câu trả lời rõ ràng là nhiệm vụ số (2). Tuy nhiên, đây không có nghĩa là nhiệm vụ số (1) không quan trọng. Khi nói đến mức độ ưu tiên, sự ưu tiên của Kỹ sư dữ liệu khác với sự ưu tiên của Nhà phân tích dữ liệu. Có thể nói đây là vấn đề về động lực của tổ chức, chứ không phải là vấn đề của cá nhân.

Nhiệm vụ số (1) thường được thực hiện lặp đi lặp lại và đôi khi cũng có những yêu cầu trích xuất dữ liệu vô nghĩa. Nếu không hiểu rõ về bối cảnh kinh doanh, Kỹ sư dữ liệu có thể không có động lực để duy trì các quy trình không liên quan đến công việc của họ.

Từ quan điểm của Nhà phân tích dữ liệu, điều này thực sự khó chịu. Dưới áp lực từ người dùng doanh nghiệp, các Nhà phân tích cảm thấy bất an khi Kỹ sư dữ liệu mất quá nhiều thời gian để đáp ứng các yêu cầu của họ. Các Nhà phân tích không thể hiểu tại sao một thao tác kéo hoặc chuyển đổi dữ liệu đơn giản lại mất nhiều thời gian để hoàn thành.

Đây có thể được coi là một vấn đề silo, ma sát, tắc nghẽn hoặc bất cứ điều gì bạn muốn gọi. Nhưng đây là một vấn đề thực sự giữa Nhà phân tích dữ liệu và Kỹ sư dữ liệu, và không ai có thể đổ lỗi cho nó.

Vấn đề này có thể được tóm tắt là: “ Nhà phân tích dữ liệu dựa vào Kỹ sư dữ liệu để trích xuất/chuyển đổi dữ liệu; Nhưng các Kỹ sư dữ liệu thấy những công việc này lặp đi lặp lại và nhàm chán. ”

Làm sao để giải quyết tình trạng này?

Để giải quyết tình trạng này, chúng ta có thể cung cấp các công cụ tốt hơn cho nhà phân tích dữ liệu để thực hiện công việc tương tự như kỹ sư dữ liệu với ít mã hóa hơn hoặc hoàn toàn không cần mã hóa. Trong những năm gần đây, đã xuất hiện nhiều công cụ dữ liệu thực hiện điều này ở các phần khác nhau của chuỗi giá trị phân tích. Đây là tiền đề của câu chuyện “ngăn xếp dữ liệu hiện đại” được đẩy mạnh trong cộng đồng phân tích. Khi điều đó xảy ra, các kỹ sư dữ liệu sẽ không cần phải làm những công việc nhàm chán, lặp đi lặp lại này nữa.

Tuy nhiên, cần lưu ý rằng không phải là điều đơn giản như chúng ta nghĩ và đã có nhiều công cụ ETL tồn tại trong suốt 50-60 năm qua. Mặc dù vậy, ngăn xếp dữ liệu hiện đại mang lại sự khác biệt đối với công việc của các nhà phân tích dữ liệu, giúp cho cơ sở logic phân tích dễ quản lý, duy trì và mở rộng quy mô hơn, và tạo ra sự phấn khích mới cho cộng đồng phân tích.

Tổng kết

Trong bài viết này, chúng ta đã tìm hiểu về tình trạng thường gặp trong các dự án phân tích dữ liệu, khiến các kỹ sư dữ liệu phải thực hiện quá nhiều mã hóa, dẫn đến tình trạng thiếu hiệu quả và chất lượng dữ liệu. Chúng ta cũng đã nhìn thấy sự phát triển của ngăn xếp dữ liệu hiện đại và cách nó đã giúp cho công việc của các nhà phân tích dữ liệu trở nên mượt mà hơn, “cơ sở logic phân tích” dễ quản lý, duy trì và mở rộng quy mô hơn.

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *