Giữ cho dữ liệu của bạn luôn mới và sạch sẽ

Nov 29 2022

Tôi đã sử dụng rất nhiều nội dung phân tích và khoa học dữ liệu, và một trong những điểm chính mà tôi nhận thấy là không có mô hình nào mà bạn có thể xây dựng sẽ mang lại thông tin chi tiết hữu ích nếu bạn cung cấp cho nó dữ liệu rác. Một trong những người hướng dẫn của tôi cho rằng điều đầu tiên mà người mới cần học là nguyên tắc GIGO.

Danh sách phát cho dữ liệu sạch kêu cót két

Ảnh của Marcela Laskoski trên Bapt

Tôi đã xem rất nhiều nội dung phân tích và khoa học dữ liệu, và một trong những điểm chính mà tôi nhận thấy là không có mô hình nào mà bạn có thể xây dựng sẽ mang lại những hiểu biết có thể hành động nếu bạn cung cấp cho nó dữ liệu rác. Một trong những người hướng dẫn của tôi cho rằng điều đầu tiên mà người mới cần học là nguyên tắc GIGO. Chà, anh ấy sẽ nói ngắn gọn hơn và nói rằng sẽ tốt hơn nếu bạn dành 80% thời gian để làm sạch dữ liệu của mình thay vì xây dựng một mô hình sáng bóng mà bạn cho Rác ăn.

Nguyên tắc GIGO (Garbage In = Garbage Out) cho rằng các mô hình giống như con người và là những gì họ tiêu thụ. Ngoài ra, nếu bạn cung cấp dữ liệu chưa tinh chế cho mô hình của mình, thì bạn có thể mong đợi các chỉ số của mình bị giảm sút do sự không chính xác kết hợp dọc theo đường dẫn dữ liệu của bạn.

Với suy nghĩ này, tôi đã tạo một danh sách phát để giúp đầu óc tập trung trong khi dọn dẹp dữ liệu và nghĩ rằng bạn có thể thấy nó hữu ích nếu bạn chưa quen với việc tìm hiểu dữ liệu như tôi.

Hãy bắt đầu với dữ liệu ở .csvđịnh dạng tệp và chúng tôi cũng đã nhập tất cả thư viện và gói trực quan hóa cần thiết để xây dựng mô hình.

Vì vậy, bước đầu tiên điển hình của tôi là tạo một khung dữ liệu có tên dfmà tôi sử dụng pd.read_csvđể tạo.

df = pd.read_csv('myfile.csv', index_col = 0)

Sau khi tôi có khung dữ liệu ban đầu, tôi làm sạch dữ liệu. Bài hát đầu tiên trong danh sách của tôi mà tôi thường nghe khi đọc .csvtệp và tạo khung dữ liệu ban đầu của mình là:

Vàng của Jill Scott

Dọn dẹp dữ liệu

Để làm sạch dữ liệu, tôi thường mất rất nhiều thời gian:

Loại bỏ các bản sao — các bản sao chiếm dung lượng, có thể làm chậm quá trình triển khai mô hình và có thể dẫn đến thông tin chi tiết sai.
Thay thế các giá trị bị thiếu — mặc dù không có cách tối ưu nào để xử lý các giá trị bị thiếu, nhưng học cách xử lý các giá trị bị thiếu là một kỹ năng mà những người mới bắt đầu đam mê dữ liệu nên nỗ lực xây dựng.
Thay thế các giá trị Trình giữ chỗ — các trình giữ chỗ như: '—,' NAN,' ?' và '#' luôn làm hỏng tác phẩm và dẫn đến các lỗi cả nhìn thấy và không nhìn thấy trong phân tích. Nếu bạn may mắn, có rất nhiều thông báo lỗi; nếu bạn cực kỳ xui xẻo, bạn sẽ nhận thấy sau khi cố gắng hình dung mối tương quan giữa các biến phụ thuộc và biến độc lập và nhận được các biểu đồ khó xảy ra đáng chú ý.
Truyền kiểu dữ liệu sang kiểu dữ liệu phù hợp hơn —Thông thường, điều này xuất hiện khi tôi ngây thơ xử lý một biến phân loại (nghĩ rằng một thứ gì đó có số lượng giá trị cố định) như thể nó liên tục (thứ có thể có bất kỳ giá trị nào trong khoảng từ tối thiểu đến tối đa) .

Tôi nhìn vào hình dạng của khung dữ liệu, gần như tôi cần biết mình đang làm việc với bao nhiêu hàng và cột và cần sắp xếp để gửi. Khi tôi nói chuyện với giọng ca huyền thoại đến từ Philadelphia, Pennsylvania, tôi sử dụng như sau:

df.shape— Xem lại kích thước của dữ liệu
df.info()— Xem lại một bản tóm tắt ngắn gọn về dữ liệu
df.head()— Xem lại năm hàng đầu tiên của dữ liệu (bạn có thể tăng con số này bằng cách thêm một số n bên trong dấu ngoặc đơn, ví dụ df.head(10): mười hàng đầu tiên của dữ liệu.

Sau khi tôi đã tìm hiểu các tính năng cơ bản của dữ liệu, tôi kiểm tra toàn bộ khung dữ liệu để tìm các trình giữ chỗ, thường có nội dung giống như sau:

df.isin['?', '#', 'NaN', 'null', 'N/A', '-']).any()

Điều này thường xảy ra khi tôi bắt đầu nghe các Nghệ sĩ Reggae cổ điển như Baby Cham, Capleton và Sean Paul, những nghệ sĩ này gợi lại hoài niệm về các dự án thời trung học của tôi trong phòng thí nghiệm vật lý với thầy Green, người có nhạc phim reggae nhịp nhàng nhất trong cuối những năm 90 ở phía Đông của New Providence không có quán bar nào.

Xem lại các thay đổi

Sau khi xác định các trình giữ chỗ, tôi sử dụng các bước như thế này trong khi chuyển sang Reggae kiểu cũ:

df['column_with_placeholder'] = pd.to_numeric(df['column_with_placeholder'], errors = "coerce")

Giữ cho Groove đi

Tôi thường chuyển sang chế độ bẩn phía Nam trong khi loại bỏ các bản sao và quyết định xem tôi sẽ loại bỏ các hàng khỏi khung dữ liệu bằng các giá trị null hay thay thế chúng bằng trung vị hoặc chế độ. Các nghệ sĩ yêu thích của tôi trong thể loại đó là từ Dungeon Family.

Danh sách phát của tôi thường trông như thế này:

Jill Scott — Vàng
Baby Cham hợp tác với Alicia Keys — Ghetto Story
Wayne Wonder - Không buông tay
Sean Paul — Nhiệt độ
Beenie Man- Romie
Gia đình ngục tối — Excalibur
Erykah Badu — Bật và Bật
Outkast - Này Ya!
Outkast — Công viên Rosa
Lauryn Hill — Nhân tố cũ

Tôi muốn xây dựng danh sách phát của mình linh hoạt hơn và đa dạng hơn:

Làm cách nào để sử dụng khoa học dữ liệu để tạo danh sách phát tốt hơn?

Tôi hiện đang làm việc để tạo ra một công cụ lập kế hoạch chuyến đi để trợ giúp cho chuyến đi sắp tới của tôi tới Bahamas để giúp kỷ niệm 50 năm Độc lập của chúng ta.

Nếu bạn muốn được cập nhật các bài viết mới nhất của tôi, hãy theo dõi tôi trên Medium . Bạn cũng có thể kết nối với tôi trên LinkedIn hoặc gửi email cho tôi theo địa chỉ [email protected].