Bisakah ChatGPT Menulis SQL Lebih Baik daripada Analis Data?
Saya mencoba ChatGPT , varian model bahasa GPT-3 yang dirancang khusus untuk menghasilkan teks mirip manusia dalam konteks percakapan. Dan tentu saja, seperti kebanyakan dari kita, saya bertanya-tanya: bisakah AI melakukan pekerjaan saya? Dan bisakah itu melakukannya lebih baik dari saya?
Saya memiliki 2 tahun pengalaman bekerja sebagai Analis Data dan Insinyur Analisis. Menurut BBC Science Focus , ChatGPT telah menyerap 570 GB data. Jadi siapa yang menulis SQL lebih baik?
Mari main!
Game ini akan didasarkan pada 3 tantangan LeetCode SQL (satu mudah, dua medium). Saya akan menulis setiap solusi terlebih dahulu, lalu mengirim latihan ke ChatGPT dan melihat solusi mana yang paling berhasil.
Saya akan memberikan tautan ke setiap tantangan sehingga Anda dapat mencoba juga untuk mengalahkan ChatGPT.
Tantangan 1 (Mudah)
Tantangan ini disebut Pelanggan menempatkan jumlah pesanan terbesar .
Inilah kueri yang saya tulis:
WITH layer_1 AS (
SELECT
customer_number, COUNT(DISTINCT order_number) AS order_number
FROM orders
GROUP BY customer_number
)
SELECT customer_number
FROM layer_1
ORDER BY order_number DESC
LIMIT 1
Sekarang mari kita lihat bagaimana kinerja ChatGPT yang satu ini.
Inilah yang dijawab ChatGPT:
ChatGPT bahkan menjelaskan apa yang dilakukannya. Menurut saya kuerinya tidak terlalu mudah dibaca — salah satu alasan mengapa saya menyukai ekspresi tabel umum adalah keterbacaannya — tetapi mari kita lihat bagaimana kinerjanya.
Secara mengesankan, ini berhasil, tetapi lebih lambat dari hasil saya. Meskipun saya senang melakukan yang lebih baik daripada ChatGPT, saya ingin sekali mengetahui bagaimana saya dapat meningkatkan kueri ini.
Tantangan 2 (Sedang)
Tantangan selanjutnya disebut Tree Node .
Permintaan pertama yang saya tulis adalah yang ini:
# Write your MySQL query statement below
WITH l1 AS (
SELECT
t.id,
c.id AS c_id,
t.p_id
FROM Tree t
LEFT JOIN Tree c
ON c.p_id = t.id
),
l2 AS (
SELECT
id,
COUNT(DISTINCT c_id) AS nb_childrens,
COUNT(DISTINCT p_id) AS nb_parents
FROM l1
GROUP BY id
)
SELECT id,
CASE
WHEN nb_childrens >0 AND nb_parents >0 THEN "Inner"
WHEN nb_childrens > 0 THEN "Root"
ELSE "Leaf"
END AS type
FROM l2
Ternyata saya kurang memperhatikan contoh-contohnya, terutama yang kedua:
Ketika sebuah node adalah daun dan root, itu harus menjadi output sebagai root. Saya mengubah urutan KASUS saya KAPAN menjadi ini:
CASE
WHEN nb_childrens >0 AND nb_parents >0 THEN "Inner"
WHEN nb_parents > 0 THEN "Leaf"
ELSE "Root"
END
Permintaan saya mendapat hasil rata-rata:
Saatnya ChatGPT memainkan game!
ChatGPT membaca semua contoh dan tidak membuat kesalahan pada node yang merupakan root dan leaf:
Tapi itu masih memberi saya jawaban yang salah:
ChatGPT tidak mengembalikan satu baris per id.
Jadi saya memutuskan untuk memberi petunjuk pada ChatGPT:
Dan itu bisa memperbaikinya!
Kami berdua melakukan kesalahan dalam tantangan ini dan keduanya dapat memperbaikinya (walaupun saya harus memberi petunjuk kepada ChatGPT). Saya mendapatkan hasil yang sedikit lebih baik dalam hal runtime, jadi intinya masuk ke saya tetapi hampir saja!
Tantangan 3 (Sedang)
Tantangan terakhir disebut Capital Gain/Loss .
Inilah kueri yang saya tulis:
SELECT
stock_name,
SUM(
CASE
WHEN operation = "Buy" THEN -1*price
ELSE price
END
)
AS capital_gain_loss
FROM Stocks
GROUP BY stock_name
Screenshot by Author
Mari kita lihat apakah ChatGPT adalah salah satunya.
Mari kita coba solusi ini:
Sekali lagi, itu mendapatkan hasil yang salah. ChatGPT menggabungkan satu pembelian dengan setiap penjualan di masa mendatang dan tidak hanya yang sesuai, sehingga solusinya hanya berfungsi jika hanya ada satu pasang operasi Beli/Jual.
Saya mencoba memberi tahu ChatGPT untuk memperbaiki kesalahannya, tanpa memberikan petunjuk:
Sayangnya, itu memberi saya pertanyaan yang persis sama. Jadi saya mengeluh:
Kali ini, ChatGPT dan saya menggunakan struktur serupa dan kueri lolos. Namun, saya tidak yakin bahwa ChatGPT benar-benar memahami kesalahannya.
Runtime ChatGPT sedikit lebih buruk dari saya.
Hasil
Challenge ChatGPT Data Analyst Winner
----------- --------------- --------------------- ---------------------
1 ✅ (22%) ✅ (62%) Data Analyst
2 ❌ ✅ (36%) ❌ ✅ (54%) Data Analyst
3 ❌ ❌ ✅ (8%) ✅ (5%) Data Analyst
Tapi masih 50% salah. Dan bahkan jika itu berhasil menyelesaikan setiap tantangan, saya tidak akan khawatir tentang pekerjaan saya. Stakeholder tidak pernah datang ke analis dengan permintaan dan contoh keluaran yang jelas. Mereka datang dengan pertanyaan bisnis, dan kami harus memikirkan cara terbaik untuk menjawabnya dengan data yang tersedia. Bisakah ChatGPT melakukan itu?
Saya menanyakan pendapat ChatGPT tentang masalah ini:
Itu merangkum semuanya!
Saya harap Anda menikmati artikel ini! Jika ya, ikuti saya untuk konten lebih lanjut tentang SQL dan Analisis Data.