Apa itu Agen Perdagangan Pembelajaran Penguatan dan Mengapa Anda Membutuhkannya Saat Berdagang Komoditas

Dec 02 2022
Dari konsep ke bangunan dan pelaksanaan penguatan agen pembelajaran
Pembelajaran penguatan, area pembelajaran mesin, mungkin paling umum dikenal dalam kaitannya dengan kendaraan otonom: di mana mobil belajar mengemudi dengan coba-coba dan setelah jutaan kali, mobil tahu cara berbelok dan berhenti untuk merah lampu lalulintas. — Saya tahu ini terlalu disederhanakan, tetapi Anda mengerti maksudnya.
Gambar dihasilkan menggunakan Dall-E

Pembelajaran penguatan, area pembelajaran mesin, mungkin paling umum dikenal dalam kaitannya dengan kendaraan otonom: di mana mobil belajar mengemudi dengan coba-coba dan setelah jutaan kali, mobil tahu cara berbelok dan berhenti untuk merah lampu lalulintas. — Saya tahu ini terlalu disederhanakan, tetapi Anda mengerti maksudnya.

Aplikasi pembelajaran penguatan yang kurang dikenal dapat ditemukan di dunia perdagangan. Sebagian besar dari kita akrab dengan penerapan model pembelajaran mesin ke data deret waktu. Di Vesper , kami melakukan ini untuk memprediksi harga, produksi, dan tingkat stok berbagai komoditas pertanian untuk beberapa bulan ke depan. Meskipun model ini dapat menunjukkan ke mana arah pasar, mereka tidak dapat memberi tahu Anda tindakan apa yang harus diambil berdasarkan hasilnya — agen pembelajaran penguatan dapat memberi tahu Anda kapan harus menjual, membeli, atau menahan aset Anda berdasarkan perilaku pasar. Sementara aplikasi seperti ini semakin populer di pasar saham dan forex, belum ada kasus yang dapat ditemukan diterapkan di pasar komoditas.

Bersama dengan Slimmer.AI , kami (tim Ilmu Data Vesper) menghabiskan waktu tiga bulan untuk meneliti dan mengembangkan agen RL yang mempelajari cara berdagang di pasar komoditas. Baca lebih lanjut tentang siklus R&D ini di sini !

Artikel ini akan memberikan ikhtisar tentang temuan kami yang paling penting. Kami akan mulai dengan menjelaskan secara singkat konsep pembelajaran penguatan, diikuti dengan definisi agen perdagangan dan manfaat penggunaannya. Akhirnya, kita akan membahas tiga metode pembelajaran penguatan yang berbeda dan pro dan kontra yang sesuai.

Artikel lebih mendalam tentang spesifikasi agen kami dan pencapaiannya, serta pengenalan perpustakaan yang digunakan, dapat ditemukan di sini . Repositori git yang sesuai dapat ditemukan di sini . Tetapi jika Anda relatif baru dengan konsep tersebut, harap baca bersama!

Apa itu Pembelajaran Penguatan?

Sederhananya, pembelajaran penguatan adalah praktik belajar dengan coba-coba. Model belajar dengan diberi penghargaan untuk keputusan yang baik dan dihukum untuk keputusan yang buruk. Hal ini dilakukan dengan mengatur besar kecilnya suatu reward yang disebut sebagai sinyal penguatan, baik positif maupun negatif dan selalu merupakan konsekuensi dari suatu tindakan yang dilakukan oleh agen.

Model pembelajaran penguatan menghubungkan agen ke lingkungan melalui tindakan. Visualisasi dari hal ini ditunjukkan pada gambar di bawah ini. Agen diberi informasi tentang keadaan saat ini ( St, ) dari lingkungan. Berdasarkan informasi ini, agen memutuskan suatu tindakan ( At ), mengubah status lingkungan menjadi St+1 . Tindakan dipilih dari ruang tindakan.

Ruang tindakan : Kumpulan semua tindakan yang tersedia untuk agen yang dapat digunakan untuk berinteraksi dan mengubah lingkungannya

Hadiah atau hukuman dari transisi negara dikomunikasikan ke agen melalui sinyal hadiah ( Rt ). Sistem bertujuan untuk mempelajari strategi tindakan yang menemukan nilai imbalan kumulatif tertinggi lingkungan.

Contoh sederhana dari tugas pembelajaran penguatan kehidupan nyata adalah seorang anak belajar berjalan: Anak adalah agen yang mencoba menavigasi lingkungan dengan mengambil tindakan dalam bentuk berjalan atau merangkak. Ketika beberapa langkah diambil, anak menerima reaksi yang menyenangkan dari orang tua, yang dianalogikan dengan hadiah. Sebaliknya, anak tidak akan menerima reaksi apa pun saat merangkak atau tidak bergerak yang merupakan hadiah atau hukuman negatif.

Gambar 1 Diagram model pembelajaran penguatan

Apa itu Agen Perdagangan?

Dalam konteks perdagangan, agen pembelajaran penguatan adalah pedagang yang ruang tindakannya terdiri dari membeli, menjual, atau memegang suatu aset. Pasar yang menjadi bagian dari aset akan bertindak sebagai lingkungan. Keadaan dapat ditampilkan dalam bentuk statistik tentang pasar saat ini, seperti rata-rata pergerakan harian, tertinggi dan terendah harian, atau volume perdagangan aset. Imbalan dalam perdagangan dapat dinyatakan dalam bentuk keuntungan, kerugian, atau metrik kinerja lainnya. Pada akhirnya, tujuan agen perdagangan adalah untuk bertindak sedemikian rupa sehingga memaksimalkan keuntungan di masa depan, mengingat pasar tempatnya beroperasi. Agen yang baik harus mampu mengalahkan pasar dengan cara membeli pada tingkat harga yang rendah dan menjual pada tingkat harga yang lebih tinggi. Perilaku agen akan sangat bergantung pada metode RL yang dipilih. Tiga metode yang umum digunakan dibahas di bagian terakhir,

Mengapa menggunakan agen perdagangan?

Perdagangan otomatis, juga dikenal sebagai perdagangan algoritmik, melibatkan penggunaan algoritme untuk pelaksanaan pesanan perdagangan, yang termasuk dalam agen perdagangan domain. Bentuk perdagangan ini memiliki banyak keunggulan dibandingkan perdagangan manusia (manual). Pertama, perbedaan harus dibuat antara dua jenis perdagangan otomatis:

  1. Perdagangan otomatis berbasis aturan, di mana strategi ditentukan sebelumnya dan dirancang oleh manusia.
  2. Perdagangan otomatis berbasis pembelajaran penguatan, di mana strategi dipelajari menggunakan pembelajaran penguatan.
  • Komputer memiliki waktu eksekusi yang cepat, yang mengurangi risiko kehilangan peluang karena reaksi yang lambat terhadap keadaan pasar.
  • Saat menggunakan perdagangan otomatis, Anda tidak terpapar risiko membuat keputusan perdagangan yang buruk karena dampak emosional dan psikologis, sesuatu yang sangat diderita manusia. Komputer akan selalu menjalankan strategi yang dirancang untuk dijalankan.
  • Manfaat perdagangan otomatis dari fakta bahwa komputer secara signifikan lebih mampu daripada otak manusia dalam mencerna data dalam jumlah besar secara real time, memungkinkan strategi yang jauh lebih kompleks.
  • Seorang agen trading tidak pernah berhenti belajar dan mengadaptasi strateginya. Sebuah strategi yang dulunya menguntungkan mungkin tidak berhasil ketika dinamika pasar berubah. Agen perdagangan pembelajaran penguatan yang dirancang dengan baik harus dapat menyesuaikan strateginya dengan tepat.

Seperti disebutkan sebelumnya, ada berbagai metode untuk membangun agen pembelajaran penguatan. Ada tiga pendekatan untuk digunakan ketika berhadapan dengan perdagangan keuangan: kritik-saja, aktor-saja dan aktor-kritikus. Critic-only, metode yang paling banyak digunakan dalam domain perdagangan otomatis, bekerja dengan memecahkan ruang tindakan diskrit dalam bentuk fungsi Q-value.

Fungsi nilai-Q: mengukur total hadiah yang diharapkan, dengan asumsi agen berada dalam status St dan melakukan tindakan At

Dengan melakukan ini, ia mempelajari strategi yang memaksimalkan imbalan masa depan dengan kondisi saat ini. Contoh yang paling terkenal adalah Q-learning dan Deep Q-learning. Kelemahan utama dari metode ini adalah bahwa mereka dirancang untuk hanya menangani masalah ruang tindakan diskrit dan terbatas, yang berarti bahwa tindakan yang dapat dilakukan agen harus ditentukan sebelumnya. Oleh karena itu teknik khusus harus digunakan untuk mengubahnya menjadi ruang yang berkelanjutan, seperti dalam kasus membeli atau menjual produk dalam jumlah yang berbeda.

Pendekatan kedua disebut hanya aktor; di sini, manfaat terbesarnya adalah bahwa ruang tindakan dapat berkelanjutan karena suatu kebijakan dipelajari secara langsung dalam bentuk distribusi probabilitas yang menyediakan strategi untuk setiap keadaan tertentu.

Kebijakan: pemetaan dari suatu keadaan St ke probabilitas pemilihan setiap kemungkinan tindakan At pada keadaan tersebut

Namun, waktu pelatihan yang lebih lama yang diperlukan untuk mendapatkan kebijakan yang optimal dapat dilihat sebagai kelemahan dari pendekatan ini.

Tipe ketiga, kerangka aktor-kritikus, menggabungkan keduanya dan secara bersamaan melatih dua model: aktor, yang belajar bagaimana membuat agen berperilaku dalam keadaan tertentu, dan kritik, yang menilai seberapa efektif sebenarnya tindakan yang dipilih. Dua algoritma aktor-kritik yang umum digunakan adalah PPO atau A2C. Meskipun kedua metode tersebut sangat populer saat melihat perdagangan saham, ada beberapa perbedaan antara pasar saham dan komoditas yang harus dipertimbangkan saat memutuskan pendekatan kami.

Perbedaan terbesar antara kedua pasar adalah jumlah data yang tersedia. Kesulitan yang sering dihadapi para peneliti ketika menerapkan teknologi AI ke pasar komoditas adalah kurangnya transparansi dan konsekuensi terkait dari sedikitnya data pasar yang tersedia. Untungnya, sebagai platform intelijen komoditas, mengumpulkan data ini adalah urusan kami sehari-hari. Database Vesper berisi ribuan seri data yang meliputi antara lain harga, kontrak berjangka, serta data penawaran dan permintaan berbagai komoditas pertanian. Perbedaan lain yang perlu diperhatikan adalah sifat barang yang diperdagangkan. Karena komoditas pertanian menurut definisinya bersifat fisik, kendala tambahan harus diperhitungkan. Pikirkan tentang tanggal kedaluwarsa yang memaksa pedagang menjual produk sebelum tanggal tertentu.

Dalam artikel ini, kami membahas dasar-dasar pembelajaran penguatan, apa itu agen perdagangan dan mengapa relevan untuk diterapkan di pasar komoditas. Kami juga membahas manfaat yang menyertainya dan metode pembelajaran penguatan apa yang paling cocok untuk kasus penggunaan kami. Jika Anda tertarik untuk menerapkan metode ini secara aktual, silakan lihat di sini, di mana kami menunjukkan bahwa agen perdagangan mengungguli model tolok ukur secara signifikan.

Jika Anda tertarik dengan pasar komoditas dan bagaimana kami menggunakan AI untuk mengacaukannya, silakan berlangganan publikasi kami !