Reinforcement Learning Trading Agents คืออะไร และทำไมคุณถึงต้องการพวกเขาเมื่อทำการซื้อขายสินค้าโภคภัณฑ์

Dec 02 2022
จากแนวคิดสู่การสร้างและดำเนินการเสริมการเรียนรู้ตัวแทน
Reinforcement Learning ซึ่งเป็นพื้นที่หนึ่งของการเรียนรู้ของเครื่อง อาจเป็นที่รู้จักกันโดยทั่วไปเกี่ยวกับยานยนต์ไร้คนขับ: เมื่อรถเรียนรู้วิธีขับด้วยการลองผิดลองถูก และหลังจากผ่านไปหลายล้านครั้ง รถจะรู้วิธีเลี้ยวและหยุดรถเมื่อถึงไฟแดง ไฟจราจร. — ฉันรู้ว่ามันง่ายเกินไป แต่คุณเข้าใจประเด็น
ภาพที่สร้างขึ้นโดยใช้ Dall-E

Reinforcement Learning ซึ่งเป็นพื้นที่หนึ่งของการเรียนรู้ของเครื่อง อาจเป็นที่รู้จักกันทั่วไปมากที่สุดเกี่ยวกับยานยนต์ไร้คนขับ: เมื่อรถเรียนรู้วิธีขับโดยการลองผิดลองถูก และหลังจากผ่านไปหลายล้านครั้ง รถจะรู้วิธีเลี้ยวและหยุดรถเมื่อถึงไฟแดง ไฟจราจร. — ฉันรู้ว่ามันง่ายเกินไป แต่คุณเข้าใจประเด็น

แอปพลิเคชั่นการเรียนรู้เสริมกำลังที่รู้จักกันน้อยสามารถพบได้ในโลกการค้า พวกเราส่วนใหญ่คุ้นเคยกับการใช้โมเดลการเรียนรู้ของเครื่องกับข้อมูลอนุกรมเวลา ที่Vesperเราทำสิ่งนี้เพื่อคาดการณ์ราคาสินค้าเกษตร การผลิต และระดับสต็อกสินค้าเกษตรต่างๆ ในอีกหลายเดือนข้างหน้า แม้ว่าแบบจำลองเหล่านี้สามารถบ่งชี้ว่าตลาดกำลังไปที่ใด แต่ก็ไม่สามารถบอกคุณได้ว่าควรดำเนินการอย่างไรตามผลลัพธ์ของพวกเขา — ตัวแทนการเรียนรู้เสริมกำลังสามารถบอกคุณได้ว่าเมื่อใดควรขาย ซื้อ หรือถือสินทรัพย์ของคุณโดยพิจารณาจากพฤติกรรมของตลาด แม้ว่าแอปพลิเคชันเช่นนี้กำลังได้รับความนิยมมากขึ้นในตลาดหุ้นและตลาดฟอเร็กซ์ แต่ก็ยังไม่พบกรณีที่นำไปใช้กับตลาดสินค้าโภคภัณฑ์

เรา (ทีม Data Science ของ Vesper) ร่วมกับSlimmer.AIใช้เวลาสามเดือนในการวิจัยและพัฒนาตัวแทน RL ที่เรียนรู้วิธีซื้อขายในตลาดสินค้าโภคภัณฑ์ อ่านเพิ่มเติมเกี่ยวกับวงจร R&D เหล่านี้ได้ที่นี่ !

บทความนี้จะให้ภาพรวมของการค้นพบที่สำคัญที่สุดของเรา เราจะเริ่มต้นด้วยการอธิบายสั้น ๆ เกี่ยวกับแนวคิดของการเรียนรู้แบบเสริมแรง ตามด้วยคำจำกัดความของตัวแทนซื้อขายและประโยชน์ของการใช้ตัวแทน สุดท้าย เราจะหารือเกี่ยวกับวิธีการเรียนรู้การเสริมแรงที่แตกต่างกันสามวิธีและข้อดีและข้อเสียที่สอดคล้องกัน

บทความเชิงลึกเพิ่มเติมเกี่ยวกับข้อมูลจำเพาะของตัวแทนของเราและ ความสำเร็จของพวกเขา ตลอดจนคำแนะนำเกี่ยวกับไลบรารีที่ใช้ สามารถพบได้ที่นี่ ที่เก็บ git ที่เกี่ยวข้องสามารถพบได้ที่นี่ แต่ถ้าคุณยังค่อนข้างใหม่กับแนวคิดนี้ โปรดอ่านตาม!

การเรียนรู้การเสริมแรงคืออะไร?

พูดง่ายๆ ก็คือ การเรียนรู้แบบเสริมแรงคือการฝึกฝนการเรียนรู้โดยการลองผิดลองถูก โมเดลเรียนรู้โดยได้รับรางวัลสำหรับการตัดสินใจที่ดีและถูกลงโทษสำหรับการตัดสินใจที่ไม่ดี สิ่งนี้ทำได้โดยการปรับขนาดของรางวัลที่เรียกว่าสัญญาณการเสริมกำลัง ซึ่งเป็นผลบวกหรือลบและเป็นผลจากการกระทำของตัวแทนเสมอ

โมเดลการเรียนรู้แบบเสริมกำลังเชื่อมโยงตัวแทนกับสภาพแวดล้อมผ่านการกระทำ การสร้างภาพข้อมูลนี้แสดงไว้ในภาพด้านล่าง ตัวแทนจะได้รับข้อมูลเกี่ยวกับสถานะปัจจุบัน ( St, ) ของสภาพแวดล้อม จากข้อมูลนี้ ตัวแทนตัดสินใจดำเนินการ ( ที่)เปลี่ยนสถานะของสภาพแวดล้อมเป็นSt+1 การดำเนินการถูกเลือกจากพื้นที่ดำเนินการ

Action-space : คอลเลกชันของการดำเนินการทั้งหมดที่มีให้สำหรับเอเจนต์ที่สามารถใช้เพื่อโต้ตอบและเปลี่ยนแปลงสภาพแวดล้อม

รางวัลหรือการลงโทษของการเปลี่ยนสถานะจะถูกส่งไปยังตัวแทนผ่านสัญญาณรางวัล ( Rt ) ระบบมีเป้าหมายเพื่อเรียนรู้กลยุทธ์การดำเนินการที่ค้นหามูลค่ารางวัลสะสมสูงสุดของสภาพแวดล้อม

ตัวอย่างง่ายๆ ของงานเสริมการเรียนรู้ในชีวิตจริงคือ เด็กเรียนรู้ที่จะเดิน: เด็กเป็นตัวแทนที่พยายามนำทางผ่านสภาพแวดล้อมโดยดำเนินการในรูปแบบของการเดินหรือคลาน เมื่อทำตามขั้นตอนบางอย่าง เด็กจะได้รับปฏิกิริยาที่ดีจากผู้ปกครอง ซึ่งคล้ายกับรางวัล ในทางตรงกันข้าม เด็กจะไม่ได้รับปฏิกิริยาใด ๆ เมื่อคลานหรือไม่เคลื่อนไหว ซึ่งแสดงถึงการให้รางวัลหรือการลงโทษในทางลบ

รูปที่ 1: แผนภาพของรูปแบบการเรียนรู้แบบเสริมแรง

ตัวแทนการซื้อขายคืออะไร?

ในบริบทของการซื้อขาย ตัวแทนการเรียนรู้แบบเสริมกำลังคือผู้ค้าที่มีพื้นที่การดำเนินการประกอบด้วยการซื้อ การขาย หรือการถือครองสินทรัพย์ ตลาดที่สินทรัพย์เป็นส่วนหนึ่งจะทำหน้าที่เป็นสิ่งแวดล้อม สถานะสามารถแสดงในรูปแบบของสถิติเกี่ยวกับตลาดปัจจุบัน เช่น ค่าเฉลี่ยเคลื่อนที่รายวัน ค่าสูงสุดและต่ำสุดรายวัน หรือปริมาณการซื้อขายสินทรัพย์ รางวัลในการเทรดสามารถแสดงในรูปของกำไร ขาดทุน หรือเมตริกประสิทธิภาพอื่นๆ ท้ายที่สุดแล้ว วัตถุประสงค์ของตัวแทนการซื้อขายคือการดำเนินการในลักษณะที่จะเพิ่มผลตอบแทนในอนาคตให้สูงสุด โดยพิจารณาจากตลาดที่ดำเนินการอยู่ ตัวแทนที่ดีควรสามารถเอาชนะตลาดได้ด้วยการซื้อในระดับราคาต่ำและขายในระดับราคาที่สูงขึ้น พฤติกรรมของเอเจนต์จะขึ้นอยู่กับวิธี RL ที่เลือกเป็นส่วนใหญ่ สามวิธีที่ใช้กันทั่วไปจะกล่าวถึงในหัวข้อสุดท้าย

ทำไมต้องใช้ตัวแทนการค้า?

การซื้อขายอัตโนมัติหรือที่เรียกว่าการซื้อขายด้วยอัลกอริทึมเกี่ยวข้องกับการใช้อัลกอริทึมสำหรับการดำเนินการตามคำสั่งซื้อขาย ซึ่งเป็นตัวแทนการซื้อขายโดเมนที่อยู่ภายใต้ การซื้อขายรูปแบบนี้มีข้อดีกว่าการซื้อขายของมนุษย์ (ด้วยตนเอง) หลายประการ ประการแรก ควรแยกความแตกต่างระหว่างการซื้อขายอัตโนมัติสองประเภท:

  1. การซื้อขายอัตโนมัติตามกฎซึ่งกลยุทธ์ถูกกำหนดล่วงหน้าและออกแบบโดยมนุษย์
  2. การซื้อขายอัตโนมัติโดยใช้การเรียนรู้แบบเสริมแรง ซึ่งเรียนรู้กลยุทธ์โดยใช้การเรียนรู้แบบเสริมแรง
  • คอมพิวเตอร์มีเวลาการดำเนินการที่รวดเร็ว ซึ่งช่วยลดความเสี่ยงในการพลาดโอกาสเนื่องจากปฏิกิริยาที่ช้าต่อสถานะของตลาด
  • เมื่อใช้การซื้อขายอัตโนมัติ คุณจะไม่ได้รับความเสี่ยงจากการตัดสินใจซื้อขายที่ไม่ดีเนื่องจากผลกระทบทางอารมณ์และจิตใจ ซึ่งเป็นสิ่งที่มนุษย์ต้องทนทุกข์ทรมานอย่างมาก คอมพิวเตอร์จะดำเนินการตามกลยุทธ์ที่ได้รับการออกแบบมาเพื่อดำเนินการเสมอ
  • การซื้อขายอัตโนมัติได้รับประโยชน์จากข้อเท็จจริงที่ว่าคอมพิวเตอร์มีความสามารถมากกว่าสมองของมนุษย์อย่างมากในการย่อยข้อมูลจำนวนมหาศาลแบบเรียลไทม์ ทำให้เกิดกลยุทธ์ที่ซับซ้อนมากขึ้น
  • ตัวแทนซื้อขายไม่เคยหยุดเรียนรู้และปรับกลยุทธ์ของตน กลยุทธ์ที่เคยทำกำไรได้อาจไม่ได้ผลเมื่อการเปลี่ยนแปลงของตลาดเปลี่ยนไป ตัวแทนการค้าการเรียนรู้การเสริมกำลังที่ออกแบบมาอย่างดีควรสามารถปรับกลยุทธ์ของเขาตามนั้น

ดังที่ได้กล่าวไว้ก่อนหน้านี้ มีวิธีการต่างๆ ในการสร้างตัวแทนการเรียนรู้แบบเสริมแรง มีสามแนวทางที่จะใช้เมื่อต้องรับมือกับการซื้อขายทางการเงิน: นักวิจารณ์เท่านั้น นักวิจารณ์เท่านั้น และนักวิจารณ์นักวิจารณ์ Critical-only ซึ่งเป็นวิธีที่ใช้มากที่สุดในโดเมนการซื้อขายอัตโนมัติ ทำงานโดยการแก้พื้นที่การดำเนินการแยกกันในรูปแบบของฟังก์ชัน Q-value

ฟังก์ชัน Q-value:การวัดผลตอบแทนที่คาดหวังทั้งหมด โดยถือว่าตัวแทนอยู่ในสถานะ St และดำเนินการที่

การทำเช่นนี้จะเรียนรู้กลยุทธ์ที่จะเพิ่มรางวัลในอนาคตให้สูงสุดเมื่อพิจารณาจากสถานะปัจจุบัน ตัวอย่างที่รู้จักกันดีคือ Q-learning และ Deep Q-learning ข้อเสียเปรียบที่สำคัญของวิธีการเหล่านี้คือวิธีการเหล่านี้ออกแบบมาเพื่อจัดการกับปัญหาพื้นที่การดำเนินการที่ไม่ต่อเนื่องและจำกัดเท่านั้น หมายความว่าการดำเนินการที่ตัวแทนสามารถทำได้ต้องมีการกำหนดไว้ล่วงหน้า ดังนั้นจึงต้องใช้เทคนิคพิเศษในการแปลงให้เป็นพื้นที่ต่อเนื่อง เช่น ในกรณีของการซื้อหรือขายสินค้าในปริมาณที่แตกต่างกัน

วิธีที่สองเรียกว่านักแสดงเท่านั้น ที่นี่ ประโยชน์ที่ใหญ่ที่สุดคือพื้นที่การดำเนินการอาจต่อเนื่องเนื่องจากนโยบายได้รับการเรียนรู้โดยตรงในรูปแบบของการแจกแจงความน่าจะเป็นซึ่งเป็นกลยุทธ์สำหรับสถานะที่กำหนด

นโยบาย:การแมปจากบางสถานะ St ไปจนถึงความน่าจะเป็นของการเลือกแต่ละการกระทำที่เป็นไปได้ ณ สถานะนั้น

อย่างไรก็ตาม เวลาในการฝึกอบรมที่นานขึ้นซึ่งจำเป็นเพื่อให้ได้นโยบายที่เหมาะสมที่สุดอาจถูกมองว่าเป็นข้อเสียของแนวทางนี้

ประเภทที่สาม กรอบการวิจารณ์นักแสดง เป็นการรวมทั้งสองแบบเข้าด้วยกันและฝึกโมเดล 2 แบบพร้อมกัน: นักแสดงที่เรียนรู้วิธีทำให้ตัวแทนมีพฤติกรรมในสถานะหนึ่งๆ และนักวิจารณ์ที่ประเมินว่าการกระทำที่เลือกนั้นได้ผลจริงเพียงใด อัลกอริธึมการวิจารณ์นักแสดงที่ใช้กันทั่วไปสองแบบคือ PPO หรือ A2C แม้ว่าทั้งสองวิธีจะได้รับความนิยมอย่างมากเมื่อพิจารณาการซื้อขายหุ้น แต่ก็มีข้อแตกต่างบางประการระหว่างตลาดหุ้นและตลาดสินค้าโภคภัณฑ์ที่ควรพิจารณาเมื่อตัดสินใจเลือกแนวทางของเรา

ความแตกต่างที่ใหญ่ที่สุดระหว่างสองตลาดคือจำนวนข้อมูลที่มีอยู่ ปัญหาที่นักวิจัยมักพบเมื่อใช้เทคโนโลยี AI กับตลาดสินค้าโภคภัณฑ์คือการขาดความโปร่งใสและผลที่ตามมาของข้อมูลตลาดที่มีอยู่น้อยนิด โชคดีที่เป็นแพลตฟอร์มข้อมูลสินค้าโภคภัณฑ์ การรวบรวมข้อมูลนี้เป็นธุรกิจประจำวันของเรา ฐานข้อมูลของ Vesper ประกอบด้วยชุดข้อมูลหลายพันรายการ ครอบคลุมข้อมูลราคา อนาคต และอุปสงค์และอุปทานของสินค้าเกษตรต่างๆ ความแตกต่างอีกประการหนึ่งที่ต้องคำนึงถึงคือลักษณะของสินค้าที่ซื้อขาย เนื่องจากสินค้าเกษตรเป็นสินค้าทางกายภาพตามคำนิยาม จึงต้องคำนึงถึงข้อจำกัดเพิ่มเติมด้วย คิดถึงวันหมดอายุที่บังคับให้ผู้ค้าขายสินค้าก่อนวันที่กำหนด

ในบทความนี้ เราได้กล่าวถึงพื้นฐานของการเรียนรู้แบบเสริมแรง ตัวแทนการซื้อขายคืออะไร และเหตุใดจึงมีความเกี่ยวข้องที่จะนำไปใช้กับตลาดสินค้าโภคภัณฑ์ เรายังกล่าวถึงประโยชน์ที่มาพร้อมกับพวกเขาและวิธีการเรียนรู้การเสริมกำลังที่เหมาะสมที่สุดสำหรับกรณีการใช้งานของเรา หากคุณสนใจที่จะนำวิธีการนี้ไปใช้งานจริง โปรดดูที่นี่ ซึ่งเราแสดงให้เห็นว่าตัวแทนซื้อขายมีประสิทธิภาพดีกว่าโมเดลเกณฑ์มาตรฐานอย่างมาก

หากคุณสนใจในตลาดสินค้าโภคภัณฑ์และวิธีที่เราใช้ AI เพื่อขัดขวางตลาด โปรดสมัครรับข้อมูลสิ่งพิมพ์ของเรา !