สู่การเรียนรู้เชิงลึกสำหรับฐานข้อมูลเชิงสัมพันธ์

Nov 29 2022
สรุปสถาปัตยกรรมการเรียนรู้เชิงลึกสำหรับการบูรณาการตามธรรมชาติกับหลักการและแนวปฏิบัติของฐานข้อมูลเชิงสัมพันธ์
ตอนนี้เราคุ้นเคยอย่างมากในการอ่านเกี่ยวกับการเรียนรู้เชิงลึก พาดหัวข่าวด้วยความก้าวหน้าต่างๆ ในขอบเขตการวิจัย ตั้งแต่การมองเห็นและการสร้างภาพไปจนถึงการเล่นเกม อย่างไรก็ตาม วิธีการเรียนรู้เชิงลึกส่วนใหญ่ยังค่อนข้างห่างไกลจากการดำเนินธุรกิจในชีวิตประจำวัน
ด้วยเฟรมเวิร์ก PyNeuraLogic คุณสามารถเขียนโมเดลการเรียนรู้เชิงลึกที่ทำงานโดยตรงบนฐานข้อมูลเชิงสัมพันธ์ (ภาพที่ดัดแปลงมาจาก Pixabay และ PyNeuraLogic)

ตอนนี้เราคุ้นเคยอย่างมากในการอ่านเกี่ยวกับการเรียนรู้เชิงลึก พาดหัวข่าวด้วยความก้าวหน้าต่างๆ ในขอบเขตการวิจัย ตั้งแต่การมองเห็นและการสร้างภาพไปจนถึงการเล่นเกม อย่างไรก็ตาม วิธีการเรียนรู้เชิงลึกส่วนใหญ่ยังค่อนข้างห่างไกลจากการดำเนินธุรกิจในชีวิตประจำวัน บริษัทจำนวนมากประสบความสำเร็จในการเปลี่ยนแปลงสู่ยุคที่ขับเคลื่อนด้วยข้อมูล โดยรวบรวมข้อมูลอันมีค่าจำนวนมากเป็นส่วนหนึ่งของกระบวนการของพวกเขา และในขณะที่บริษัทดังกล่าวส่วนใหญ่ใช้เครื่องมือวิเคราะห์ข้อมูลต่างๆ เพื่อดึงข้อมูลเชิงลึกจากข้อมูลเหล่านี้ แต่เราไม่ค่อยเห็นการมีส่วนร่วมของ วิธี การเรียนรู้เชิงลึก ที่เกิดขึ้นจริง เว้นแต่ว่าจะตรงกับโดเมนธุรกิจโดยตรง (เช่น บริษัทประมวลผลข้อมูลรูปภาพ)

ในบทความนี้ เราโต้แย้งว่าหนึ่งในเหตุผลหลักที่ทำให้ขาดโครงข่ายประสาทเทียมในการดำเนินธุรกิจคือช่องว่างในการเป็นตัวแทนการเรียนรู้ที่สันนิษฐานโดยโมเดลการเรียนรู้เชิงลึกแทบทั้งหมด และการแทนการจัดเก็บข้อมูลที่ใช้กันทั่วไปมากที่สุดในชีวิตประจำวัน การปฏิบัติ — ฐานข้อมูลเชิงสัมพันธ์

เพื่อปิดช่องว่างนี้ เราแนะนำแนวทางหลักในการสรุปโมเดลการเรียนรู้เชิงลึกที่ล้ำสมัยสำหรับการใช้งานโดยตรงบนฐานข้อมูลผ่านการรวมเข้ากับหลักการที่เป็นทางการซึ่งอยู่ภายใต้กลไกฐานข้อมูลเชิงสัมพันธ์ทั้งหมด จากนั้นเรายกตัวอย่างแนวทางนี้ด้วยบทช่วยสอนที่ใช้งานได้จริงในเฟรมเวิ ร์ก Python ที่ออกแบบมาเพื่อให้ใช้งานโมเดล ความสัมพันธ์เชิงลึกที่มีอยู่และแบบใหม่ได้ง่ายสำหรับการเรียนรู้โดยตรงกับฐานข้อมูล

ตัวแทนการเรียนรู้

แม้ว่าจะมีโมเดลทางสถิติและแมชชีนเลิร์นนิงจำนวนนับไม่ถ้วนที่นำเสนอนอกชั้นวางภายในเฟรมเวิร์กและไลบรารีนับร้อย แต่แง่มุมหนึ่งเกี่ยวกับโมเดลเหล่านี้ยังคงเป็นสากลโดยทั่วไปนั่นคือการแสดงข้อมูลการเรียนรู้ ไม่ว่าคุณจะสบายดีกับการถดถอยโลจิสติกขั้นพื้นฐาน ต้องการก้าวขึ้นไปสู่กลุ่มต้นไม้ หรือสร้างโมเดลการเรียนรู้เชิงลึกขั้นสูง ไม่ว่าคุณจะเลือกจ่ายเงินสำหรับโซลูชันที่เป็นกรรมสิทธิ์ด้วย SPSS หรือตั้งโปรแกรมใหม่ตั้งแต่ต้นด้วย Tensorflow คุณก็พร้อมเสมอ คาดว่าจะให้ข้อมูลในรูปแบบของเมตริกตัวเลขคือ อาร์เรย์ n มิติของตัวเลข

ภาพร่างของแบบจำลองประสาททั่วไป (แบบหมุนวน) ที่นำเข้าตัวอย่างข้อมูลเทนเซอร์ (ภาพโดยผู้เขียน)

สิ่งนี้ลงมาจากการแสดงการเรียนรู้แบบดั้งเดิมของเวกเตอร์เชิงคุณลักษณะซึ่งสร้างกรณี 1 มิติของเทนเซอร์เหล่านี้ ในอดีต ไม่ว่าโดเมนการเรียนรู้จะเป็นแบบใด โมเดลแมชชีนเลิร์นนิงแบบคลาสสิกทั้งหมดได้รับการออกแบบมาสำหรับอินพุตเวกเตอร์คุณลักษณะ ที่นี่ ในฐานะผู้เชี่ยวชาญด้านโดเมน ได้รับการคาดหวังให้ออกแบบลักษณะเฉพาะของปัญหาของคุณในขอบเขต รวบรวมจำนวนเหล่านี้เป็นเวกเตอร์ และดำเนินการวัดเวกเตอร์คุณลักษณะเหล่านี้ซ้ำๆ เพื่อสร้างชุดข้อมูลการฝึกอบรมที่มีขนาดใหญ่เพียงพอ อย่างน้อยก็เป็นเช่นนั้นจนกระทั่งการปฏิวัติการเรียนรู้เชิงลึกมาพร้อมกับ กระบวนทัศน์ การเรียนรู้การเป็นตัวแทนซึ่งได้ขจัดความจำเป็นในการออกแบบด้วยตนเองของฟีเจอร์อินพุตเหล่านี้ออกไป และแทนที่ด้วยข้อมูลดิบจำนวนมากแทน

  • ในที่นี้ แนวคิดก็คือว่าลักษณะเฉพาะที่เกิดขึ้นเป็นส่วนหนึ่งของกระบวนการฝึกอบรมเอง โดยทั่วไปเรียกว่าการฝังกล่าวคือ การแสดงเวกเตอร์ที่เป็นตัวเลขของวัตถุที่ฝังอยู่ในพื้นที่ n มิติที่ใช้ร่วมกัน

นี่ไม่ใช่เรื่องบังเอิญเนื่องจากมีเหตุผลที่เข้าใจได้เบื้องหลังการใช้รูปแบบการนำเสนอนี้เพื่อการเรียนรู้ — บางส่วนเป็นประวัติศาสตร์ บางส่วนเป็นคณิตศาสตร์ และบางส่วนเป็นการปฏิบัติ (ตามที่อธิบายไว้ในบทความก่อนหน้า ของเรา ) อย่างไรก็ตาม การเป็นตัวแทนนี้ยังไม่เป็นสากลเท่าที่ควรสำหรับผู้ปฏิบัติงานด้านแมชชีนเลิร์นนิง เพียงมองไปรอบๆ เพื่อดูว่าข้อมูลในโลกแห่งความเป็นจริงเป็นอย่างไร มันไม่ได้จัดเก็บไว้ในเวกเตอร์ที่เป็นตัวเลขหรือเทนเซอร์ แต่อยู่ในโครงสร้างที่เชื่อมโยงกันของหน้าอินเทอร์เน็ต เครือข่ายสังคมออนไลน์ กราฟความรู้ ฐานข้อมูลชีวภาพ เคมี และวิศวกรรม ฯลฯ ข้อมูลเหล่านี้เป็น ข้อมูล เชิงสัมพันธ์ โดยเนื้อแท้ ที่จัดเก็บโดยธรรมชาติในรูปแบบกราฟที่มีโครงสร้าง ไฮเปอร์กราฟ และโดยทั่วไปฐานข้อมูลเชิงสัมพันธ์

ข้อมูลส่วนใหญ่ในโลกแห่งความเป็นจริงถูกจัดเก็บไว้ในฐานข้อมูลเชิงสัมพันธ์ (ภาพจาก pixabay)

มาถึงคำถามที่ชัดเจนแล้ว — เราจะเปลี่ยนโครงสร้างข้อมูลเหล่านี้ให้เป็นเวกเตอร์คุณลักษณะของเรา (เทนเซอร์ตัวเลข) และใช้ประโยชน์จากการเรียนรู้ของเครื่องที่ดีทั้งหมด (การเรียนรู้เชิงลึก) ที่เราพัฒนาไปแล้วโดยตรงไม่ได้หรือ และแม้ว่าสิ่งนี้จะดึงดูดใจมาก แต่ก็มีปัญหาเบื้องลึกเกี่ยวกับแนวทางดังกล่าว:

1)เห็นได้ชัดว่าไม่มีทางที่จะเปลี่ยน โครงสร้างข้อมูลเชิงสัมพันธ์ที่ไม่ได้ ผูกมัด ให้เป็น เมตริกซ์ตัวเลขขนาดคงที่ทั่วไปโดยไม่สูญเสียข้อมูล

  • อย่างไรก็ตาม เทนเซอร์ก็เป็นตัวอย่างของโครงสร้างข้อมูลเชิงสัมพันธ์เช่นกัน (มันคือตาราง) หากเทนเซอร์ตัวอย่างใหญ่กว่าอินพุตโมเดลที่คาดไว้ แสดงว่าเรามีปัญหาใหญ่
  • สมมติเพียงโครงสร้างข้อมูลกราฟที่นี่เพื่อความง่าย หากมีการแมปที่ไม่คลุมเครือระหว่างกราฟและเทนเซอร์ จะช่วยแก้ปัญหามอร์ฟิซึ่ มของกราฟ (ยาก) ได้เล็กน้อย
  • มีหลายวิธีในการทำเช่นนั้น เช่น การรวม (นับ) วัตถุ ความสัมพันธ์ รูปแบบต่างๆ (กราฟย่อย) และสถิติ ซึ่งเรียกกันทั่วไปว่า

การเป็นตัวแทนเชิงสัมพันธ์

การเป็นตัวแทนเชิงสัมพันธ์เหล่านี้คืออะไร และเหตุใดเราจึงต้องใช้สิ่งเหล่านี้ เรามาเริ่มกันที่การแสดงเวกเตอร์เชิงคุณลักษณะยอดนิยมของข้อมูลการเรียนรู้ ข้อมูลดังกล่าวอาจถูกมองว่าเป็นตารางโดยที่แต่ละคอลัมน์จะสอดคล้องกับคุณลักษณะ (หรือป้ายชื่อเป้าหมาย) และแต่ละแถวจะสอดคล้องกับ ตัวอย่างการเรียนรู้ อิสระ เดียว — เวกเตอร์คุณลักษณะ ดังนั้นเราจึงสามารถจัดเก็บเวกเตอร์คุณลักษณะในฐานข้อมูลใดๆ ได้อย่างง่ายดายด้วยตารางเพียงตารางเดียว ตอนนี้สมมติว่าเวกเตอร์คุณลักษณะไม่เป็นอิสระอีกต่อไป และองค์ประกอบหนึ่งในเวกเตอร์คุณลักษณะหนึ่งสามารถแทนวัตถุเดียวกันได้เป็นองค์ประกอบอื่นในเวกเตอร์คุณลักษณะอื่น นี่เป็นเรื่องปกติมากในทางปฏิบัติ ซึ่งผู้คนใช้เวกเตอร์ดังกล่าวเพื่อแสดงลำดับที่ทับซ้อนกันในข้อมูลอนุกรมเวลา คำในประโยค รายการในตะกร้าสินค้า หรือตัวเลขบนกระดานหมากรุก ในกรณีดังกล่าวทั้งหมด องค์ประกอบในเวกเตอร์เหล่านี้ไม่สามารถถูกมองว่าเป็นค่าอิสระอย่างง่ายได้อีกต่อไป แต่ จะ อ้างอิงถึงอ็อบเจ กต์ที่อยู่ด้านล่าง ซึ่งจากนั้นจะมีลักษณะตามจริง ดังนั้น ตามแนวคิดแล้ว ตอนนี้เราลงเอยด้วยตาราง 2 ตาราง โดยที่ตารางแรกมีการอ้างอิงวัตถุที่อาจซ้ำซ้อนในตารางที่สอง ซึ่งมีค่าคุณลักษณะของวัตถุ (เฉพาะ)

  • ในคำศัพท์เฉพาะของฐานข้อมูลที่เป็นทางการ ตารางจะเรียกอีกอย่างว่าความสัมพันธ์เนื่องจากเชื่อมโยงวัตถุจากคอลัมน์เข้าด้วยกัน
  • นอกจากนี้ยังเป็นตัวแทนที่Transformers ยอดนิยม ทำงานได้อย่างมีประสิทธิภาพ แม้ว่าในทางเทคนิคจะใช้ลำดับที่อินพุต แต่เปลี่ยนพวกมันภายในเป็นกราฟที่เชื่อมต่ออย่างสมบูรณ์โดยถือว่าความสัมพันธ์ขององค์ประกอบแบบคู่ทั้งหมดภายในโมดูลความสนใจ (ตัวเอง)
การจัดเก็บกราฟที่แสดงคุณลักษณะ (โมเลกุล) ในรูปแบบเชิงสัมพันธ์ (ฐานข้อมูล) ช่วยให้มีความยืดหยุ่นมากขึ้นและมีความซ้ำซ้อนน้อยกว่ารูปแบบเมทริกซ์ทั่วไปที่ใช้ในเฟรมเวิร์ก GNN มาตรฐาน² นอกจากนี้ยังสามารถใช้ประโยชน์จากการทำให้โมเดล GNN มีประสิทธิภาพมากขึ้น . (ภาพโดยผู้เขียน)

โปรดทราบว่าสิ่งนี้แสดงให้เห็นภาพรวมที่สำคัญอีกประการหนึ่งที่นำเสนอโดยการแสดงเชิงสัมพันธ์ ซึ่งก็คือแถวเดียวไม่สอดคล้องกับอินสแตนซ์การเรียนรู้เดียวอีกต่อไป เนื่องจากโดยทั่วไปแล้ว เราสามารถมีตัวอย่างขนาดและโครงสร้างต่างๆ กัน ซึ่งครอบคลุมหลายตารางผ่านการอ้างอิงออบเจกต์ ประการสุดท้าย ฐานข้อมูลไม่จำกัดเฉพาะความสัมพันธ์แบบไบนารี เนื่องจากตารางฐานข้อมูลสามารถเชื่อมโยงวัตถุมากกว่าสองวัตถุได้อย่างง่ายดาย (กล่าวคือ แต่ละตารางเป็นไฮเปอร์กราฟ )

หวังว่านี่จะทำให้ชัดเจนว่าเราสามารถจับภาพการแทนการเรียนรู้ที่ใช้กันทั่วไปทั้งหมดได้อย่างง่ายดายในฐานข้อมูลเชิงสัมพันธ์ (แต่ไม่ใช่ในทางกลับกัน) สิ่งนี้ทำให้ตรรกะเชิงสัมพันธ์พื้นฐาน (พีชคณิต) แบบแผนเป็นตัวเลือกที่มีศักยภาพมากสำหรับการเป็นตัวแทนการเรียนรู้ในอุดมคติ!

  • โปรดทราบว่าภาษาทั้งหมดสำหรับการจัดเก็บและการจัดการข้อมูลที่มีโครงสร้างซึ่งใช้ในทางปฏิบัติ เช่น SQL และ ERM จะตามมาจากพีชคณิตเชิงสัมพันธ์และตรรกะ

การเรียนรู้ของเครื่องเชิงสัมพันธ์

เป็นเวลาหลายทศวรรษที่ห่างไกลจากความสนใจของกระแสหลักของการเรียนรู้เชิงลึก นักวิจัยได้พัฒนาแนวทางการเรียนรู้โดยตรงจากระเบียบตรรกะเชิงสัมพันธ์ที่กล่าวถึงข้างต้นโดยตรงภายในฟิลด์ย่อยเฉพาะที่เรียกว่าการเรียนรู้เชิงสัมพันธ์ซึ่งระบุไว้ในบทความก่อนหน้านี้ วิธีการเรียนรู้เชิงสัมพันธ์โดยสังเขป เช่นInductive Logic Programming (ILP) เป็นวิธีที่สวยงามมากสำหรับการเรียนรู้โมเดลที่สื่อความหมายสูง มีประสิทธิภาพ และตีความได้ แนวทางนี้แสดงให้เห็นถึงลักษณะทั่วไปของตรรกะเชิงสัมพันธ์แบบแผนอย่างแท้จริง ซึ่งในที่นี้ไม่เพียงใช้เพื่อเก็บข้อมูลและการเรียนรู้แทนเท่านั้น แต่ยังรวมถึงตัวแบบด้วยในขณะที่ให้วิธีที่มีประสิทธิภาพในการรวมเข้าด้วยกันความรู้พื้นฐานและความสมมาตรของโดเมน

แบบจำลองที่เป็นผลลัพธ์ช่วยให้สามารถเรียนรู้จากฐานข้อมูลได้โดยธรรมชาติ โดยที่ตัวอย่างที่แตกต่างกันประกอบด้วยประเภทและจำนวนของออบเจกต์ที่แตกต่างกัน โดยแต่ละออบเจกต์จะมีลักษณะเฉพาะด้วยชุดคุณลักษณะที่แตกต่างกัน ซึ่งครอบคลุมตารางที่เชื่อมต่อกันหลายตาราง แม้ว่านี่จะเป็นสถานการณ์ฝันร้ายสำหรับอัลกอริทึมแมชชีนเลิร์นนิงแบบคลาสสิก แต่ก็เป็นมาตรฐานสำหรับ ILP

อย่างไรก็ตาม นอกจากคุณลักษณะที่ดีเหล่านี้แล้ว แนวทางเหล่านี้ยังขาดความแข็งแกร่ง ความแม่นยำ และการปรับสเกลอย่างมาก ซึ่งเป็นแง่มุมที่การเรียนรู้เชิงลึกเพิ่งครอบงำทั่วทั้งสาขา

การเรียนรู้เชิงลึกเชิงสัมพันธ์

โดยธรรมชาติแล้ว จุดแข็งที่เกื้อกูลกันของกระบวนทัศน์การเรียนรู้เชิงสัมพันธ์และเชิงลึกนั้นเรียกร้องให้มีการบูรณาการ ซึ่งเราเรียกว่า " การเรียนรู้เชิงสัมพันธ์เชิงลึก " ซึ่งเป็นหลักการทั่วไปที่เราให้รายละเอียดไว้ในบทความก่อนหน้านี้ตามด้วยกรอบเชิงปฏิบัติที่เรียกว่า PyNeuraLogic ซึ่งอธิบายไว้ใน ที่ตามมา

โดยสังเขป สาระสำคัญที่สำคัญคือการนำ กระบวนทัศน์ การสร้างแบบจำลองที่ยกขึ้นซึ่งรู้จักจากแบบจำลองกราฟิกเชิงสัมพันธ์ในการเรียนรู้เชิงสัมพันธ์ทางสถิติและอนุมานใน การตั้งค่าการเรียนรู้ เชิงลึก กล่าวอีกนัยหนึ่ง นี่หมายถึงการแนะนำภาษา "เทมเพลต" แบบใหม่ที่ใช้ตรรกะเชิงสัมพันธ์เชิงประกาศ ซึ่งสามารถสร้างความแตกต่างได้ ซึ่งช่วยให้สามารถเข้ารหัสโมเดลการเรียนรู้เชิงลึก ขณะที่ยังคงความชัดเจนของการแสดงและการอนุมานเชิงตรรกะเชิงสัมพันธ์

และเนื่องจากสิ่งนี้ฟังดูเป็นนามธรรม เรามาดูสิ่งที่คุ้นเคย กันดี นั่นคือ Graph Neural Networks (GNNs) ซึ่งสามารถมองได้ว่าเป็นตัวอย่างง่ายๆ ของโมเดลการเรียนรู้เชิงลึกเชิงสัมพันธ์

  • ปัจจุบัน GNNs เป็นหนึ่งในหัวข้อที่ร้อนแรงที่สุดในการเรียนรู้เชิงลึก ซึ่งเป็นรากฐานของความก้าวหน้าล่าสุดมากมายในการค้นพบยา การพับโปรตีน และวิทยาศาสตร์โดยทั่วไป นอกจากนี้Transformersก็เป็นประเภทหนึ่งของ GNNด้วยเช่นกัน
  • กราฟการคำนวณของ GNN ทั่วไปที่โหนดแพร่กระจายและรวมการแสดงแทนของเพื่อนบ้าน เมื่อคลี่ออกบนกราฟอินพุตซึ่งแสดงโมเลกุลของมีเทน (สีเทา ซ้าย) จากนั้นสีจะแสดงถึงการชั่งน้ำหนัก ("การม้วนงอ") ภายในแต่ละชั้น โหนดการดำเนินการบิดแต่ละโหนด (สีชมพู) ตามมาด้วยการดำเนินการรวมศูนย์ (สีน้ำเงิน) ที่สร้างอินพุตเป็นการแสดงเลเยอร์ถัดไป (C¹) ของกราฟอินพุต (สีน้ำตาลอ่อน) รูปแบบการคำนวณเดียวกันซ้ำแล้วซ้ำอีกในชั้นอื่นๆ สุดท้าย การแทนโหนดจากเลเยอร์สุดท้ายจะถูกรวมเข้าด้วยกัน (A^y) เพื่อสร้างการทำนายขั้นสุดท้าย (y) (ภาพโดยผู้เขียน)

ตอนนี้เรารู้แล้วว่ากราฟเป็นเพียงชุดของขอบ ( edge(X,Y)) ระหว่างบางโหนด ( XและY) สาระสำคัญของแบบจำลอง GNN ใดๆ ก็คือการเผยแพร่และรวมการแสดงโหนดจากเพื่อนบ้าน (หรือที่เรียกว่า “ การส่งผ่านข้อความ ”) ในแง่ตรรกะเชิงสัมพันธ์ กฎการส่งผ่านข้อความนี้สามารถใส่ลงในกฎเชิงตรรกะ ได้ดังนี้:

message2(X) <= message1(Y), edge(X, Y)

ในการคำนวณการแทนค่า ' message2 ' ของอ็อบเจกต์Xให้รวมการแทนค่า ' message1 ' ของอ็อบเจกต์ดังกล่าวทั้งหมดYโดยที่ ' edge ' อยู่ระหว่างXและY

ตอนนี้ ให้เราพิจารณาให้ละเอียดยิ่งขึ้นว่าสิ่งนี้หมายความว่าอย่างไรจากมุมมองตรรกะเชิงสัมพันธ์ที่เป็นทางการ ประกาศ เพร ดิเคตเชิงตรรกะ“message2” , “ Message1 และ “ edge ” ในที่นี้ใช้แทนชื่อของความสัมพันธ์ ในขณะที่ ตัวแปรลอจิคัล“X” และ “Y” แสดงถึงการอ้างอิงถึงวัตถุ บาง อย่าง ทั้ง “message1” และ “message2” เป็นความสัมพันธ์แบบเอกภาพ ซึ่งโดยทั่วไปแสดงถึงคุณลักษณะบางอย่างของออบเจกต์ ในขณะที่ “edge” เป็นความสัมพันธ์แบบไบนารี ซึ่งเชื่อมโยงสองออบเจ็กต์เข้าด้วยกัน เช่น การเชื่อมต่อสองโหนดในกราฟโดยมีเส้นเชื่อมตรงนี้ ตัวดำเนินการ “<=” เป็นความหมายซึ่งโดยทั่วไปเขียนจากขวาไปซ้ายในการเขียนโปรแกรมลอจิก หมายความว่าค่า (ความจริง) ของส่วนขวา ("เนื้อหา" ของกฎ) หมายถึงส่วนซ้าย ("ส่วนหัว" ของกฎ) สุดท้าย เครื่องหมายจุลภาค “,” แสดงถึงการเชื่อมหมายความว่าความสัมพันธ์ของ “message1(Y)” และ “edge(X, Y)” ต้องคงอยู่พร้อมกัน เช่น สำหรับวัตถุ Y และ X เดียวกัน

และตอนนี้ มาดูหลักการเดียวกันจากมุมมองของฐานข้อมูล (SQL) ซึ่งเผยให้เห็นสิ่งที่เกิดขึ้นภายใต้ประทุนจากมุมมองที่คุ้นเคยและใช้งานได้จริง เรารู้แล้วว่าความสัมพันธ์ เชิงตรรกะ สอดคล้องกับตารางในฐานข้อมูล ในทำนองเดียวกันตัวแปร ตรรกะ จะสอดคล้องกับคอลัมน์ ของพวก มัน ตารางใน "ส่วนหัว" ของกฎ (ด้านซ้าย) จะต้องแสดงโดยนัย (<=) เช่น สร้างขึ้นโดยการประเมิน "เนื้อหา" ของกฎ (ด้านขวา) จากนั้นการเชื่อมเชิงตรรกะ “,” ในร่างกายจะสอดคล้องกับการรวมระหว่างตารางที่เกี่ยวข้องโดยมีข้อ จำกัด ตามการผูกตัวแปรตามลำดับ ตัวอย่างเช่น ที่นี่เราต้องการรวมตาราง “message1” และ “edge” บนคอลัมน์ Y ตามลำดับ และจัดเก็บคอลัมน์ X (เส้นโครง) ของผลลัพธ์ลงในตารางใหม่ชื่อ “message2” และในขณะที่อาจมีออบเจกต์หลายรายการที่ข้อจำกัดดังกล่าวมีอยู่ เช่น Y หลายรายการที่มี "ขอบ" จาก X เฉพาะ เราจะต้องจัดกลุ่มตาม X ในขณะที่รวมแอตทริบิวต์ของ Y ที่อยู่ใกล้เคียง (เรายังสามารถรวมค่าต่างๆ จากเลขฐานสอง “ขอบ” ด้วย) ดังนั้น กฎ GNN ยังสอดคล้องกับแบบสอบถาม SQL อย่างง่าย ซึ่งสามารถอ่านได้ดังนี้:

รวมตาราง 'message1' และ 'edge' ในคอลัมน์ Y จัดกลุ่มตาม X และรวมค่าผลลัพธ์ลงในตารางใหม่ 'message2'

หากคุณเพียงแค่หยุดและคิดเกี่ยวกับสิ่งนี้ นี่คือกฎการเผยแพร่/การรวมกราฟ "การส่งผ่านข้อความ" ที่อยู่ภายใต้โมเดล GNN ทั้งหมด

  • โดยทั่วไปคุณจะเห็นการแสดงตาราง "edge" ในรูปแบบของเมทริกซ์คำเชื่อม (แทนที่จะเป็นรายการ/ตารางคำเชื่อมนี้) และตาราง "message1" เป็นเมทริกซ์คุณสมบัติ/การฝังของโหนด ขั้นตอนการเผยแพร่ เช่น การรวมและการรวมที่นี่ สามารถแสดงผ่านการคูณเมทริกซ์ของทั้งสองได้³

สุดท้าย เรา "เพียงแค่" จำเป็นต้องสร้างกฎเชิงตรรกะเหล่านี้ เช่น แบบสอบถาม SQL ที่สามารถหาอนุพันธ์ ได้ เพื่อที่จะเรียนรู้น้ำหนักที่เกี่ยวข้องเหล่านั้นได้อย่างมีประสิทธิภาพ แม้ว่าเราจะไม่ลงรายละเอียดเกี่ยวกับความหมายของการตีความเชิงอนุพันธ์ของภาษานี้ แต่ก็มีการสรุปไว้ในบทความก่อนหน้าและอธิบายเพิ่มเติมในรายละเอียดอย่างใกล้ชิดในวิทยานิพนธ์นี้ โดยสังเขป แต่ละขั้นตอนของการประเมินคิวรีพื้นฐานแสดงถึงการดำเนินการบางอย่างในกราฟการคำนวณที่เกี่ยวข้อง ซึ่งเราจะเผยแพร่ย้อนกลับในลักษณะที่คล้ายกับโมเดลการเรียนรู้เชิงลึกแบบคลาสสิก

โดยสรุป เราเพิ่งแสดงวิธีแสดงโมเดล GNN แบบการเรียนรู้เชิงลึกแบบคลาสสิกเป็นแบบสอบถาม SQL แบบกำหนดพารามิเตอร์อย่างง่าย สวยไม่แปลกเหรอ? และแม้ว่าสิ่งนี้อาจฟังดูเป็นแนวคิดเชิงนามธรรมที่คุณอาจอ่านในรายงานการวิจัย แต่ไม่ได้ผลในทางปฏิบัติ ให้เราทำให้ชัดเจนว่าเราหมายถึงสิ่งนี้อย่างแท้จริงด้วยบทช่วยสอนเชิงปฏิบัติต่อไปนี้เกี่ยวกับการสร้างฐานข้อมูลในฐานข้อมูล จี .เอ็น .

การสร้าง GNN ในฐานข้อมูล

ให้เราเปลี่ยนไปใช้กรอบการทำงานจริงที่ยกตัวอย่าง หลักการ การเรียนรู้เชิงลึกเชิงสัมพันธ์ ทั้งหมดที่กล่าวมาข้างต้น ซึ่งเราได้กล่าวถึงไปแล้ว มันถูกเรียกว่าPyNeuraLogic และคุณสามารถอ่านเพิ่มเติมเกี่ยวกับมันได้ในบทความก่อนหน้านี้ ในที่นี้ ให้เราข้ามไปที่หนึ่งในโมดูล (ล่าสุด) ที่เกี่ยวข้องกับการแมประหว่างการแสดงตรรกะเชิงสัมพันธ์ ที่ใช้ภายในเฟรมเวิร์ก และฐานข้อมูลเชิงสัมพันธ์

PyNeuraLogic สร้างทุกอย่างบนความสัมพันธ์เชิง ตรรกะ ตรงข้ามกับเฟรมเวิร์กการเรียนรู้เชิงลึกที่มีเทนเซอร์เป็นศูนย์กลาง และเนื่องจากความสัมพันธ์ (ตาราง) เป็นพลเมืองชั้นหนึ่งในเฟรมเวิร์ก จึงไม่จำเป็นต้องมีการแปลงเทนเซอร์แบบเฉพาะกิจ (ที่เป็นปัญหา) ทำให้การทำงานร่วมกันกับฐานข้อมูลเชิงสัมพันธ์เป็นธรรมชาติอย่างยิ่ง โดยเฉพาะอย่างยิ่ง เฟรมเวิร์ก PyNeuraLogic มาพร้อมกับชุดเครื่องมือสำหรับการแมปข้อมูลตารางความสัมพันธ์โดยตรง ฝึกโมเดลเชิงสัมพันธ์เชิงลึกร่วมสมัยบนเฟรมเวิร์กโดยตรง และแม้แต่ส่งออกเป็นโค้ด SQL ธรรมดา เพื่อให้คุณสามารถประเมินโมเดลที่ผ่านการฝึกอบรมโดยตรงในฐานข้อมูลของคุณ!

ตัวอย่างฐานข้อมูล

ขั้นแรก ให้เราแนะนำข้อมูลที่เราจะทำงานด้วยในการสาธิตง่ายๆ นี้ ฐานข้อมูลตัวอย่างของเราที่นี่ประกอบด้วยข้อมูลที่มีโครงสร้างเกี่ยวกับโมเลกุล แต่ละโมเลกุลมีคุณลักษณะบางอย่าง และเกิดจากจำนวนอะตอมที่แตกต่างกัน อะตอมยังมีคุณลักษณะบางอย่าง และสามารถสร้างพันธะที่มีคุณลักษณะกับอะตอมอื่นได้ ดังนั้นฐานข้อมูลของเราจึงประกอบด้วยสามตาราง — “โมเลกุล” “อะตอม” และ “พันธะ”

ไดอะแกรมของฐานข้อมูลเชิงสัมพันธ์ที่ใช้ในบทช่วยสอนนี้ (ภาพจาก PyNeuraLogic)

ในสถานการณ์สมมตินี้ งานของเราคือการระบุการกลายพันธุ์ของโมเลกุล ซึ่งเป็นหนึ่งในเกณฑ์มาตรฐานที่ใช้บ่อยที่สุดในการเรียนรู้เชิงสัมพันธ์และ GNN ดังนั้น ฉลากเป้าหมายของเราจะเป็นฟิลด์ "การกลายพันธุ์" ในตาราง "โมเลกุล" ตอนนี้ 3 ตารางเหล่านี้จะสอดคล้องกับ 3 ความสัมพันธ์ในเฟรมเวิร์ก PyNeuraLogic อยู่แล้ว อย่างไรก็ตาม เรายังสามารถปรับแต่งการแมปนี้ได้อีกเล็กน้อย ตัวอย่างเช่น เราอาจต้องการแมปแต่ละแถวของตาราง "atom" กับความสัมพันธ์ "R.atom" โดยมีเพียงคอลัมน์ "atom_id" และ "molecule_id" เป็นเงื่อนไข ของความสัมพันธ์ และคอลัมน์ "charge" เป็นค่า ของความสัมพันธ์ .

  • โปรดทราบว่าการกำหนดค่าให้กับความสัมพันธ์ (ข้อเท็จจริงเชิงสัมพันธ์) นั้นอยู่นอกเหนือมาตรฐานตรรกะเชิงสัมพันธ์แบบแผน โดยที่ค่าจะถูกจำกัดไว้ที่ True (ปัจจุบัน) หรือ False (ไม่มีอยู่) การผ่อนคลายค่า (เทนเซอร์) อย่างเต็มรูปแบบคือสิ่งที่ทำให้ PyNeuraLogic สามารถรวมฟังก์ชันการเรียนรู้เชิงลึกเข้ากับหลักการลอจิกเชิงสัมพันธ์ได้
  • การแมปตารางกับข้อเท็จจริงเชิงสัมพันธ์ที่มีค่า เราแมปคอลัมน์ “atom_id” และ “molecul_id” กับเงื่อนไขของความสัมพันธ์ แต่คอลัมน์ “charge” เป็นค่าสำหรับการสาธิต (ภาพจาก PyNeuraLogic)

เพื่อสร้างตัวอย่างการแมปตารางความสัมพันธ์ จากนั้นเราจึงสร้างอินสแตนซ์ของอ็อบเจ็กต์ "DBSource" ที่มี "ชื่อความสัมพันธ์" "ชื่อตาราง" และ "ชื่อคอลัมน์" (ซึ่งจะถูกแมปกับเงื่อนไข) เป็นอาร์กิวเมนต์ เพื่อให้ง่าย เราจะใช้เฉพาะข้อมูลจากตาราง "พันธะ" และ "อะตอม" ที่นี่:

from neuralogic.dataset.db import DBSource, DBDataset

atoms = DBSource("atom", "atom", ["atom_id", "molecule_id"], 
                  value_column="charge")
bonds = DBSource("bond", "bond", ["atom1_id", "atom2_id", "type"],
                  default_value=1)

queries = DBSource("mutagenic", "molecule", ["molecule_id"], 
                    value_column="mutagenic",
                    value_mapper=lambda value: 1 if value == "yes" else 0
)

import psycopg2

with psycopg2.connect(**connection_config) as connection:
    dataset = DBDataset(connection, [bonds, atoms], queries)
    logic_dataset = dataset.to_dataset()

ตัวอย่างเทมเพลตโมเดล GNN

ชุดข้อมูลเชิงสัมพันธ์พร้อมแล้ว ให้เราดูที่การกำหนดเทมเพลต การ เรียน รู้ เราจงใจหลีกเลี่ยงคำศัพท์ทั่วไปในการเรียนรู้ “แบบจำลอง” เนื่องจากแม่แบบสามารถถูกมองว่าเป็นพิมพ์เขียวระดับสูงสำหรับการสร้างแบบจำลองดังกล่าวแทน นั่นคือ เทมเพลตเชิงสัมพันธ์เดียวอาจสอดคล้องกับหลายโมเดล เช่น กราฟเชิงคำนวณ ซึ่งจะถูกปรับแต่งโดยอัตโนมัติด้วยโครงสร้างแต่ละตัวอย่างและคิวรีเป้าหมายที่นี่

  • สิ่งนี้ช่วยให้สามารถแก้ไขปัญหาขนาดและโครงสร้างของข้อมูลอินพุตที่แตกต่างกันได้ ตัวอย่างเช่น โมเลกุลตัวอย่างเดี่ยวที่นี่เข้ากันได้ดีกับแถวเดียวในตาราง "โมเลกุล" ซึ่งสามารถใช้โดยตรงเป็นอินพุตสำหรับแบบจำลองมาตรฐาน (ต้นไม้, SVM, โครงข่ายประสาทเทียม ฯลฯ) แต่โมเลกุลเดียวกันนี้ยังกระจายไปตามจำนวนแถวที่แตกต่างกันในตาราง "อะตอม" และ "พันธะ" ซึ่งเป็นปัญหาอย่างมากสำหรับแบบจำลองมาตรฐาน ดังที่ได้อธิบายไว้ในบทความก่อนหน้านี้ ดังนั้นการสรุปทั่วไปของ "แบบจำลอง" เป็น "แม่แบบ"
  • นี่คือสถาปัตยกรรมโมเดล GNN คลาสสิกที่มีการเชื่อมต่อแบบข้ามและการขยายการฝังขอบเพิ่มเติม (พันธบัตร) คล้ายกับGIN
  • from neuralogic.core import Template, R, V, Transformation
    
    template = Template()
    
    template += [R.bond_embed(bond_type)[1,] for bond_type in range(1, 8)]
    
    template += R.layer1(V.A)[1,] <= (
        R.atom(V.N, V.M)[1,], R.bond_embed(V.B)[1,], R._bond(V.N, V.A, V.B) )
    
    template += R.layer2(V.A)[1,] <= (
        R.layer1(V.N)[1,], R.bond_embed(V.B)[1,], R._bond(V.N, V.A, V.B) )
    
    template += (R.mutagenic(V.M)[1,] <= (
        R.layer1(V.A)[1,], R.layer2(V.A)[1,], R.atom(V.A, V.M)[1,] )
    ) | [Transformation.IDENTITY]
    
    template += R.mutagenic / 1 | [Transformation.SIGMOID]
    

from neuralogic.nn import get_evaluator
from neuralogic.core import Settings, Optimizer
from neuralogic.nn.init import Glorot
from neuralogic.nn.loss import CrossEntropy
from neuralogic.optim import Adam

settings = Settings(
    optimizer=Adam(), epochs=2000, initializer=Glorot(), 
    error_function=CrossEntropy(with_logits=False)
)

neuralogic_evaluator = get_evaluator(template, settings)
built_dataset = neuralogic_evaluator.build_dataset(logic_dataset)

for epoch, (total_loss, seen_instances) \ 
    in enumerate(neuralogic_evaluator.train(built_dataset)):

    print(f"Epoch {epoch}, total loss: {total_loss}, 
            average loss {total_loss / seen_instances}")

นอกจากนี้ ด้วยโค้ดเพียงไม่กี่บรรทัด โมเดลที่เราเพิ่งสร้างและฝึกฝนสามารถเปลี่ยนเป็นโค้ด SQL (Postgres) ได้ คุณสามารถประเมินโมเดลด้วยข้อมูลเพิ่มเติมได้โดยตรงในเซิร์ฟเวอร์ฐานข้อมูลของคุณโดยไม่ต้องติดตั้ง NeuraLogic หรือแม้แต่ Python PostgreSQL ธรรมดาจะทำได้!

สิ่งที่เราต้องทำคือสร้างตัวแปลงที่ใช้โมเดล "การแมปตาราง" และการตั้งค่าของเรา การแม็ปตารางคล้ายกับ “DBSource” ที่อธิบายไว้ก่อนหน้านี้ สำหรับการแมประหว่างความสัมพันธ์และตาราง:

from neuralogic.db import PostgresConverter, TableMapping


convertor = PostgresConverter(
    neuralogic_evaluator.model,
    [
        TableMapping("_bond", "bond", ["atom1_id", "atom2_id", "type"]),
        TableMapping("atom", "atom", ["atom_id", "molecule_id"], 
                      value_column="charge")
    ],
    settings,
)

sql = convertor.to_sql()

SELECT * FROM neuralogic.mutagenic('d150');

      
                

SELECT * FROM neuralogic.mutagenic(NULL);

      
                

SELECT * FROM neuralogic.layer1('d15_11');

      
                

โดยสรุป เราใช้เฟรมเวิร์ก PyNeuraLogic เพื่อประกาศตัวแปรโมเดล GNN อย่างง่ายตั้งแต่เริ่มต้น ซึ่งทำงานแบบเนทีฟบนฐานข้อมูลเชิงสัมพันธ์ที่มีตารางเชื่อมโยงหลายตาราง นอกจากนี้ เรายังส่งออกโมเดลไปยัง SQL ธรรมดาเพื่อให้สามารถประเมินเพิ่มเติมได้ทุกเมื่อโดยตรงในกลไกฐานข้อมูลของคุณ โดยไม่ต้องมีไลบรารี่ภายนอก

สิ่งนี้แสดงให้เห็นว่าหลักการการเรียนรู้เชิงลึกสมัยใหม่ที่มีอยู่สำหรับข้อมูลที่มีโครงสร้างสามารถถูกบันทึกได้อย่างมีประสิทธิภาพภายใต้รูปแบบการแสดง (ฐานข้อมูล) ของตรรกะเชิงสัมพันธ์ (ถ่วงน้ำหนัก) อย่างไรก็ตาม เห็นได้ชัดว่า ประเด็นของการใช้ตรรกะเชิงสัมพันธ์เชิงอนุพันธ์ที่สื่อความหมายได้ชัดเจนกว่าอย่างมากมายก็คือ มันช่วยให้คุณทำอะไรได้มากกว่าการเผยแพร่กราฟอย่างง่ายผ่านความสัมพันธ์แบบไบนารี (GNNs)

เพียงแค่อนุมานจากตัวอย่าง GNN โดยตรง ไม่มีอะไรหยุดคุณจากการขยายไปสู่ความสัมพันธ์ที่มีระดับอารมณ์สูงกว่า รูปแบบการแพร่กระจายที่แตกต่างกันที่เข้าร่วมในตารางมากขึ้น และการรวมสิ่งเหล่านี้เข้ากับโปรแกรมลอจิกลำดับชั้น (SQL) ในรูปแบบใหม่ ดังนั้น ไม่ต้องรอให้ NeurIPS ของปีหน้าเปิดตัวนวนิยายเรื่องใหม่อีกรอบ “ไฮเปอร์กราฟเชิงลึก” “เมตากราฟเชิงลึก” “การให้เหตุผลเชิงลึก” “ตรรกะเชิงลึก” และ แนวคิด การเรียนรู้เชิงลึกเชิงสัมพันธ์ อื่นๆ — คุณสามารถ เริ่มต้นเพียงแค่ประกาศสิ่งเหล่านี้ด้วยตัวคุณเองในPyNeuraLogicทันที

เพียงแค่$pip install neuralogicเริ่มนำแนวคิดโมเดลเหล่านี้ไปใช้จริง หรือติดต่อเราหากสนใจ!

  1. ในบทความนี้ เราไม่ได้แยกความแตกต่างมากนักระหว่างการแสดงเวกเตอร์และเทนเซอร์ เนื่องจากคุณสามารถแปลค่าหนึ่งเป็นค่าอื่นได้เสมอ โดยรู้มิติ ซึ่งมักจะทราบ/กำหนดในโมเดลการเรียนรู้เชิงลึกมาตรฐานเสมอ
  2. แน่นอนว่าการข้ามผ่านกราฟโดยกำเนิดด้วยการรวมตัวเองแบบเรียกซ้ำในฐานข้อมูลเชิงสัมพันธ์ไม่ใช่วิธีที่มีประสิทธิภาพมากที่สุดในการประมวลผลโครงสร้างเหล่านี้ (มี เช่น ฐานข้อมูลกราฟเฉพาะสำหรับสิ่งนั้น) อย่างไรก็ตามNeuraLogic ใช้เอ็นจิ้นการอนุมานเชิงสัมพันธ์ (ลอจิก) เชิงสัมพันธ์ CSPที่มีประสิทธิภาพสูงซึ่งเหมาะมากสำหรับการสืบค้นที่มีโครงสร้างซับซ้อนผ่านโครงสร้างที่เชื่อมต่อกันสูง
  3. รูปแบบเมทริกซ์นี้มีเนื้อหาที่สวยงามมากเช่นกัน แต่ใช้ได้กับโมเดล GCN พื้นฐานเท่านั้น การย้ายไปยังรูปแบบ GNN ที่แสดงออกมากขึ้นโดยใช้ประโยชน์จาก เช่น โครงสร้างกราฟ (ย่อย) และแผนการแพร่กระจายขั้นสูงมากขึ้น พิธีการเมทริกซ์-พีชคณิตจะยุ่งเหยิงอย่างรวดเร็ว ในขณะที่พิธีการเชิงตรรกะเชิงสัมพันธ์ยังคงเหมือนเดิมทุกประการ