การทดลองเรียงลำดับภาพ

May 09 2023
การเพิ่มประสิทธิภาพการดูรูปภาพให้สูงสุด: การเรียงลำดับด้วยภาพสามารถช่วย TLDR ได้อย่างไร: ในเดือนมกราคม 2022 เราซึ่งเป็นกลุ่ม Visual Computing Group ที่ HTW Berlin ได้ทำการทดลองเพื่อประเมินการเรียงลำดับรูปภาพ แสดงให้เห็นว่าพบรูปภาพในการจัดเรียงที่จัดเรียงได้เร็วกว่ามาก

การเพิ่มประสิทธิภาพการดูภาพให้สูงสุด: การเรียงลำดับด้วยภาพสามารถช่วยได้อย่างไร

เครื่องครัวอิเกีย 256 ชิ้น ทางซ้าย: สุ่มลำดับ และทางขวา: เรียงตามความเหมือน

TLDR:ในเดือนมกราคม 2022 เราซึ่งเป็น Visual Computing Group ที่ HTW Berlin ได้ทำการทดลองเพื่อประเมินการจัดเรียงภาพ แสดงให้เห็นว่าพบรูปภาพในการจัดเรียงที่จัดเรียงได้เร็วกว่ามาก มาตรการใหม่ของเราสำหรับการประเมินการจัดเรียงรูปภาพได้รับการพิสูจน์แล้วว่าดีกว่าการวัดปกติที่ใช้เพื่ออธิบายคุณภาพการจัดเรียงที่มนุษย์รับรู้ นอกจากนี้ วิธีการจัดเรียงที่เราเสนอยังสามารถสร้างการจัดเรียงรูปภาพคุณภาพสูงได้อย่างมีประสิทธิภาพมากกว่าเมื่อเทียบกับวิธีอื่นๆ

มีผู้เข้าร่วมมากกว่า 2,000 คนเข้าร่วมในการทดลองของเรา และเราขอขอบคุณพวกเขาอีกครั้งที่นี่ บทความตีพิมพ์ (https://onlinelibrary.wiley.com/doi/epdf/10.1111/cgf.14718) เกี่ยวกับผลการทดลองอาจเข้าใจยากสำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญ ดังนั้น เราจะพยายามสรุปแรงจูงใจ การนำไปใช้ และผลลัพธ์ของการทดลองด้วยวิธีที่เข้าใจได้ที่นี่

ผู้คนมีปัญหาในการจดจำภาพหลายภาพพร้อมกัน

แม้ว่ามนุษย์สามารถรับรู้และเข้าใจภาพที่ซับซ้อนได้อย่างรวดเร็ว แต่พวกเขาก็มีปัญหาในการจดจำภาพหลายภาพพร้อมกัน ปัญหานี้เกิดขึ้นเมื่อค้นหารูปภาพในคลังรูปภาพหรือผลิตภัณฑ์บนเว็บไซต์อีคอมเมิร์ซ ในกรณีเช่นนี้ การค้นหามักจะยากมากเมื่อรูปภาพที่เกี่ยวข้องมีจำนวนมาก เนื่องจากสามารถรับรู้ภาพเพียง 10-20 ภาพพร้อมกันบนหน้าจอ การเลื่อนผ่านรายการที่ไม่มีโครงสร้างอย่างไม่รู้จบจึงมักจำเป็นเพื่อค้นหาภาพหรือผลิตภัณฑ์ที่ต้องการ

มนุษย์สามารถรับรู้ภาพได้ง่ายขึ้นเมื่อแสดงตามลำดับการจัดเรียง ภาพด้านบนแสดงรายการเครื่องครัวของอิเกีย 256 รายการ ทางด้านซ้ายเรียงลำดับแบบสุ่ม และทางด้านขวาจัดเรียงตามความคล้ายคลึงกัน เมื่อค้นหาภาพใดภาพหนึ่ง ในกรณีที่ไม่มีการจัดเรียง ตัวเลือกเดียวคือ "สแกน" ภาพทีละแถว ในการจัดเรียงที่จัดเรียงแล้ว สามารถระบุภูมิภาคที่เหมาะสมได้อย่างรวดเร็ว และการค้นหาสามารถเน้นไปที่พื้นที่นั้น

เป้าหมายของการทดลอง

เป้าหมายของการทดลองที่ดำเนินการคือการกำหนดขอบเขตที่ผู้คนสามารถรับรู้ภาพได้มากขึ้นในคราวเดียวผ่านการจัดเรียงภาพที่เหมาะสม และวิธีนี้สามารถลดเวลาที่ใช้ในการค้นหาภาพได้อย่างไร โดยเฉพาะอย่างยิ่งคำถามต่อไปนี้ได้รับการแก้ไขแล้ว:

  • การจัดเรียงรูปภาพประเภทใดที่ผู้คนเห็นว่าถูกใจและเป็นประโยชน์
  • จะวัดคุณภาพของการเรียงลำดับภาพตามที่ผู้คนรับรู้ได้อย่างไร
  • วิธีใดเหมาะสมที่สุดในการสร้างการจัดเรียงอย่างมีประสิทธิภาพที่ตรงกับความต้องการของผู้คน

ก่อนที่จะนำเสนอคำตอบที่ได้จากการทดลองสำหรับคำถามที่กล่าวถึงข้างต้น เราขออธิบายหลักการของการเรียงลำดับโดยใช้ตัวอย่างง่ายๆ หากต้องเรียงเลข 6, 5, 2, 8 และ 3 ตามขนาด หมายความว่าเราต้องเรียงเลขให้แต่ละเลขมีขนาดใหญ่กว่าเลขก่อนหน้า

การเรียงลำดับของห้าตัวเลข

โดยทั่วไปมี 1∙2∙3 ∙ … ∙ n = n! (อ่านว่า “n แฟกทอเรียล”) วิธีจัดเรียงวัตถุ n ในกรณีของตัวเลขห้าตัวของเรา จะมีการจัดเรียงที่เป็นไปได้ 120 รายการ ซึ่งมีเพียงสองรายการเท่านั้นที่เรียงลำดับ (จากน้อยไปหามากหรือจากมากไปน้อย) สำหรับชุดตัวเลขที่มากขึ้น มีอัลกอริทึมที่มีประสิทธิภาพสำหรับการพิจารณาการเรียงลำดับ (การจัดเรียงที่เหมาะสมที่สุด)

วิธีการจัดเรียงภาพ?

เมื่อพูดถึงการจัดเรียงภาพ ยังไม่ชัดเจนว่าการเรียงลำดับที่ดีนั้นมีลักษณะอย่างไรและมีวิธีพิจารณาอย่างไร เมื่อเปรียบเทียบกับการจัดเรียงตัวเลขแล้ว มีความแตกต่างหลักสองประการ ประการแรก ลักษณะที่ปรากฏและเนื้อหาของรูปภาพไม่ได้อธิบายด้วยตัวเลขแต่ละตัว แต่อธิบายโดยสิ่งที่เรียกว่าเวกเตอร์คุณลักษณะ ซึ่งหมายความว่าแต่ละภาพจะแสดงด้วยเวกเตอร์ในพื้นที่มิติสูง โดยเวกเตอร์ของภาพที่คล้ายคลึงกันมักจะอยู่ใกล้กัน ประการที่สอง ภาพที่จัดเรียงมักจะจัดเรียงบนตาราง 2 มิติ ซึ่งหมายความว่ามีเพื่อนบ้านทั้งในแนวนอนและแนวตั้ง จำนวนการจัดเรียงที่เป็นไปได้อีกครั้งจะเพิ่มขึ้นตามจำนวนภาพ สำหรับการจัดเรียง 100 ภาพบนกริด 10×10 มี 100 แล้ว! = ความเป็นไปได้ 9.3∙10¹⁵⁷ (ตัวเลขที่มี 158 หลัก) เพื่อจัดเรียง ด้วยจำนวนมากเช่นนี้ เป็นไปไม่ได้เลยที่คอมพิวเตอร์ที่เร็วที่สุดจะลองใช้ตัวแปรทั้งหมด แม้ว่าจะสามารถเปรียบเทียบการจัดเรียงทั้งหมดได้ แต่ก็ไม่ชัดเจนว่าการจัดเรียงใดดีที่สุด

เพื่อแสดงหลักการเรียงลำดับภาพ ตัวอย่างการเรียงลำดับสีแบบสองมิติสามารถใช้เป็นตัวอย่างได้ สีถูกอธิบายด้วยส่วนประกอบสีแดง สีเขียว และสีน้ำเงิน ดังนั้นจึงสามารถแสดงเป็นเวกเตอร์ 3 มิติได้ ในการจัดเรียงสีแบบสองมิติ เวกเตอร์ 3 มิติเหล่านี้ต้องได้รับการกำหนดตำแหน่งบนตาราง 2 มิติ รูปต่อไปนี้แสดงการจัดเรียงที่เป็นไปได้ของสี RGB 9 ∙ 9 ∙ 9 (= 729) บนตาราง 2 มิติที่มีตำแหน่ง 27 ∙ 27 (= 729)

729 สีในพื้นที่สี 3D RGB ➞ 729 สีที่จัดเรียงบนตาราง 2D

ความแตกต่างระหว่างการจัดเรียงภาพของรูปภาพเมื่อเทียบกับตัวอย่างสีที่กล่าวถึงข้างต้นคือขนาดของเวกเตอร์คุณลักษณะของรูปภาพจะสูงกว่ามากเท่านั้น ขนาดน้อยกว่า 100 เพียงพอที่จะอธิบายรูปลักษณ์ของภาพ ในขณะที่ขนาดหลายพันอาจจำเป็นเพื่ออธิบายเนื้อหาของภาพ กระบวนการจัดเรียงจะพยายามจัดตำแหน่งรูปภาพที่คล้ายกันให้อยู่ใกล้กัน หากคุณต้องการทราบว่าอัลกอริทึมสำหรับการจัดเรียงรูปภาพทำงานอย่างไร คุณสามารถอ่านเกี่ยวกับสิ่งนี้ได้ในบทความของเรา

ชุดรูปภาพที่ใช้

ก่อนทำการทดลอง เราทำการทดสอบกับชุดภาพขนาดต่างๆ กลายเป็นว่าด้วยภาพที่มีมากเกินไป บางภาพก็หายากมาก ไม่ว่าจะเรียงอย่างไรก็ตาม สิ่งนี้จะนำไปสู่การยุติผู้เข้าร่วมจำนวนมากในระหว่างการค้นหาในการทดลอง ในทางกลับกัน ด้วยชุดที่มีขนาดเล็กมาก การเรียงลำดับรูปภาพจึงมีผลเพียงเล็กน้อยต่อเวลาในการค้นหา เนื่องจากรูปภาพที่ต้องการมักถูกจดจำและพบในทันที

ในการทดลองใช้สี่ชุดที่แตกต่างกัน ครั้งแรกประกอบด้วยสี RGB ที่สร้างขึ้นแบบสุ่ม 1,024 สี และใช้เพื่อกำหนดคุณภาพการรับรู้ของวิธีการเรียงลำดับแบบต่างๆ เท่านั้น สำหรับชุดภาพอื่นๆ อีกสามชุด เวลาในการค้นหาภาพที่ต้องการก็ถูกบันทึกไว้เช่นกัน ทั้งสามชุดนี้ได้รับเลือกในลักษณะที่แสดงถึงสถานการณ์การค้นหาที่แตกต่างกันในแง่หนึ่ง และยังคงมีความแตกต่างอย่างมากในความเร็วในการค้นหาระหว่างการจัดเรียงแบบเรียงลำดับและการจัดเรียงแบบสุ่มในอีกด้านหนึ่ง ชุดแรกประกอบด้วยป้ายจราจร 169 ป้ายที่สามารถแสดงบนกระดานภาพรวมได้ ชุดที่สองคือรูปภาพสินค้าเครื่องครัวของอิเกียจำนวน 256 รายการ ซึ่งมักจะแสดงบนเว็บไซต์อีคอมเมิร์ซ ชุดสุดท้ายประกอบด้วยรูปภาพ 400 ภาพสำหรับคำค้นหาที่ไม่เกี่ยวข้อง 70 คำที่รวบรวมข้อมูลจากอินเทอร์เน็ต ชุดนี้สามารถแสดงภาพถ่ายส่วนบุคคล

ชุดทดสอบสี่ชุดของการทดลอง: สี RGB 1024 สี ป้ายจราจร 169 รายการ เครื่องครัว 256 รายการ และรูปภาพ 400 ภาพสำหรับ 70 คำค้นหาจากอินเทอร์เน็ต

การดำเนินการทดลอง

การทดลองประกอบด้วยสองส่วน ในส่วนแรก การตั้งค่าของผู้เข้าร่วมจะถูกบันทึกโดยขอให้พวกเขาดูคู่ของการจัดเรียงรูปภาพที่จัดเรียงแล้วตัดสินใจว่าพวกเขาต้องการการจัดเรียงใดจากสองการจัดเรียง การจัดเรียงที่ต้องการคือ "มีโครงสร้างที่ชัดเจนกว่า ให้ภาพรวมที่ดีกว่า และทำให้ค้นหาภาพที่ค้นหาได้ง่ายขึ้น" ในส่วนที่สองของการทดลอง ผู้เข้าร่วมถูกขอให้ค้นหาภาพที่ค้นหาโดยจัดเรียงให้เร็วที่สุด มีการตรวจสอบว่าการตั้งค่าการเรียงลำดับของผู้เข้าร่วมช่วยให้ค้นหาได้เร็วขึ้นหรือไม่ นอกจากนี้ เรายังตรวจสอบว่าสามารถคาดการณ์เวลาในการค้นหาได้ดีเพียงใดโดยใช้คุณภาพของการจัดเรียง

ตรวจสอบวิธีการคัดแยกและการวัดคุณภาพ

ในการทดลองของเรา เราใช้วิธีการต่างๆ ในการสร้างการจัดเรียง นอกจากSelf Organizing Maps (SOM) แล้ว เรายังใช้Self Sorting Maps ( SSM), IsoMatchและการฉายภาพ t-SNE แบบแยก เราเปรียบเทียบวิธีการเหล่านี้กับแนวทางของเราเองLinear Assignment Sorting (LAS) และFast Linear Assignment Sorting(ฟลาซ). รายละเอียดเพิ่มเติมเกี่ยวกับอัลกอริทึมที่ใช้สำหรับแต่ละวิธีสามารถดูได้จากเอกสารเผยแพร่ข้างต้น เมื่อใดก็ตามที่เป็นไปได้ เราสร้างการจัดเตรียมหลายรายการโดยใช้การตั้งค่าพารามิเตอร์ที่แตกต่างกันสำหรับแต่ละวิธี เพื่อให้มีตัวอย่างคุณภาพการเรียงลำดับต่ำสำหรับการเปรียบเทียบ การจัดเรียงที่เรียงลำดับไม่ดีบางอย่างจะถูกสร้างขึ้นด้วย (กำหนดให้เป็น "คุณภาพต่ำ") ไม่ได้ใช้การจัดเรียงแบบสุ่มเนื่องจากจะนำไปสู่การหยุดชะงักของการทดสอบ เนื่องจากการค้นหารูปภาพอาจยากเกินไป

มีมาตรการสำหรับการประเมินการจัดเรียงแบบ 2 มิติ แต่ไม่มีการศึกษาใดที่แสดงว่าสิ่งเหล่านี้สะท้อนถึงคุณภาพที่มนุษย์รับรู้ได้ดีเพียงใด การวัดคุณภาพเหล่านี้เปรียบเทียบระยะทางของเวกเตอร์คุณลักษณะในมิติสูงกับระยะทางผลลัพธ์ของภาพบนตาราง 2 มิติ โดยปกติแล้ว จะใช้ฟังก์ชันความสัมพันธ์ข้ามหรือฟังก์ชันพลังงานปกติ แต่ทั้งคู่จะทำงานคล้ายกัน เราจึงเปรียบเทียบเฉพาะฟังก์ชันหลังเท่านั้น เราเสนอมาตรการใหม่ที่เรียกว่า “ Distance Preservation Quality ” (DPQ) สำหรับการประเมินการจัดเรียงแบบ 2 มิติ

คุณภาพการเรียงลำดับที่รับรู้

รูปภาพถัดไปแสดงภาพหน้าจอของส่วนแรกของการทดสอบ ผู้เข้าร่วมทั้งหมดได้แสดงการจัดเรียง 16 คู่ และพวกเขาถูกขอให้ตัดสินใจว่าพวกเขาชอบการจัดเรียงทางซ้ายหรือทางขวา หรือพิจารณาให้ทั้งคู่เท่ากัน

ภาพหน้าจอของการทดสอบส่วนแรก

เพื่อแยกอิทธิพลที่อาจเกิดขึ้นจากการประเมินที่ไม่มีความหมาย ในการทดลองแต่ละครั้ง จะมีการนำเสนอการเรียงลำดับคุณภาพที่แตกต่างกันอย่างมาก หากผู้เข้าร่วมต้องการการเรียงลำดับที่แย่กว่ามากในคู่นี้ การประเมินของพวกเขาสำหรับการจัดเรียงทั้งหมดจะถูกยกเลิก โดยรวมแล้ว มีการตรวจสอบการเรียงลำดับ 32 รายการสำหรับชุดสีและ 23 การเรียงลำดับสำหรับแต่ละชุดภาพทั้งสามชุด สอดคล้องกับฟุตบอลบุนเดสลีกาของเยอรมัน ซึ่งมี 18 ทีมและ 18∙17 = 306 เกมในหนึ่งฤดูกาล ซึ่งสอดคล้องกับการจับคู่ที่แตกต่างกัน 153 รายการ ในการทดลองนี้มีคู่ที่เป็นไปได้ 496 คู่สำหรับชุดสี และ 253 คู่ที่เป็นไปได้สำหรับแต่ละชุด จากภาพทั้งสามชุด

วิธีการที่คล้ายกันกับฟุตบอลถูกนำมาใช้เพื่อประเมินการเปรียบเทียบทั้งหมด ซึ่งการแข่งขันสามารถจบลงด้วยการชนะ แพ้ หรือเสมอกัน ในการเปรียบเทียบการเรียงลำดับสองรายการ การเรียงลำดับที่ต้องการได้รับหนึ่งคะแนน หากทั้งสองประเภทได้รับคะแนนเท่ากัน ทั้งคู่จะได้รับครึ่งคะแนน ตรงกันข้ามกับฟุตบอล ซึ่งมีสองเกมระหว่างสองทีมต่อฤดูกาล แต่ละคู่ที่จัดประเภทจะได้รับการประเมินอย่างน้อย 35 ครั้งโดยผู้เข้าร่วมที่แตกต่างกัน จากการประเมินเหล่านี้ ได้กำหนดคะแนนเฉลี่ยสำหรับการเรียงลำดับแต่ละครั้งในการจับคู่ คะแนนทั้งสองนี้ซึ่งรวมกันแล้วได้ 1 อธิบายถึงอัตราส่วนที่การเรียงลำดับแบบหนึ่งได้รับคะแนนดีกว่าอีกแบบหนึ่ง สำหรับการเปรียบเทียบโดยรวมของการเรียงลำดับทั้งหมด คะแนนที่ได้รับจากการเปรียบเทียบทุกคู่จะถูกรวมเข้าด้วยกัน

การวัดคุณภาพที่ประเมินคุณภาพการคัดแยกควรสอดคล้องกับการประเมินคุณภาพของผู้ใช้อย่างใกล้ชิด ตัวเลขต่อไปนี้แสดงความสัมพันธ์ของคะแนนผู้ใช้โดยเฉลี่ยของการเรียงลำดับ (คะแนนผู้ใช้) เทียบกับการวัดคุณภาพสองรายการที่ตรวจสอบ ในที่นี้ E'1 หมายถึง "ฟังก์ชันพลังงานปกติ" ที่ใช้กันทั่วไป และ DPQ หมายถึง "คุณภาพการรักษาระยะทาง" ที่เสนอโดยเรา สีของสัญลักษณ์แสดงถึงวิธีการเรียงลำดับแบบต่างๆ

1024 สี RGB: ความสัมพันธ์ระหว่างการให้คะแนนของผู้ใช้กับฟังก์ชันพลังงานปกติ (ซ้าย) และการรักษาระยะห่าง (ขวา) สังเกตได้ว่าการคัดแยกที่มนุษย์ให้คะแนนสูงกว่านั้นถือว่าแย่กว่าโดย "ฟังก์ชั่นพลังงานปกติ" ในทางกลับกัน ค่า "คุณภาพการรักษาระยะห่าง" (ขวา) จะเพิ่มขึ้นเพื่อการเรียงลำดับที่ดีขึ้น
ชุดรูปภาพ: ความสัมพันธ์ระหว่างการให้คะแนนของผู้ใช้กับฟังก์ชันพลังงานมาตรฐาน (ซ้าย) และคุณภาพการรักษาระยะห่าง (ขวา) รูปร่างสัญลักษณ์ระบุชุดภาพ ได้แก่ ป้ายจราจร (⬢) รายการเครื่องครัว (▲) และภาพอินเทอร์เน็ต (★)

ตัวเลขทั้งสองแสดงให้เห็นว่าการวัด DPQ ใหม่ของเรามีความสัมพันธ์ที่สูงขึ้นกับการให้คะแนนของผู้ใช้ ซึ่งหมายความว่าเหมาะสมกว่าสำหรับการทำนายคุณภาพการคัดแยกที่มนุษย์รับรู้

ค้นหาครั้ง

ในส่วนที่สองของการทดลอง ผู้ใช้ได้แสดงการจัดเรียงแบบต่างๆ ซึ่งแต่ละภาพจะพบภาพแบบสุ่มสี่ภาพ เมื่อพบภาพแล้ว ภาพถัดไปก็ปรากฏขึ้นทันที การเรียงลำดับที่ใช้เหมือนกับในส่วนแรกของการทดลอง

ภาพหน้าจอของส่วนที่สองของการทดลอง

แน่นอนว่าความยากในการค้นหารูปภาพนั้นขึ้นอยู่กับรูปภาพที่ค้นหาเป็นอย่างมาก เนื่องจากรูปภาพบางรูปจะเห็นได้ชัดเจนกว่ารูปภาพอื่นๆ นอกจากนี้ ผู้เข้าร่วมยังแตกต่างกันในความสามารถในการค้นหา ด้วยการทดลองเพียงไม่กี่ครั้ง ทั้งสองด้านนี้อาจบิดเบือนผลลัพธ์ได้อย่างมาก อย่างไรก็ตาม มีการดำเนินการค้นหาทั้งหมดมากกว่า 28,000 รายการ ซึ่งหมายความว่าสำหรับการจัดเรียงแต่ละครั้ง มีการค้นหามากกว่า 400 ครั้งสำหรับแต่ละภาพสี่ภาพ จำนวนที่สูงนี้ช่วยชดเชยทั้งความยากที่แตกต่างกันของภารกิจการค้นหาและความสามารถที่ไม่เท่ากันของผู้เข้าร่วม

ตัวเลขถัดไปแสดงการกระจายของเวลาค้นหาสำหรับการเรียงลำดับที่แตกต่างกัน 23 แบบสำหรับชุดสัญญาณไฟจราจรและรูปภาพทางอินเทอร์เน็ต (รูปภาพบนเว็บ) ค่ามัธยฐานของเวลาในการค้นหาสำหรับการเรียงลำดับต่างๆ จะแสดงเป็นเครื่องหมายสี อีกครั้ง สิ่งนี้แสดงให้เห็นความสัมพันธ์ที่แข็งแกร่ง (เชิงลบ) ของเวลาในการค้นหากับการวัด DPQ ของเรา เมื่อเทียบกับฟังก์ชันพลังงานปกติ

ความสัมพันธ์ของเวลาในการค้นหาค่ามัธยฐานกับฟังก์ชันพลังงานปกติ (ซ้าย) และคุณภาพการรักษาระยะห่างของเรา (ขวา)

เมื่อเปรียบเทียบการเรียงลำดับที่ช่วยให้สามารถค้นหาได้อย่างรวดเร็วกับผู้ที่ได้รับการจัดอันดับสูง ก็ยังมีการสังเกตข้อตกลงที่รัดกุมเช่นกัน อย่างไรก็ตาม สำหรับการค้นหาอย่างรวดเร็ว สิ่งที่สำคัญกว่าคือการจัดเรียงรูปภาพที่คล้ายกันทั้งหมดให้อยู่ใกล้กันมาก แม้ว่าการจัดเรียงโดยรวมของการจัดเรียงจะได้รับการจัดอันดับที่แย่กว่าเล็กน้อยก็ตาม รูปภาพถัดไปทางด้านซ้ายแสดงการเรียงลำดับที่ได้รับการจัดอันดับสูงสุดสำหรับชุดรูปภาพบนเว็บ และทางด้านขวาคือการเรียงลำดับเมื่อพบรูปภาพได้เร็วที่สุด ทางด้านซ้าย การเปลี่ยนภาพจะราบรื่นกว่า ในขณะที่ด้านขวา ภาพที่เกี่ยวข้องทั้งหมดจะอยู่ใกล้กัน ทำให้มีการเปลี่ยนภาพยาก

ซ้าย: การเรียงลำดับที่ได้คะแนนดีที่สุด; ขวา: การเรียงลำดับภาพที่ค้นหาพบเร็วที่สุด

การเปรียบเทียบวิธีการเรียงลำดับ

ขั้นตอนสุดท้ายคือการได้รับความเข้าใจที่ดีขึ้นเกี่ยวกับประสิทธิภาพของวิธีการคัดแยกแบบต่างๆ เนื่องจากรันไทม์ขึ้นอยู่กับฮาร์ดแวร์เป็นอย่างมาก เวลาที่กำหนดจึงใช้เป็นค่าอ้างอิงเท่านั้น เนื่องจากคุณภาพการรักษาระยะห่างมีความสัมพันธ์สูงกับการตั้งค่าของผู้ใช้ จึงถูกนำมาใช้เพื่อเปรียบเทียบคุณภาพการเรียงลำดับของอัลกอริทึมโดยขึ้นอยู่กับเวลาในการคำนวณที่ต้องการ

รูปถัดไปแสดงคุณภาพการคัดแยกที่ได้รับเทียบกับเวลาการคำนวณที่จำเป็นสำหรับวิธีการตรวจสอบในขณะที่เปลี่ยนแปลงพารามิเตอร์ของวิธีการ สำหรับชุดข้อมูลขนาดเล็ก เช่น อิมเมจเครื่องครัว 256 ภาพ วิธี FLAS ของเรามอบการประนีประนอมที่ดีที่สุดระหว่างคุณภาพและเวลาในการคำนวณ LAS และ t-SNE สามารถให้คุณภาพที่สูงขึ้นเล็กน้อย แต่ช้ากว่า 10 ถึง 100 เท่า สำหรับสี RGB แบบสุ่ม 1024 สี วิธี LAS และ FLAS ของเราได้รับคุณภาพการเรียงลำดับสูงสุด

คุณภาพการจัดเรียงเฉลี่ย (DPQ) เทียบกับรันไทม์เฉลี่ยสำหรับการตั้งค่าพารามิเตอร์ต่างๆ สำหรับการจัดเรียงรูปภาพเครื่องครัว 256 สี (ด้านบน) และสี RGB 1024 สี (ด้านล่าง)

การตรวจสอบอีกครั้งคือการตรวจสอบว่าคุณภาพและเวลาในการคำนวณทำงานอย่างไรสำหรับชุดภาพขนาดต่างๆ การตั้งค่าพารามิเตอร์ที่มีเครื่องหมาย ⦿ ในรูปก่อนหน้าถูกเลือกเพื่อจุดประสงค์นี้ ในขณะที่ SOM, SSM, LAS และ FLAS สามารถสร้างการเรียงลำดับที่ดีขึ้นสำหรับรูปภาพจำนวนมากขึ้น แต่การเรียงลำดับสำหรับ t-SNE และ IsoMatch กลับแย่ลง

ค่าเฉลี่ยที่ได้คุณภาพการเรียงลำดับตามฟังก์ชันของเวลาในการคำนวณที่จำเป็นสำหรับสีสุ่ม 256 (.), 1024 (•) และ 4096 (⚈) RGB สำหรับวิธีการเรียงลำดับที่แตกต่างกัน

ผลการทดลอง

โดยรวมแล้วเราพอใจมากกับผลการทดลอง เนื่องจากสามารถตอบคำถามที่ตั้งไว้ก่อนหน้านี้ได้อย่างชัดเจน แสดงให้เห็นว่ามนุษย์สามารถค้นหารูปภาพได้เร็วขึ้นอย่างมากในการจัดเรียง เมื่อวิเคราะห์การจัดเรียงรูปภาพที่ผู้คนเห็นว่าถูกใจและเป็นประโยชน์ พบว่าความคล้ายคลึงกันในท้องถิ่นสูงของรูปภาพใกล้เคียงมีความสำคัญมากกว่าการรักษาความสัมพันธ์ความคล้ายคลึงกันของรูปภาพทั้งหมดโดยรวม นอกจากนี้ ข้อเสนอของเราสำหรับการประเมินคุณภาพของการจัดเรียงรูปภาพแบบใหม่นั้นดีกว่าวิธีก่อนหน้าอย่างมากในการสะท้อนคุณภาพที่มนุษย์รับรู้

เป็นที่ชัดเจนว่าวิธีการคัดแยก LAS และ FLAS ของเราสามารถสร้างการคัดแยกคุณภาพสูงได้ และ FLAS ก็มีประสิทธิภาพมากเช่นกัน นอกจากนี้ วิธีการของเรายังเสนอตัวเลือกที่หลากหลายเพื่อมีอิทธิพลต่อการจัดเรียง เช่น ตำแหน่งคงที่ของภาพบางภาพ หรือความสามารถในการใช้เลย์เอาต์อื่นที่ไม่ใช่สี่เหลี่ยมผืนผ้า วิธี FLAS (ร่วมกับกราฟรูปภาพ) รวดเร็วมากจนสามารถสำรวจรูปภาพนับล้านด้วยสายตาได้ Navigu.netเป็นตัวอย่างของเครื่องมือสำรวจภาพ

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับงานวิจัยของเรา โปรดไปที่www.visual-computing.com

ซ้าย: ธงที่เรียงกันโดยมีธงชาติอเมริกันติดอยู่ที่ตำแหน่งกึ่งกลางด้านล่าง ขวา: 2404 สี RGB จัดเรียงเป็นรูปหัวใจ