Lý thuyết về cách tiếp cận của Tesla đối với việc học bắt chước

Làm cách nào Tesla có thể tận dụng tốt nhất đội xe khoảng 600.000 xe được trang bị phần cứng "Tự lái hoàn toàn"? Cụ thể hơn, nó có thể tận dụng đội tàu này để học bắt chước như thế nào : đào tạo mạng lưới thần kinh để mô phỏng hành vi của con người. Đơn giản chỉ thu thập tất cả dữ liệu từ tất cả các ô tô sẽ không hữu ích. Sau một thời điểm nhất định, mạng nơ-ron sẽ nắm vững các đường đi theo làn đường trên các đoạn thẳng của đường cao tốc. Việc bổ sung thêm các ví dụ về điều đó vào đống dữ liệu chỉ làm suy yếu tập dữ liệu và làm sai lệch các mạng nơ-ron về hướng nghĩ rằng chúng nên lái thẳng về phía trước. Chúng ta cần thu hẹp những gì chúng ta thu thập được.
Có tất cả các cách để kích hoạt tải lên. Khi người lái xe phanh gấp hoặc giật bánh. Khi mạng nơ-ron phát hiện một loại đối tượng nhất định như ngựa hoặc một loại cảnh nhất định như khu vực xây dựng. Một ý tưởng khác là đào tạo mạng lưới thần kinh để lái xe thông qua học bắt chước và sau đó chạy chúng một cách thụ động trong xe bất cứ khi nào con người lái xe. Bất cứ lúc nào đầu ra của mạng thần kinh là một hành động khác với những gì trình điều khiển con người thực sự đã làm, sẽ kích hoạt tải lên. Elon Musk đã ám chỉ đến khả năng của Tesla trong việc chạy phần mềm tự lái một cách thụ động trên ô tô, gọi nó là “chế độ bóng tối”. Mục đích đã nêu của chế độ bóng là để so sánh đầu ra của phần mềm với hành động của con người. Vì vậy, việc chọn dữ liệu nào để thu thập cho việc học bắt chước có vẻ là một ứng dụng hoàn hảo cho chế độ bóng tối.
Ý tưởng này tương tự như những gì Tesla làm để thu thập dữ liệu cho các mạng dự đoán hành vi của mình. Cụ thể, máy dò cắt của nó:
Máy dò cắt dự đoán những gì một chiếc xe sẽ làm. Khi chiếc ô tô làm điều gì đó khác với những gì máy phát hiện vết cắt dự đoán, ví dụ được tải lên để đào tạo thêm cho máy dò vết cắt.
Dự đoán hành vi và tạo ra hành vi - mà học bắt chước là một cách tiếp cận - là hai mặt của cùng một đồng tiền. Các mạng lưới dự đoán hành vi dự đoán những người lái xe xung quanh Tesla sẽ làm gì. Các mạng bắt chước dự đoán người lái xe bên trong Tesla sẽ làm gì. Trong cả hai trường hợp, nguyên tắc giống nhau được áp dụng: khi mạng đưa ra dự đoán không chính xác, hãy tải lên dữ liệu và đào tạo về ví dụ đó.
Về lý thuyết, Tesla có thể kiểm tra một cách thụ động mức độ thường xuyên mà mạng lưới bắt chước và người lái xe không đồng ý. Một khi các bất đồng dưới ngưỡng an toàn nhất định, các mạng bắt chước có thể chuyển sang vận hành tính năng Lái xe tự động như rẽ phải tự động. Khi điều đó xảy ra, có thể sử dụng các biện pháp can thiệp Autopilot để kích hoạt tải lên. Đây có thể là ý của Elon khi anh ấy nói "xem tất cả đầu vào là lỗi":
Khi trình điều khiển của con người tiếp quản Autopilot, họ sẽ nhanh chóng chứng minh những gì Autopilot nên làm - bằng cách thực hiện nó. Các lỗi bắt chước do đó tạo ra các ví dụ đào tạo mới. Đó là nguyên tắc tương tự như máy phát hiện cắt: các trường hợp hỏng hóc là các ví dụ đào tạo.
hạm đội của Tesla đang thúc đẩy một cái gì đó vào thứ tự của 20 triệu dặm (32 triệu km) mỗi ngày. Các can thiệp của chế độ Shadow và Autopilot là hai cách tiềm năng để tự động quản lý dữ liệu đội xe và chỉ tải lên các ví dụ hữu ích nhất. Nếu các cặp hành động trạng thái để học bắt chước là đầu ra của mạng tầm nhìn (trạng thái) và đường đi của ô tô được xác định bởi người lái xe (hành động), thì dữ liệu cũng tự động được gắn nhãn. Vì vậy, đường ống học máy có thể được tự động hóa tất cả các cách từ thu thập dữ liệu đến đào tạo mạng thần kinh. Tự động hóa cho phép Tesla tận dụng dữ liệu gấp 250 lần so với tất cả các đối thủ cạnh tranh cộng lại mà không cần sử dụng lượng lao động con người cao hơn tương đối.
Điểm nghẽn rõ ràng nhất đối với phương pháp học bắt chước (một phần giả thuyết) này là giải quyết thị giác máy tính. Đây là điều mà nhóm thị giác máy tính của Tesla, do Andrej Karpathy dẫn đầu, đang tích cực làm việc. Karpathy và các đồng nghiệp của anh ấy đang phát triển một mạng lưới đa tác vụ rộng lớn mà vẫn chưa được triển khai cho xe hơi sản xuất (theo tôi biết). Lần gần đây nhất chúng tôi được biết, chỉ 5–10% phần cứng điện toán mới của Tesla đang được sử dụng. Trước đây, Karpathy bày tỏ sự hào hứng về việc triển khai các mạng nơ-ron mới lớn hơn mà không thể phù hợp với phần cứng cũ. Chúng tôi chưa nhìn thấy chúng.
Đây là một quá trình có thể bị chậm lại ở nhiều thời điểm: công việc phát triển mạng nơ-ron của Karpathy và nhóm, công việc ghi nhãn dữ liệu bởi các nhà chú giải con người của Tesla, phát triển phần mềm ghi nhãn dữ liệu, quá trình đào tạo mạng nơ-ron (đó là một đánh đổi giữa tiền bạc và thời gian), và thử nghiệm mạng lưới tầm nhìn mới trên ô tô tại hiện trường. Dòng thời gian của Elon sẽ gợi ý rằng chúng ta sẽ thấy mạng lưới tầm nhìn mới trên ô tô sản xuất vào cuối năm nay, nhưng quá trình này rất khó dự đoán và Elon thường nhảy súng. Điểm quan trọng là đây là một nút cổ chai khá nhị phân: mạng tầm nhìn lớn hơn, chuyên sâu hơn về tính toán được triển khai hoặc không. Khi nó được triển khai, việc học bắt chước có thể bắt đầu một cách nghiêm túc. Tương tự với dự đoán hành vi, tuân theo cùng một quy trình học máy tự động như học bắt chước. Dự đoán hành vi chỉ là mặt trái của việc tạo ra hành vi. Dự đoán hành vi dự đoán hành vi của người lái xe khác. Thế hệ hành vi dự đoán hành vi của người lái xe Tesla.
Học bắt chước và dự đoán hành vi sẽ vẫn bị chậm lại do phát triển mạng nơ-ron, chạy đào tạo và thử nghiệm hiện trường, nhưng không gắn nhãn. Một số phần mềm không phải học sâu cũng phải được viết, chẳng hạn như phần mềm điều khiển chuyển các hành vi cấp cao thành các lệnh của cơ cấu chấp hành (tức là phanh, tăng tốc và đánh lái). Những yếu tố chậm lại này khiến chúng ta khó dự đoán khi nào chúng ta sẽ thấy Tesla thực hiện việc học bắt chước ở mức tối đa. Giả sử Tesla có thể tuyển dụng các nhà nghiên cứu và kỹ sư học sâu hàng đầu trong lĩnh vực của họ trên toàn cầu, thì khi tính năng học bắt chước được phát huy hết tác dụng, hiệu suất của phần mềm của Tesla sẽ chỉ bị giới hạn bởi các nguyên tắc cơ bản của học sâu (như nó tồn tại ngày nay ). Theo nghĩa đó, công trình của Tesla về học bắt chước sẽ là một thử nghiệm khoa học về các nguyên tắc cơ bản của học sâu. Đó sẽ là một kết quả thực nghiệm không thể có được bởi bất kỳ tổ chức học thuật hoặc phòng thí nghiệm công ty nào. Giống như các thí nghiệm khác, kết quả không thể được dự đoán một cách chắc chắn.
Vào năm 2021, nếu tất cả các công việc hiện đang được thực hiện và việc học bắt chước đang có hiệu lực, thì chúng ta có thể bắt đầu rút ra kết luận cơ bản về học sâu (như nó tồn tại ngày nay) từ việc thực hiện sản xuất Teslas trong tự nhiên. Cho đến khi công việc đó hoàn thành, chúng ta sẽ không biết liệu cách tiếp cận của Tesla về cơ bản không hoạt động hay liệu nó vẫn chưa được thử một cách nghiêm túc.
Học bắt chước có thể không thành công hoặc có thể hóa ra rằng học có giám sát sâu (như chúng ta biết) không đủ để giải quyết các nhiệm vụ thị giác máy tính 3D cần thiết để lái xe. Có thể về cơ bản chúng ta cần các kiến trúc mạng nơ-ron mới và sáng tạo, hoặc có thể, như Yann LeCun đề xuất, chúng ta cần chuyển sang học tự giám sát. Có lẽ câu trả lời là học end-to-end. Nó đã làm việc cho Quake!
Học bắt chước có thể thất bại vì một số lý do. Có thể những tình huống hoàn toàn mới lạ phát sinh quá thường xuyên nên không có cơ hội học hỏi từ chúng trước khi chúng gây nhầm lẫn cho một chiếc xe trên Autopilot. Có thể thay vì phản ánh đầy đủ sự đa dạng và phức tạp của các thao tác lái xe, các mạng bắt chước sẽ lùi về mức trung bình và chỉ làm trung bình của các cuộc trình diễn mà chúng được đào tạo. Có thể việc học bắt chước sẽ không thể đưa tỷ lệ lỗi của nó xuống dưới ngưỡng chấp nhận được để lái xe an toàn.
Hoặc nó có thể hóa ra rằng, khi đội xe của Tesla phát triển lên 1 triệu xe và hơn thế nữa, việc mở rộng dữ liệu đào tạo lên 1000 lần khiến các kỹ thuật hiện đại hiện có hoạt động - có lẽ cùng với một số đổi mới gia tăng từ các nhà nghiên cứu và kỹ sư của Tesla. Nhiều thành công về học sâu sẽ không xảy ra với dữ liệu đào tạo thứ 1/1000. Giải quyết vấn đề với dữ liệu khan hiếm là AGI hoặc thứ gì đó đang tiếp cận nó. Giải quyết các vấn đề với dữ liệu lớn là học sâu.
Trường hợp thất bại của con người - tai nạn - xảy ra về mỗi 500.000 dặm (800.000 km). Với 20 triệu dặm (32 triệu km) lái xe của con người, bạn sẽ có khoảng 40 ví dụ về các tai nạn. Với 20 tỷ dặm, bạn muốn có khoảng 40.000 ví dụ. Điều đó nghe giống như quy mô học sâu. Nếu tỷ lệ tai nạn con người là dấu hiệu của tỷ lệ các trường hợp cạnh hiếm và quy mô tổng thể cần thiết để nắm bắt sự đa dạng đầy đủ và tính phức tạp của lái xe, sau đó hàng tỉ dặm - và không triệu - là quy mô đúng đắn. Ở mức 20 triệu dặm một ngày, hạm đội hiện tại của Tesla đang lái xe với tốc độ từ 7 đến 8 tỷ dặm mỗi năm. (Đó là trước khi tính bất kỳ chiếc xe mới nào sẽ được thêm vào đội xe.)
Nếu cách tiếp cận của Tesla thành công, chúng ta sẽ không chỉ có xe tự lái. Chúng tôi cũng sẽ biết rằng quy mô làm cho các kỹ thuật hiện có hoạt động cho rô bốt. Có thể không dễ dàng để khiến con người vận hành các robot không phải ô tô trong hàng triệu giờ, nhưng một khi con đường kỹ thuật được chứng minh, có thể tính kinh tế sẽ thành công. Với 15 đô la / giờ, 100 triệu giờ biểu diễn là 1,5 tỷ đô la - ít hơn những gì Cruise chi tiêu trong hai năm. Có thể các nhà máy, hầm mỏ, trang trại, công trường xây dựng, nhà kho, cửa hàng và nhà hàng có thể sử dụng robot để làm cho loại chi tiêu R&D này trở nên đáng giá.
Nếu cách tiếp cận của Tesla không thành công, có một kế hoạch B. Tesla đang phát triển một máy tính đào tạo mạng thần kinh được gọi là Dojo. Mục đích sử dụng của nó là không rõ ràng, nhưng nó có thể dành cho học tập tự giám sát hoặc học tập từ đầu đến cuối . Đây là những cách tiếp cận tiên tiến hơn so với cách tiếp cận hiện tại của Tesla về học tập có giám sát đối với thị giác máy tính. Học tập tự giám sát có thể tốt hơn học tập có giám sát bằng cách tận dụng các đơn đặt hàng dữ liệu video lớn hơn mà không cần con người dán nhãn. Học tập từ đầu đến cuối sẽ loại bỏ những điều trừu tượng do con người tạo ra như các hộp giới hạn hiện đang nằm giữa thị giác máy tính và học bắt chước. Nó có thể ở dạng học bắt chước từ đầu đến cuối, học tăng cường từ đầu đến cuối hoặc cả hai. Việc lùi lại kế hoạch B có thể sẽ lùi thời gian của Tesla cho hoạt động rô-bốt theo năm tháng và kế hoạch B không được đảm bảo sẽ hoạt động. Nhưng nó có nghĩa là thất bại không phải là kết thúc của dòng.