Các quy tắc về việc sử dụng dấu gạch dưới trong mã định danh C ++ là gì?
Trong C ++, việc đặt tên cho các biến thành viên với một số loại tiền tố để biểu thị thực tế rằng chúng là các biến thành viên, chứ không phải là các biến hoặc tham số cục bộ. Nếu bạn đến từ nền MFC, bạn có thể sẽ sử dụng m_foo
. Tôi cũng myFoo
thỉnh thoảng nhìn thấy .
C # (hoặc có thể chỉ .NET) dường như khuyên bạn chỉ nên sử dụng dấu gạch dưới, như trong _foo
. Điều này có được phép theo tiêu chuẩn C ++ không?
Trả lời
Các quy tắc (không thay đổi trong C ++ 11):
- Được bảo lưu trong bất kỳ phạm vi nào, bao gồm cả để sử dụng làm macro triển khai :
- số nhận dạng bắt đầu bằng dấu gạch dưới, ngay sau đó là chữ hoa
- số nhận dạng có chứa dấu gạch dưới liền kề (hoặc "dấu gạch dưới kép")
- Được dành riêng trong không gian tên chung:
- số nhận dạng bắt đầu bằng dấu gạch dưới
- Ngoài ra, mọi thứ trong
std
không gian tên đều được bảo lưu. (Tuy nhiên, bạn được phép thêm các chuyên môn mẫu.)
Từ Tiêu chuẩn C ++ 2003:
17.4.3.1.2 Tên toàn cầu [lib.global.names]
Một số bộ tên và chữ ký hàm nhất định luôn được dành riêng cho việc triển khai:
- Mỗi tên có chứa dấu gạch dưới kép (
__
) hoặc bắt đầu bằng dấu gạch dưới theo sau là chữ hoa (2.11) được dành riêng cho việc triển khai cho bất kỳ mục đích sử dụng nào.- Mỗi tên bắt đầu bằng dấu gạch dưới được dành riêng cho việc triển khai để sử dụng làm tên trong không gian tên chung. 165
165) Những tên như vậy cũng được dành riêng trong không gian tên
::std
(17.4.3.1).
Vì C ++ dựa trên tiêu chuẩn C (1.1 / 2, C ++ 03) và C99 là tham chiếu chuẩn (1.2 / 1, C ++ 03) nên những tiêu chuẩn này cũng được áp dụng, từ Tiêu chuẩn C 1999:
7.1.3 Số nhận dạng dành riêng
Mỗi tiêu đề khai báo hoặc xác định tất cả các số nhận dạng được liệt kê trong điều khoản phụ được liên kết và khai báo hoặc xác định tùy chọn các số nhận dạng được liệt kê trong mệnh đề phụ hướng thư viện tương lai được liên kết và số nhận dạng luôn được dành riêng cho bất kỳ mục đích sử dụng nào hoặc để sử dụng làm số nhận dạng phạm vi tệp.
- Tất cả các số nhận dạng bắt đầu bằng dấu gạch dưới và chữ hoa hoặc dấu gạch dưới khác luôn được dành riêng cho bất kỳ mục đích sử dụng nào.
- Tất cả các số nhận dạng bắt đầu bằng dấu gạch dưới luôn được dành riêng để sử dụng làm số nhận dạng với phạm vi tệp trong cả không gian tên thẻ và thông thường.
- Mỗi tên macro trong bất kỳ điều khoản con nào sau đây (bao gồm cả hướng thư viện trong tương lai) được dành riêng để sử dụng như đã chỉ định nếu có bất kỳ tiêu đề liên quan nào của nó; trừ khi có quy định rõ ràng khác (xem 7.1.4).
- Tất cả các số nhận dạng có liên kết bên ngoài trong bất kỳ điều khoản phụ nào sau đây (bao gồm cả các hướng thư viện trong tương lai) luôn được dành riêng để sử dụng làm số nhận dạng có liên kết bên ngoài. 154
- Mỗi số nhận dạng có phạm vi tệp được liệt kê trong bất kỳ điều khoản con nào sau đây (bao gồm cả các hướng thư viện trong tương lai) được dành riêng để sử dụng làm tên macro và làm số nhận dạng có phạm vi tệp trong không gian cùng tên nếu có bất kỳ tiêu đề liên quan nào của nó.
Không có số nhận dạng nào khác được bảo lưu. Nếu chương trình khai báo hoặc xác định một số nhận dạng trong ngữ cảnh mà nó được dành riêng (khác với 7.1.4 cho phép) hoặc xác định một số nhận dạng dành riêng dưới dạng tên macro, thì hành vi đó là không xác định.
Nếu chương trình loại bỏ (với
#undef
) bất kỳ định nghĩa macro nào của số nhận dạng trong nhóm đầu tiên được liệt kê ở trên, thì hành vi đó là không xác định.154) Danh mục các định danh dè chừng liên kết bên ngoài bao gồm
errno
,math_errhandling
,setjmp
, vàva_end
.
Các hạn chế khác có thể được áp dụng. Ví dụ: tiêu chuẩn POSIX dự trữ rất nhiều số nhận dạng có khả năng hiển thị trong mã bình thường:
- Tên bắt đầu bằng
E
chữ hoa theo sau một chữ số hoặc chữ hoa:- có thể được sử dụng cho các tên mã lỗi bổ sung.
- Tên bắt đầu bằng một trong hai
is
hoặcto
theo sau bằng chữ thường- có thể được sử dụng cho các chức năng chuyển đổi và kiểm tra ký tự bổ sung.
- Những tên bắt đầu
LC_
bằng chữ cái viết hoa theo sau- có thể được sử dụng cho các macro bổ sung chỉ định thuộc tính ngôn ngữ.
- Tên của tất cả các hàm toán học hiện có kèm theo
f
hoặcl
được đặt trước- cho các hàm tương ứng hoạt động trên đối số float và đối số kép dài, tương ứng.
- Những tên bắt đầu
SIG
bằng chữ cái viết hoa được đặt trước- cho các tên tín hiệu bổ sung.
- Những tên bắt đầu
SIG_
bằng chữ cái viết hoa được đặt trước- cho các hành động tín hiệu bổ sung.
- Tên bắt đầu với
str
,mem
hoặcwcs
theo sau là một chữ cái thường được dành riêng- cho các hàm chuỗi và mảng bổ sung.
- Tên bắt đầu bằng
PRI
hoặcSCN
theo sau bởi bất kỳ chữ cái thường nào hoặcX
được đặt trước- cho các macro bổ sung định dạng
- Những tên kết thúc bằng đã
_t
được đặt trước- cho các tên loại bổ sung.
Mặc dù việc sử dụng những tên này cho mục đích của riêng bạn ngay bây giờ có thể không gây ra vấn đề gì, nhưng chúng sẽ làm tăng khả năng xung đột với các phiên bản tương lai của tiêu chuẩn đó.
Cá nhân tôi chỉ không bắt đầu số nhận dạng bằng dấu gạch dưới. Bổ sung mới cho quy tắc của tôi: Không sử dụng dấu gạch dưới kép ở bất kỳ đâu, điều này rất dễ dàng vì tôi hiếm khi sử dụng dấu gạch dưới.
Sau khi thực hiện nghiên cứu về bài viết này, tôi không còn kết thúc số nhận dạng của mình nữa _t
vì điều này được bảo lưu bởi tiêu chuẩn POSIX.
Quy tắc về bất kỳ số nhận dạng nào kết thúc bằng _t
làm tôi ngạc nhiên rất nhiều. Tôi nghĩ rằng đó là một tiêu chuẩn POSIX (chưa chắc chắn) đang tìm kiếm sự làm rõ và chương và câu chính thức. Đây là từ hướng dẫn sử dụng GNU libtool , liệt kê các tên đã đặt trước.
CesarB đã cung cấp liên kết sau đến các ký hiệu và ghi chú dành riêng cho POSIX 2004 'rằng nhiều tiền tố và hậu tố dành riêng khác ... có thể được tìm thấy ở đó'. Các ký hiệu dành riêng cho POSIX 2008 được xác định ở đây. Các hạn chế có phần nhiều sắc thái hơn những hạn chế ở trên.
Các quy tắc để tránh xung đột tên đều có trong tiêu chuẩn C ++ (xem sách Stroustrup) và được đề cập bởi các chuyên gia C ++ (Sutter, v.v.).
Quy tắc cá nhân
Bởi vì tôi không muốn giải quyết các trường hợp và muốn có một quy tắc đơn giản, tôi đã thiết kế một quy tắc cá nhân vừa đơn giản vừa chính xác:
Khi đặt tên cho một biểu tượng, bạn sẽ tránh được va chạm với trình biên dịch / hệ điều hành / thư viện tiêu chuẩn nếu bạn:
- không bao giờ bắt đầu một biểu tượng bằng dấu gạch dưới
- không bao giờ đặt tên cho một biểu tượng có hai dấu gạch dưới liên tiếp bên trong.
Tất nhiên, đặt mã của bạn trong một không gian tên duy nhất cũng giúp tránh va chạm (nhưng sẽ không bảo vệ khỏi các macro xấu)
Vài ví dụ
(Tôi sử dụng macro vì chúng là ký hiệu C / C ++ gây ô nhiễm mã hơn, nhưng nó có thể là bất kỳ thứ gì từ tên biến đến tên lớp)
#define _WRONG
#define __WRONG_AGAIN
#define RIGHT_
#define WRONG__WRONG
#define RIGHT_RIGHT
#define RIGHT_x_RIGHT
Trích xuất từ bản nháp C ++ 0x
Từ tệp n3242.pdf (Tôi hy vọng văn bản tiêu chuẩn cuối cùng sẽ tương tự):
17.6.3.3.2 Tên toàn cầu [global.names]
Một số bộ tên và chữ ký hàm nhất định luôn được dành riêng cho việc triển khai:
- Mỗi tên chứa dấu gạch dưới kép _ _ hoặc bắt đầu bằng dấu gạch dưới theo sau là chữ hoa (2.12) được dành riêng cho việc triển khai cho bất kỳ mục đích sử dụng nào.
- Mỗi tên bắt đầu bằng dấu gạch dưới được dành riêng cho việc triển khai để sử dụng làm tên trong không gian tên chung.
Nhưng cũng:
17.6.3.3.5 Các hậu tố theo nghĩa đen do người dùng xác định [usrlit.suffix]
Các mã định danh hậu tố theo nghĩa đen không bắt đầu bằng dấu gạch dưới được dành riêng cho quá trình tiêu chuẩn hóa trong tương lai.
Mệnh đề cuối cùng này gây nhầm lẫn, trừ khi bạn cho rằng tên bắt đầu bằng một dấu gạch dưới và theo sau là một chữ thường sẽ là Ok nếu không được xác định trong không gian tên chung ...
Từ MSDN :
Việc sử dụng hai ký tự gạch dưới tuần tự (__) ở đầu số nhận dạng hoặc một dấu gạch dưới đứng đầu theo sau là một ký tự viết hoa, được dành riêng cho việc triển khai C ++ trong tất cả các phạm vi. Bạn nên tránh sử dụng một dấu gạch dưới đầu tiên theo sau là một chữ cái thường cho các tên có phạm vi tệp vì có thể có xung đột với các số nhận dạng dành riêng hiện tại hoặc trong tương lai.
Điều này có nghĩa là bạn có thể sử dụng một dấu gạch dưới duy nhất làm tiền tố biến thành viên, miễn là nó được theo sau bởi một chữ cái thường.
Điều này dường như được lấy từ phần 17.4.3.1.2 của tiêu chuẩn C ++, nhưng tôi không thể tìm thấy nguồn gốc cho tiêu chuẩn đầy đủ trực tuyến.
Xem thêm câu hỏi này .
Đối với phần khác của câu hỏi, người ta thường đặt dấu gạch dưới ở cuối tên biến để không đụng độ với bất kỳ thứ gì bên trong.
Tôi làm điều này ngay cả bên trong các lớp và không gian tên vì sau đó tôi chỉ phải nhớ một quy tắc (so với "ở cuối tên trong phạm vi toàn cục và đầu tên ở mọi nơi khác").
Có, dấu gạch dưới có thể được sử dụng ở bất kỳ đâu trong số nhận dạng. Tôi tin rằng các quy tắc là: bất kỳ az, AZ, _ trong ký tự đầu tiên và + 0-9 cho các ký tự sau.
Tiền tố gạch dưới phổ biến trong mã C - một dấu gạch dưới đơn có nghĩa là "riêng tư" và dấu gạch dưới kép thường được trình biên dịch sử dụng.