Python 3 - Ekspresi Reguler

Sebuah ekspresi reguler adalah urutan khusus karakter yang membantu Anda mencocokkan atau menemukan string lain atau set string, menggunakan sintaks khusus yang diadakan di pola. Ekspresi reguler banyak digunakan di dunia UNIX.

Modul remenyediakan dukungan penuh untuk ekspresi reguler seperti Perl dengan Python. Iture modul memunculkan pengecualian re.error jika terjadi kesalahan saat menyusun atau menggunakan ekspresi reguler.

Kami akan membahas dua fungsi penting, yang akan digunakan untuk menangani ekspresi reguler. Namun demikian, hal kecil terlebih dahulu: Ada berbagai karakter, yang akan memiliki arti khusus bila digunakan dalam ekspresi reguler. Untuk menghindari kebingungan saat berurusan dengan ekspresi reguler, kami akan menggunakan String Mentah sebagair'expression'.

Pola dasar yang cocok dengan karakter tunggal

Sr.No. Ekspresi & Kecocokan
1

a, X, 9, <

karakter biasa hanya cocok dengan dirinya sendiri.

2

. (a period)

cocok dengan salah satu karakter kecuali baris baru '\ n'

3

\w

cocok dengan karakter "kata": huruf atau angka atau garis bawah [a-zA-Z0-9_].

4

\W

cocok dengan karakter non-kata apa pun.

5

\b

batas antara kata dan bukan kata

6

\s

cocok dengan satu karakter spasi - spasi, baris baru, kembali, tab

7

\S

cocok dengan karakter non-spasi apa pun.

8

\t, \n, \r

tab, baris baru, kembali

9

\d

digit desimal [0-9]

10

^

cocok dengan awal string

11

$

cocokkan ujung string

12

\

menghambat "keistimewaan" karakter.

Bendera kompilasi

Tanda kompilasi memungkinkan Anda mengubah beberapa aspek tentang cara kerja ekspresi reguler. Bendera tersedia di modul re dengan dua nama, nama yang panjang sepertiIGNORECASE dan formulir pendek satu huruf seperti I.

Sr.No. Bendera & Arti
1

ASCII, A

Membuat beberapa pelolosan seperti \ w, \ b, \ s dan \ d hanya cocok pada karakter ASCII dengan propertinya masing-masing.

2

DOTALL, S

Buat, cocokkan karakter apa pun, termasuk baris baru

3

IGNORECASE, I

Lakukan pencocokan tidak peka huruf besar / kecil

4

LOCALE, L

Lakukan pencocokan sadar-lokal

5

MULTILINE, M

Pencocokan multi-baris, memengaruhi ^ dan $

6

VERBOSE, X (for ‘extended’)

Aktifkan RE verbose, yang dapat diatur dengan lebih rapi dan mudah dipahami

Fungsi pertandingan

Fungsi ini mencoba untuk mencocokkan pola RE ke string dengan flag opsional .

Berikut adalah sintaks untuk fungsi ini -

re.match(pattern, string, flags = 0)

Berikut adalah deskripsi parameter -

Sr.No. Parameter & Deskripsi
1

pattern

Ini adalah ekspresi reguler yang akan dicocokkan.

2

string

Ini adalah string yang akan dicari agar cocok dengan pola di awal string.

3

flags

Anda dapat menentukan flag yang berbeda menggunakan bitwise OR (|). Ini adalah pengubah, yang tercantum dalam tabel di bawah.

Fungsi re.match mengembalikan amatch keberatan atas kesuksesan, Nonetentang kegagalan. Kami menggunakan fungsi group (num) atau groups () darimatch objek untuk mendapatkan ekspresi yang cocok.

Sr.No. Metode & Deskripsi Objek Pertandingan
1

group(num = 0)

Metode ini mengembalikan seluruh pertandingan (atau subkelompok tertentu num)

2

groups()

Metode ini mengembalikan semua subkelompok yang cocok dalam tupel (kosong jika tidak ada)

Contoh

#!/usr/bin/python3
import re

line = "Cats are smarter than dogs"

matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)

if matchObj:
   print ("matchObj.group() : ", matchObj.group())
   print ("matchObj.group(1) : ", matchObj.group(1))
   print ("matchObj.group(2) : ", matchObj.group(2))
else:
   print ("No match!!")

Ketika kode di atas dijalankan, itu menghasilkan hasil sebagai berikut -

matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter

Fungsi Pencarian

Fungsi ini mencari kemunculan pertama pola RE dalam string dengan flag opsional .

Berikut adalah sintaks untuk fungsi ini -

re.search(pattern, string, flags = 0)

Berikut adalah deskripsi parameter -

Sr.No. Parameter & Deskripsi
1

pattern

Ini adalah ekspresi reguler yang akan dicocokkan.

2

string

Ini adalah string, yang akan dicari agar cocok dengan pola di mana pun dalam string.

3

flags

Anda dapat menentukan flag yang berbeda menggunakan bitwise OR (|). Ini adalah pengubah, yang tercantum dalam tabel di bawah.

Fungsi re.search mengembalikan amatch keberatan atas kesuksesan, nonetentang kegagalan. Kami menggunakan fungsi group (num) atau groups () darimatch objek untuk mendapatkan ekspresi yang cocok.

Sr.No. Metode & Deskripsi Objek Pertandingan
1

group(num = 0)

Metode ini mengembalikan seluruh pertandingan (atau subkelompok tertentu num)

2

groups()

Metode ini mengembalikan semua subkelompok yang cocok dalam tupel (kosong jika tidak ada)

Contoh

#!/usr/bin/python3
import re

line = "Cats are smarter than dogs";

searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I)

if searchObj:
   print ("searchObj.group() : ", searchObj.group())
   print ("searchObj.group(1) : ", searchObj.group(1))
   print ("searchObj.group(2) : ", searchObj.group(2))
else:
   print ("Nothing found!!")

Ketika kode di atas dijalankan, itu menghasilkan hasil sebagai berikut -

matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter

Mencocokkan versus Pencarian

Python menawarkan dua operasi primitif berbeda berdasarkan ekspresi reguler: match memeriksa kecocokan hanya di awal string, sementara search memeriksa kecocokan di mana saja dalam string (ini yang Perl lakukan secara default).

Contoh

#!/usr/bin/python3
import re

line = "Cats are smarter than dogs";

matchObj = re.match( r'dogs', line, re.M|re.I)
if matchObj:
   print ("match --> matchObj.group() : ", matchObj.group())
else:
   print ("No match!!")

searchObj = re.search( r'dogs', line, re.M|re.I)
if searchObj:
   print ("search --> searchObj.group() : ", searchObj.group())
else:
   print ("Nothing found!!")

Ketika kode di atas dijalankan, itu menghasilkan hasil sebagai berikut -

No match!!
search --> matchObj.group() :  dogs

Cari dan Ganti

Salah satu yang terpenting re metode yang menggunakan ekspresi reguler adalah sub.

Sintaksis

re.sub(pattern, repl, string, max=0)

Metode ini menggantikan semua kemunculan pola RE dalam string dengan repl , menggantikan semua kemunculan kecuali max disediakan. Metode ini mengembalikan string yang dimodifikasi.

Contoh

#!/usr/bin/python3
import re

phone = "2004-959-559 # This is Phone Number"

# Delete Python-style comments
num = re.sub(r'#.*$', "", phone)
print ("Phone Num : ", num)

# Remove anything other than digits
num = re.sub(r'\D', "", phone)    
print ("Phone Num : ", num)

Ketika kode di atas dijalankan, itu menghasilkan hasil sebagai berikut -

Phone Num :  2004-959-559
Phone Num :  2004959559

Pengubah Ekspresi Reguler: Bendera Opsi

Literal ekspresi reguler dapat menyertakan pengubah opsional untuk mengontrol berbagai aspek pencocokan. Pengubah ditentukan sebagai bendera opsional. Anda dapat menyediakan beberapa pengubah menggunakan OR (|) eksklusif, seperti yang ditunjukkan sebelumnya dan dapat diwakili oleh salah satu dari ini -

Sr.No. Pengubah & Deskripsi
1

re.I

Melakukan pencocokan tidak peka huruf besar / kecil.

2

re.L

Menafsirkan kata-kata sesuai dengan lokal saat ini. Interpretasi ini memengaruhi kelompok alfabet (\ w dan \ W), serta perilaku batas kata (\ b dan \ B).

3

re.M

Membuat $ cocok dengan akhir baris (bukan hanya akhir string) dan membuat ^ cocok dengan awal baris apa pun (bukan hanya awal string).

4

re.S

Membuat titik (titik) cocok dengan karakter apa pun, termasuk baris baru.

5

re.U

Menafsirkan huruf sesuai dengan kumpulan karakter Unicode. Bendera ini mempengaruhi perilaku \ w, \ W, \ b, \ B.

6

re.X

Mengizinkan sintaks ekspresi reguler yang "lebih manis". Ini mengabaikan spasi kosong (kecuali di dalam set [] atau ketika di-escape oleh garis miring terbalik) dan memperlakukan unescaped # sebagai penanda komentar.

Pola Ekspresi Reguler

Kecuali untuk karakter kontrol, (+ ? . * ^ $ ( ) [ ] { } | \), semua karakter cocok dengan dirinya sendiri. Anda dapat meloloskan diri dari karakter kontrol dengan mengawalinya dengan garis miring terbalik.

Tabel berikut mencantumkan sintaks ekspresi reguler yang tersedia di Python -

Sr.No. Parameter & Deskripsi
1

^

Cocok di awal baris.

2

$

Pertandingan akhir baris.

3

.

Cocok dengan salah satu karakter kecuali baris baru. Menggunakan opsi m memungkinkannya untuk mencocokkan baris baru juga.

4

[...]

Cocok dengan salah satu karakter dalam tanda kurung.

5

[^...]

Cocok dengan satu karakter apa pun yang tidak dalam tanda kurung

6

re*

Cocok dengan 0 atau lebih kemunculan ekspresi sebelumnya.

7

re+

Cocok dengan 1 atau lebih kemunculan ekspresi sebelumnya.

8

re?

Cocok dengan 0 atau 1 kemunculan ekspresi sebelumnya.

9

re{ n}

Cocok persis dengan n jumlah kemunculan ekspresi sebelumnya.

10

re{ n,}

Cocok dengan n atau lebih kemunculan ekspresi sebelumnya.

11

re{ n, m}

Cocok setidaknya n dan paling banyak m kemunculan ekspresi sebelumnya.

12

a|b

Cocok dengan a atau b.

13

(re)

Kelompokkan ekspresi reguler dan ingat teks yang cocok.

14

(?imx)

Mengaktifkan sementara opsi i, m, atau x dalam ekspresi reguler. Jika di dalam tanda kurung, hanya area tersebut yang terpengaruh.

15

(?-imx)

Menonaktifkan sementara opsi i, m, atau x dalam ekspresi reguler. Jika di dalam tanda kurung, hanya area tersebut yang terpengaruh.

16

(?: re)

Kelompokkan ekspresi reguler tanpa mengingat teks yang cocok.

17

(?imx: re)

Mengaktifkan sementara opsi i, m, atau x dalam tanda kurung.

18

(?-imx: re)

Matikan sementara opsi i, m, atau x dalam tanda kurung.

19

(?#...)

Komentar.

20

(?= re)

Menentukan posisi menggunakan pola. Tidak memiliki jangkauan.

21

(?! re)

Menentukan posisi menggunakan negasi pola. Tidak memiliki jangkauan.

22

(?> re)

Mencocokkan pola independen tanpa mundur.

23

\w

Cocok dengan karakter kata.

24

\W

Cocok dengan karakter bukan kata.

25

\s

Cocok dengan spasi. Setara dengan [\ t \ n \ r \ f].

26

\S

Cocok dengan nonwhitespace.

27

\d

Cocok dengan angka. Setara dengan [0-9].

28

\D

Cocok dengan nondigits.

29

\A

Cocok dengan awal string.

30

\Z

Cocok dengan ujung string. Jika ada baris baru, itu cocok sebelum baris baru.

31

\z

Cocok dengan ujung string.

32

\G

Mencocokkan poin di mana pertandingan terakhir selesai.

33

\b

Mencocokkan batas kata saat berada di luar tanda kurung. Cocok dengan spasi mundur (0x08) saat berada di dalam tanda kurung.

34

\B

Cocok dengan batasan non-kata.

35

\n, \t, etc.

Cocok dengan baris baru, carriage return, tab, dll.

36

\1...\9

Cocok dengan subekspresi yang dikelompokkan ke-n.

37

\10

Cocok dengan subekspresi yang dikelompokkan ke-n jika sudah cocok. Jika tidak mengacu pada representasi oktal dari kode karakter.

Contoh Ekspresi Reguler

Karakter literal

Sr.No. Contoh & Deskripsi
1

python

Cocokkan "python".

Kelas karakter

Sr.No. Contoh & Deskripsi
1

[Pp]ython

Cocokkan "Python" atau "python"

2

rub[ye]

Cocokkan "ruby" atau "rube"

3

[aeiou]

Cocokkan salah satu vokal huruf kecil

4

[0-9]

Cocok dengan angka apa pun; sama seperti [0123456789]

5

[a-z]

Cocok dengan semua huruf kecil ASCII

6

[A-Z]

Cocok dengan semua huruf besar ASCII

7

[a-zA-Z0-9]

Cocokkan salah satu dari yang di atas

8

[^aeiou]

Cocokkan apa pun selain vokal huruf kecil

9

[^0-9]

Cocokkan apa pun selain digit

Kelas Karakter Khusus

Sr.No. Contoh & Deskripsi
1

.

Cocok dengan karakter apa pun kecuali baris baru

2

\d

Cocokkan angka: [0-9]

3

\D

Cocokkan tanpa digit: [^ 0-9]

4

\s

Cocok dengan karakter spasi: [\ t \ r \ n \ f]

5

\S

Cocokkan bukan spasi: [^ \ t \ r \ n \ f]

6

\w

Cocok dengan satu karakter kata: [A-Za-z0-9_]

7

\W

Cocok dengan karakter bukan kata: [^ A-Za-z0-9_]

Kasus Pengulangan

Sr.No. Contoh & Deskripsi
1

ruby?

Cocokkan "gosok" atau "ruby": y adalah opsional

2

ruby*

Cocokkan "gosok" ditambah 0 atau lebih ys

3

ruby+

Cocokkan "gosok" ditambah 1 atau lebih ys

4

\d{3}

Cocok persis dengan 3 digit

5

\d{3,}

Cocokkan 3 digit atau lebih

6

\d{3,5}

Cocokkan 3, 4, atau 5 digit

Pengulangan nongreedy

Ini cocok dengan jumlah pengulangan terkecil -

Sr.No. Contoh & Deskripsi
1

<.*>

Pengulangan serakah: cocok dengan "<python> perl>"

2

<.*?>

Nongreedy: mencocokkan "<python>" dengan "<python> perl>"

Pengelompokan dengan Tanda Kurung

Sr.No. Contoh & Deskripsi
1

\D\d+

Tidak ada grup: + berulang \ d

2

(\D\d)+

Dikelompokkan: + mengulangi \ D \ d pasangan

3

([Pp]ython(,)?)+

Cocokkan "Python", "Python, python, python", dll.

Referensi latar

Ini cocok dengan grup yang sebelumnya cocok lagi -

Sr.No. Contoh & Deskripsi
1

([Pp])ython&\1ails

Cocokkan python & pails atau Python & Pails

2

(['"])[^\1]*\1

String kutip tunggal atau ganda. \ 1 cocok dengan apa pun yang cocok dengan grup pertama. \ 2 cocok dengan apa pun yang cocok dengan grup ke-2, dll.

Alternatif

Sr.No. Contoh & Deskripsi
1

python|perl

Cocokkan "python" atau "perl"

2

rub(y|le)

Cocokkan "ruby" atau "ruble"

3

Python(!+|\?)

"Python" diikuti oleh satu atau lebih! atau satu?

Jangkar

Ini perlu menentukan posisi pertandingan.

Sr.No. Contoh & Deskripsi
1

^Python

Cocokkan "Python" di awal string atau baris internal

2

Python$

Cocokkan "Python" di akhir string atau baris

3

\APython

Cocokkan "Python" di awal string

4

Python\Z

Cocokkan "Python" di akhir string

5

\bPython\b

Cocokkan "Python" di batas kata

6

\brub\B

\ B adalah batas bukan kata: cocokkan "gosok" dalam "rube" dan "ruby" tetapi tidak sendirian

7

Python(?=!)

Cocokkan "Python", jika diikuti dengan tanda seru.

8

Python(?!!)

Cocokkan "Python", jika tidak diikuti dengan tanda seru.

Sintaks Khusus dengan Tanda Kurung

Sr.No. Contoh & Deskripsi
1

R(?#comment)

Cocok dengan "R". Sisanya adalah komentar

2

R(?i)uby

Tidak peka huruf besar / kecil saat mencocokkan "uby"

3

R(?i:uby)

Sama seperti di atas

4

rub(?:y|le))

Kelompokkan hanya tanpa membuat \ 1 referensi latar