Garis log de-interleave: MODE KERAS

Aug 24 2020

Menghadapi beberapa aturan yang disesalkan yang mengubah aslinya menjadi tugas penyortiran yang dimuliakan, saya memposting varian yang lebih menantang. Berteriak kepada Luis Mendo untuk saran tentang bagaimana meningkatkan tantangan asli.

Anda mewarisi server yang menjalankan beberapa aplikasi yang semuanya menghasilkan log yang sama.

Tugas Anda adalah untuk memisahkan baris dari file log berdasarkan sumber. Untungnya bagi Anda, orang yang menulis semua aplikasi cukup baik untuk meninggalkan tag yang menunjukkan sumbernya.

Log

Setiap baris akan terlihat seperti ini:

[app_name] Something horrible happened!

Tag aplikasi selalu berada di antara tanda kurung siku dan hanya akan berisi karakter alfanumerik dan garis bawah.
Tag aplikasi tidak kosong
Mungkin nanti ada tanda kurung siku lain pada baris tertentu, tetapi tidak ada yang akan membentuk tag yang valid.
Akan selalu ada setidaknya satu karakter non-spasi setelah tag.
Log secara keseluruhan mungkin kosong.
Tidak ada batasan berapa banyak tag aplikasi unik yang akan ada di file.

Dalam beberapa kasus, tag aplikasi mungkin hilang. Jika demikian, baris log adalah milik aplikasi yang paling baru dicatat.

Baris pertama log akan selalu dimulai dengan tag aplikasi
Sebuah baris yang diawali dengan [belum tentu diberi tag. Jika ada karakter yang tidak valid di antara tanda kurung siku awal atau tidak ], maka baris tersebut tidak diberi tag.
Tidak ada baris kosong yang muncul di log

Output yang Diharapkan

Anda harus mengeluarkan beberapa log yang benar-benar terpisah dengan tag aplikasi dihapus dari setiap baris log tempat mereka berada. Anda tidak perlu mempertahankan spasi di depan pada baris log mana pun.

Log keluaran harus dalam semacam pemetaan nilai kunci atau padanan yang wajar. Daftar format keluaran valid yang tidak lengkap:

File yang diberi nama setelah tag aplikasi untuk setiap aplikasi
- Anda mungkin berasumsi bahwa file keluaran belum ada di direktori keluaran dalam kasus ini.
Dictionary / map / hash / apa saja yang menggunakan tag aplikasi sebagai kunci dan string baris log yang dipisahkan baris baru sebagai nilai.
String gabungan panjang yang dipisahkan oleh baris kosong dan diawali dengan tag aplikasi
Daftar daftar [key, value]
String JSON dengan tag aplikasi sebagai kunci dan array baris log sebagai nilai
Dokumen penurunan harga dengan tag aplikasi sebagai tajuk dan #di depan baris apa pun yang lolos dengan garis miring terbalik.
Fungsi Javascript yang mengambil string sebagai input dan output log terkait sebagai string yang dipisahkan baris baru.

Pada dasarnya, jika Anda tidak dapat mengetahui dari aplikasi mana baris log tersebut berasal, hasilnya tidak valid.

Contoh

Seluruh log mungkin terlihat seperti ini:

[weather] Current temp: 83F
[barkeep] Fish enters bar
Fish orders beer
[stockmarket] PI +3.14
[PI announced merger with E]
[barkeep] Fish leaves bar
[weather] 40% chance of rain detected
[ I have a lovely bunch of coconuts

Yang seharusnya menghasilkan tiga log berbeda:

cuaca:

Current temp: 83F
40% chance of rain detected
[ I have a lovely bunch of coconuts

pelayan bar:

Fish enters bar
Fish orders beer
Fish leaves bar

pasar saham:

PI +3.14
[PI announced merger with E]

Anda tidak akan diberi nama tag aplikasi sebelumnya. Anda harus menentukannya hanya dengan menganalisis file log.

Aturan dan Penilaian

Ini adalah kode-golf , jadi kode terpendek menang.
Aturan dan celah standar berlaku
Gunakan format IO yang nyaman, asalkan setiap baris masukan direpresentasikan sebagai string, bukan tag + pesan yang telah diuraikan sebelumnya. Parsing adalah bagian dari tantangan ini .
Baris log keluaran untuk setiap aplikasi harus muncul dalam urutan yang sama seperti di log asli.
Anda dapat berasumsi bahwa log masukan hanya berisi karakter ASCII.

Jawaban

2 water_ghosts Aug 24 2020 at 21:39

Python 3.8 , 95 byte

import re
lambda x:[((t:=re.match(r'\[(\w*)\]',s)or t)[1],s.split(t[0])[-1].strip())for s in x]

Cobalah secara online!

(Contoh TIO yang diperluas dengan input)

Penjelasan:

Python 3.8 diperlukan untuk :=operator. Ini mengambil daftar string sebagai input, dan mengeluarkan daftar (tag, body)tupel. Pertama, ini menggunakan pencocokan Regex untuk mendapatkan tag:

t:=re.match(r'\[(\w*)\]',s)or t)

Ini cocok dengan urutan awal karakter kata apa pun (alfanumerik + garis bawah) yang diapit dalam tanda kurung siku, dengan kata-kata sebagai grup penangkap. Jika string cocok dengan regex ini, takan menjadi matchobjek dengan dua elemen: pencocokan penuh dan grup. Misalnya, jika string adalah [tag] body, matchakan memiliki elemen [tag]dan tag.

Jika string tidak cocok dengan regex ini, maka re.match()mengembalikan None. Kode menjadi t = None or t, yang adil t = t, sehingga tag mempertahankan nilainya dari baris sebelumnya. Jika baris pertama tidak ada yang cocok, ini akan menyebabkan kesalahan, tapi kita tidak perlu khawatir tentang itu!

Kode tersebut kemudian membangun tupel t[1], s.split(t[0])[-1].strip(), di mana t[1]adalah grup penangkap (tag tanpa tanda kurung siku) dan t[0]merupakan tag dengan tanda kurung siku. Memisahkan string pada tag lengkap akan mengisolasi tubuh, apakah tag benar-benar ada dalam string atau tidak.

2 Neil Aug 24 2020 at 22:32

Retina 0.8.2 , 95 byte

+m`^(\[\w+] ).*¶(?!\[\w+])
$&$1
O$`(\w+).*
$1
¶
¶¶
rm`(?<=^\1.*¶)¶(.\w+].)

(?<=(^|¶¶).\w+]).
¶

Cobalah secara online! Penjelasan:

+m`^(\[\w+] ).*¶(?!\[\w+])
$&$1

Tandai semua baris yang tidak diberi tag.

O$`(\w+).*
$1

Urutkan garis, diambil dari jawaban saya untuk tantangan asli.

¶
¶¶

Beri spasi ganda pada garis.

rm`(?<=^\1.*¶)¶(.\w+].)

Hapus tag duplikat dan baris kosong di depannya. Ini berarti bahwa baris kosong yang tersisa adalah yang membatasi tag terpisah.

(?<=(^|¶¶).\w+]).
¶

Pindahkan tag ke barisnya sendiri.

2 Abigail Sep 01 2020 at 14:43

perl -Fitur = katakan -n, 47 46 byte

(Disimpan satu byte milik @Dom Hastings)

$;=$1 if s/^\[(\w+)\] +//;$;{$;}.=$_}{say for%;

Cobalah secara online!

Bagaimana cara kerjanya?

Pertama, efek -nsakelar. Hal ini menyebabkan Perl membungkus program dalam satu putaran, yang membaca masukan dan mengeksekusi badan untuk setiap baris. Tetapi melakukannya dengan cara yang sangat sederhana, ia membungkus tubuh dalam loop sebelum melakukan penguraian apa pun, sebagai berikut:

perl -ne 'TEXT'

diubah menjadi

LINE: while (defined($_ = readline ARGV)) {
    TEXT;
}

Tetapi itu berarti jika Anda TEXTadalah formulir LOOP_BODY}{FINAL_STATEMENT, Anda berakhir dengan program:

LINE: while (defined($_ = readline ARGV)) {
    LOOP_BODY
}
{
    FINAL_STATEMENT;
}

Kami menggunakan trik ini hanya untuk menyimpan beberapa byte dalam satu ENDblok.

Dalam program itu sendiri, kami menggunakan dua variabel untuk melakukan pembukuan kami. $;akan berisi tag saat ini, dan dalam hash %;, kami melacak baris untuk setiap tag. Sekarang, untuk setiap baris masukan, kami memeriksa untuk melihat apakah itu dimulai dengan tag, dan jika demikian, kami menghapusnya dari baris, dan mengingat tag:

$; = $1 if          # Remember the tag if,
s/^\[(\w+)\] +//;   # we can strip of a tag

Kami kemudian menggabungkan baris saat ini (dilucuti dari tag, jika ada) ke kumpulan baris yang sudah dikumpulkan untuk tag itu - jika tidak ada baris seperti itu, kami secara efektif menggabungkannya dengan string kosong:

$;{$;}.=$_   # Remember the current line

Akhirnya, setelah membaca semua baris, kami mencetak hash. Perl dengan mudah meratakan hash ke daftar sederhana jika Anda memperlakukannya sebagai daftar, mengganti kunci dan nilai. Ini memberi kita keluaran di mana setiap bagian dipisahkan oleh baris baru, dan dipimpin oleh tag.

Garis log de-interleave: MODE KERAS

Log

Output yang Diharapkan

Contoh

Aturan dan Penilaian

Jawaban

Python 3.8 , 95 byte

Penjelasan:

Retina 0.8.2 , 95 byte

perl -Fitur = katakan -n, 47 46 byte

Bagaimana cara kerjanya?

05AB1E , 22 byte

AWK-F] , 122 123113 byte

SimpleTemplate, 142 byte

Scala, 127 byte

AWK`-F]` , 122 123113 byte