Rufen Sie das Python-Skript per PowerShell auf und übergeben Sie PSObject. Geben Sie die analysierten Daten zurück

Nov 28 2020

Einige Hintergrundinformationen: Derzeit frage ich 4Mio-Zeilen (mit 50 Spalten) von einem MS SQL-Server mit dbatools in ein PSObject (in Batch 10.000 Zeilen pro Abfrage), verarbeite die Daten mit PowerShell (viele RegEx-Inhalte) und schreibe zurück in a MariaDb mit SimplySql . Im Durchschnitt bekomme ich ca. 150 Zeilen / Sek. Musste eine Menge Tricks (Net's Stringbuilder etc.) für diese Leistung verwenden, es ist nicht so schlimm imho

Als neue Anforderung möchte ich die Sprache einiger Textzellen erkennen und muss persönliche Daten (Name & Adresse) entfernen. Zu diesem Zweck habe ich einige gute Python- Bibliotheken ( spacy und pycld2 ) gefunden. Ich habe Tests mit pycld2 gemacht - ziemlich gute Erkennung.

Vereinfachter Code zur Verdeutlichung (Hinweis: Ich bin ein Python-Noob):

#get data from MS SQL
$data = Invoke-DbaQuery -SqlInstance $Connection -Query $Query -As PSObject -QueryTimeout 1800 for ($i=0;$i -lt $data.length;$i++){ #do a lot of other stuff here #... #finally make lang detection if ($LangDetect.IsPresent){
    $strLang = $tCaseDescription -replace "([^\p{L}\p{N}_\.\s]|`t|`n|`r)+",""
    $arg = "import pycld2 as cld2; isReliable, textBytesFound, details = cld2.detect('" + $strLang + "', isPlainText = True, bestEffort = True);print(details[0][1])"
    $tCaseLang = & $Env:Programfiles\Python39\python.exe -c $arg } else { $tCaseLang = ''
  }
}
#write to MariaDB
Invoke-SqlUpdate -ConnectionName $ConnectionName -Query $Query

Dieser Python-Aufruf funktioniert jedes Mal, zerstört jedoch die Leistung (12 Zeilen / Sek.) Durch den Schleifenaufruf und den Import von pycld2 lib jedes Mal. Das ist also eine lahme Lösung :) Wie oben erwähnt, möchte ich außerdem Spacy verwenden, bei dem einige weitere Spalten analysiert werden müssen, um die persönlichen Daten zu entfernen.

Ich bin mir nicht sicher, ob ich die Stimmung habe, den gesamten PS-Parser in Python umzuwandeln: |

Ich glaube, eine bessere Lösung könnte darin bestehen, das gesamte PSObject von PowerShell an Python zu übergeben (bevor die PS-Schleife beginnt) und es sowie PSObject zurückzugeben - nachdem es in Python verarbeitet wurde -, aber ich weiß nicht, wie ich es kann Realisieren Sie dies mit der Python / Python-Funktion.

Was wäre Ihr Ansatz / Vorschläge, irgendwelche anderen Ideen? Vielen Dank :)

Antworten

2 mklement0 Nov 28 2020 at 22:22

Das folgende vereinfachte Beispiel zeigt, wie Sie mehrere [pscustomobject]( [psobject]) Instanzen von PowerShell an ein Python-Skript übergeben können ( -cin diesem Fall als Zeichenfolge übergeben ):

durch Verwendung von JSON als Serialisierungsformat über ConvertTo-Json...
... und diesen JSON über die Pipeline übergeben , die Python über stdin (Standardeingabe) lesen kann .

Wichtig :

Zeichenkodierung :
- PowerShell verwendet die in der $OutputEncodingVoreinstellungsvariablen angegebene Codierung beim Senden von Daten an externe Programme (z. B. Python). In PowerShell [Core] v6 + wird standardmäßig Stücklistenloses UTF-8 verwendet , in Windows PowerShell jedoch leider ASCII (!) .
- So wie PowerShell Sie auf das Senden von Text an ein externes Programm beschränkt, interpretiert es auch immer das, was es empfängt, als Text, und zwar basierend auf der darin gespeicherten Codierung [Console]::OutputEncoding. Leider verwenden beide PowerShell-Editionen zum jetzigen Zeitpunkt standardmäßig die OEM- Codepage des Systems .
- Sowohl Sende- und Empfang (BOM-less) UTF-8 in den beiden Powershell - Ausgaben , (vorübergehend) Satz $OutputEncodingund [Console]::OutputEncodingwie folgt dar :
  $OutputEncoding = [Console]::OutputEncoding = [System.Text.Utf8Encoding]::new($false)
Wenn Sie möchten, dass Ihr Python-Skript auch Objekte ausgibt , sollten Sie erneut JSON verwenden , mit dem Sie in der PowerShell Objekte analysieren können ConvertFrom-Json.

# Sample input objects.
$data = [pscustomobject] @{ one = 1; two = 2 }, [pscustomobject] @{ one = 10; two = 20 } # Convert to JSON and pipe to Python. ConvertTo-Json $data | python -c @'

import sys, json

# Parse the JSON passed via stdin into a list of dictionaries.
dicts = json.load(sys.stdin)

# Sample processing: print the 'one' entry of each dict.
for dict in dicts:
  print(dict['one'])

'@

Wenn es sich bei den zu übergebenden Daten um eine Sammlung einzeiliger Zeichenfolgen handelt , benötigen Sie JSON nicht:

$data = 'foo', 'bar', 'baz' $data | python -c @'

import sys

# Sample processing: print each stdin input line enclosed in [...]
for line in sys.stdin:
  print('[' + line.rstrip('\r\n') + ']')

'@

TefoD Nov 30 2020 at 03:48

Basierend auf der Antwort von @ mklement0 möchte ich die fertige und getestete Lösung mit der Rückgabe des JSON von Python an Powershell unter Berücksichtigung der korrekten Zeichenkodierung teilen. Ich habe es bereits mit 100.000 Zeilen auf einem Stapel versucht - keine Probleme, fehlerfrei und superschnell :)