Pythonを使用して非常に長いバイナリ文字列を元に戻せる単純なフォームにエンコードする最良の方法は？

Jan 13 2021

- - - - - - - - - - - - - 新しく追加する - - - - - - - - - - - -------

ここに詳細を記入させてください：

実際の状況では、環境Aにこの長い文字列があり、それをコピーして環境Bに貼り付ける必要があります。

残念ながら、envir-Aとenvir-Bは接続されていない（相互アクセスがない）ので、それを表すためにエンコード/デコードする方法を考えています。そうしないと、より多くのファイルを手動で入力する必要があります--- -これは遅く、再現性がありません。

何か提案やガジェットがお勧めしますか？どうもありがとう！

SUPERLONGバイナリを数桁のような単純な形式にエンコードするという奇妙な問題に直面しています。

たとえば、長さが1,000〜100,000桁以上の「110 ... 011」のように、1と0だけで構成される長い文字列があり、このSTRINGを桁/文字の少ないものにエンコードしたいとします。次に、元の文字列に戻す必要があります。

現在、Pythonでhex / intメソッドを使用して、この文字列を「圧縮」し、「解凍」して元の形式に戻そうとしています。

例は次のとおりです。

1.入力文字列： '110011110110011'

'' '

def Bi_to_Hex_Int(input_str, method ):

#2to16 
if method=='hex':
    string= str(input_str)
    input_two= string
    result=    hex(int(input_two,2))
    
#2to10 
if method=='int':
    string= str(input_str)
    input_two= string
    result=     int(input_two,2) 


print("input_bi length",len(str(input_two)), "\n output hex length",len(str(result)),'\n method: {}'.format(method) )
return result


res_16 =Bi_to_Hex_Int(gene , 'hex')
=='0x67b3'

res_10 =Bi_to_Hex_Int(gene , 'int')
== 26547

'' '

それから私はそれを元に戻すことができます：

'' '

def HexInt_to_bi(input_str , method):


if method =='hex':

    back_two =  bin(int(input_str,16))

    back_two =  back_two[2:]
    
     
if method =='int':

    back_two =  bin( int(input_str ))

    back_two =  back_two[2:]
    
    
print("input_hex length",len(str(input_str)), "\n output bi length",len(str(back_two)) )
return back_two


hexback_two = HexInt_to_bi(res_16, 'hex')
intback_two = HexInt_to_bi(res_10 , 'int')

'' '

しかし、これには問題があります。約500桁のString：101010 ... 0001（500d）を試しました。最良の「圧縮」結果は、16進数で約127桁です。

それで、文字列をさらに少ない桁数に「圧縮」するためのより良い方法はありますか？

** 5,000桁の文字列が1と0で構成されているとすると、50/100桁/文字（さらに低い）に圧縮します** ??

回答

1 Som-1 Jan 13 2021 at 19:19

単純にしたい場合は、1つの16進文字で4つの2進文字（2 ^ 4 = 16）を圧縮するとします。必要な圧縮率は約100/50倍です。50回の場合、50個のバイナリ文字を1文字に圧縮する必要があります。つまり、任意の組み合わせをエンコードするには2 ^ 50個の異なる文字が必要です。かなりたくさんあります。

より低い比率を受け入れる場合は、ここで説明するようにbase64を試すことができます。その圧縮率は6対1です。

それ以外の場合は、文字列をブロックに分割する、ブロック間で類似するものを探す、異なるシンボルでエンコードする、それらのシンボルのマップを作成するなど、複雑なアルゴリズムを考え出す必要があります。

おそらく、アーカイバを使用して文字列を圧縮してから、結果のbase64表現を返す方が簡単です。

タスクで許可されている場合は、文字列全体をどこかに保存して短い一意の名前を付けることができるため、圧縮と解凍の代わりに、文字列を名前で保存および取得する必要があります。

1 MarkRansom Jan 14 2021 at 01:52

これはおそらくあなたが得ることができる絶対に最短の文字列を生成しませんが、Pythonに組み込まれた機能を使用することは簡単です。文字をバイナリ形式に変換する必要はありません。zlib圧縮により、2つの異なる文字のみを含む入力が最適なものに変換されます。

エンコーディング：

import zlib
import base64
result = base64.b64encode(zlib.compress(input_str.encode()))

1 TThoEinthausend Jan 14 2021 at 04:08

カウントした場合0とは、1あなたが使用できるよりも有意差がある数え上げ最短表現を取得するためにコーディング

MarkAdler Jan 14 2021 at 01:32

文字列がと数字のみで構成されている場合は、8桁を1バイトにパックできます。また、最後のバイトは8桁未満を表す場合があるため、最後の8の倍数を超えた桁数を追跡する必要があります。01