पायथन डिजिटल फोरेंसिक - त्वरित गाइड

यह अध्याय आपको डिजिटल फोरेंसिक के बारे में और इसकी ऐतिहासिक समीक्षा का परिचय देगा। आप यह भी समझ पाएंगे कि आप वास्तविक जीवन और उसकी सीमाओं में डिजिटल फोरेंसिक कहां लागू कर सकते हैं।

डिजिटल फोरेंसिक क्या है?

डिजिटल फोरेंसिक को फोरेंसिक विज्ञान की शाखा के रूप में परिभाषित किया जा सकता है जो इलेक्ट्रॉनिक उपकरणों पर रहने वाले डिजिटल साक्ष्य का विश्लेषण, जांच, पहचान और पुनरावृत्ति करता है। यह आमतौर पर आपराधिक कानून और निजी जांच के लिए उपयोग किया जाता है।

उदाहरण के लिए, यदि आप किसी इलेक्ट्रॉनिक डिवाइस पर कोई डेटा चुराते हैं, तो आप डिजिटल फोरेंसिक एक्सट्रेक्ट्स पर भरोसा कर सकते हैं।

डिजिटल फोरेंसिक की संक्षिप्त ऐतिहासिक समीक्षा

कंप्यूटर अपराधों का इतिहास और डिजिटल फोरेंसिक की ऐतिहासिक समीक्षा इस खंड में बताई गई है: -

1970- 1980 का दशक: पहला कंप्यूटर अपराध

इस दशक से पहले, किसी भी कंप्यूटर अपराध को मान्यता नहीं दी गई है। हालांकि, अगर ऐसा होना चाहिए, तो मौजूदा कानून उनसे निपटते हैं। बाद में, 1 9 78 में फ्लोरिडा कंप्यूटर अपराध अधिनियम में पहले कंप्यूटर अपराध को मान्यता दी गई थी, जिसमें कंप्यूटर सिस्टम पर अनधिकृत संशोधन या डेटा को हटाने के खिलाफ कानून शामिल था। लेकिन समय के साथ, प्रौद्योगिकी की प्रगति के कारण, कंप्यूटर अपराधों की सीमा भी बढ़ रही है। कॉपीराइट, गोपनीयता और बाल पोर्नोग्राफी से संबंधित अपराधों से निपटने के लिए, कई अन्य कानून पारित किए गए।

1980s-1990s: विकास दशक

यह दशक डिजिटल फोरेंसिक के लिए विकास का दशक था, यह सब पहली जांच (1986) की वजह से था जिसमें क्लिफ स्टोल ने मार्कस हेस नाम के हैकर को ट्रैक किया था। इस अवधि के दौरान, दो प्रकार के डिजिटल फोरेंसिक विषयों का विकास हुआ - पहला था चिकित्सकों द्वारा विकसित तदर्थ औजारों और तकनीकों की मदद से, जो इसे एक शौक के रूप में लेते थे, जबकि दूसरा वैज्ञानिक समुदाय द्वारा विकसित किया गया था। 1992 में, यह शब्द“Computer Forensics”अकादमिक साहित्य में इस्तेमाल किया गया था।

2000s-2010: मानकीकरण का दशक

एक निश्चित स्तर तक डिजिटल फोरेंसिक के विकास के बाद, कुछ विशिष्ट मानकों को बनाने की आवश्यकता थी, जिनका जांच करते समय पालन किया जा सकता है। तदनुसार, विभिन्न वैज्ञानिक एजेंसियों और निकायों ने डिजिटल फोरेंसिक के लिए दिशानिर्देश प्रकाशित किए हैं। 2002 में, डिजिटल एविडेंस (SWGDE) पर साइंटिफिक वर्किंग ग्रुप ने "कंप्यूटर फोरेंसिक के लिए सर्वोत्तम अभ्यास" नाम से एक पेपर प्रकाशित किया। टोपी में एक और पंख एक यूरोपीय नेतृत्व वाली अंतरराष्ट्रीय संधि थी“The Convention on Cybercrime”43 देशों ने हस्ताक्षर किए और 16 देशों ने इसकी पुष्टि की। इस तरह के मानकों के बाद भी, अभी भी कुछ मुद्दों को हल करने की आवश्यकता है जो शोधकर्ताओं द्वारा पहचाने गए हैं।

डिजिटल फोरेंसिक की प्रक्रिया

1978 में पहली बार कंप्यूटर अपराध के बाद से, डिजिटल आपराधिक गतिविधियों में भारी वृद्धि हुई है। इस वेतन वृद्धि के कारण, उनसे निपटने के लिए संरचित तरीके की आवश्यकता है। 1984 में, एक औपचारिक प्रक्रिया शुरू की गई है और उसके बाद बड़ी संख्या में नए और बेहतर कंप्यूटर फोरेंसिक जांच प्रक्रियाओं को विकसित किया गया है।

एक कंप्यूटर फोरेंसिक जांच प्रक्रिया में तीन प्रमुख चरण शामिल हैं जैसा कि नीचे बताया गया है -

चरण 1: प्रदर्शनियों का अधिग्रहण या इमेजिंग

डिजिटल फोरेंसिक के पहले चरण में डिजिटल सिस्टम की स्थिति को सहेजना शामिल है ताकि बाद में इसका विश्लेषण किया जा सके। यह एक क्राइम सीन से फोटो, ब्लड सैंपल आदि लेने के समान है। उदाहरण के लिए, इसमें हार्ड डिस्क या रैम के आवंटित और असंबद्ध क्षेत्रों की छवि कैप्चर करना शामिल है।

चरण 2: विश्लेषण

इस चरण का इनपुट अधिग्रहण चरण में प्राप्त डेटा है। यहां, सबूतों की पहचान करने के लिए इस डेटा की जांच की गई। यह चरण तीन प्रकार के साक्ष्य देता है: -

  • Inculpatory evidences - ये सबूत किसी दिए गए इतिहास का समर्थन करते हैं।

  • Exculpatory evidences - ये सबूत एक दिए गए इतिहास का खंडन करते हैं।

  • Evidence of tampering- इन सबूतों से पता चलता है कि पहचान से बचने के लिए सिस्टम को गुस्सा आ गया था। इसमें हटाए गए फ़ाइलों को पुनर्प्राप्त करने के लिए फ़ाइलों और निर्देशिका सामग्री की जांच करना शामिल है।

चरण 3: प्रस्तुति या रिपोर्टिंग

जैसा कि नाम से पता चलता है, यह चरण जांच से निष्कर्ष और संबंधित साक्ष्य प्रस्तुत करता है।

डिजिटल फोरेंसिक के अनुप्रयोग

डिजिटल फोरेंसिक किसी भी डिजिटल डिवाइस में निहित सबूतों को इकट्ठा करने, विश्लेषण और संरक्षित करने से संबंधित है। डिजिटल फोरेंसिक का उपयोग आवेदन पर निर्भर करता है। जैसा कि पहले उल्लेख किया गया है, यह मुख्य रूप से निम्नलिखित दो अनुप्रयोगों में उपयोग किया जाता है -

फौजदारी कानून

आपराधिक कानून में, अदालत में एक परिकल्पना का समर्थन या विरोध करने के लिए सबूत एकत्र किए जाते हैं। फोरेंसिक प्रक्रियाएं बहुत हद तक आपराधिक जांच में इस्तेमाल होने वाले समान हैं, लेकिन विभिन्न कानूनी आवश्यकताओं और सीमाओं के साथ।

निजी जांच

मुख्य रूप से कॉर्पोरेट जगत निजी जांच के लिए डिजिटल फोरेंसिक का उपयोग करता है। इसका उपयोग तब किया जाता है जब कंपनियां संदेह करती हैं कि कर्मचारी अपने कंप्यूटर पर एक अवैध गतिविधि कर रहे हैं जो कंपनी की नीति के खिलाफ है। डिजिटल फोरेंसिक कंपनी या व्यक्ति को डिजिटल कदाचार के लिए किसी की जांच करने के लिए सबसे अच्छा मार्ग प्रदान करता है।

डिजिटल फोरेंसिक की शाखाएँ

डिजिटल अपराध केवल कंप्यूटरों तक ही सीमित नहीं है, हालांकि हैकर्स और अपराधी छोटे डिजिटल उपकरणों जैसे टैबलेट, स्मार्ट-फोन आदि का उपयोग बहुत बड़े पैमाने पर भी कर रहे हैं। कुछ उपकरणों में अस्थिर मेमोरी होती है, जबकि अन्य में गैर-वाष्पशील मेमोरी होती है। इसलिए, उपकरणों के प्रकार के आधार पर, डिजिटल फोरेंसिक की निम्नलिखित शाखाएं हैं -

कंप्यूटर फोरेंसिक्स

डिजिटल फोरेंसिक की यह शाखा कंप्यूटर, एम्बेडेड सिस्टम और यूएसबी ड्राइव जैसी स्थिर यादों से संबंधित है। लॉग्स से लेकर ड्राइव पर वास्तविक फाइलों तक की विस्तृत जानकारी की जांच कंप्यूटर फोरेंसिक में की जा सकती है।

मोबाइल फोरेंसिक

यह मोबाइल उपकरणों से डेटा की जांच से संबंधित है। यह शाखा कंप्यूटर फोरेंसिक से इस मायने में अलग है कि मोबाइल उपकरणों में एक इनबिल्ट संचार प्रणाली है जो स्थान से संबंधित उपयोगी जानकारी प्रदान करने के लिए उपयोगी है।

नेटवर्क फोरेंसिक

यह सूचना एकत्र करने, साक्ष्य संग्रह, या घुसपैठ का पता लगाने के उद्देश्य से स्थानीय और WAN (विस्तृत क्षेत्र नेटवर्क) दोनों के लिए कंप्यूटर नेटवर्क ट्रैफ़िक की निगरानी और विश्लेषण से संबंधित है।

डेटाबेस फोरेंसिक

डिजिटल फोरेंसिक की यह शाखा डेटाबेस और उनके मेटाडेटा के फोरेंसिक अध्ययन से संबंधित है।

डिजिटल फोरेंसिक जांच के लिए आवश्यक कौशल

डिजिटल फोरेंसिक परीक्षकों को हैकर्स को ट्रैक करने, चोरी किए गए डेटा को पुनर्प्राप्त करने, कंप्यूटर के हमलों का उनके स्रोत पर वापस आने और अन्य प्रकार की जांच में सहायता करने में मदद करते हैं। नीचे दिए गए चर्चा के अनुसार कुछ महत्वपूर्ण कौशल डिजिटल फोरेंसिक परीक्षक बनने के लिए आवश्यक हैं -

बकाया सोच क्षमता

एक डिजिटल फोरेंसिक अन्वेषक को एक उत्कृष्ट विचारक होना चाहिए और आउटपुट प्राप्त करने के लिए किसी विशेष असाइनमेंट पर विभिन्न उपकरणों और विधियों को लागू करने में सक्षम होना चाहिए। वह / वह अलग-अलग पैटर्न खोजने और उनके बीच सहसंबंध बनाने में सक्षम होना चाहिए।

तकनीकी कौशल

एक डिजिटल फोरेंसिक परीक्षक के पास अच्छा तकनीकी कौशल होना चाहिए क्योंकि इस क्षेत्र में नेटवर्क के ज्ञान की आवश्यकता होती है, डिजिटल सिस्टम कैसे इंटरैक्ट करता है।

साइबर सुरक्षा के बारे में भावुक

क्योंकि डिजिटल फोरेंसिक का क्षेत्र साइबर अपराधों को सुलझाने के बारे में है और यह एक कठिन काम है, इसके लिए किसी को एक इक्का डिजिटल फोरेंसिक जांचकर्ता बनने के लिए बहुत जुनून की आवश्यकता होती है।

संचार कौशल

अच्छा संचार कौशल विभिन्न टीमों के साथ समन्वय और किसी भी लापता डेटा या जानकारी को निकालने के लिए आवश्यक है।

रिपोर्ट बनाने में निपुण

अधिग्रहण और विश्लेषण के सफल कार्यान्वयन के बाद, एक डिजिटल फोरेंसिक परीक्षक को सभी निष्कर्षों को अंतिम रिपोर्ट और प्रस्तुति का उल्लेख करना होगा। इसलिए उसके पास रिपोर्ट बनाने का अच्छा कौशल होना चाहिए और विस्तार पर ध्यान देना चाहिए।

सीमाओं

डिजिटल फोरेंसिक जांच कुछ सीमाएं प्रदान करती है जैसा कि यहां चर्चा की गई है -

समझाने वाले साक्ष्य का उत्पादन करने की आवश्यकता है

डिजिटल फोरेंसिक जांच के बड़े झटके में से एक यह है कि परीक्षक को उन मानकों का पालन करना होगा जो कानून की अदालत में साक्ष्य के लिए आवश्यक हैं, क्योंकि डेटा को आसानी से छेड़छाड़ किया जा सकता है। दूसरी ओर, कंप्यूटर फोरेंसिक जांचकर्ता को कानून की अदालत में ठोस सबूत पेश करने के लिए कानूनी आवश्यकताओं, साक्ष्य हैंडलिंग और प्रलेखन प्रक्रियाओं का पूरा ज्ञान होना चाहिए।

जांच उपकरण

डिजिटल जांच की प्रभावशीलता पूरी तरह से डिजिटल फोरेंसिक परीक्षक की विशेषज्ञता और उचित जांच उपकरण के चयन पर निहित है। यदि इस्तेमाल किया गया उपकरण निर्दिष्ट मानकों के अनुसार नहीं है, तो कानून की अदालत में, न्यायाधीश द्वारा सबूतों से इनकार किया जा सकता है।

दर्शकों के बीच तकनीकी ज्ञान की कमी

एक और सीमा यह है कि कुछ व्यक्ति कंप्यूटर फोरेंसिक से पूरी तरह परिचित नहीं हैं; इसलिए, बहुत से लोग इस क्षेत्र को नहीं समझते हैं। जांचकर्ताओं को परिणामों के बारे में समझने में मदद करने के लिए अदालतों के साथ अपने निष्कर्षों को इस तरह से संवाद करना सुनिश्चित करना होगा।

लागत

डिजिटल साक्ष्य तैयार करना और उन्हें संरक्षित करना बहुत महंगा है। इसलिए यह प्रक्रिया कई लोगों द्वारा नहीं चुनी जा सकती है जो लागत का वहन नहीं कर सकते हैं।

पिछले अध्याय में, हमने डिजिटल फोरेंसिक की मूल बातें, इसके फायदे और सीमाएं सीखीं। यह अध्याय आपको पायथन के साथ सहज बना देगा, जो आवश्यक उपकरण हम इस डिजिटल फोरेंसिक जांच में उपयोग कर रहे हैं।

डिजिटल फोरेंसिक के लिए पायथन क्यों?

पायथन एक लोकप्रिय प्रोग्रामिंग भाषा है और इसका उपयोग साइबर सुरक्षा, पैठ परीक्षण और डिजिटल फोरेंसिक जांच के लिए उपकरण के रूप में किया जाता है। जब आप डिजिटल फोरेंसिक के लिए पायथन को अपने उपकरण के रूप में चुनते हैं, तो आपको कार्य पूरा करने के लिए किसी अन्य तीसरे पक्ष के सॉफ़्टवेयर की आवश्यकता नहीं होती है।

पायथन प्रोग्रामिंग भाषा की कुछ अनूठी विशेषताएं जो इसे डिजिटल फोरेंसिक परियोजनाओं के लिए एक अच्छा विकल्प बनाती हैं, नीचे दिए गए हैं -

  • Simplicity of Syntax - पायथन का सिंटैक्स अन्य भाषाओं की तुलना में सरल है, जो डिजिटल फॉरेंसिक के लिए सीखने और उपयोग में लाना आसान बनाता है।

  • Comprehensive inbuilt modules - पायथन के व्यापक इनबिल्ट मॉड्यूल एक पूर्ण डिजिटल फोरेंसिक जांच करने के लिए एक उत्कृष्ट सहायता है।

  • Help and Support - एक ओपन सोर्स प्रोग्रामिंग भाषा होने के नाते, पायथन को डेवलपर और उपयोगकर्ताओं के समुदाय से उत्कृष्ट समर्थन प्राप्त है।

अजगर की विशेषताएं

पायथन, एक उच्च-स्तरीय, व्याख्यात्मक, इंटरैक्टिव और ऑब्जेक्ट-ओरिएंटेड स्क्रिप्टिंग भाषा होने के नाते, निम्नलिखित विशेषताएं प्रदान करता है -

  • Easy to Learn - पायथन एक डेवलपर अनुकूल और भाषा सीखने में आसान है, क्योंकि इसमें कम कीवर्ड और सरलतम संरचना है।

  • Expressive and Easy to read- पायथन भाषा प्रकृति में अभिव्यंजक है; इसलिए इसका कोड अधिक समझने योग्य और पठनीय है।

  • Cross-platform Compatible - पायथन एक क्रॉस-प्लेटफ़ॉर्म संगत भाषा है, जिसका अर्थ है कि यह विभिन्न प्लेटफार्मों जैसे कि यूनिक्स, विंडोज और मैकिंटोश पर कुशलतापूर्वक चल सकता है।

  • Interactive Mode Programming - हम इंटरैक्टिव परीक्षण और कोड की डिबगिंग कर सकते हैं क्योंकि पायथन प्रोग्रामिंग के लिए एक इंटरैक्टिव मोड का समर्थन करता है।

  • Provides Various Modules and Functions - पायथन में बड़े मानक पुस्तकालय हैं जो हमें हमारी स्क्रिप्ट के लिए मॉड्यूल और कार्यों के समृद्ध सेट का उपयोग करने की अनुमति देते हैं।

  • Supports Dynamic Type Checking - पायथन गतिशील प्रकार की जाँच का समर्थन करता है और बहुत ही उच्च-स्तरीय गतिशील डेटा प्रकार प्रदान करता है।

  • GUI Programming - पायथन ग्राफिकल यूजर इंटरफेस विकसित करने के लिए GUI प्रोग्रामिंग का समर्थन करता है।

  • Integration with other programming languages - पायथन को अन्य प्रोग्रामिंग भाषाओं जैसे C, C ++, JAVA आदि के साथ आसानी से एकीकृत किया जा सकता है।

पायथन स्थापित करना

अजगर वितरण विभिन्न प्लेटफार्मों जैसे विंडोज, यूनिक्स, लिनक्स और मैक के लिए उपलब्ध है। हमें केवल अपने प्लेटफॉर्म के अनुसार बाइनरी कोड डाउनलोड करना होगा। यदि किसी भी प्लेटफ़ॉर्म के लिए बाइनरी कोड उपलब्ध नहीं है, तो हमारे पास एक सी कंपाइलर होना चाहिए ताकि सोर्स कोड मैन्युअल रूप से संकलित किया जा सके।

यह खंड आपको विभिन्न प्लेटफार्मों पर पायथन की स्थापना से परिचित कराएगा

यूनिक्स और लिनक्स पर पायथन इंस्टॉलेशन

आप यूनिक्स / लिनक्स मशीन पर पायथन को स्थापित करने के लिए नीचे दिए गए चरणों का पालन कर सकते हैं।

Step 1- एक वेब ब्राउज़र खोलें। टाइप करें और www.python.org/downloads/ दर्ज करें

Step 2 - यूनिक्स / लिनक्स के लिए उपलब्ध ज़िप्ड सोर्स कोड डाउनलोड करें।

Step 3 - डाउनलोड की गई ज़िप्ड फ़ाइलों को निकालें।

Step 4 - यदि आप कुछ विकल्पों को अनुकूलित करना चाहते हैं, तो आप इसे संपादित कर सकते हैं Modules/Setup file

Step 5 - इंस्टॉलेशन को पूरा करने के लिए निम्नलिखित कमांड का उपयोग करें -

run ./configure script
make
make install

एक बार जब आप ऊपर दिए गए चरणों को सफलतापूर्वक पूरा कर लेते हैं, तो पायथन अपने मानक स्थान पर स्थापित हो जाएगा /usr/local/bin और इसके पुस्तकालयों /usr/local/lib/pythonXX जहां XX पायथन का संस्करण है।

विंडोज पर पायथन इंस्टॉलेशन

हम विंडोज मशीन पर पायथन को स्थापित करने के लिए सरल चरणों का पालन कर सकते हैं।

Step 1- एक वेब ब्राउज़र खोलें। टाइप करें और www.python.org/downloads/ दर्ज करें

Step 2 - विंडोज इंस्टॉलर डाउनलोड करें python-XYZ.msi फ़ाइल, जहाँ XYZ वह संस्करण है जिसे हमें इंस्टॉल करना है।

Step 3 - अब इंस्टॉलर फाइल को अपने लोकल मशीन में सेव करने के बाद उस MSI फाइल को रन करें।

Step 4 - डाउनलोड की गई फ़ाइल को चलाएं जो पायथन इंस्टॉलेशन विज़ार्ड को लाएगी।

Macintosh पर पायथन इंस्टॉलेशन

मैक ओएस एक्स पर पायथन 3 स्थापित करने के लिए, हमें एक पैकेज इंस्टॉलर नाम का उपयोग करना चाहिए Homebrew

आप Homebrew को स्थापित करने के लिए निम्न कमांड का उपयोग कर सकते हैं, यह मान लें कि आपके पास यह आपके सिस्टम पर नहीं है -

$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"

यदि आपको पैकेज मैनेजर को अपडेट करने की आवश्यकता है, तो यह निम्नलिखित कमांड की मदद से किया जा सकता है -

$ brew update

अब, अपने सिस्टम पर Python3 को स्थापित करने के लिए निम्न कमांड का उपयोग करें -

$ brew install python3

पथ की स्थापना

हमें पायथन इंस्टॉलेशन के लिए पथ निर्धारित करने की आवश्यकता है और यह UNIX, WINDOWS, या MAC जैसे प्लेटफार्मों के साथ भिन्न है।

यूनिक्स / लिनक्स पर पथ सेटिंग

आप यूनिक्स / लिनक्स पर पथ सेट करने के लिए निम्नलिखित विकल्पों का उपयोग कर सकते हैं -

  • If using csh shell - प्रकार setenv PATH "$PATH:/usr/local/bin/python" और फिर Enter दबाएँ।

  • If using bash shell (Linux) - टाइप करें export ATH="$PATH:/usr/local/bin/python" और फिर Enter दबाएँ।

  • If using sh or ksh shell - प्रकार PATH="$PATH:/usr/local/bin/python" और फिर Enter दबाएँ।

विंडोज पर पथ सेटिंग

प्रकार path %path%;C:\Python कमांड प्रॉम्प्ट पर और फिर एंटर दबाएं।

पायथन चला रहा है

आप पायथन दुभाषिया शुरू करने के लिए निम्नलिखित तीन तरीकों में से कोई भी चुन सकते हैं -

विधि 1: इंटरएक्टिव इंटरप्रेटर का उपयोग करना

पायथन शुरू करने के लिए एक प्रणाली जो एक कमांड-लाइन दुभाषिया या शेल प्रदान करती है, आसानी से उपयोग की जा सकती है। उदाहरण के लिए, यूनिक्स, डॉस आदि आप इंटरएक्टिव दुभाषिया में कोडिंग शुरू करने के लिए नीचे दिए गए चरणों का पालन कर सकते हैं -

Step 1 - दर्ज करें python कमांड लाइन पर।

Step 2 - नीचे दिखाए गए आदेशों का उपयोग करके इंटरएक्टिव इंटरप्रेटर में तुरंत कोडिंग शुरू करें -

$python # Unix/Linux
or
python% # Unix/Linux
or
C:> python # Windows/DOS

विधि 2: कमांड-लाइन से स्क्रिप्ट का उपयोग करना

हम अपने आवेदन पर दुभाषिया को आमंत्रित करके कमांड लाइन पर पायथन स्क्रिप्ट भी निष्पादित कर सकते हैं। आप नीचे दिखाए गए कमांड का उपयोग कर सकते हैं -

$python script.py # Unix/Linux
or
python% script.py # Unix/Linux
or
C: >python script.py # Windows/DOS

विधि 3: एकीकृत विकास पर्यावरण

यदि किसी सिस्टम में GUI एप्लिकेशन है जो पायथन का समर्थन करता है, तो Python को उस GUI वातावरण से चलाया जा सकता है। विभिन्न प्लेटफार्मों के लिए आईडीई में से कुछ नीचे दिए गए हैं -

  • Unix IDE - UNIX में Python के लिए IDLE IDE है।

  • Windows IDE - विंडोज में PythonWin है, GUI के साथ Python के लिए पहला विंडोज इंटरफेस।

  • Macintosh IDE - Macintosh में IDLE IDE है जो मुख्य वेबसाइट से उपलब्ध है, जो MacBinary या BinHex'd फाइलों के रूप में डाउनलोड किया जा सकता है।

अब जब आप अपने स्थानीय सिस्टम पर पायथन कमांड्स को स्थापित करने और चलाने में सहज हैं, तो आइए हम विस्तार से फोरेंसिक की अवधारणाओं में आगे बढ़ते हैं। यह अध्याय पायथन डिजिटल फोरेंसिक में कलाकृतियों से जुड़े विभिन्न अवधारणाओं की व्याख्या करेगा।

रिपोर्ट निर्माण की आवश्यकता

डिजिटल फोरेंसिक की प्रक्रिया में तीसरे चरण के रूप में रिपोर्टिंग शामिल है। यह डिजिटल फोरेंसिक प्रक्रिया के सबसे महत्वपूर्ण भागों में से एक है। निम्नलिखित कारणों से रिपोर्ट निर्माण आवश्यक है -

  • यह वह दस्तावेज है जिसमें डिजिटल फोरेंसिक परीक्षक जांच प्रक्रिया और उसके निष्कर्षों की रूपरेखा तैयार करता है।

  • एक अच्छे डिजिटल फॉरेंसिक रिपोर्ट को अन्य परीक्षार्थियों द्वारा समान रिपॉजिटरी द्वारा समान परिणाम प्राप्त करने के लिए संदर्भित किया जा सकता है।

  • यह एक तकनीकी और वैज्ञानिक दस्तावेज है जिसमें डिजिटल सबूत के 1s और 0s के भीतर पाए जाने वाले तथ्य शामिल हैं।

रिपोर्ट निर्माण के लिए सामान्य दिशानिर्देश

रिपोर्टों को पाठक को जानकारी प्रदान करने के लिए लिखा जाता है और इसे एक ठोस आधार के साथ शुरू करना चाहिए। जांचकर्ता अपने निष्कर्षों को कुशलतापूर्वक पेश करने में कठिनाइयों का सामना कर सकते हैं यदि रिपोर्ट कुछ सामान्य दिशानिर्देशों या मानकों के बिना तैयार की जाती है। डिजिटल फॉरेंसिक रिपोर्ट बनाते समय कुछ सामान्य दिशानिर्देशों का पालन किया जाना चाहिए -

  • Summary - रिपोर्ट में जानकारी का संक्षिप्त सारांश होना चाहिए ताकि पाठक रिपोर्ट के उद्देश्य का पता लगा सके।

  • Tools used - हमें उन उपकरणों का उल्लेख करना चाहिए जो डिजिटल फोरेंसिक की प्रक्रिया को ले जाने के लिए उपयोग किए गए हैं, जिसमें उनका उद्देश्य भी शामिल है।

  • Repository - मान लीजिए, हमने किसी के कंप्यूटर की जांच की, तो साक्ष्य का सारांश और ईमेल, आंतरिक खोज इतिहास आदि जैसे प्रासंगिक सामग्री का विश्लेषण, फिर उन्हें रिपोर्ट में शामिल किया जाना चाहिए ताकि मामला स्पष्ट रूप से प्रस्तुत किया जा सके।

  • Recommendations for counsel - रिपोर्ट में निष्कर्षों के आधार पर जांच जारी रखने या जांच को रोकने के लिए वकील के पास रिपोर्ट की सिफारिशें होनी चाहिए।

विभिन्न प्रकार की रिपोर्ट बनाना

उपरोक्त अनुभाग में, हमें डिजिटल फोरेंसिक में रिपोर्ट बनाने के महत्व के साथ-साथ दिशानिर्देश बनाने के बारे में भी पता चला। विभिन्न प्रकार की रिपोर्ट बनाने के लिए पायथन में कुछ प्रारूप नीचे दिए गए हैं -

सीएसवी रिपोर्ट

रिपोर्ट के सबसे सामान्य आउटपुट स्वरूपों में से एक CSV स्प्रेडशीट रिपोर्ट है। आप नीचे दिखाए गए अनुसार पायथन कोड का उपयोग करके संसाधित डेटा की रिपोर्ट बनाने के लिए CSV बना सकते हैं -

सबसे पहले, स्प्रेडशीट लिखने के लिए उपयोगी पुस्तकालयों का आयात करें -

from __future__ import print_function
import csv
import os
import sys

अब, निम्नलिखित विधि को बुलाओ -

Write_csv(TEST_DATA_LIST, ["Name", "Age", "City", "Job description"], os.getcwd())

हम नमूना डेटा प्रकारों का प्रतिनिधित्व करने के लिए निम्नलिखित वैश्विक चर का उपयोग कर रहे हैं -

TEST_DATA_LIST = [["Ram", 32, Bhopal, Manager], 
   ["Raman", 42, Indore, Engg.],
   ["Mohan", 25, Chandigarh, HR], 
   ["Parkash", 45, Delhi, IT]]

अगला, हमें आगे के संचालन के लिए आगे बढ़ने की विधि को परिभाषित करते हैं। हम फ़ाइल को "w" मोड में खोलते हैं और newline कीवर्ड तर्क को एक रिक्त स्ट्रिंग पर सेट करते हैं।

def Write_csv(data, header, output_directory, name = None):
   if name is None:
      name = "report1.csv"
   print("[+] Writing {} to {}".format(name, output_directory))
   
   with open(os.path.join(output_directory, name), "w", newline = "") as \ csvfile:
      writer = csv.writer(csvfile)
      writer.writerow(header)
      writer.writerow(data)

यदि आप उपरोक्त स्क्रिप्ट चलाते हैं, तो आपको रिपोर्ट 1.csv फ़ाइल में संग्रहीत निम्नलिखित विवरण मिलेंगे।

नाम उम्र Faridabad पद
राम 32 भोपाल Managerh
रमन 42 इंदौर इंजीनियरिंग
मोहन 25 चंडीगढ़ मानव संसाधन
प्रकाश 45 दिल्ली आईटी

एक्सेल रिपोर्ट

रिपोर्ट का एक अन्य सामान्य आउटपुट स्वरूप एक्सेल (.xlsx) स्प्रेडशीट रिपोर्ट है। हम तालिका बना सकते हैं और एक्सेल का उपयोग करके ग्राफ को भी प्लॉट कर सकते हैं। हम नीचे दिखाए गए अनुसार पायथन कोड का उपयोग करके एक्सेल प्रारूप में संसाधित डेटा की रिपोर्ट बना सकते हैं

सबसे पहले, स्प्रैडशीट बनाने के लिए XlsxWriter मॉड्यूल आयात करें -

import xlsxwriter

अब, एक कार्यपुस्तिका ऑब्जेक्ट बनाएं। इसके लिए, हमें वर्कबुक () कंस्ट्रक्टर का उपयोग करने की आवश्यकता है।

workbook = xlsxwriter.Workbook('report2.xlsx')

अब, add_worksheet () मॉड्यूल का उपयोग करके एक नई वर्कशीट बनाएं।

worksheet = workbook.add_worksheet()

अगला, वर्कशीट में निम्नलिखित डेटा लिखें -

report2 = (['Ram', 32, ‘Bhopal’],['Mohan',25, ‘Chandigarh’] ,['Parkash',45, ‘Delhi’])

row = 0
col = 0

आप इस डेटा पर पुनरावृति कर सकते हैं और इसे इस प्रकार लिख सकते हैं -

for item, cost in (a):
   worksheet.write(row, col, item)
   worksheet.write(row, col+1, cost)
   row + = 1

अब, क्लोज़ () विधि का उपयोग करके इस एक्सेल फाइल को बंद करें।

workbook.close()

उपरोक्त स्क्रिप्ट में एक Excel फ़ाइल बनाई जाएगी जिसका नाम report2.xlsx होगा जिसमें निम्न डेटा होंगे -

राम 32 भोपाल
मोहन 25 चंडीगढ़
प्रकाश 45 दिल्ली

जांच अधिग्रहण मीडिया

एक अन्वेषक के लिए यह महत्वपूर्ण है कि निष्कर्षों को सही ढंग से याद करने या जांच के सभी टुकड़ों को एक साथ रखने के लिए विस्तृत खोजी नोट्स हों। एक स्क्रीनशॉट एक विशेष जांच के लिए उठाए गए कदमों का ट्रैक रखने के लिए बहुत उपयोगी है। निम्नलिखित पायथन कोड की मदद से, हम स्क्रीनशॉट ले सकते हैं और इसे भविष्य के उपयोग के लिए हार्ड डिस्क पर सहेज सकते हैं।

सबसे पहले, निम्नलिखित आदेश का उपयोग करके pyscreenshot नाम के पायथन मॉड्यूल को स्थापित करें -

Pip install pyscreenshot

अब, दिखाए गए अनुसार आवश्यक मॉड्यूल आयात करें -

import pyscreenshot as ImageGrab

स्क्रीनशॉट प्राप्त करने के लिए कोड की निम्न पंक्ति का उपयोग करें -

image = ImageGrab.grab()

स्क्रीनशॉट को दिए गए स्थान पर सहेजने के लिए निम्न लाइन ऑफ़ कोड का उपयोग करें -

image.save('d:/image123.png')

अब, यदि आप स्क्रीनशॉट को ग्राफ़ के रूप में पॉप अप करना चाहते हैं, तो आप निम्न पायथन कोड का उपयोग कर सकते हैं -

import numpy as np
import matplotlib.pyplot as plt
import pyscreenshot as ImageGrab
imageg = ImageGrab.grab()
plt.imshow(image, cmap='gray', interpolation='bilinear')
plt.show()

यह अध्याय मोबाइल उपकरणों और शामिल अवधारणाओं पर पायथन डिजिटल फोरेंसिक की व्याख्या करेगा।

परिचय

मोबाइल डिवाइस फोरेंसिक डिजिटल फोरेंसिक की वह शाखा है जो जांच के हित के डिजिटल सबूतों को पुनर्प्राप्त करने के लिए मोबाइल उपकरणों के अधिग्रहण और विश्लेषण से संबंधित है। यह शाखा कंप्यूटर फोरेंसिक से अलग है क्योंकि मोबाइल उपकरणों में एक इनबिल्ट संचार प्रणाली है जो स्थान से संबंधित उपयोगी जानकारी प्रदान करने के लिए उपयोगी है।

हालाँकि, दिन-प्रतिदिन डिजिटल फोरेंसिक में स्मार्टफ़ोन का उपयोग बढ़ता जा रहा है, फिर भी इसकी विषमता के कारण इसे गैर-मानक माना जाता है। दूसरी ओर, कंप्यूटर हार्डवेयर, जैसे कि हार्ड डिस्क को मानक माना जाता है और इसे एक स्थिर अनुशासन के रूप में भी विकसित किया जाता है। डिजिटल फोरेंसिक उद्योग में, गैर-मानक उपकरणों के लिए उपयोग की जाने वाली तकनीकों पर बहुत बहस होती है, जैसे कि क्षणिक साक्ष्य, जैसे स्मार्टफोन।

कलाकृतियों मोबाइल उपकरणों से निकाले जाने योग्य

आधुनिक मोबाइल उपकरणों में केवल कॉल लॉग या एसएमएस संदेशों वाले पुराने फोन की तुलना में बहुत अधिक डिजिटल जानकारी होती है। इस प्रकार, मोबाइल डिवाइस अपने उपयोगकर्ता के बारे में बहुत सारी अंतर्दृष्टि के साथ जांचकर्ताओं को आपूर्ति कर सकते हैं। मोबाइल उपकरणों से निकाली जा सकने वाली कुछ कलाकृतियाँ नीचे बताई गई हैं -

  • Messages - ये उपयोगी कलाकृतियां हैं जो मालिक के मन की स्थिति को प्रकट कर सकती हैं और अन्वेषक को पिछली कुछ अज्ञात जानकारी भी दे सकती हैं।

  • Location History- स्थान इतिहास डेटा एक उपयोगी कलाकृति है जिसका उपयोग जांचकर्ताओं द्वारा किसी व्यक्ति के विशेष स्थान के बारे में मान्य करने के लिए किया जा सकता है।

  • Applications Installed - इंस्टॉल किए गए एप्लिकेशन को एक्सेस करने से, जांचकर्ता को मोबाइल उपयोगकर्ता की आदतों और सोच के बारे में कुछ जानकारी मिलती है।

पायथन में साक्ष्य और प्रसंस्करण

सबूत के प्रमुख स्रोतों के रूप में स्मार्टफ़ोन में SQLite डेटाबेस और PLIST फाइलें हैं। इस खंड में हम अजगर में सबूत के स्रोतों को संसाधित करने जा रहे हैं।

PLIST फ़ाइलों का विश्लेषण

एक PLIST (संपत्ति सूची) विशेष रूप से iPhone उपकरणों पर डेटा संग्रहीत करने के लिए एक लचीला और सुविधाजनक प्रारूप है। यह एक्सटेंशन का उपयोग करता है.plist। इस तरह की फाइलें बंडल और एप्लिकेशन के बारे में जानकारी संग्रहीत करने के लिए उपयोग की जाती हैं। यह दो स्वरूपों में हो सकता है:XML तथा binary। निम्न पायथन कोड खुलेगा और PLIST फाइल को पढ़ेगा। ध्यान दें कि इसमें आगे बढ़ने से पहले, हमें अपना स्वयं का बनाना होगाInfo.plist फ़ाइल।

सबसे पहले, थर्ड पार्टी लाइब्रेरी नाम से इंस्‍टॉल करें biplist निम्नलिखित आदेश द्वारा -

Pip install biplist

अब, प्लिस्ट फ़ाइलों को संसाधित करने के लिए कुछ उपयोगी पुस्तकालयों का आयात करें -

import biplist
import os
import sys

अब, मुख्य विधि के तहत निम्नलिखित कमांड का उपयोग प्लिस्ट फ़ाइल को एक चर में पढ़ने के लिए किया जा सकता है -

def main(plist):
   try:
      data = biplist.readPlist(plist)
   except (biplist.InvalidPlistException,biplist.NotBinaryPlistException) as e:
print("[-] Invalid PLIST file - unable to be opened by biplist")
sys.exit(1)

अब, हम या तो कंसोल पर मौजूद डेटा को पढ़ सकते हैं या सीधे इस वेरिएबल से प्रिंट कर सकते हैं।

SQLite डेटाबेस

SQLite मोबाइल उपकरणों पर प्राथमिक डेटा भंडार के रूप में कार्य करता है। SQLite एक इन-प्रोसेस लाइब्रेरी है जो एक आत्म निहित, सर्वर-कम, शून्य-कॉन्फ़िगरेशन, ट्रांसेक्शनल SQL डेटाबेस इंजन को लागू करता है। यह एक डेटाबेस है, जो शून्य-कॉन्फ़िगर है, आपको अन्य डेटाबेस के विपरीत, इसे अपने सिस्टम में कॉन्फ़िगर करने की आवश्यकता नहीं है।

यदि आप SQLite डेटाबेस के साथ एक नौसिखिया या अपरिचित हैं, तो आप लिंक का अनुसरण कर सकते हैं www.tutorialspoint.com/sqlite/index.htm इसके अलावा, यदि आप चाहते हैं तो आप www.tutorialspoint.com/sqlite/sqlite_python.htm लिंक का अनुसरण कर सकते हैं। पायथन के साथ SQLite के विस्तार में जाओ।

मोबाइल फोरेंसिक के दौरान, हम के साथ बातचीत कर सकते हैं sms.db मोबाइल डिवाइस की फ़ाइल और से बहुमूल्य जानकारी निकाल सकते हैं messageतालिका। पायथन में एक अंतर्निहित पुस्तकालय है जिसका नाम हैsqlite3SQLite डेटाबेस के साथ जोड़ने के लिए। आप निम्न आदेश के साथ समान आयात कर सकते हैं -

import sqlite3

अब, निम्नलिखित कमांड की मदद से, हम डेटाबेस से जुड़ सकते हैं, कहते हैं sms.db मोबाइल उपकरणों के मामले में -

Conn = sqlite3.connect(‘sms.db’)
C = conn.cursor()

यहाँ C, कर्सर ऑब्जेक्ट है जिसकी मदद से हम डेटाबेस के साथ इंटरैक्ट कर सकते हैं।

अब, मान लें कि हम किसी विशेष कमांड को निष्पादित करना चाहते हैं, तो विवरण प्राप्त करने के लिए कहें abc table, यह निम्नलिखित आदेश की मदद से किया जा सकता है -

c.execute(“Select * from abc”)
c.close()

उपरोक्त आदेश का परिणाम में संग्रहीत किया जाएगा cursorवस्तु। इसी तरह हम उपयोग कर सकते हैंfetchall() परिणाम को एक चर में डंप करने के लिए हम हेरफेर कर सकते हैं।

हम संदेश तालिका के स्तंभ नाम डेटा प्राप्त करने के लिए निम्न आदेश का उपयोग कर सकते हैं sms.db -

c.execute(“pragma table_info(message)”)
table_data = c.fetchall()
columns = [x[1] for x in table_data

ध्यान दें कि यहां हम SQLite PRAGMA कमांड का उपयोग कर रहे हैं, जो कि SQL पर्यावरण के भीतर विभिन्न पर्यावरणीय चर और राज्य के झंडे को नियंत्रित करने के लिए उपयोग की जाने वाली विशेष कमांड है। उपरोक्त आदेश में,fetchall()विधि परिणामों की एक वापसी देता है। प्रत्येक स्तंभ का नाम प्रत्येक टपल के पहले सूचकांक में संग्रहीत किया जाता है।

अब, निम्नलिखित कमांड की मदद से हम इसके सभी डेटा के लिए तालिका को क्वेरी कर सकते हैं और नामांकित चर में संग्रहीत कर सकते हैं data_msg -

c.execute(“Select * from message”)
data_msg = c.fetchall()

उपरोक्त कमांड वेरिएबल में डेटा को स्टोर करेगा और आगे हम उपरोक्त डेटा को CSV फ़ाइल में भी लिख सकते हैं csv.writer() तरीका।

आईट्यून्स बैकअप

आईफोन मोबाइल फोरेंसिक iTunes द्वारा किए गए बैकअप पर किया जा सकता है। फोरेंसिक परीक्षकों को आईट्यून्स के माध्यम से प्राप्त iPhone तार्किक बैकअप का विश्लेषण करने पर भरोसा है। बैकअप लेने के लिए iTunes द्वारा AFC (Apple फ़ाइल कनेक्शन) प्रोटोकॉल का उपयोग किया जाता है। इसके अलावा, बैकअप प्रक्रिया एस्क्रो कुंजी रिकॉर्ड को छोड़कर iPhone पर कुछ भी संशोधित नहीं करती है।

अब, सवाल उठता है कि आईट्यून्स बैकअप पर तकनीकों को समझने के लिए डिजिटल फोरेंसिक विशेषज्ञ के लिए क्यों महत्वपूर्ण है? यह महत्वपूर्ण है कि हम सीधे iPhone के बजाय संदिग्ध कंप्यूटर पर पहुंचें क्योंकि जब कंप्यूटर का उपयोग iPhone के साथ सिंक करने के लिए किया जाता है, तो iPhone पर अधिकांश जानकारी कंप्यूटर पर बैकअप होने की संभावना होती है।

बैकअप और उसके स्थान की प्रक्रिया

जब भी Apple उत्पाद कंप्यूटर में बैकअप होता है, तो यह iTunes के साथ सिंक होता है और डिवाइस की यूनिक आईडी के साथ एक विशिष्ट फ़ोल्डर होगा। नवीनतम बैकअप प्रारूप में, फ़ाइल नाम के पहले दो हेक्साडेसिमल वर्णों वाले सबफ़ोल्डरों में फ़ाइलें संग्रहीत की जाती हैं। इन बैक अप फ़ाइलों से, कुछ फाइलें जैसे कि info.plist होती हैं जो कि Manifest.db नाम के डेटाबेस के साथ उपयोगी होती हैं। निम्न तालिका बैकअप स्थानों को दिखाती है, जो आइट्यून्स बैकअप के ऑपरेटिंग सिस्टम के साथ भिन्न होते हैं -

ओएस बैकअप स्थान
Win7 C: \ Users \ [उपयोगकर्ता नाम] \ AppData \ रोमिंग \ AppleComputer \ MobileSync \ बैकअप \
मैक ओएस एक्स ~ / पुस्तकालय / आवेदन पत्र / MobileSync / बैकअप /

पायथन के साथ आईट्यून्स बैकअप को संसाधित करने के लिए, हमें पहले अपने ऑपरेटिंग सिस्टम के अनुसार बैकअप स्थान के सभी बैकअप की पहचान करनी होगी। फिर हम प्रत्येक बैकअप के माध्यम से पुनरावृत्ति करेंगे और डेटाबेस Manifest.db को पढ़ेंगे।

अब, पायथन कोड का पालन करने की मदद से हम भी ऐसा कर सकते हैं -

सबसे पहले, आवश्यक पुस्तकालयों को निम्नानुसार आयात करें -

from __future__ import print_function
import argparse
import logging
import os

from shutil import copyfile
import sqlite3
import sys
logger = logging.getLogger(__name__)

अब, INPUT_DIR और OUTPUT_DIR नाम से दो स्थितीय तर्क प्रदान करें, जो iTunes बैकअप और वांछित आउटपुट फ़ोल्डर का प्रतिनिधित्व कर रहा है -

if __name__ == "__main__":
   parser.add_argument("INPUT_DIR",help = "Location of folder containing iOS backups, ""e.g. ~\Library\Application Support\MobileSync\Backup folder")
   parser.add_argument("OUTPUT_DIR", help = "Output Directory")
   parser.add_argument("-l", help = "Log file path",default = __file__[:-2] + "log")
   parser.add_argument("-v", help = "Increase verbosity",action = "store_true") args = parser.parse_args()

अब, लॉग को निम्नानुसार सेट करें -

if args.v:
   logger.setLevel(logging.DEBUG)
else:
   logger.setLevel(logging.INFO)

अब, इस लॉग के लिए संदेश प्रारूप को निम्नानुसार सेटअप करें -

msg_fmt = logging.Formatter("%(asctime)-15s %(funcName)-13s""%(levelname)-8s %(message)s")
strhndl = logging.StreamHandler(sys.stderr)
strhndl.setFormatter(fmt = msg_fmt)

fhndl = logging.FileHandler(args.l, mode = 'a')
fhndl.setFormatter(fmt = msg_fmt)

logger.addHandler(strhndl)
logger.addHandler(fhndl)
logger.info("Starting iBackup Visualizer")
logger.debug("Supplied arguments: {}".format(" ".join(sys.argv[1:])))
logger.debug("System: " + sys.platform)
logger.debug("Python Version: " + sys.version)

कोड की निम्नलिखित पंक्ति का उपयोग करके वांछित आउटपुट निर्देशिका के लिए आवश्यक फ़ोल्डर बनाएंगे os.makedirs() कार्य -

if not os.path.exists(args.OUTPUT_DIR):
   os.makedirs(args.OUTPUT_DIR)

अब, आपूर्ति किए गए इनपुट और आउटपुट निर्देशिकाओं को मुख्य () फ़ंक्शन के रूप में निम्नानुसार पास करें -

if os.path.exists(args.INPUT_DIR) and os.path.isdir(args.INPUT_DIR):
   main(args.INPUT_DIR, args.OUTPUT_DIR)
else:
   logger.error("Supplied input directory does not exist or is not ""a directory")
   sys.exit(1)

अब लिखें main() फ़ंक्शन जो आगे कॉल करेगा backup_summary() इनपुट फ़ोल्डर में मौजूद सभी बैकअप की पहचान करने के लिए कार्य -

def main(in_dir, out_dir):
   backups = backup_summary(in_dir)
def backup_summary(in_dir):
   logger.info("Identifying all iOS backups in {}".format(in_dir))
   root = os.listdir(in_dir)
   backups = {}
   
   for x in root:
      temp_dir = os.path.join(in_dir, x)
      if os.path.isdir(temp_dir) and len(x) == 40:
         num_files = 0
         size = 0
         
         for root, subdir, files in os.walk(temp_dir):
            num_files += len(files)
            size += sum(os.path.getsize(os.path.join(root, name))
               for name in files)
         backups[x] = [temp_dir, num_files, size]
   return backups

अब, प्रत्येक बैकअप के सारांश को कंसोल पर निम्नानुसार प्रिंट करें -

print("Backup Summary")
print("=" * 20)

if len(backups) > 0:
   for i, b in enumerate(backups):
      print("Backup No.: {} \n""Backup Dev. Name: {} \n""# Files: {} \n""Backup Size (Bytes): {}\n".format(i, b, backups[b][1], backups[b][2]))

अब, Manifest.db फ़ाइल की सामग्री को db_items नाम के चर में डंप करें।

try:
   db_items = process_manifest(backups[b][0])
   except IOError:
      logger.warn("Non-iOS 10 backup encountered or " "invalid backup. Continuing to next backup.")
continue

अब, हम एक फंक्शन को परिभाषित करते हैं जो बैकअप की डायरेक्टरी पाथ लेगा -

def process_manifest(backup):
   manifest = os.path.join(backup, "Manifest.db")
   
   if not os.path.exists(manifest):
      logger.error("Manifest DB not found in {}".format(manifest))
      raise IOError

अब SQLite3 का उपयोग करके हम c नाम के कर्सर द्वारा डेटाबेस से जुड़ेंगे -

c = conn.cursor()
items = {}

for row in c.execute("SELECT * from Files;"):
   items[row[0]] = [row[2], row[1], row[3]]
return items

create_files(in_dir, out_dir, b, db_items)
   print("=" * 20)
else:
   logger.warning("No valid backups found. The input directory should be
      " "the parent-directory immediately above the SHA-1 hash " "iOS device backups")
      sys.exit(2)

अब, परिभाषित करें create_files() विधि इस प्रकार है -

def create_files(in_dir, out_dir, b, db_items):
   msg = "Copying Files for backup {} to {}".format(b, os.path.join(out_dir, b))
   logger.info(msg)

अब, प्रत्येक कुंजी के माध्यम से पुनरावृति db_items शब्दकोश -

for x, key in enumerate(db_items):
   if db_items[key][0] is None or db_items[key][0] == "":
      continue
   else:
      dirpath = os.path.join(out_dir, b,
os.path.dirname(db_items[key][0]))
   filepath = os.path.join(out_dir, b, db_items[key][0])
   
   if not os.path.exists(dirpath):
      os.makedirs(dirpath)
      original_dir = b + "/" + key[0:2] + "/" + key
   path = os.path.join(in_dir, original_dir)
   
   if os.path.exists(filepath):
      filepath = filepath + "_{}".format(x)

अब, उपयोग करें shutil.copyfile() समर्थित फ़ाइल को कॉपी करने की विधि इस प्रकार है -

try:
   copyfile(path, filepath)
   except IOError:
      logger.debug("File not found in backup: {}".format(path))
         files_not_found += 1
   if files_not_found > 0:
      logger.warning("{} files listed in the Manifest.db not" "found in
backup".format(files_not_found))
   copyfile(os.path.join(in_dir, b, "Info.plist"), os.path.join(out_dir, b,
"Info.plist"))
   copyfile(os.path.join(in_dir, b, "Manifest.db"), os.path.join(out_dir, b,
"Manifest.db"))
   copyfile(os.path.join(in_dir, b, "Manifest.plist"), os.path.join(out_dir, b,
"Manifest.plist"))
   copyfile(os.path.join(in_dir, b, "Status.plist"),os.path.join(out_dir, b,
"Status.plist"))

उपरोक्त पायथन स्क्रिप्ट के साथ, हम अपने आउटपुट फोल्डर में अपडेटेड बैक अप फाइल स्ट्रक्चर प्राप्त कर सकते हैं। हम प्रयोग कर सकते हैंpycrypto अजगर पुस्तकालय बैकअप को डिक्रिप्ट करने के लिए।

वाई - फाई

मोबाइल उपकरणों का उपयोग बाहरी दुनिया से कनेक्ट करने के लिए वाई-फाई नेटवर्क के माध्यम से किया जा सकता है जो हर जगह उपलब्ध हैं। कभी-कभी डिवाइस स्वचालित रूप से इन खुले नेटवर्क से जुड़ जाता है।

IPhone के मामले में, खुले वाई-फाई कनेक्शन की सूची जिसके साथ डिवाइस जुड़ा हुआ है, एक PLIST फ़ाइल में संग्रहीत है जिसका नाम है com.apple.wifi.plist। इस फ़ाइल में वाई-फाई SSID, BSSID और कनेक्शन समय होगा।

हमें पायथन का उपयोग करते हुए मानक Cellebrite XML रिपोर्ट से वाई-फाई विवरण निकालने की आवश्यकता है। इसके लिए, हमें वायरलेस भौगोलिक लॉगिंग इंजन (WIGLE) से एपीआई का उपयोग करने की आवश्यकता है, जो एक लोकप्रिय मंच है जिसका उपयोग वाई-फाई नेटवर्क के नाम का उपयोग करके डिवाइस का स्थान खोजने के लिए किया जा सकता है।

हम पायथन लाइब्रेरी नाम का उपयोग कर सकते हैं requestsWIGLE से API एक्सेस करने के लिए। इसे निम्नानुसार स्थापित किया जा सकता है -

pip install requests

WIGLE से एपीआई

हमें WIGLE की वेबसाइट पर पंजीकरण करना होगा https://wigle.net/accountWIGLE से निःशुल्क API प्राप्त करने के लिए। उपयोगकर्ता डिवाइस और उसके कनेक्शन के बारे में WIGEL एपीआई के माध्यम से जानकारी प्राप्त करने के लिए पायथन स्क्रिप्ट नीचे चर्चा की गई है -

सबसे पहले, विभिन्न चीजों को संभालने के लिए निम्न पुस्तकालयों को आयात करें -

from __future__ import print_function

import argparse
import csv
import os
import sys
import xml.etree.ElementTree as ET
import requests

अब, दो स्थितिगत तर्क प्रदान करें INPUT_FILE तथा OUTPUT_CSV जो क्रमशः वाई-फाई मैक पते और वांछित आउटपुट सीएसवी फ़ाइल के साथ इनपुट फ़ाइल का प्रतिनिधित्व करेगा -

if __name__ == "__main__":
   parser.add_argument("INPUT_FILE", help = "INPUT FILE with MAC Addresses")
   parser.add_argument("OUTPUT_CSV", help = "Output CSV File")
   parser.add_argument("-t", help = "Input type: Cellebrite XML report or TXT
file",choices = ('xml', 'txt'), default = "xml")
   parser.add_argument('--api', help = "Path to API key
   file",default = os.path.expanduser("~/.wigle_api"),
   type = argparse.FileType('r'))
   args = parser.parse_args()

अब कोड की निम्न पंक्तियाँ जाँचेंगी कि क्या इनपुट फ़ाइल मौजूद है और एक फ़ाइल है। यदि नहीं, तो यह स्क्रिप्ट से बाहर निकलता है -

if not os.path.exists(args.INPUT_FILE) or \ not os.path.isfile(args.INPUT_FILE):
   print("[-] {} does not exist or is not a
file".format(args.INPUT_FILE))
   sys.exit(1)
directory = os.path.dirname(args.OUTPUT_CSV)
if directory != '' and not os.path.exists(directory):
   os.makedirs(directory)
api_key = args.api.readline().strip().split(":")

अब, इस तर्क को मुख्य रूप से पास करें -

main(args.INPUT_FILE, args.OUTPUT_CSV, args.t, api_key)
def main(in_file, out_csv, type, api_key):
   if type == 'xml':
      wifi = parse_xml(in_file)
   else:
      wifi = parse_txt(in_file)
query_wigle(wifi, out_csv, api_key)

अब, हम XML फ़ाइल को निम्नानुसार पार्स करेंगे -

def parse_xml(xml_file):
   wifi = {}
   xmlns = "{http://pa.cellebrite.com/report/2.0}"
   print("[+] Opening {} report".format(xml_file))
   
   xml_tree = ET.parse(xml_file)
   print("[+] Parsing report for all connected WiFi addresses")
   
   root = xml_tree.getroot()

अब, मूल के बाल तत्व के माध्यम से पुनरावृति इस प्रकार है -

for child in root.iter():
   if child.tag == xmlns + "model":
      if child.get("type") == "Location":
         for field in child.findall(xmlns + "field"):
            if field.get("name") == "TimeStamp":
               ts_value = field.find(xmlns + "value")
               try:
               ts = ts_value.text
               except AttributeError:
continue

अब, हम जाँचेंगे कि 'ssid' स्ट्रिंग वैल्यू के टेक्स्ट में मौजूद है या नहीं -

if "SSID" in value.text:
   bssid, ssid = value.text.split("\t")
   bssid = bssid[7:]
   ssid = ssid[6:]

अब, हमें BSSID, SSID और टाइमस्टैम्प को wifi डिक्शनरी में जोड़ने की जरूरत है -

if bssid in wifi.keys():

wifi[bssid]["Timestamps"].append(ts)
   wifi[bssid]["SSID"].append(ssid)
else:
   wifi[bssid] = {"Timestamps": [ts], "SSID":
[ssid],"Wigle": {}}
return wifi

पाठ पार्सर जो बहुत सरल है कि XML पार्सर नीचे दिखाया गया है -

def parse_txt(txt_file):
   wifi = {}
   print("[+] Extracting MAC addresses from {}".format(txt_file))
   
   with open(txt_file) as mac_file:
      for line in mac_file:
         wifi[line.strip()] = {"Timestamps": ["N/A"], "SSID":
["N/A"],"Wigle": {}}
return wifi

अब, हमें बनाने के लिए अनुरोध मॉड्यूल का उपयोग करें WIGLE APIकॉल और पर जाने के लिए की जरूरत है query_wigle() विधि -

def query_wigle(wifi_dictionary, out_csv, api_key):
   print("[+] Querying Wigle.net through Python API for {} "
"APs".format(len(wifi_dictionary)))
   for mac in wifi_dictionary:

   wigle_results = query_mac_addr(mac, api_key)
def query_mac_addr(mac_addr, api_key):

   query_url = "https://api.wigle.net/api/v2/network/search?" \
"onlymine = false&freenet = false&paynet = false" \ "&netid = {}".format(mac_addr)
   req = requests.get(query_url, auth = (api_key[0], api_key[1]))
   return req.json()

वास्तव में WIGLE API कॉल के लिए प्रति दिन एक सीमा होती है, यदि वह सीमा पार हो जाती है तो उसे निम्नानुसार एक त्रुटि दिखानी चाहिए -

try:
   if wigle_results["resultCount"] == 0:
      wifi_dictionary[mac]["Wigle"]["results"] = []
         continue
   else:
      wifi_dictionary[mac]["Wigle"] = wigle_results
except KeyError:
   if wigle_results["error"] == "too many queries today":
      print("[-] Wigle daily query limit exceeded")
      wifi_dictionary[mac]["Wigle"]["results"] = []
      continue
   else:
      print("[-] Other error encountered for " "address {}: {}".format(mac,
wigle_results['error']))
   wifi_dictionary[mac]["Wigle"]["results"] = []
   continue
prep_output(out_csv, wifi_dictionary)

अब, हम उपयोग करेंगे prep_output() शब्दकोश को आसानी से लिखने योग्य विखंडू में समतल करने की विधि -

def prep_output(output, data):
   csv_data = {}
   google_map = https://www.google.com/maps/search/

अब, हमारे द्वारा अब तक एकत्र किए गए सभी डेटा तक पहुंचें -

for x, mac in enumerate(data):
   for y, ts in enumerate(data[mac]["Timestamps"]):
      for z, result in enumerate(data[mac]["Wigle"]["results"]):
         shortres = data[mac]["Wigle"]["results"][z]
         g_map_url = "{}{},{}".format(google_map, shortres["trilat"],shortres["trilong"])

अब, हम CSV फ़ाइल में आउटपुट लिख सकते हैं जैसा कि हमने पहले अध्याय में इस अध्याय में उपयोग करके किया है write_csv() समारोह।

इस अध्याय में, हम पायथन डिजिटल फोरेंसिक का उपयोग करके एम्बेडेड मेटाडेटा की जांच के बारे में विस्तार से जानेंगे।

परिचय

एंबेडेड मेटाडेटा उसी फ़ाइल में संग्रहीत डेटा के बारे में जानकारी है जो उस डेटा द्वारा वर्णित ऑब्जेक्ट के पास है। दूसरे शब्दों में, यह डिजिटल फ़ाइल में ही संग्रहीत डिजिटल संपत्ति के बारे में जानकारी है। यह हमेशा फ़ाइल से जुड़ा होता है और इसे कभी अलग नहीं किया जा सकता है।

डिजिटल फोरेंसिक के मामले में, हम किसी विशेष फ़ाइल के बारे में सभी जानकारी नहीं निकाल सकते हैं। दूसरी तरफ, एम्बेडेड मेटाडेटा हमें जांच के लिए महत्वपूर्ण जानकारी प्रदान कर सकता है। उदाहरण के लिए, एक टेक्स्ट फ़ाइल के मेटाडेटा में लेखक, उसकी लंबाई, लिखित तारीख और उस दस्तावेज़ के बारे में एक संक्षिप्त सारांश के बारे में जानकारी हो सकती है। एक डिजिटल छवि में मेटाडेटा शामिल हो सकता है जैसे छवि की लंबाई, शटर गति आदि।

मेटाडेटा विशेषताएँ और उनके निष्कर्षण युक्त कलाकृतियाँ

इस खंड में, हम मेटाडेटा विशेषताओं और पायथन का उपयोग करके उनके निष्कर्षण प्रक्रिया वाले विभिन्न कलाकृतियों के बारे में जानेंगे।

ऑडियो और वीडियो

ये दो बहुत ही सामान्य कलाकृतियां हैं जिनमें एम्बेडेड मेटाडेटा है। यह मेटाडाटा जांच के उद्देश्य से निकाला जा सकता है।

आप ऑडियो या एमपी 3 फ़ाइल और एक वीडियो या एक MP4 फ़ाइल से सामान्य विशेषताओं या मेटाडेटा को निकालने के लिए निम्न पायथन स्क्रिप्ट का उपयोग कर सकते हैं।

ध्यान दें कि इस स्क्रिप्ट के लिए, हमें mutagen नाम से एक थर्ड पार्टी पायथन लाइब्रेरी स्थापित करने की आवश्यकता है जो हमें ऑडियो और वीडियो फ़ाइलों से मेटाडेटा निकालने की अनुमति देती है। इसे निम्नलिखित कमांड की सहायता से स्थापित किया जा सकता है -

pip install mutagen

इस पाइथन लिपि के लिए कुछ उपयोगी पुस्तकालयों को आयात करने की आवश्यकता इस प्रकार है -

from __future__ import print_function

import argparse
import json
import mutagen

कमांड लाइन हैंडलर एक तर्क लेगा जो एमपी 3 या MP4 फ़ाइलों के लिए पथ का प्रतिनिधित्व करता है। फिर, हम उपयोग करेंगेmutagen.file() फ़ाइल को हैंडल खोलने की विधि इस प्रकार है -

if __name__ == '__main__':
   parser = argparse.ArgumentParser('Python Metadata Extractor')
   parser.add_argument("AV_FILE", help="File to extract metadata from")
   args = parser.parse_args()
   av_file = mutagen.File(args.AV_FILE)
   file_ext = args.AV_FILE.rsplit('.', 1)[-1]
   
   if file_ext.lower() == 'mp3':
      handle_id3(av_file)
   elif file_ext.lower() == 'mp4':
      handle_mp4(av_file)

अब, हमें दो हैंडल का उपयोग करना होगा, एक को एमपी 3 से डेटा निकालने के लिए और एक को एमपी 4 फ़ाइल से डेटा निकालने के लिए। हम इन हैंडल को इस प्रकार परिभाषित कर सकते हैं -

def handle_id3(id3_file):
   id3_frames = {'TIT2': 'Title', 'TPE1': 'Artist', 'TALB': 'Album','TXXX':
      'Custom', 'TCON': 'Content Type', 'TDRL': 'Date released','COMM': 'Comments',
         'TDRC': 'Recording Date'}
   print("{:15} | {:15} | {:38} | {}".format("Frame", "Description","Text","Value"))
   print("-" * 85)
   
   for frames in id3_file.tags.values():
      frame_name = id3_frames.get(frames.FrameID, frames.FrameID)
      desc = getattr(frames, 'desc', "N/A")
      text = getattr(frames, 'text', ["N/A"])[0]
      value = getattr(frames, 'value', "N/A")
      
      if "date" in frame_name.lower():
         text = str(text)
      print("{:15} | {:15} | {:38} | {}".format(
         frame_name, desc, text, value))
def handle_mp4(mp4_file):
   cp_sym = u"\u00A9"
   qt_tag = {
      cp_sym + 'nam': 'Title', cp_sym + 'art': 'Artist',
      cp_sym + 'alb': 'Album', cp_sym + 'gen': 'Genre',
      'cpil': 'Compilation', cp_sym + 'day': 'Creation Date',
      'cnID': 'Apple Store Content ID', 'atID': 'Album Title ID',
      'plID': 'Playlist ID', 'geID': 'Genre ID', 'pcst': 'Podcast',
      'purl': 'Podcast URL', 'egid': 'Episode Global ID',
      'cmID': 'Camera ID', 'sfID': 'Apple Store Country',
      'desc': 'Description', 'ldes': 'Long Description'}
genre_ids = json.load(open('apple_genres.json'))

अब, हमें इस MP4 फ़ाइल के माध्यम से पुनरावृति करने की आवश्यकता है -

print("{:22} | {}".format('Name', 'Value'))
print("-" * 40)

for name, value in mp4_file.tags.items():
   tag_name = qt_tag.get(name, name)
   
   if isinstance(value, list):
      value = "; ".join([str(x) for x in value])
   if name == 'geID':
      value = "{}: {}".format(
      value, genre_ids[str(value)].replace("|", " - "))
   print("{:22} | {}".format(tag_name, value))

उपरोक्त स्क्रिप्ट हमें एमपी 3 के साथ-साथ MP4 फ़ाइलों के बारे में अतिरिक्त जानकारी देगी।

इमेजिस

छवियों में फ़ाइल प्रारूप के आधार पर विभिन्न प्रकार के मेटाडेटा हो सकते हैं। हालाँकि, अधिकांश चित्र GPS जानकारी एम्बेड करते हैं। हम तीसरे पक्ष के पायथन पुस्तकालयों का उपयोग करके इस जीपीएस जानकारी को निकाल सकते हैं। आप निम्न पायथॉन स्क्रिप्ट का उपयोग कर सकते हैं इसका उपयोग करने के लिए किया जा सकता है -

सबसे पहले, थर्ड पार्टी पायथन लाइब्रेरी नाम से डाउनलोड करें Python Imaging Library (PIL) निम्नानुसार है -

pip install pillow

यह हमें छवियों से मेटाडेटा निकालने में मदद करेगा।

हम केएमएल फ़ाइल में छवियों में एम्बेडेड जीपीएस विवरण भी लिख सकते हैं, लेकिन इसके लिए हमें तीसरे पक्ष के पायथन पुस्तकालय को डाउनलोड करने की आवश्यकता है simplekml निम्नानुसार है -

pip install simplekml

इस स्क्रिप्ट में, पहले हमें निम्न पुस्तकालयों को आयात करने की आवश्यकता है -

from __future__ import print_function
import argparse

from PIL import Image
from PIL.ExifTags import TAGS

import simplekml
import sys

अब, कमांड लाइन हैंडलर एक स्थिति तर्क को स्वीकार करेगा जो मूल रूप से तस्वीरों के फ़ाइल पथ का प्रतिनिधित्व करता है।

parser = argparse.ArgumentParser('Metadata from images')
parser.add_argument('PICTURE_FILE', help = "Path to picture")
args = parser.parse_args()

अब, हमें उन URL को निर्दिष्ट करने की आवश्यकता है जो समन्वय जानकारी को पॉप्युलेट करेंगे। URLs हैंgmaps तथा open_maps। पीआईएल पुस्तकालय द्वारा प्रदान की गई डिग्री मिनट सेकंड (डीएमएस) टपल समन्वय को दशमलव में बदलने के लिए भी हमें एक फ़ंक्शन की आवश्यकता होती है। इसे निम्नानुसार किया जा सकता है -

gmaps = "https://www.google.com/maps?q={},{}"
open_maps = "http://www.openstreetmap.org/?mlat={}&mlon={}"

def process_coords(coord):
   coord_deg = 0
   
   for count, values in enumerate(coord):
      coord_deg += (float(values[0]) / values[1]) / 60**count
   return coord_deg

अब, हम उपयोग करेंगे image.open() फ़ाइल को PIL ऑब्जेक्ट के रूप में खोलने के लिए फ़ंक्शन।

img_file = Image.open(args.PICTURE_FILE)
exif_data = img_file._getexif()

if exif_data is None:
   print("No EXIF data found")
   sys.exit()
for name, value in exif_data.items():
   gps_tag = TAGS.get(name, name)
   if gps_tag is not 'GPSInfo':
      continue

खोजने के बाद GPSInfo टैग, हम GPS संदर्भ को संचित करेंगे और निर्देशांक को संसाधित करेंगे process_coords() तरीका।

lat_ref = value[1] == u'N'
lat = process_coords(value[2])

if not lat_ref:
   lat = lat * -1
lon_ref = value[3] == u'E'
lon = process_coords(value[4])

if not lon_ref:
   lon = lon * -1

अब, दीक्षा दें kml से वस्तु simplekml पुस्तकालय निम्नानुसार है -

kml = simplekml.Kml()
kml.newpoint(name = args.PICTURE_FILE, coords = [(lon, lat)])
kml.save(args.PICTURE_FILE + ".kml")

अब हम संसाधित जानकारी से निर्देशांक प्रिंट कर सकते हैं -

print("GPS Coordinates: {}, {}".format(lat, lon))
print("Google Maps URL: {}".format(gmaps.format(lat, lon)))
print("OpenStreetMap URL: {}".format(open_maps.format(lat, lon)))
print("KML File {} created".format(args.PICTURE_FILE + ".kml"))

पीडीएफ दस्तावेज़

PDF दस्तावेज़ों में मीडिया की एक विस्तृत विविधता है, जिसमें चित्र, पाठ, फ़ॉर्म आदि शामिल हैं। जब हम पीडीएफ दस्तावेज़ों में एम्बेडेड मेटाडेटा निकालते हैं, तो हमें परिणामी डेटा को एक्सटेंसिबल मेटाडेटा प्लेटफ़ॉर्म (XMP) नामक प्रारूप में प्राप्त हो सकता है। हम निम्नलिखित पायथन कोड की मदद से मेटाडेटा निकाल सकते हैं -

सबसे पहले, तीसरे पक्ष के पायथन पुस्तकालय का नाम स्थापित करें PyPDF2पढ़ने के लिए मेटाडेटा XMP प्रारूप में संग्रहीत। इसे निम्नानुसार स्थापित किया जा सकता है -

pip install PyPDF2

अब, पीडीएफ फाइलों से मेटाडेटा निकालने के लिए निम्न पुस्तकालयों को आयात करें -

from __future__ import print_function
from argparse import ArgumentParser, FileType

import datetime
from PyPDF2 import PdfFileReader
import sys

अब, कमांड लाइन हैंडलर एक स्थिति तर्क को स्वीकार करेगा जो मूल रूप से पीडीएफ फाइल के फ़ाइल पथ का प्रतिनिधित्व करता है।

parser = argparse.ArgumentParser('Metadata from PDF')
parser.add_argument('PDF_FILE', help='Path to PDF file',type=FileType('rb'))
args = parser.parse_args()

अब हम उपयोग कर सकते हैं getXmpMetadata() निम्न मेटाडाटा युक्त वस्तु प्रदान करने की विधि इस प्रकार है -

pdf_file = PdfFileReader(args.PDF_FILE)
xmpm = pdf_file.getXmpMetadata()

if xmpm is None:
   print("No XMP metadata found in document.")
   sys.exit()

हम प्रयोग कर सकते हैं custom_print() शीर्षक, निर्माता, योगदानकर्ता आदि जैसे प्रासंगिक मूल्यों को निकालने और मुद्रित करने की विधि निम्नानुसार है -

custom_print("Title: {}", xmpm.dc_title)
custom_print("Creator(s): {}", xmpm.dc_creator)
custom_print("Contributors: {}", xmpm.dc_contributor)
custom_print("Subject: {}", xmpm.dc_subject)
custom_print("Description: {}", xmpm.dc_description)
custom_print("Created: {}", xmpm.xmp_createDate)
custom_print("Modified: {}", xmpm.xmp_modifyDate)
custom_print("Event Dates: {}", xmpm.dc_date)

हम भी परिभाषित कर सकते हैं custom_print() विधि यदि पीडीएफ कई सॉफ्टवेयर का उपयोग करके बनाई गई है इस प्रकार है -

def custom_print(fmt_str, value):
   if isinstance(value, list):
      print(fmt_str.format(", ".join(value)))
   elif isinstance(value, dict):
      fmt_value = [":".join((k, v)) for k, v in value.items()]
      print(fmt_str.format(", ".join(value)))
   elif isinstance(value, str) or isinstance(value, bool):
      print(fmt_str.format(value))
   elif isinstance(value, bytes):
      print(fmt_str.format(value.decode()))
   elif isinstance(value, datetime.datetime):
      print(fmt_str.format(value.isoformat()))
   elif value is None:
      print(fmt_str.format("N/A"))
   else:
      print("warn: unhandled type {} found".format(type(value)))

हम सॉफ्टवेयर द्वारा बचाई गई किसी अन्य कस्टम संपत्ति को निम्नानुसार भी निकाल सकते हैं -

if xmpm.custom_properties:
   print("Custom Properties:")
   
   for k, v in xmpm.custom_properties.items():
      print("\t{}: {}".format(k, v))

उपरोक्त स्क्रिप्ट पीडीएफ दस्तावेज़ को पढ़ेगी और एक्सएमपी प्रारूप में संग्रहीत मेटाडेटा को प्रिंट करेगी जिसमें सॉफ्टवेयर द्वारा संग्रहीत कुछ कस्टम गुण शामिल हैं जिनकी मदद से पीडीएफ बनाया गया है।

Windows निष्पादन योग्य फ़ाइलें

कभी-कभी हम एक संदिग्ध या अनधिकृत निष्पादन योग्य फ़ाइल का सामना कर सकते हैं। लेकिन जांच के उद्देश्य से यह एम्बेडेड मेटाडेटा के कारण उपयोगी हो सकता है। हम इसके स्थान, इसके उद्देश्य और अन्य विशेषताओं जैसे निर्माता, संकलन तिथि आदि के बारे में जानकारी प्राप्त कर सकते हैं। पायथन लिपि का अनुसरण करने की मदद से हम संकलन तिथि, शीर्षलेखों से उपयोगी डेटा और आयातित प्रतीकों के साथ ही प्राप्त कर सकते हैं।

इस उद्देश्य के लिए, पहले थर्ड पार्टी पायथन लाइब्रेरी स्थापित करें pefile। इसे निम्नानुसार किया जा सकता है -

pip install pefile

एक बार जब आप इसे सफलतापूर्वक स्थापित कर लेते हैं, तो निम्न पुस्तकालयों को निम्नानुसार आयात करें -

from __future__ import print_function

import argparse
from datetime import datetime
from pefile import PE

अब, कमांड लाइन हैंडलर एक स्थितीय तर्क को स्वीकार करेगा जो मूल रूप से निष्पादन योग्य फ़ाइल के फ़ाइल पथ का प्रतिनिधित्व करता है। आप आउटपुट की शैली भी चुन सकते हैं, चाहे आपको इसकी विस्तृत और क्रियात्मक तरीके से या सरलीकृत तरीके से आवश्यकता हो। इसके लिए आपको एक वैकल्पिक तर्क देने की आवश्यकता है जैसा कि नीचे दिखाया गया है -

parser = argparse.ArgumentParser('Metadata from executable file')
parser.add_argument("EXE_FILE", help = "Path to exe file")
parser.add_argument("-v", "--verbose", help = "Increase verbosity of output",
action = 'store_true', default = False)
args = parser.parse_args()

अब, हम PE क्लास का उपयोग करके इनपुट निष्पादन योग्य फ़ाइल को लोड करेंगे। हम निष्पादन योग्य डेटा का उपयोग करके किसी डिक्शनरी ऑब्जेक्ट को डंप भी करेंगेdump_dict() तरीका।

pe = PE(args.EXE_FILE)
ped = pe.dump_dict()

हम नीचे दिखाए गए कोड का उपयोग करके मूल फ़ाइल मेटाडेटा जैसे एम्बेडेड लेखकत्व, संस्करण और संकलन समय निकाल सकते हैं -

file_info = {}
for structure in pe.FileInfo:
   if structure.Key == b'StringFileInfo':
      for s_table in structure.StringTable:
         for key, value in s_table.entries.items():
            if value is None or len(value) == 0:
               value = "Unknown"
            file_info[key] = value
print("File Information: ")
print("==================")

for k, v in file_info.items():
   if isinstance(k, bytes):
      k = k.decode()
   if isinstance(v, bytes):
      v = v.decode()
   print("{}: {}".format(k, v))
comp_time = ped['FILE_HEADER']['TimeDateStamp']['Value']
comp_time = comp_time.split("[")[-1].strip("]")
time_stamp, timezone = comp_time.rsplit(" ", 1)
comp_time = datetime.strptime(time_stamp, "%a %b %d %H:%M:%S %Y")
print("Compiled on {} {}".format(comp_time, timezone.strip()))

हम निम्नानुसार हेडर से उपयोगी डेटा निकाल सकते हैं -

for section in ped['PE Sections']:
   print("Section '{}' at {}: {}/{} {}".format(
      section['Name']['Value'], hex(section['VirtualAddress']['Value']),
      section['Misc_VirtualSize']['Value'],
      section['SizeOfRawData']['Value'], section['MD5'])
   )

अब, निष्पादन योग्य फ़ाइलों से आयात और निर्यात की सूची को नीचे दिखाए अनुसार हटा दें -

if hasattr(pe, 'DIRECTORY_ENTRY_IMPORT'):
   print("\nImports: ")
   print("=========")
   
   for dir_entry in pe.DIRECTORY_ENTRY_IMPORT:
      dll = dir_entry.dll
      
      if not args.verbose:
         print(dll.decode(), end=", ")
         continue
      name_list = []
      
      for impts in dir_entry.imports:
         if getattr(impts, "name", b"Unknown") is None:
            name = b"Unknown"
         else:
            name = getattr(impts, "name", b"Unknown")
			name_list.append([name.decode(), hex(impts.address)])
      name_fmt = ["{} ({})".format(x[0], x[1]) for x in name_list]
      print('- {}: {}'.format(dll.decode(), ", ".join(name_fmt)))
   if not args.verbose:
      print()

अब, प्रिंट करें exports, names तथा addresses नीचे दिखाए गए अनुसार कोड का उपयोग करना -

if hasattr(pe, 'DIRECTORY_ENTRY_EXPORT'):
   print("\nExports: ")
   print("=========")
   
   for sym in pe.DIRECTORY_ENTRY_EXPORT.symbols:
      print('- {}: {}'.format(sym.name.decode(), hex(sym.address)))

उपरोक्त स्क्रिप्ट मूल मेटाडेटा को निकाल देगी, हेडर से विंडोज़ निष्पादन योग्य फ़ाइलों की जानकारी।

कार्यालय दस्तावेज़ मेटाडेटा

कंप्यूटर में ज्यादातर काम एमएस ऑफिस के तीन एप्लिकेशन- वर्ड, पॉवरपॉइंट और एक्सेल में होता है। इन फाइलों में विशाल मेटाडेटा होता है, जो उनके लेखन और इतिहास के बारे में दिलचस्प जानकारी को उजागर कर सकता है।

ध्यान दें कि मेटाडेटा 2007 शब्द (.docx), एक्सेल (.xlsx) और पावरपॉइंट (.pptx) से XML फ़ाइल में संग्रहीत है। हम नीचे दिखाए गए पायथन लिपि की मदद से पाइथन में इन XML फाइलों को प्रोसेस कर सकते हैं -

सबसे पहले, आवश्यक पुस्तकालयों को नीचे दिखाए अनुसार आयात करें -

from __future__ import print_function
from argparse import ArgumentParser
from datetime import datetime as dt
from xml.etree import ElementTree as etree

import zipfile
parser = argparse.ArgumentParser('Office Document Metadata’)
parser.add_argument("Office_File", help="Path to office file to read")
args = parser.parse_args()

अब, जांचें कि क्या फाइल जिप फाइल है। और, एक त्रुटि बढ़ाएँ। अब, फ़ाइल खोलें और निम्नलिखित कोड का उपयोग करके प्रसंस्करण के लिए प्रमुख तत्वों को निकालें -

zipfile.is_zipfile(args.Office_File)
zfile = zipfile.ZipFile(args.Office_File)
core_xml = etree.fromstring(zfile.read('docProps/core.xml'))
app_xml = etree.fromstring(zfile.read('docProps/app.xml'))

अब, मेटाडेटा के निष्कर्षण को शुरू करने के लिए एक शब्दकोश बनाएं -

core_mapping = {
   'title': 'Title',
   'subject': 'Subject',
   'creator': 'Author(s)',
   'keywords': 'Keywords',
   'description': 'Description',
   'lastModifiedBy': 'Last Modified By',
   'modified': 'Modified Date',
   'created': 'Created Date',
   'category': 'Category',
   'contentStatus': 'Status',
   'revision': 'Revision'
}

उपयोग iterchildren() XML फ़ाइल में प्रत्येक टैग तक पहुँचने की विधि -

for element in core_xml.getchildren():
   for key, title in core_mapping.items():
      if key in element.tag:
         if 'date' in title.lower():
            text = dt.strptime(element.text, "%Y-%m-%dT%H:%M:%SZ")
         else:
            text = element.text
         print("{}: {}".format(title, text))

इसी तरह, app.xml फ़ाइल के लिए ऐसा करें जिसमें दस्तावेज़ की सामग्री के बारे में सांख्यिकीय जानकारी हो -

app_mapping = {
   'TotalTime': 'Edit Time (minutes)',
   'Pages': 'Page Count',
   'Words': 'Word Count',
   'Characters': 'Character Count',
   'Lines': 'Line Count',
   'Paragraphs': 'Paragraph Count',
   'Company': 'Company',
   'HyperlinkBase': 'Hyperlink Base',
   'Slides': 'Slide count',
   'Notes': 'Note Count',
   'HiddenSlides': 'Hidden Slide Count',
}
for element in app_xml.getchildren():
   for key, title in app_mapping.items():
      if key in element.tag:
         if 'date' in title.lower():
            text = dt.strptime(element.text, "%Y-%m-%dT%H:%M:%SZ")
         else:
            text = element.text
         print("{}: {}".format(title, text))

अब उपरोक्त स्क्रिप्ट को चलाने के बाद, हम विशेष दस्तावेज़ के बारे में विभिन्न विवरण प्राप्त कर सकते हैं। ध्यान दें कि हम इस स्क्रिप्ट को Office 2007 या बाद के संस्करण दस्तावेज़ों पर ही लागू कर सकते हैं।

यह अध्याय पायथन का उपयोग करते हुए नेटवर्क फोरेंसिक में शामिल बुनियादी बातों की व्याख्या करेगा।

नेटवर्क फोरेंसिक को समझना

नेटवर्क फोरेंसिक डिजिटल फोरेंसिक की एक शाखा है जो सूचना एकत्र करने, साक्ष्य संग्रह, या घुसपैठ का पता लगाने के उद्देश्य से स्थानीय और WAN (वाइड एरिया नेटवर्क), दोनों की निगरानी और विश्लेषण करती है। डिजिटल अपराधों जैसे बौद्धिक संपदा की चोरी या सूचनाओं के रिसाव की जांच में नेटवर्क फोरेंसिक महत्वपूर्ण भूमिका निभाते हैं। नेटवर्क संचार की एक तस्वीर एक अन्वेषक को कुछ महत्वपूर्ण प्रश्नों को हल करने में मदद करती है -

  • किन वेबसाइटों तक पहुँचा गया है?

  • हमारे नेटवर्क पर किस तरह की सामग्री अपलोड की गई है?

  • हमारे नेटवर्क से किस तरह की सामग्री डाउनलोड की गई है?

  • क्या सर्वर तक पहुँचा जा रहा है?

  • क्या कोई कंपनी फ़ायरवॉल के बाहर संवेदनशील जानकारी भेज रहा है?

इंटरनेट साक्ष्य खोजक (IEF)

आईईएफ एक डिजिटल फोरेंसिक उपकरण है, जो विभिन्न डिजिटल मीडिया जैसे कंप्यूटर, स्मार्टफोन, टैबलेट आदि पर पाए जाने वाले डिजिटल सबूतों को खोजने, उनका विश्लेषण करने और प्रस्तुत करने के लिए है। यह बहुत लोकप्रिय है और हजारों फोरेंसिक पेशेवरों द्वारा उपयोग किया जाता है।

आईईएफ का उपयोग

इसकी लोकप्रियता के कारण, IEF का उपयोग फोरेंसिक पेशेवरों द्वारा काफी हद तक किया जाता है। IEF के कुछ उपयोग इस प्रकार हैं -

  • अपनी शक्तिशाली खोज क्षमताओं के कारण, इसका उपयोग कई फ़ाइलों या डेटा मीडिया को एक साथ खोजने के लिए किया जाता है।

  • इसका उपयोग नई नक्काशी तकनीकों के माध्यम से रैम के असंबद्ध स्थान से हटाए गए डेटा को पुनर्प्राप्त करने के लिए भी किया जाता है।

  • यदि जांचकर्ता अपने खोले गए दिनांक पर अपने मूल प्रारूप में वेब पेजों का पुनर्निर्माण करना चाहते हैं, तो वे IEF का उपयोग कर सकते हैं।

  • इसका उपयोग तार्किक या भौतिक डिस्क संस्करणों को खोजने के लिए भी किया जाता है।

पायथन का उपयोग करके आईईएफ से सीएसवी के लिए डंपिंग रिपोर्ट

IEF एक SQLite डेटाबेस में डेटा संग्रहीत करता है और पायथन स्क्रिप्ट का अनुसरण करते हुए गतिशील रूप से IEF डेटाबेस के भीतर परिणाम तालिकाओं की पहचान करेगा और उन्हें संबंधित CSV फ़ाइलों में डंप करेगा।

यह प्रक्रिया नीचे दिखाए गए चरणों में की जाती है

  • सबसे पहले, IEF परिणाम डेटाबेस उत्पन्न करें जो .db एक्सटेंशन के साथ समाप्त होने वाली SQLite डेटाबेस फ़ाइल होगी।

  • फिर, सभी तालिकाओं की पहचान करने के लिए उस डेटाबेस को क्वेरी करें।

  • अंत में, इस परिणाम तालिका को एक व्यक्तिगत CSV फ़ाइल में लिखें।

पायथन कोड

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

पायथन लिपि के लिए, आवश्यक पुस्तकालयों को निम्नानुसार आयात करें -

from __future__ import print_function

import argparse
import csv
import os
import sqlite3
import sys

अब, हमें IEF डेटाबेस फ़ाइल को पथ प्रदान करने की आवश्यकता है -

if __name__ == '__main__':
   parser = argparse.ArgumentParser('IEF to CSV')
   parser.add_argument("IEF_DATABASE", help="Input IEF database")
   parser.add_argument("OUTPUT_DIR", help="Output DIR")
   args = parser.parse_args()

अब, हम IEF डेटाबेस के अस्तित्व की पुष्टि इस प्रकार करेंगे -

if not os.path.exists(args.OUTPUT_DIR):
   os.makedirs(args.OUTPUT_DIR)
if os.path.exists(args.IEF_DATABASE) and \ os.path.isfile(args.IEF_DATABASE):
   main(args.IEF_DATABASE, args.OUTPUT_DIR)
else:
   print("[-] Supplied input file {} does not exist or is not a " "file".format(args.IEF_DATABASE))
   sys.exit(1)

अब, जैसा कि हमने पहले की लिपियों में किया था, कर्सर के माध्यम से प्रश्नों को निष्पादित करने के लिए SQLite डेटाबेस के साथ संबंध बनाते हैं -

def main(database, out_directory):
   print("[+] Connecting to SQLite database")
   conn = sqlite3.connect(database)
   c = conn.cursor()

कोड की निम्नलिखित पंक्तियों को डेटाबेस से तालिकाओं के नाम प्राप्त होंगे -

print("List of all tables to extract")
c.execute("select * from sqlite_master where type = 'table'")
tables = [x[2] for x in c.fetchall() if not x[2].startswith('_') and not x[2].endswith('_DATA')]

अब, हम तालिका से और उपयोग करके सभी डेटा का चयन करेंगे fetchall() कर्सर ऑब्जेक्ट पर विधि हम तालिका के डेटा युक्त tuples की सूची को पूरी तरह से एक चर में संग्रहीत करेंगे -

print("Dumping {} tables to CSV files in {}".format(len(tables), out_directory))

for table in tables:
c.execute("pragma table_info('{}')".format(table))
table_columns = [x[1] for x in c.fetchall()]

c.execute("select * from '{}'".format(table))
table_data = c.fetchall()

अब, का उपयोग करके CSV_Writer() विधि हम CSV फ़ाइल में सामग्री लिखेंगे -

csv_name = table + '.csv'
csv_path = os.path.join(out_directory, csv_name)
print('[+] Writing {} table to {} CSV file'.format(table,csv_name))

with open(csv_path, "w", newline = "") as csvfile:
   csv_writer = csv.writer(csvfile)
   csv_writer.writerow(table_columns)
   csv_writer.writerows(table_data)

उपरोक्त स्क्रिप्ट IEF डेटाबेस की तालिकाओं से सभी डेटा प्राप्त करेगी और सामग्री को हमारी पसंद की CSV फ़ाइल में लिख देगी।

कैश्ड डेटा के साथ काम करना

IEF परिणाम डेटाबेस से, हम अधिक जानकारी प्राप्त कर सकते हैं जो IEF द्वारा समर्थित नहीं है। हम आईईएफ परिणाम डेटाबेस का उपयोग करके ईमेल सेवा प्रदाता जैसे याहू, Google आदि से कैश्ड डेटा, सूचना के लिए एक द्वि उत्पाद प्राप्त कर सकते हैं।

याहू मेल से कैश की गई डेटा की जानकारी, Google क्रोम पर एक्सेस करने के लिए आईईएफ डेटाबेस का उपयोग करके पायथन स्क्रिप्ट निम्नलिखित है। ध्यान दें कि अंतिम पायथन लिपि में चरणों का पालन कम या ज्यादा होगा।

सबसे पहले, अजगर के लिए आवश्यक पुस्तकालयों को निम्नानुसार आयात करें -

from __future__ import print_function
import argparse
import csv
import os
import sqlite3
import sys
import json

अब, अंतिम स्क्रिप्ट में किए गए कमांड लाइन हैंडलर द्वारा IEF डेटाबेस फ़ाइल के साथ दो स्थितीय तर्क स्वीकार करता है।

if __name__ == '__main__':
   parser = argparse.ArgumentParser('IEF to CSV')
   parser.add_argument("IEF_DATABASE", help="Input IEF database")
   parser.add_argument("OUTPUT_DIR", help="Output DIR")
   args = parser.parse_args()

अब, IEF डेटाबेस के अस्तित्व की पुष्टि इस प्रकार है -

directory = os.path.dirname(args.OUTPUT_CSV)

if not os.path.exists(directory):os.makedirs(directory)
if os.path.exists(args.IEF_DATABASE) and \ os.path.isfile(args.IEF_DATABASE):
   main(args.IEF_DATABASE, args.OUTPUT_CSV)
   else: print("Supplied input file {} does not exist or is not a " "file".format(args.IEF_DATABASE))
sys.exit(1)

अब कर्सर के माध्यम से प्रश्नों को निष्पादित करने के लिए SQLite डेटाबेस के साथ संबंध बनाएं -

def main(database, out_csv):
   print("[+] Connecting to SQLite database")
   conn = sqlite3.connect(database)
   c = conn.cursor()

आप याहू मेल संपर्क कैश रिकॉर्ड के उदाहरण लाने के लिए कोड की निम्नलिखित पंक्तियों का उपयोग कर सकते हैं -

print("Querying IEF database for Yahoo Contact Fragments from " "the Chrome Cache Records Table")
   try:
      c.execute("select * from 'Chrome Cache Records' where URL like " "'https://data.mail.yahoo.com" "/classicab/v2/contacts/?format=json%'")
   except sqlite3.OperationalError:
      print("Received an error querying the database --    database may be" "corrupt or not have a Chrome Cache Records table")
      sys.exit(2)

अब, टुपल्स की सूची उपर्युक्त क्वेरी से एक चर में सहेजे जाने के लिए निम्नानुसार है -

contact_cache = c.fetchall()
contact_data = process_contacts(contact_cache)
write_csv(contact_data, out_csv)

ध्यान दें कि यहां हम दो विधियों का उपयोग करेंगे process_contacts() परिणाम सूची की स्थापना के साथ-साथ प्रत्येक संपर्क कैश रिकॉर्ड और के माध्यम से पुनरावृति के लिए json.loads() आगे हेरफेर के लिए एक चर में तालिका से निकाले गए JSON डेटा को संग्रहीत करने के लिए -

def process_contacts(contact_cache):
   print("[+] Processing {} cache files matching Yahoo contact cache " " data".format(len(contact_cache)))
   results = []
   
   for contact in contact_cache:
      url = contact[0]
      first_visit = contact[1]
      last_visit = contact[2]
      last_sync = contact[3]
      loc = contact[8]
	   contact_json = json.loads(contact[7].decode())
      total_contacts = contact_json["total"]
      total_count = contact_json["count"]
      
      if "contacts" not in contact_json:
         continue
      for c in contact_json["contacts"]:
         name, anni, bday, emails, phones, links = ("", "", "", "", "", "")
            if "name" in c:
            name = c["name"]["givenName"] + " " + \ c["name"]["middleName"] + " " + c["name"]["familyName"]
            
            if "anniversary" in c:
            anni = c["anniversary"]["month"] + \"/" + c["anniversary"]["day"] + "/" + \c["anniversary"]["year"]
            
            if "birthday" in c:
            bday = c["birthday"]["month"] + "/" + \c["birthday"]["day"] + "/" + c["birthday"]["year"]
            
            if "emails" in c:
               emails = ', '.join([x["ep"] for x in c["emails"]])
            
            if "phones" in c:
               phones = ', '.join([x["ep"] for x in c["phones"]])
            
            if "links" in c:
              links = ', '.join([x["ep"] for x in c["links"]])

अब कंपनी, शीर्षक और नोट्स के लिए, नीचे दी गई विधि का उपयोग किया जाता है -

company = c.get("company", "")
title = c.get("jobTitle", "")
notes = c.get("notes", "")

अब, हम मेटाडेटा और निकाले गए डेटा तत्वों की सूची को परिणाम सूची में जोड़ते हैं: -

results.append([url, first_visit, last_visit, last_sync, loc, name, bday,anni, emails, phones, links, company, title, notes,total_contacts, total_count])
return results

अब, का उपयोग करके CSV_Writer() विधि, हम CSV फ़ाइल में सामग्री लिखेंगे -

def write_csv(data, output):
   print("[+] Writing {} contacts to {}".format(len(data), output))
   with open(output, "w", newline="") as csvfile:
      csv_writer = csv.writer(csvfile)
      csv_writer.writerow([
         "URL", "First Visit (UTC)", "Last Visit (UTC)",
         "Last Sync (UTC)", "Location", "Contact Name", "Bday",
         "Anniversary", "Emails", "Phones", "Links", "Company", "Title",
         "Notes", "Total Contacts", "Count of Contacts in Cache"])
      csv_writer.writerows(data)

उपरोक्त स्क्रिप्ट की मदद से, हम IEF डेटाबेस का उपयोग करके याहू मेल से कैश्ड डेटा को संसाधित कर सकते हैं।

पिछले अध्याय ने पायथन का उपयोग करके नेटवर्क फोरेंसिक की कुछ अवधारणाओं से निपटा। इस अध्याय में, आइए हम गहराई से स्तर पर पायथन का उपयोग करते हुए नेटवर्क फोरेंसिक को समझें।

सुंदर सूप के साथ वेब पेज संरक्षण

वर्ल्ड वाइड वेब (डब्ल्यूडब्ल्यूडब्ल्यू) सूचना का एक अनूठा संसाधन है। हालांकि, एक खतरनाक दर पर सामग्री के नुकसान के कारण इसकी विरासत उच्च जोखिम में है। कई सांस्कृतिक विरासत और शैक्षणिक संस्थानों, गैर-लाभकारी संगठनों और निजी व्यवसायों ने इसमें शामिल मुद्दों का पता लगाया और वेब संग्रह के लिए तकनीकी समाधान के विकास में योगदान दिया।

वेब पेज संरक्षण या वेब आर्काइविंग वर्ल्ड वाइड वेब से डेटा इकट्ठा करने की प्रक्रिया है, यह सुनिश्चित करता है कि डेटा एक संग्रह में संरक्षित है और इसे भविष्य के शोधकर्ताओं, इतिहासकारों और जनता के लिए उपलब्ध करा रहा है। वेब पेज संरक्षण में आगे बढ़ने से पहले, हम नीचे दिए गए अनुसार वेब पेज संरक्षण से संबंधित कुछ महत्वपूर्ण मुद्दों पर चर्चा करते हैं -

  • Change in Web Resources - वेब संसाधन रोज़ बदलते रहते हैं जो वेब पेज संरक्षण के लिए एक चुनौती है।

  • Large Quantity of Resources - वेब पेज संरक्षण से संबंधित एक और मुद्दा संसाधनों की बड़ी मात्रा है जिसे संरक्षित किया जाना है।

  • Integrity - वेब पेज को अपनी अखंडता की रक्षा के लिए अनधिकृत संशोधनों, हटाने या हटाने से संरक्षित किया जाना चाहिए।

  • Dealing with multimedia data - वेब पेजों को संरक्षित करते समय हमें मल्टीमीडिया डेटा से भी निपटने की आवश्यकता होती है, और ऐसा करते समय समस्या हो सकती है।

  • Providing access - संरक्षण के अलावा, वेब संसाधनों तक पहुंच प्रदान करने और स्वामित्व के मुद्दों से निपटने के मुद्दे को भी हल करने की आवश्यकता है।

इस अध्याय में, हम पायथन पुस्तकालय नाम का उपयोग करने जा रहे हैं Beautiful Soup वेब पेज संरक्षण के लिए।

सुंदर सूप क्या है?

सुंदर सूप HTML और XML फ़ाइलों से डेटा खींचने के लिए एक पायथन लाइब्रेरी है। इसके साथ प्रयोग किया जा सकता हैurlibक्योंकि उसे एक सूप ऑब्जेक्ट बनाने के लिए एक इनपुट (डॉक्यूमेंट या url) की आवश्यकता होती है, क्योंकि यह वेब पेज को ही नहीं ला सकता है। आप इसके बारे में www.crummy.com/software/BeautifulSoup/bs4/doc/ पर विस्तार से जान सकते हैं

ध्यान दें कि इसका उपयोग करने से पहले, हमें निम्नलिखित आदेश का उपयोग करके एक तृतीय पक्ष पुस्तकालय स्थापित करना होगा -

pip install bs4

अगला, एनाकोंडा पैकेज मैनेजर का उपयोग करते हुए, हम निम्नानुसार सुंदर सूप स्थापित कर सकते हैं -

conda install -c anaconda beautifulsoup4

वेब पेजों के संरक्षण के लिए पायथन स्क्रिप्ट

सुंदर सूप नामक तीसरे पक्ष के पुस्तकालय का उपयोग करके वेब पृष्ठों को संरक्षित करने के लिए पायथन लिपि की चर्चा यहाँ की गई है -

सबसे पहले, आवश्यक पुस्तकालयों को निम्नानुसार आयात करें -

from __future__ import print_function
import argparse

from bs4 import BeautifulSoup, SoupStrainer
from datetime import datetime

import hashlib
import logging
import os
import ssl
import sys
from urllib.request import urlopen

import urllib.error
logger = logging.getLogger(__name__)

ध्यान दें कि यह स्क्रिप्ट दो स्थितिगत तर्क देगी, एक URL है जिसे संरक्षित किया जाना है और अन्य वांछित आउटपुट निर्देशिका है जैसा कि नीचे दिखाया गया है -

if __name__ == "__main__":
   parser = argparse.ArgumentParser('Web Page preservation')
   parser.add_argument("DOMAIN", help="Website Domain")
   parser.add_argument("OUTPUT_DIR", help="Preservation Output Directory")
   parser.add_argument("-l", help="Log file path",
   default=__file__[:-3] + ".log")
   args = parser.parse_args()

अब, फाइल में निर्दिष्ट करके स्क्रिप्ट के लिए लॉगिंग सेटअप करें और हैंडलर को लूप में रखने के लिए और दिखाए गए अनुसार अधिग्रहण प्रक्रिया को दस्तावेज करें -

logger.setLevel(logging.DEBUG)
msg_fmt = logging.Formatter("%(asctime)-15s %(funcName)-10s""%(levelname)-8s %(message)s")
strhndl = logging.StreamHandler(sys.stderr)
strhndl.setFormatter(fmt=msg_fmt)
fhndl = logging.FileHandler(args.l, mode='a')
fhndl.setFormatter(fmt=msg_fmt)

logger.addHandler(strhndl)
logger.addHandler(fhndl)
logger.info("Starting BS Preservation")
logger.debug("Supplied arguments: {}".format(sys.argv[1:]))
logger.debug("System " + sys.platform)
logger.debug("Version " + sys.version)

अब, हम आउटपुट आउटपुट को वांछित आउटपुट निर्देशिका पर निम्नानुसार करते हैं -

if not os.path.exists(args.OUTPUT_DIR):
   os.makedirs(args.OUTPUT_DIR)
main(args.DOMAIN, args.OUTPUT_DIR)

अब, हम परिभाषित करेंगे main() फ़ंक्शन, जो निम्न के रूप में इनपुट URL पर अतिरिक्त सत्यापन के साथ-साथ वास्तविक नाम से पहले अनावश्यक तत्वों को हटाकर वेबसाइट का आधार नाम देगा -

def main(website, output_dir):
   base_name = website.replace("https://", "").replace("http://", "").replace("www.", "")
   link_queue = set()
   
   if "http://" not in website and "https://" not in website:
      logger.error("Exiting preservation - invalid user input: {}".format(website))
      sys.exit(1)
   logger.info("Accessing {} webpage".format(website))
   context = ssl._create_unverified_context()

अब, हमें URL के साथ urlopen () विधि का उपयोग करके एक कनेक्शन खोलना होगा। चलिए हम कोशिश करते हैं, सिवाय इसके कि ब्लॉक को छोड़कर -

try:
   index = urlopen(website, context=context).read().decode("utf-8")
except urllib.error.HTTPError as e:
   logger.error("Exiting preservation - unable to access page: {}".format(website))
   sys.exit(2)
logger.debug("Successfully accessed {}".format(website))

कोड की अगली पंक्तियों में तीन फ़ंक्शन शामिल हैं जैसा कि नीचे बताया गया है -

  • write_output() आउटपुट निर्देशिका में पहला वेब पेज लिखने के लिए

  • find_links() इस वेब पेज पर लिंक की पहचान करने के लिए कार्य करते हैं

  • recurse_pages() वेब पेज पर सभी लिंक को खोजने और खोजने के लिए कार्य करें।

write_output(website, index, output_dir)
link_queue = find_links(base_name, index, link_queue)
logger.info("Found {} initial links on webpage".format(len(link_queue)))
recurse_pages(website, link_queue, context, output_dir)
logger.info("Completed preservation of {}".format(website))

अब, हम परिभाषित करते हैं write_output() विधि इस प्रकार है -

def write_output(name, data, output_dir, counter=0):
   name = name.replace("http://", "").replace("https://", "").rstrip("//")
   directory = os.path.join(output_dir, os.path.dirname(name))
   
   if not os.path.exists(directory) and os.path.dirname(name) != "":
      os.makedirs(directory)

हमें वेब पेज के बारे में कुछ विवरणों को लॉग इन करना होगा और फिर हम डेटा के हैश का उपयोग करके लॉग इन करेंगे hash_data() विधि इस प्रकार है -

logger.debug("Writing {} to {}".format(name, output_dir)) logger.debug("Data Hash: {}".format(hash_data(data)))
path = os.path.join(output_dir, name)
path = path + "_" + str(counter)
with open(path, "w") as outfile:
   outfile.write(data)
logger.debug("Output File Hash: {}".format(hash_file(path)))

अब, परिभाषित करें hash_data() वह तरीका जिसकी मदद से हम पढ़ते हैं UTF-8 एन्कोडेड डेटा और फिर उत्पन्न करते हैं SHA-256 इसका हैश निम्नानुसार है -

def hash_data(data):
   sha256 = hashlib.sha256()
   sha256.update(data.encode("utf-8"))
   return sha256.hexdigest()
def hash_file(file):
   sha256 = hashlib.sha256()
   with open(file, "rb") as in_file:
      sha256.update(in_file.read())
return sha256.hexdigest()

अब, हम एक बनाते हैं Beautifulsoup के तहत वेब पेज डेटा से बाहर वस्तु find_links() विधि इस प्रकार है -

def find_links(website, page, queue):
   for link in BeautifulSoup(page, "html.parser",parse_only = SoupStrainer("a", href = True)):
      if website in link.get("href"):
         if not os.path.basename(link.get("href")).startswith("#"):
            queue.add(link.get("href"))
   return queue

अब, हमें परिभाषित करने की आवश्यकता है recurse_pages() वेबसाइट URL, वर्तमान लिंक कतार, असत्यापित SSL संदर्भ और आउटपुट निर्देशिका के इनपुट इस प्रकार प्रदान करके विधि -

def recurse_pages(website, queue, context, output_dir):
   processed = []
   counter = 0
   
   while True:
      counter += 1
      if len(processed) == len(queue):
         break
      for link in queue.copy(): if link in processed:
         continue
	   processed.append(link)
      try:
      page = urlopen(link,      context=context).read().decode("utf-8")
      except urllib.error.HTTPError as e:
         msg = "Error accessing webpage: {}".format(link)
         logger.error(msg)
         continue

अब, लिंक नाम, पृष्ठ डेटा, आउटपुट निर्देशिका और काउंटर को पास करके फ़ाइल में एक्सेस किए गए प्रत्येक वेब पेज का आउटपुट लिखें -

write_output(link, page, output_dir, counter)
queue = find_links(website, page, queue)
logger.info("Identified {} links throughout website".format(
   len(queue)))

अब, जब हम वेबसाइट के URL, आउटपुट निर्देशिका और लॉग फ़ाइल के लिए एक पथ प्रदान करके इस स्क्रिप्ट को चलाते हैं, तो हम उस वेब पेज के बारे में विवरण प्राप्त करेंगे जिसका उपयोग भविष्य में उपयोग के लिए किया जा सकता है।

वायरस का शिकार

क्या आपने कभी सोचा है कि फोरेंसिक विश्लेषक, सुरक्षा शोधकर्ता, और घटना के उत्तरदाता उपयोगी सॉफ़्टवेयर और मैलवेयर के बीच अंतर को कैसे समझ सकते हैं? इसका उत्तर स्वयं प्रश्न में निहित है, क्योंकि मैलवेयर के बारे में अध्ययन किए बिना, हैकर्स द्वारा तेजी से उत्पन्न होने पर, उपयोगी सॉफ़्टवेयर और मैलवेयर के बीच अंतर बताना शोधकर्ताओं और विशेषज्ञों के लिए काफी असंभव है। इस भाग में, आइए चर्चा करते हैंVirusShare, इस कार्य को पूरा करने के लिए एक उपकरण।

वायरसशेयर को समझना

VirusShare सुरक्षा शोधकर्ताओं, घटना उत्तरदाताओं, और फोरेंसिक विश्लेषकों को लाइव दुर्भावनापूर्ण कोड के नमूने प्रदान करने के लिए मैलवेयर नमूनों का सबसे बड़ा निजी स्वामित्व वाला संग्रह है। इसमें 30 मिलियन से अधिक नमूने शामिल हैं।

VirusShare का लाभ मैलवेयर हैश की सूची है जो स्वतंत्र रूप से उपलब्ध है। कोई भी इन हैश का उपयोग बहुत व्यापक हैश सेट बनाने के लिए और संभावित दुर्भावनापूर्ण फ़ाइलों की पहचान करने के लिए उपयोग कर सकता है। लेकिन VirusShare का उपयोग करने से पहले, हम आपको यात्रा करने का सुझाव देते हैंhttps://virusshare.com अधिक जानकारी के लिए।

पायथन का उपयोग करके वायरसशेयर से न्यूलाइन-सीमांकित हैश सूची बनाना

वायरसशेयर से एक हैश सूची का उपयोग एक्स-वे और एनकेस जैसे विभिन्न फोरेंसिक टूल द्वारा किया जा सकता है। नीचे चर्चा की गई स्क्रिप्ट में, हम एक नईलाइन-सीमांकित हैश सूची बनाने के लिए VirusShare से हैश की डाउनलोडिंग सूचियों को स्वचालित करने जा रहे हैं।

इस स्क्रिप्ट के लिए, हमें एक तीसरे पक्ष के पायथन पुस्तकालय की आवश्यकता है tqdm जिसे निम्नानुसार डाउनलोड किया जा सकता है -

pip install tqdm

ध्यान दें कि इस स्क्रिप्ट में, पहले हम VirusShare हैश पेज को पढ़ेंगे और गतिशील रूप से सबसे हालिया हैश सूची की पहचान करेंगे। फिर हम प्रगति पट्टी को इनिशियलाइज़ करेंगे और हैश लिस्ट को वांछित रेंज में डाउनलोड करेंगे।

सबसे पहले, निम्न पुस्तकालयों को आयात करें -

from __future__ import print_function

import argparse
import os
import ssl
import sys
import tqdm

from urllib.request import urlopen
import urllib.error

यह स्क्रिप्ट एक स्थितिगत तर्क लेगी, जो हैश सेट के लिए वांछित रास्ता होगा -

if __name__ == '__main__':
   parser = argparse.ArgumentParser('Hash set from VirusShare')
   parser.add_argument("OUTPUT_HASH", help = "Output Hashset")
   parser.add_argument("--start", type = int, help = "Optional starting location")
   args = parser.parse_args()

अब, हम निम्नानुसार मानक इनपुट सत्यापन करेंगे -

directory = os.path.dirname(args.OUTPUT_HASH)
if not os.path.exists(directory):
   os.makedirs(directory)
if args.start:
   main(args.OUTPUT_HASH, start=args.start)
else:
   main(args.OUTPUT_HASH)

अब हमें परिभाषित करने की आवश्यकता है main() के साथ कार्य करें **kwargs एक तर्क के रूप में क्योंकि यह एक शब्दकोश बना देगा जिसे हम आपूर्ति किए गए प्रमुख तर्कों का समर्थन कर सकते हैं जैसा कि नीचे दिखाया गया है -

def main(hashset, **kwargs):
   url = "https://virusshare.com/hashes.4n6"
   print("[+] Identifying hash set range from {}".format(url))
   context = ssl._create_unverified_context()

अब, हमें उपयोग करके VirusShare हैश पेज को खोलना होगा urlib.request.urlopen()तरीका। हम निम्नानुसार कोशिश-को छोड़कर ब्लॉक का उपयोग करेंगे -

try:
   index = urlopen(url, context = context).read().decode("utf-8")
except urllib.error.HTTPError as e:
   print("[-] Error accessing webpage - exiting..")
   sys.exit(1)

अब, डाउनलोड पृष्ठों से नवीनतम हैश सूची की पहचान करें। आप HTML का अंतिम उदाहरण ढूंढ कर ऐसा कर सकते हैंhrefवायरसशेयर हैश सूची में टैग। यह कोड की निम्नलिखित पंक्तियों के साथ किया जा सकता है -

tag = index.rfind(r'a href = "hashes/VirusShare_')
stop = int(index[tag + 27: tag + 27 + 5].lstrip("0"))

if "start" not in kwa<rgs:
   start = 0
else:
   start = kwargs["start"]

if start < 0 or start > stop:
   print("[-] Supplied start argument must be greater than or equal ""to zero but less than the latest hash list, ""currently: {}".format(stop))
sys.exit(2)
print("[+] Creating a hashset from hash lists {} to {}".format(start, stop))
hashes_downloaded = 0

अब, हम उपयोग करेंगे tqdm.trange() एक लूप और प्रगति पट्टी बनाने की विधि निम्नानुसार है -

for x in tqdm.trange(start, stop + 1, unit_scale=True,desc="Progress"):
   url_hash = "https://virusshare.com/hashes/VirusShare_"\"{}.md5".format(str(x).zfill(5))
   try:
      hashes = urlopen(url_hash, context=context).read().decode("utf-8")
      hashes_list = hashes.split("\n")
   except urllib.error.HTTPError as e:
      print("[-] Error accessing webpage for hash list {}"" - continuing..".format(x))
   continue

उपरोक्त चरणों को सफलतापूर्वक करने के बाद, हम टेक्स्ट फ़ाइल के निचले भाग में जोड़ने के लिए हैश सेट टेक्स्ट फ़ाइल + मोड में खोलेंगे।

with open(hashset, "a+") as hashfile:
   for line in hashes_list:
   if not line.startswith("#") and line != "":
      hashes_downloaded += 1
      hashfile.write(line + '\n')
   print("[+] Finished downloading {} hashes into {}".format(
      hashes_downloaded, hashset))

उपरोक्त स्क्रिप्ट को चलाने के बाद, आपको नवीनतम हैश सूची मिल जाएगी जिसमें पाठ प्रारूप में एमडी 5 हैश मान हैं।

पिछले अध्यायों में नेटवर्क फोरेंसिक के महत्व और प्रक्रिया और शामिल अवधारणाओं के बारे में चर्चा की गई थी। इस अध्याय में, आइए हम डिजिटल फोरेंसिक में ईमेल की भूमिका और पायथन का उपयोग करके उनकी जांच के बारे में जानें।

जांच में ईमेल की भूमिका

ईमेल व्यावसायिक संचार में बहुत महत्वपूर्ण भूमिका निभाते हैं और इंटरनेट पर सबसे महत्वपूर्ण अनुप्रयोगों में से एक के रूप में उभरे हैं। वे न केवल कंप्यूटर से, बल्कि अन्य इलेक्ट्रॉनिक गैजेट्स जैसे मोबाइल फोन और टैबलेट से भी संदेश भेजने के लिए एक सुविधाजनक मोड हैं।

ईमेल का नकारात्मक पक्ष यह है कि अपराधी अपनी कंपनी के बारे में महत्वपूर्ण जानकारी लीक कर सकते हैं। इसलिए, हाल के वर्षों में डिजिटल फोरेंसिक में ईमेल की भूमिका बढ़ गई है। डिजिटल फोरेंसिक में, ईमेल को महत्वपूर्ण साक्ष्य माना जाता है और फोरेंसिक प्रक्रिया के दौरान साक्ष्य एकत्र करने के लिए ईमेल हैडर विश्लेषण महत्वपूर्ण हो गया है।

ईमेल फोरेंसिक करते समय एक अन्वेषक के निम्नलिखित लक्ष्य होते हैं -

  • मुख्य अपराधी की पहचान करना
  • आवश्यक साक्ष्य एकत्र करने के लिए
  • निष्कर्ष प्रस्तुत करने के लिए
  • मामला बनाने के लिए

ईमेल फॉरेंसिक में चुनौतियां

ईमेल फोरेंसिक जांच में बहुत महत्वपूर्ण भूमिका निभाते हैं क्योंकि वर्तमान युग में अधिकांश संचार ईमेल पर निर्भर करते हैं। हालांकि, एक ईमेल फोरेंसिक जांचकर्ता को जांच के दौरान निम्नलिखित चुनौतियों का सामना करना पड़ सकता है -

नकली ईमेल

ईमेल फोरेंसिक में सबसे बड़ी चुनौती नकली ई-मेल का उपयोग है जो हेरफेर और स्क्रिप्टिंग हेडर आदि द्वारा बनाई गई है। इस श्रेणी में अपराधी अस्थायी ईमेल का भी उपयोग करते हैं जो एक ऐसी सेवा है जो एक पंजीकृत उपयोगकर्ता को एक अस्थायी पते पर ईमेल प्राप्त करने की अनुमति देती है - समाप्त हो जाती है। एक निश्चित समय अवधि के बाद।

स्पूफिंग

ईमेल फोरेंसिक में एक और चुनौती खराब हो रही है जिसमें अपराधी ईमेल को किसी और के रूप में प्रस्तुत करते थे। इस मामले में मशीन दोनों नकली और साथ ही मूल आईपी पते को प्राप्त करेगी।

अनाम पुन: ईमेल

यहां, ईमेल सर्वर स्ट्रिप्स को आगे भेजने से पहले ईमेल संदेश से जानकारी की पहचान करता है। यह ईमेल जांच के लिए एक और बड़ी चुनौती है।

ईमेल फॉरेंसिक जांच में प्रयुक्त तकनीक

ईमेल फोरेंसिक ईमेल के स्रोत और सामग्री का अध्ययन है, जो संदेश के वास्तविक प्रेषक और प्राप्तकर्ता को पहचानने के लिए सबूत के रूप में और साथ ही कुछ अन्य जानकारी जैसे प्रेषक की तारीख / समय और प्रेषक के इरादे की पहचान करता है। इसमें मेटाडेटा, पोर्ट स्कैनिंग के साथ-साथ कीवर्ड खोज की जांच शामिल है।

कुछ सामान्य तकनीकों का उपयोग ईमेल फोरेंसिक जांच के लिए किया जा सकता है

  • हैडर विश्लेषण
  • सर्वर की जांच
  • नेटवर्क डिवाइस जांच
  • प्रेषक मेलर फ़िंगरप्रिंट
  • सॉफ्टवेयर एंबेडेड पहचानकर्ता

निम्नलिखित अनुभागों में, हम यह जानने जा रहे हैं कि ईमेल जांच के उद्देश्य से पायथन का उपयोग करके जानकारी कैसे प्राप्त करें।

ईएमएल फाइलों से जानकारी निकालना

ईएमएल फाइलें मूल रूप से फाइल फॉर्मेट में ईमेल होती हैं जो ईमेल संदेशों को संग्रहीत करने के लिए व्यापक रूप से उपयोग की जाती हैं। वे संरचित पाठ फाइलें हैं जो Microsoft आउटलुक, आउटलुक एक्सप्रेस, और विंडोज लाइव मेल जैसे कई ईमेल ग्राहकों के लिए अनुकूल हैं।

ईएमएल फ़ाइल ईमेल हेडर, बॉडी कंटेंट, अटैचमेंट डेटा को प्लेन टेक्स्ट के रूप में स्टोर करती है। यह बाइनरी डेटा और कोटेड-प्रिंट करने योग्य (QP) एन्कोडिंग को सामग्री की जानकारी संग्रहीत करने के लिए बेस 64 का उपयोग करता है। ईएमएल फ़ाइल से जानकारी निकालने के लिए इस्तेमाल किए जा सकने वाले पायथन लिपि को नीचे दिया गया है -

सबसे पहले, निम्न पायथन पुस्तकालयों को आयात करें जैसा कि नीचे दिखाया गया है -

from __future__ import print_function
from argparse import ArgumentParser, FileType
from email import message_from_file

import os
import quopri
import base64

उपरोक्त पुस्तकालयों में, quopriईएमएल फ़ाइलों से क्यूपी एन्कोडेड मूल्यों को डीकोड करने के लिए उपयोग किया जाता है। किसी भी बेस 64 एनकोडेड डेटा की मदद से डीकोड किया जा सकता हैbase64 पुस्तकालय।

अगला, हमें कमांड-लाइन हैंडलर के लिए तर्क प्रदान करते हैं। ध्यान दें कि यहाँ यह केवल एक तर्क को स्वीकार करेगा जो नीचे दिखाए गए अनुसार ईएमएल फ़ाइल का पथ होगा -

if __name__ == '__main__':
   parser = ArgumentParser('Extracting information from EML file')
   parser.add_argument("EML_FILE",help="Path to EML File", type=FileType('r'))
   args = parser.parse_args()
   main(args.EML_FILE)

अब, हमें परिभाषित करने की आवश्यकता है main() फ़ंक्शन जिसमें हम नामित विधि का उपयोग करेंगे message_from_file()ईमेल लाइब्रेरी से ऑब्जेक्ट की तरह फाइल को पढ़ने के लिए। यहां हम हेडर, बॉडी कंटेंट, अटैचमेंट और अन्य पेलोड जानकारी को एक्सेस नामांकित चर का उपयोग करके एक्सेस करेंगेemlfile जैसा कि नीचे दिए गए कोड में दिखाया गया है -

def main(input_file):
   emlfile = message_from_file(input_file)
   for key, value in emlfile._headers:
      print("{}: {}".format(key, value))
print("\nBody\n")

if emlfile.is_multipart():
   for part in emlfile.get_payload():
      process_payload(part)
else:
   process_payload(emlfile[1])

अब, हमें परिभाषित करने की आवश्यकता है process_payload() वह विधि जिसमें हम संदेश बॉडी कंटेंट को उपयोग करके निकालेंगे get_payload()तरीका। हम QP एन्कोडेड डेटा का उपयोग करके डिकोड करेंगेquopri.decodestring()समारोह। हम सामग्री MIME प्रकार की भी जांच करेंगे ताकि यह ईमेल के भंडारण को ठीक से संभाल सके। नीचे दिए गए कोड को ध्यान से देखें -

def process_payload(payload):
   print(payload.get_content_type() + "\n" + "=" * len(payload.get_content_type()))
   body = quopri.decodestring(payload.get_payload())
   
   if payload.get_charset():
      body = body.decode(payload.get_charset())
else:
   try:
      body = body.decode()
   except UnicodeDecodeError:
      body = body.decode('cp1252')

if payload.get_content_type() == "text/html":
   outfile = os.path.basename(args.EML_FILE.name) + ".html"
   open(outfile, 'w').write(body)
elif payload.get_content_type().startswith('application'):
   outfile = open(payload.get_filename(), 'wb')
   body = base64.b64decode(payload.get_payload())
   outfile.write(body)
   outfile.close()
   print("Exported: {}\n".format(outfile.name))
else:
   print(body)

उपरोक्त स्क्रिप्ट को निष्पादित करने के बाद, हम कंसोल पर विभिन्न पेलोड के साथ हेडर जानकारी प्राप्त करेंगे।

पायथन का उपयोग करके MSG फ़ाइलों का विश्लेषण

ईमेल संदेश कई अलग-अलग स्वरूपों में आते हैं। MSG Microsoft Outlook और Exchange द्वारा उपयोग किया जाने वाला एक प्रकार का प्रारूप है। MSG एक्सटेंशन वाली फ़ाइलों में हेडर के लिए सादा ASCII टेक्स्ट और मुख्य संदेश बॉडी के साथ-साथ हाइपरलिंक और अटैचमेंट हो सकते हैं।

इस खंड में, हम सीखेंगे कि आउटलुक एपीआई का उपयोग करके एमएसजी फ़ाइल से जानकारी कैसे निकालें। ध्यान दें कि निम्न पायथन स्क्रिप्ट केवल विंडोज पर काम करेगी। इसके लिए, हमें नाम से तीसरे पक्ष के पायथन पुस्तकालय को स्थापित करने की आवश्यकता हैpywin32 निम्नानुसार है -

pip install pywin32

अब दिखाए गए आदेशों का उपयोग करते हुए निम्नलिखित पुस्तकालयों को आयात करें -

from __future__ import print_function
from argparse import ArgumentParser

import os
import win32com.client
import pywintypes

अब, हम कमांड-लाइन हैंडलर के लिए एक तर्क प्रदान करते हैं। यहाँ यह दो तर्क स्वीकार करेगा एक MSG फ़ाइल के लिए रास्ता होगा और अन्य वांछित आउटपुट फ़ोल्डर के रूप में निम्नानुसार होगा -

if __name__ == '__main__':
   parser = ArgumentParser(‘Extracting information from MSG file’)
   parser.add_argument("MSG_FILE", help="Path to MSG file")
   parser.add_argument("OUTPUT_DIR", help="Path to output folder")
   args = parser.parse_args()
   out_dir = args.OUTPUT_DIR
   
   if not os.path.exists(out_dir):
      os.makedirs(out_dir)
   main(args.MSG_FILE, args.OUTPUT_DIR)

अब, हमें परिभाषित करने की आवश्यकता है main() फ़ंक्शन जिसमें हम कॉल करेंगे win32com पुस्तकालय स्थापित करने के लिए Outlook API जो आगे तक पहुँच प्रदान करता है MAPI नाम स्थान।

def main(msg_file, output_dir):
   mapi = win32com.client.Dispatch("Outlook.Application").GetNamespace("MAPI")
   msg = mapi.OpenSharedItem(os.path.abspath(args.MSG_FILE))
   
   display_msg_attribs(msg)
   display_msg_recipients(msg)
   
   extract_msg_body(msg, output_dir)
   extract_attachments(msg, output_dir)

अब, अलग-अलग फ़ंक्शन परिभाषित करें जो हम इस स्क्रिप्ट में उपयोग कर रहे हैं। नीचे दिया गया कोड परिभाषित करता हैdisplay_msg_attribs() फ़ंक्शन जो हमें एक संदेश की विभिन्न विशेषताओं जैसे विषय, बीसीसी, सीसी, आकार, प्रेषक, भेजे गए, आदि को प्रदर्शित करने की अनुमति देता है।

def display_msg_attribs(msg):
   attribs = [
      'Application', 'AutoForwarded', 'BCC', 'CC', 'Class',
      'ConversationID', 'ConversationTopic', 'CreationTime',
      'ExpiryTime', 'Importance', 'InternetCodePage', 'IsMarkedAsTask',
      'LastModificationTime', 'Links','ReceivedTime', 'ReminderSet',
      'ReminderTime', 'ReplyRecipientNames', 'Saved', 'Sender',
      'SenderEmailAddress', 'SenderEmailType', 'SenderName', 'Sent',
      'SentOn', 'SentOnBehalfOfName', 'Size', 'Subject',
      'TaskCompletedDate', 'TaskDueDate', 'To', 'UnRead'
   ]
   print("\nMessage Attributes")
   for entry in attribs:
      print("{}: {}".format(entry, getattr(msg, entry, 'N/A')))

अब, परिभाषित करें display_msg_recipeints() फ़ंक्शन जो संदेशों के माध्यम से प्रसारित होता है और प्राप्तकर्ता विवरण प्रदर्शित करता है।

def display_msg_recipients(msg):
   recipient_attrib = ['Address', 'AutoResponse', 'Name', 'Resolved', 'Sendable']
   i = 1
   
   while True:
   try:
      recipient = msg.Recipients(i)
   except pywintypes.com_error:
      break
   print("\nRecipient {}".format(i))
   print("=" * 15)
   
   for entry in recipient_attrib:
      print("{}: {}".format(entry, getattr(recipient, entry, 'N/A')))
   i += 1

अगला, हम परिभाषित करते हैं extract_msg_body() फ़ंक्शन जो शरीर की सामग्री, HTML के साथ-साथ प्लेन पाठ, संदेश से निकालता है।

def extract_msg_body(msg, out_dir):
   html_data = msg.HTMLBody.encode('cp1252')
   outfile = os.path.join(out_dir, os.path.basename(args.MSG_FILE))
   
   open(outfile + ".body.html", 'wb').write(html_data)
   print("Exported: {}".format(outfile + ".body.html"))
   body_data = msg.Body.encode('cp1252')
   
   open(outfile + ".body.txt", 'wb').write(body_data)
   print("Exported: {}".format(outfile + ".body.txt"))

अगला, हम परिभाषित करेंगे extract_attachments() फ़ंक्शन जो वांछित आउटपुट निर्देशिका में अनुलग्नक डेटा निर्यात करता है।

def extract_attachments(msg, out_dir):
   attachment_attribs = ['DisplayName', 'FileName', 'PathName', 'Position', 'Size']
   i = 1 # Attachments start at 1
   
   while True:
      try:
         attachment = msg.Attachments(i)
   except pywintypes.com_error:
      break

एक बार सभी कार्यों को परिभाषित करने के बाद, हम सभी विशेषताओं को कोड की निम्नलिखित पंक्ति के साथ कंसोल पर प्रिंट करेंगे -

print("\nAttachment {}".format(i))
print("=" * 15)
   
for entry in attachment_attribs:
   print('{}: {}'.format(entry, getattr(attachment, entry,"N/A")))
outfile = os.path.join(os.path.abspath(out_dir),os.path.split(args.MSG_FILE)[-1])
   
if not os.path.exists(outfile):
os.makedirs(outfile)
outfile = os.path.join(outfile, attachment.FileName)
attachment.SaveAsFile(outfile)
   
print("Exported: {}".format(outfile))
i += 1

उपरोक्त स्क्रिप्ट को चलाने के बाद, हम आउटपुट विंडो में कई फाइलों के साथ कंसोल विंडो में संदेश और इसके अनुलग्नकों की विशेषताएं प्राप्त करेंगे।

पाइथन का उपयोग करके Google टेकआउट से MBOX फ़ाइलों को संरचित करना

MBOX फाइलें विशेष स्वरूपण के साथ पाठ फाइलें होती हैं जो संदेशों को अंदर संग्रहीत करती हैं। वे अक्सर UNIX सिस्टम, थंडरबोल्ट, और Google टेकआउट के सहयोग से पाए जाते हैं।

इस खंड में, आप पायथन स्क्रिप्ट देखेंगे, जहाँ हम Google टेकआउट से प्राप्त MBOX फ़ाइलों को संरचित करेंगे। लेकिन इससे पहले हमें यह पता होना चाहिए कि हम अपने Google खाते या जीमेल खाते का उपयोग करके इन MBOX फ़ाइलों को कैसे उत्पन्न कर सकते हैं।

MBX प्रारूप में Google खाता मेलबॉक्स को प्राप्त करना

Google खाते के मेलबॉक्स को प्राप्त करने का तात्पर्य है हमारे Gmail खाते का बैकअप लेना। विभिन्न व्यक्तिगत या व्यावसायिक कारणों से बैकअप लिया जा सकता है। ध्यान दें कि Google जीमेल डेटा का बैकअप प्रदान करता है। हमारे Google खाता मेलबॉक्स को MBOX प्रारूप में प्राप्त करने के लिए, आपको नीचे दिए गए चरणों का पालन करना होगा -

  • खुला हुआ My account डैशबोर्ड।

  • व्यक्तिगत जानकारी और गोपनीयता अनुभाग पर जाएं और अपनी सामग्री लिंक नियंत्रित करें चुनें।

  • आप एक नया संग्रह बना सकते हैं या मौजूदा एक का प्रबंधन कर सकते हैं। अगर हम क्लिक करें,CREATE ARCHIVE लिंक, फिर हम प्रत्येक Google उत्पाद के लिए कुछ चेक बॉक्स प्राप्त करेंगे जिन्हें हम शामिल करना चाहते हैं।

  • उत्पादों का चयन करने के बाद, हमें सूची से चयन करने के लिए डिलीवरी पद्धति के साथ-साथ हमारे संग्रह के लिए फ़ाइल प्रकार और अधिकतम आकार चुनने की स्वतंत्रता मिलेगी।

  • अंत में, हमें यह बैकअप MBOX फॉर्मेट में मिलेगा।

पायथन कोड

अब, ऊपर चर्चा की गई MBOX फ़ाइल को नीचे दिखाए गए अनुसार पायथन का उपयोग करके संरचित किया जा सकता है -

सबसे पहले, अजगर पुस्तकालयों को आयात करने की आवश्यकता है -

from __future__ import print_function
from argparse import ArgumentParser

import mailbox
import os
import time
import csv
from tqdm import tqdm

import base64

सभी पुस्तकालयों का उपयोग किया गया है और पहले की लिपियों में समझाया गया है, सिवाय mailbox पुस्तकालय जो MBOX फ़ाइलों को पार्स करने के लिए उपयोग किया जाता है।

अब, कमांड-लाइन हैंडलर के लिए एक तर्क प्रदान करें। यहाँ यह दो तर्कों को स्वीकार करेगा- एक तो MBOX फ़ाइल का पथ होगा, और दूसरा वांछित आउटपुट फ़ोल्डर होगा।

if __name__ == '__main__':
   parser = ArgumentParser('Parsing MBOX files')
   parser.add_argument("MBOX", help="Path to mbox file")
   parser.add_argument(
      "OUTPUT_DIR",help = "Path to output directory to write report ""and exported content")
   args = parser.parse_args()
   main(args.MBOX, args.OUTPUT_DIR)

अब, परिभाषित करेगा main() फ़ंक्शन और कॉल करें mbox मेलबॉक्स लाइब्रेरी की श्रेणी जिसकी सहायता से हम एक MBOX फ़ाइल को उसका पथ प्रदान कर सकते हैं -

def main(mbox_file, output_dir):
   print("Reading mbox file")
   mbox = mailbox.mbox(mbox_file, factory=custom_reader)
   print("{} messages to parse".format(len(mbox)))

अब, के लिए एक पाठक विधि को परिभाषित करें mailbox पुस्तकालय निम्नानुसार है -

def custom_reader(data_stream):
   data = data_stream.read()
   try:
      content = data.decode("ascii")
   except (UnicodeDecodeError, UnicodeEncodeError) as e:
      content = data.decode("cp1252", errors="replace")
   return mailbox.mboxMessage(content)

अब आगे की प्रक्रिया के लिए कुछ चर बनाएं, जो निम्नानुसार हैं -

parsed_data = []
attachments_dir = os.path.join(output_dir, "attachments")

if not os.path.exists(attachments_dir):
   os.makedirs(attachments_dir)
columns = [
   "Date", "From", "To", "Subject", "X-Gmail-Labels", "Return-Path", "Received", 
   "Content-Type", "Message-ID","X-GM-THRID", "num_attachments_exported", "export_path"]

अगला, उपयोग करें tqdm एक प्रगति पट्टी उत्पन्न करने और निम्नानुसार पुनरावृत्ति प्रक्रिया को ट्रैक करने के लिए -

for message in tqdm(mbox):
   msg_data = dict()
   header_data = dict(message._headers)
for hdr in columns:
   msg_data[hdr] = header_data.get(hdr, "N/A")

अब, चेक मौसम संदेश में पेलोड है या नहीं। अगर यह हो रहा है तो हम परिभाषित करेंगेwrite_payload() विधि इस प्रकार है -

if len(message.get_payload()):
   export_path = write_payload(message, attachments_dir)
   msg_data['num_attachments_exported'] = len(export_path)
   msg_data['export_path'] = ", ".join(export_path)

अब, डेटा को संलग्न करने की आवश्यकता है। फिर हम फोन करेंगेcreate_report() विधि इस प्रकार है -

parsed_data.append(msg_data)
create_report(
   parsed_data, os.path.join(output_dir, "mbox_report.csv"), columns)
def write_payload(msg, out_dir):
   pyld = msg.get_payload()
   export_path = []
   
if msg.is_multipart():
   for entry in pyld:
      export_path += write_payload(entry, out_dir)
else:
   content_type = msg.get_content_type()
   if "application/" in content_type.lower():
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
   elif "image/" in content_type.lower():
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))

   elif "video/" in content_type.lower():
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
   elif "audio/" in content_type.lower():
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
   elif "text/csv" in content_type.lower():
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
   elif "info/" in content_type.lower():
      export_path.append(export_content(msg, out_dir,
      msg.get_payload()))
   elif "text/calendar" in content_type.lower():
      export_path.append(export_content(msg, out_dir,
      msg.get_payload()))
   elif "text/rtf" in content_type.lower():
      export_path.append(export_content(msg, out_dir,
      msg.get_payload()))
   else:
      if "name=" in msg.get('Content-Disposition', "N/A"):
         content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
   elif "name=" in msg.get('Content-Type', "N/A"):
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
return export_path

निरीक्षण करें कि ऊपर दिए गए अन्य विवरणों को समझना आसान है। अब, हमें एक विधि को परिभाषित करने की आवश्यकता है जो फ़ाइल नाम को इसमें से निकालेगीmsg वस्तु इस प्रकार है -

def export_content(msg, out_dir, content_data):
   file_name = get_filename(msg)
   file_ext = "FILE"
   
   if "." in file_name: file_ext = file_name.rsplit(".", 1)[-1]
   file_name = "{}_{:.4f}.{}".format(file_name.rsplit(".", 1)[0], time.time(), file_ext)
   file_name = os.path.join(out_dir, file_name)

अब, कोड की निम्नलिखित पंक्तियों की मदद से, आप वास्तव में फ़ाइल निर्यात कर सकते हैं -

if isinstance(content_data, str):
   open(file_name, 'w').write(content_data)
else:
   open(file_name, 'wb').write(content_data)
return file_name

अब, हम filenames को निकालने के लिए एक फंक्शन को परिभाषित करते हैं message इन फाइलों के नामों को सही-सही दर्शाने के लिए -

def get_filename(msg):
   if 'name=' in msg.get("Content-Disposition", "N/A"):
      fname_data = msg["Content-Disposition"].replace("\r\n", " ")
      fname = [x for x in fname_data.split("; ") if 'name=' in x]
      file_name = fname[0].split("=", 1)[-1]
   elif 'name=' in msg.get("Content-Type", "N/A"):
      fname_data = msg["Content-Type"].replace("\r\n", " ")
      fname = [x for x in fname_data.split("; ") if 'name=' in x]
      file_name = fname[0].split("=", 1)[-1]
   else:
      file_name = "NO_FILENAME"
   fchars = [x for x in file_name if x.isalnum() or x.isspace() or x == "."]
   return "".join(fchars)

अब, हम एक CSV फ़ाइल को परिभाषित करके लिख सकते हैं create_report() कार्य निम्नानुसार है -

def create_report(output_data, output_file, columns):
   with open(output_file, 'w', newline="") as outfile:
      csvfile = csv.DictWriter(outfile, columns)
      csvfile.writeheader()
      csvfile.writerows(output_data)

एक बार जब आप ऊपर दी गई स्क्रिप्ट को चलाते हैं, तो हम CSV रिपोर्ट और निर्देशिका को अनुलग्नकों से भरा पाएंगे।

यह अध्याय माइक्रोसॉफ्ट विंडोज फोरेंसिक में शामिल विभिन्न अवधारणाओं और महत्वपूर्ण कलाकृतियों की व्याख्या करेगा जो एक अन्वेषक जांच प्रक्रिया से प्राप्त कर सकते हैं।

परिचय

कलाकृतियां एक कंप्यूटर सिस्टम के भीतर की वस्तुएं या क्षेत्र हैं जो कंप्यूटर उपयोगकर्ता द्वारा निष्पादित गतिविधियों से संबंधित महत्वपूर्ण जानकारी रखते हैं। इस जानकारी का प्रकार और स्थान ऑपरेटिंग सिस्टम पर निर्भर करता है। फोरेंसिक विश्लेषण के दौरान, ये कलाकृतियां अन्वेषक के अवलोकन को मंजूरी देने या अस्वीकृत करने में बहुत महत्वपूर्ण भूमिका निभाती हैं।

फॉरेंसिक के लिए विंडोज कलाकृतियों का महत्व

निम्नलिखित कारणों से विंडोज कलाकृतियों का महत्व है -

  • दुनिया में लगभग 90% ट्रैफ़िक विंडोज़ से उनके ऑपरेटिंग सिस्टम के रूप में उपयोग किए जाने वाले कंप्यूटरों से आता है। यही कारण है कि डिजिटल फोरेंसिक परीक्षकों के लिए विंडोज कलाकृतियां बहुत आवश्यक हैं।

  • विंडोज ऑपरेटिंग सिस्टम कंप्यूटर सिस्टम पर उपयोगकर्ता गतिविधि से संबंधित विभिन्न प्रकार के सबूत संग्रहीत करता है। यह एक और कारण है जो डिजिटल फोरेंसिक के लिए विंडोज कलाकृतियों के महत्व को दर्शाता है।

  • कई बार जांचकर्ता पुराने और पारंपरिक क्षेत्रों जैसे उपयोगकर्ता के डेटा की जाँच करता है। विंडोज कलाकृतियां गैर-पारंपरिक क्षेत्रों जैसे सिस्टम द्वारा बनाए गए डेटा या कलाकृतियों की जांच का नेतृत्व कर सकती हैं।

  • कलाकृतियों की बड़ी बहुतायत विंडोज द्वारा प्रदान की जाती है जो जांचकर्ताओं के साथ-साथ अनौपचारिक जांच करने वाली कंपनियों और व्यक्तियों के लिए सहायक होती है।

  • हाल के वर्षों में साइबर अपराध में वृद्धि एक और कारण है कि विंडोज कलाकृतियां महत्वपूर्ण हैं।

विंडोज कलाकृतियों और उनके पायथन लिपियों

इस खंड में, हम उनसे जानकारी प्राप्त करने के लिए कुछ विंडोज कलाकृतियों और पायथन लिपियों के बारे में चर्चा करने जा रहे हैं।

रीसायकल बिन

यह फोरेंसिक जांच के लिए महत्वपूर्ण विंडोज कलाकृतियों में से एक है। विंडोज रीसायकल बिन में उपयोगकर्ता द्वारा हटाई गई फाइलें हैं, लेकिन अभी तक सिस्टम द्वारा भौतिक रूप से नहीं हटाया गया है। भले ही उपयोगकर्ता फ़ाइल को सिस्टम से पूरी तरह से हटा देता है, लेकिन यह जांच का एक महत्वपूर्ण स्रोत है। यह इसलिए है क्योंकि परीक्षक मूल फ़ाइल पथ की तरह मूल्यवान जानकारी भी निकाल सकता है, साथ ही यह हटाए गए फ़ाइलों से रीसायकल बिन में भेजा गया था।

ध्यान दें कि रीसायकल बिन साक्ष्य का भंडारण विंडोज के संस्करण पर निर्भर करता है। निम्नलिखित पायथन लिपि में, हम विंडोज 7 से निपटने जा रहे हैं जहां यह दो फाइलें बनाता है:$R फ़ाइल जिसमें पुनर्नवीनीकरण फ़ाइल की वास्तविक सामग्री है और $I फ़ाइल जिसमें मूल फ़ाइल नाम, पथ, फ़ाइल का आकार होता है जब फ़ाइल को हटा दिया गया था।

पायथन लिपि के लिए हमें तीसरे पक्ष के मॉड्यूल को स्थापित करना होगा pytsk3, pyewf तथा unicodecsv। हम प्रयोग कर सकते हैंpipउन्हें स्थापित करने के लिए। हम रीसायकल बिन से जानकारी निकालने के लिए निम्नलिखित चरणों का पालन कर सकते हैं -

  • सबसे पहले, हम के माध्यम से स्कैन करने के लिए पुनरावर्ती विधि का उपयोग करने की आवश्यकता है $Recycle.bin फ़ोल्डर और से शुरू होने वाली सभी फ़ाइलों का चयन करें $I

  • अगला, हम फ़ाइलों की सामग्री को पढ़ेंगे और उपलब्ध मेटाडेटा संरचनाओं को पार्स करेंगे।

  • अब, हम संबंधित $ R फ़ाइल की खोज करेंगे।

  • अंत में, हम परिणामों को समीक्षा के लिए CSV फ़ाइल में लिखेंगे।

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

सबसे पहले, हमें निम्नलिखित पायथन पुस्तकालयों को आयात करने की आवश्यकता है -

from __future__ import print_function
from argparse import ArgumentParser

import datetime
import os
import struct

from utility.pytskutil import TSKUtil
import unicodecsv as csv

अगला, हमें कमांड-लाइन हैंडलर के लिए तर्क प्रदान करने की आवश्यकता है। ध्यान दें कि यहाँ यह तीन तर्क स्वीकार करेगा - पहला सबूत फ़ाइल का रास्ता है, दूसरा सबूत फ़ाइल का प्रकार है और तीसरा सीएसवी रिपोर्ट का वांछित आउटपुट पथ है, जैसा कि नीचे दिखाया गया है -

if __name__ == '__main__':
   parser = argparse.ArgumentParser('Recycle Bin evidences')
   parser.add_argument('EVIDENCE_FILE', help = "Path to evidence file")
   parser.add_argument('IMAGE_TYPE', help = "Evidence file format",
   choices = ('ewf', 'raw'))
   parser.add_argument('CSV_REPORT', help = "Path to CSV report")
   args = parser.parse_args()
   main(args.EVIDENCE_FILE, args.IMAGE_TYPE, args.CSV_REPORT)

अब, परिभाषित करें main()फ़ंक्शन जो सभी प्रसंस्करण को संभाल लेगा। इसकी खोज होगी$I फाइल इस प्रकार है -

def main(evidence, image_type, report_file):
   tsk_util = TSKUtil(evidence, image_type)
   dollar_i_files = tsk_util.recurse_files("$I", path = '/$Recycle.bin',logic = "startswith") if dollar_i_files is not None: processed_files = process_dollar_i(tsk_util, dollar_i_files) write_csv(report_file,['file_path', 'file_size', 'deleted_time','dollar_i_file', 'dollar_r_file', 'is_directory'],processed_files) else: print("No $I files found")

अब, अगर हमने पाया $I फ़ाइल, तो इसे भेजा जाना चाहिए process_dollar_i() समारोह जो स्वीकार करेगा tsk_util वस्तु के साथ ही सूची भी $I फ़ाइलें, जैसा कि नीचे दिखाया गया है -

def process_dollar_i(tsk_util, dollar_i_files):
   processed_files = []
   
   for dollar_i in dollar_i_files:
      file_attribs = read_dollar_i(dollar_i[2])
      if file_attribs is None:
         continue
      file_attribs['dollar_i_file'] = os.path.join('/$Recycle.bin', dollar_i[1][1:])

अब, $ R फ़ाइलों की खोज निम्नानुसार है -

recycle_file_path = os.path.join('/$Recycle.bin',dollar_i[1].rsplit("/", 1)[0][1:]) dollar_r_files = tsk_util.recurse_files( "$R" + dollar_i[0][2:],path = recycle_file_path, logic = "startswith")
   
   if dollar_r_files is None:
      dollar_r_dir = os.path.join(recycle_file_path,"$R" + dollar_i[0][2:])
      dollar_r_dirs = tsk_util.query_directory(dollar_r_dir)
   
   if dollar_r_dirs is None:
      file_attribs['dollar_r_file'] = "Not Found"
      file_attribs['is_directory'] = 'Unknown'
   
   else:
      file_attribs['dollar_r_file'] = dollar_r_dir
      file_attribs['is_directory'] = True
   
   else:
      dollar_r = [os.path.join(recycle_file_path, r[1][1:])for r in dollar_r_files]
      file_attribs['dollar_r_file'] = ";".join(dollar_r)
      file_attribs['is_directory'] = False
      processed_files.append(file_attribs)
   return processed_files

अब, परिभाषित करें read_dollar_i() पढ़ने की विधि $Iफ़ाइलें, दूसरे शब्दों में, मेटाडेटा को पार्स करें। हम इस्तेमाल करेंगेread_random()विधि हस्ताक्षर के पहले आठ बाइट्स पढ़ने के लिए। यदि हस्ताक्षर मेल नहीं खाते हैं तो यह वापस आ जाएगा। उसके बाद, हमें मूल्यों को पढ़ना और अनपैक करना होगा$I फ़ाइल यदि एक मान्य फ़ाइल है।

def read_dollar_i(file_obj):
   if file_obj.read_random(0, 8) != '\x01\x00\x00\x00\x00\x00\x00\x00':
      return None
   raw_file_size = struct.unpack('<q', file_obj.read_random(8, 8))
   raw_deleted_time = struct.unpack('<q',   file_obj.read_random(16, 8))
   raw_file_path = file_obj.read_random(24, 520)

अब, इन फ़ाइलों को निकालने के बाद, हमें पूर्णांक को मानव-पठनीय मानों का उपयोग करके व्याख्या करना होगा sizeof_fmt() नीचे दिखाए अनुसार कार्य करें -

file_size = sizeof_fmt(raw_file_size[0])
deleted_time = parse_windows_filetime(raw_deleted_time[0])

file_path = raw_file_path.decode("utf16").strip("\x00")
return {'file_size': file_size, 'file_path': file_path,'deleted_time': deleted_time}

अब, हमें परिभाषित करने की आवश्यकता है sizeof_fmt() कार्य निम्नानुसार है -

def sizeof_fmt(num, suffix = 'B'):
   for unit in ['', 'Ki', 'Mi', 'Gi', 'Ti', 'Pi', 'Ei', 'Zi']:
      if abs(num) < 1024.0:
         return "%3.1f%s%s" % (num, unit, suffix)
      num /= 1024.0
   return "%.1f%s%s" % (num, 'Yi', suffix)

अब, पूर्णांक की व्याख्या के लिए एक फ़ंक्शन को स्वरूपित तिथि और समय में निम्नानुसार परिभाषित करें -

def parse_windows_filetime(date_value):
   microseconds = float(date_value) / 10
   ts = datetime.datetime(1601, 1, 1) + datetime.timedelta(
      microseconds = microseconds)
   return ts.strftime('%Y-%m-%d %H:%M:%S.%f')

अब, हम परिभाषित करेंगे write_csv() संसाधित परिणामों को CSV फ़ाइल में लिखने की विधि इस प्रकार है -

def write_csv(outfile, fieldnames, data):
   with open(outfile, 'wb') as open_outfile:
      csvfile = csv.DictWriter(open_outfile, fieldnames)
      csvfile.writeheader()
      csvfile.writerows(data)

जब आप उपरोक्त स्क्रिप्ट चलाते हैं, तो हम $ I और $ R फ़ाइल से डेटा प्राप्त करेंगे।

चिपचिपा नोट्स

विंडोज स्टिकी नोट्स पेन और पेपर के साथ लिखने की वास्तविक दुनिया की आदत को बदल देता है। ये नोट डेस्कटॉप पर रंग, फोंट आदि के लिए विभिन्न विकल्पों के साथ तैरते थे। विंडोज 7 में स्टिकी नोट्स फ़ाइल को OLE फ़ाइल के रूप में संग्रहीत किया जाता है इसलिए निम्न पायथन स्क्रिप्ट में हम स्टिकी नोट्स से मेटाडेटा निकालने के लिए इस OLE फ़ाइल की जांच करेंगे।

इस पायथन लिपि के लिए, हमें तीसरे पक्ष के मॉड्यूल को स्थापित करने की आवश्यकता है olefile, pytsk3, pyewfऔर यूनिकोडेकसव। हम कमांड का उपयोग कर सकते हैंpip उन्हें स्थापित करने के लिए।

हम स्टिकी नोट फ़ाइल से जानकारी निकालने के लिए नीचे दिए गए चरणों का अनुसरण कर सकते हैं StickyNote.sn -

  • सबसे पहले, सबूत फ़ाइल खोलें और सभी StickyNote.snt फ़ाइलों को ढूंढें।

  • फिर, मेटाडेटा और सामग्री को OLE स्ट्रीम से पार्स करें और फ़ाइलों को RTF सामग्री लिखें।

  • अंत में, इस मेटाडेटा की CSV रिपोर्ट बनाएं।

पायथन कोड

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

सबसे पहले, निम्नलिखित पायथन पुस्तकालयों का आयात करें -

from __future__ import print_function
from argparse import ArgumentParser

import unicodecsv as csv
import os
import StringIO

from utility.pytskutil import TSKUtil
import olefile

इसके बाद, एक वैश्विक चर को परिभाषित करें जो इस स्क्रिप्ट में उपयोग किया जाएगा -

REPORT_COLS = ['note_id', 'created', 'modified', 'note_text', 'note_file']

अगला, हमें कमांड-लाइन हैंडलर के लिए तर्क प्रदान करने की आवश्यकता है। ध्यान दें कि यहाँ यह तीन तर्क स्वीकार करेगा - पहला सबूत फ़ाइल का मार्ग है, दूसरा सबूत फ़ाइल का प्रकार है और तीसरा वांछित आउटपुट पथ निम्नानुसार है -

if __name__ == '__main__':
   parser = argparse.ArgumentParser('Evidence from Sticky Notes')
   parser.add_argument('EVIDENCE_FILE', help="Path to evidence file")
   parser.add_argument('IMAGE_TYPE', help="Evidence file format",choices=('ewf', 'raw'))
   parser.add_argument('REPORT_FOLDER', help="Path to report folder")
   args = parser.parse_args()
   main(args.EVIDENCE_FILE, args.IMAGE_TYPE, args.REPORT_FOLDER)

अब, हम परिभाषित करेंगे main() फ़ंक्शन जो पिछली स्क्रिप्ट के समान होगा जैसा कि नीचे दिखाया गया है -

def main(evidence, image_type, report_folder):
   tsk_util = TSKUtil(evidence, image_type)
   note_files = tsk_util.recurse_files('StickyNotes.snt', '/Users','equals')

अब, परिणामस्वरूप फ़ाइलों के माध्यम से पुनरावृति करते हैं। फिर हम फोन करेंगेparse_snt_file() फ़ाइल को संसाधित करने के लिए फ़ंक्शन और फिर हम RTF फ़ाइल के साथ लिखेंगे write_note_rtf() विधि इस प्रकार है -

report_details = []
for note_file in note_files:
   user_dir = note_file[1].split("/")[1]
   file_like_obj = create_file_like_obj(note_file[2])
   note_data = parse_snt_file(file_like_obj)
   
   if note_data is None:
      continue
   write_note_rtf(note_data, os.path.join(report_folder, user_dir))
   report_details += prep_note_report(note_data, REPORT_COLS,"/Users" + note_file[1])
   write_csv(os.path.join(report_folder, 'sticky_notes.csv'), REPORT_COLS,report_details)

अगला, हमें इस स्क्रिप्ट में उपयोग किए गए विभिन्न कार्यों को परिभाषित करने की आवश्यकता है।

सबसे पहले हम परिभाषित करेंगे create_file_like_obj() फ़ाइल के आकार को पढ़ने के लिए कार्य करें pytskफ़ाइल वस्तु। फिर हम परिभाषित करेंगेparse_snt_file() फ़ंक्शन जो फ़ाइल-इनपुट ऑब्जेक्ट को इसके इनपुट के रूप में स्वीकार करेगा और स्टिकी नोट फ़ाइल को पढ़ने और व्याख्या करने के लिए उपयोग किया जाता है।

def parse_snt_file(snt_file):
   
   if not olefile.isOleFile(snt_file):
      print("This is not an OLE file")
      return None
   ole = olefile.OleFileIO(snt_file)
   note = {}
   
   for stream in ole.listdir():
      if stream[0].count("-") == 3:
         if stream[0] not in note:
            note[stream[0]] = {"created": ole.getctime(stream[0]),"modified": ole.getmtime(stream[0])}
         content = None
         if stream[1] == '0':
            content = ole.openstream(stream).read()
         elif stream[1] == '3':
            content = ole.openstream(stream).read().decode("utf-16")
         if content:
            note[stream[0]][stream[1]] = content
	return note

अब, परिभाषित करके RTF फ़ाइल बनाएँ write_note_rtf() फ़ंक्शन निम्नानुसार है

def write_note_rtf(note_data, report_folder):
   if not os.path.exists(report_folder):
      os.makedirs(report_folder)
   
   for note_id, stream_data in note_data.items():
      fname = os.path.join(report_folder, note_id + ".rtf")
      with open(fname, 'w') as open_file:
         open_file.write(stream_data['0'])

अब, हम नेस्टेड डिक्शनरी को उन शब्दकोशों की एक फ्लैट सूची में अनुवाद करेंगे जो CSV स्प्रेडशीट के लिए अधिक उपयुक्त हैं। इसे परिभाषित करके किया जाएगाprep_note_report()समारोह। अंत में, हम परिभाषित करेंगेwrite_csv() समारोह।

def prep_note_report(note_data, report_cols, note_file):
   report_details = []
   
   for note_id, stream_data in note_data.items():
      report_details.append({
         "note_id": note_id,
         "created": stream_data['created'],
         "modified": stream_data['modified'],
         "note_text": stream_data['3'].strip("\x00"),
         "note_file": note_file
      })
   return report_details
def write_csv(outfile, fieldnames, data):
   with open(outfile, 'wb') as open_outfile:
      csvfile = csv.DictWriter(open_outfile, fieldnames)
      csvfile.writeheader()
      csvfile.writerows(data)

उपरोक्त स्क्रिप्ट को चलाने के बाद, हम स्टिकी नोट्स फ़ाइल से मेटाडेटा प्राप्त करेंगे।

रजिस्ट्री फ़ाइलें

विंडोज रजिस्ट्री फाइलों में कई महत्वपूर्ण विवरण होते हैं जो एक फॉरेंसिक विश्लेषक के लिए सूचना के खजाने की तरह होते हैं। यह एक पदानुक्रमित डेटाबेस है जिसमें ऑपरेटिंग सिस्टम कॉन्फ़िगरेशन, उपयोगकर्ता गतिविधि, सॉफ़्टवेयर इंस्टॉलेशन आदि से संबंधित विवरण होते हैं। निम्नलिखित पायथन लिपि में हम सामान्य आधारभूत जानकारी को एक्सेस करने जा रहे हैं।SYSTEM तथा SOFTWARE पित्ती।

इस पायथन लिपि के लिए, हमें तीसरे पक्ष के मॉड्यूल को स्थापित करने की आवश्यकता है pytsk3, pyewf तथा registry। हम प्रयोग कर सकते हैंpip उन्हें स्थापित करने के लिए।

विंडोज रजिस्ट्री से जानकारी निकालने के लिए हम नीचे दिए गए चरणों का पालन कर सकते हैं -

  • सबसे पहले, रजिस्ट्री के पित्ती को उसके नाम से और साथ ही पथ से संसाधित करें।

  • फिर हम इन फ़ाइलों को StringIO और रजिस्ट्री मॉड्यूल का उपयोग करके खोलते हैं।

  • अंत में हमें प्रत्येक छत्ते को संसाधित करने और व्याख्या के लिए कंसोल में पार्स किए गए मान प्रिंट करने की आवश्यकता है।

पायथन कोड

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

सबसे पहले, निम्नलिखित पायथन पुस्तकालयों का आयात करें -

from __future__ import print_function
from argparse import ArgumentParser

import datetime
import StringIO
import struct

from utility.pytskutil import TSKUtil
from Registry import Registry

अब, कमांड-लाइन हैंडलर के लिए तर्क प्रदान करें। यहाँ यह दो तर्क स्वीकार करेगा - पहला सबूत फ़ाइल का मार्ग है, दूसरा सबूत फ़ाइल का प्रकार है, जैसा कि नीचे दिखाया गया है -

if __name__ == '__main__':
   parser = argparse.ArgumentParser('Evidence from Windows Registry')
   parser.add_argument('EVIDENCE_FILE', help = "Path to evidence file")
   parser.add_argument('IMAGE_TYPE', help = "Evidence file format",
   choices = ('ewf', 'raw'))
   args = parser.parse_args()
   main(args.EVIDENCE_FILE, args.IMAGE_TYPE)

अब हम परिभाषित करेंगे main() खोज के लिए कार्य करते हैं SYSTEM तथा SOFTWARE भीतर छिपा है /Windows/System32/config फ़ोल्डर निम्नानुसार है -

def main(evidence, image_type):
   tsk_util = TSKUtil(evidence, image_type)
   tsk_system_hive = tsk_util.recurse_files('system', '/Windows/system32/config', 'equals')
   tsk_software_hive = tsk_util.recurse_files('software', '/Windows/system32/config', 'equals')
   system_hive = open_file_as_reg(tsk_system_hive[0][2])
   software_hive = open_file_as_reg(tsk_software_hive[0][2])
   process_system_hive(system_hive)
   process_software_hive(software_hive)

अब, रजिस्ट्री फ़ाइल खोलने के लिए फ़ंक्शन को परिभाषित करें। इस उद्देश्य के लिए, हमें फ़ाइल का आकार एकत्र करना होगाpytsk मेटाडेटा निम्नानुसार है -

def open_file_as_reg(reg_file):
   file_size = reg_file.info.meta.size
   file_content = reg_file.read_random(0, file_size)
   file_like_obj = StringIO.StringIO(file_content)
   return Registry.Registry(file_like_obj)

अब, निम्नलिखित विधि की मदद से, हम प्रक्रिया कर सकते हैं SYSTEM> छत्ता -

def process_system_hive(hive):
   root = hive.root()
   current_control_set = root.find_key("Select").value("Current").value()
   control_set = root.find_key("ControlSet{:03d}".format(current_control_set))
   raw_shutdown_time = struct.unpack(
      '<Q', control_set.find_key("Control").find_key("Windows").value("ShutdownTime").value())
   
   shutdown_time = parse_windows_filetime(raw_shutdown_time[0])
   print("Last Shutdown Time: {}".format(shutdown_time))
   
   time_zone = control_set.find_key("Control").find_key("TimeZoneInformation")
      .value("TimeZoneKeyName").value()
   
   print("Machine Time Zone: {}".format(time_zone))
   computer_name = control_set.find_key("Control").find_key("ComputerName").find_key("ComputerName")
      .value("ComputerName").value()
   
   print("Machine Name: {}".format(computer_name))
   last_access = control_set.find_key("Control").find_key("FileSystem")
      .value("NtfsDisableLastAccessUpdate").value()
   last_access = "Disabled" if last_access == 1 else "enabled"
   print("Last Access Updates: {}".format(last_access))

अब, हमें पूर्णांक की व्याख्या के लिए एक फ़ंक्शन को स्वरूपित तिथि और समय में निम्नानुसार परिभाषित करना होगा -

def parse_windows_filetime(date_value):
   microseconds = float(date_value) / 10
   ts = datetime.datetime(1601, 1, 1) + datetime.timedelta(microseconds = microseconds)
   return ts.strftime('%Y-%m-%d %H:%M:%S.%f')

def parse_unix_epoch(date_value):
   ts = datetime.datetime.fromtimestamp(date_value)
   return ts.strftime('%Y-%m-%d %H:%M:%S.%f')

अब निम्नलिखित विधि की मदद से हम प्रक्रिया कर सकते हैं SOFTWARE छत्ता -

def process_software_hive(hive):
   root = hive.root()
   nt_curr_ver = root.find_key("Microsoft").find_key("Windows NT")
      .find_key("CurrentVersion")
   
   print("Product name: {}".format(nt_curr_ver.value("ProductName").value()))
   print("CSD Version: {}".format(nt_curr_ver.value("CSDVersion").value()))
   print("Current Build: {}".format(nt_curr_ver.value("CurrentBuild").value()))
   print("Registered Owner: {}".format(nt_curr_ver.value("RegisteredOwner").value()))
   print("Registered Org: 
      {}".format(nt_curr_ver.value("RegisteredOrganization").value()))
   
   raw_install_date = nt_curr_ver.value("InstallDate").value()
   install_date = parse_unix_epoch(raw_install_date)
   print("Installation Date: {}".format(install_date))

उपरोक्त स्क्रिप्ट को चलाने के बाद, हम मेटाडेटा को Windows रजिस्ट्री फ़ाइलों में संग्रहीत करेंगे।

यह अध्याय विंडोज में कुछ और महत्वपूर्ण कलाकृतियों और पायथन का उपयोग करके उनके निष्कर्षण विधि के बारे में बात करता है।

उपयोगकर्ता की गतिविधियाँ

विंडोज होने NTUSER.DATविभिन्न उपयोगकर्ता गतिविधियों के भंडारण के लिए फ़ाइल। हर उपयोगकर्ता प्रोफ़ाइल की तरह हाइव कर रहा हैNTUSER.DAT, जो विशेष रूप से उस उपयोगकर्ता से संबंधित जानकारी और कॉन्फ़िगरेशन को संग्रहीत करता है। इसलिए, यह फोरेंसिक विश्लेषकों द्वारा जांच के उद्देश्य के लिए अत्यधिक उपयोगी है।

निम्नलिखित पायथन लिपि की कुछ कुंजियों को पार्स कर देगा NTUSER.DATसिस्टम पर उपयोगकर्ता के कार्यों की खोज के लिए। आगे बढ़ने से पहले, पायथन लिपि के लिए, हमें तीसरे पक्ष के मॉड्यूल को स्थापित करना होगाRegistry, pytsk3, pyewf और Jinja2। हम उन्हें स्थापित करने के लिए पाइप का उपयोग कर सकते हैं।

हम जानकारी निकालने के लिए निम्नलिखित चरणों का पालन कर सकते हैं NTUSER.DAT फ़ाइल -

  • सबसे पहले, सभी को खोजें NTUSER.DAT सिस्टम में फ़ाइलें।

  • फिर पार्स करें WordWheelQuery, TypePath and RunMRU प्रत्येक के लिए महत्वपूर्ण है NTUSER.DAT फ़ाइल।

  • अंत में हम इन कलाकृतियों को, पहले से संसाधित, HTML रिपोर्ट में उपयोग करके लिखेंगे Jinja2 fmodule।

पायथन कोड

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

सबसे पहले, हमें निम्नलिखित पायथन मॉड्यूल को आयात करने की आवश्यकता है -

from __future__ import print_function
from argparse import ArgumentParser

import os
import StringIO
import struct

from utility.pytskutil import TSKUtil
from Registry import Registry
import jinja2

अब, कमांड-लाइन हैंडलर के लिए तर्क प्रदान करें। यहाँ यह तीन तर्क स्वीकार करेगा - पहला सबूत फ़ाइल का मार्ग है, दूसरा सबूत फ़ाइल का प्रकार है और तीसरा HTML रिपोर्ट का वांछित आउटपुट पथ है, जैसा कि नीचे दिखाया गया है -

if __name__ == '__main__':
   parser = argparse.ArgumentParser('Information from user activities')
   parser.add_argument('EVIDENCE_FILE',help = "Path to evidence file")
   parser.add_argument('IMAGE_TYPE',help = "Evidence file format",choices = ('ewf', 'raw'))
   parser.add_argument('REPORT',help = "Path to report file")
   args = parser.parse_args()
   main(args.EVIDENCE_FILE, args.IMAGE_TYPE, args.REPORT)

अब, हम परिभाषित करते हैं main() सभी को खोजने के लिए कार्य करते हैं NTUSER.DAT फाइलें, जैसा कि दिखाया गया है -

def main(evidence, image_type, report):
   tsk_util = TSKUtil(evidence, image_type)
   tsk_ntuser_hives = tsk_util.recurse_files('ntuser.dat','/Users', 'equals')
   
   nt_rec = {
      'wordwheel': {'data': [], 'title': 'WordWheel Query'},
      'typed_path': {'data': [], 'title': 'Typed Paths'},
      'run_mru': {'data': [], 'title': 'Run MRU'}
   }

अब, हम कुंजी को खोजने का प्रयास करेंगे NTUSER.DAT फ़ाइल और एक बार जब आप इसे पा लें, तो नीचे दिखाए अनुसार उपयोगकर्ता प्रसंस्करण कार्यों को परिभाषित करें -

for ntuser in tsk_ntuser_hives:
   uname = ntuser[1].split("/")

open_ntuser = open_file_as_reg(ntuser[2])
try:
   explorer_key = open_ntuser.root().find_key("Software").find_key("Microsoft")
      .find_key("Windows").find_key("CurrentVersion").find_key("Explorer")
   except Registry.RegistryKeyNotFoundException:
      continue
   nt_rec['wordwheel']['data'] += parse_wordwheel(explorer_key, uname)
   nt_rec['typed_path']['data'] += parse_typed_paths(explorer_key, uname)
   nt_rec['run_mru']['data'] += parse_run_mru(explorer_key, uname)
   nt_rec['wordwheel']['headers'] = \ nt_rec['wordwheel']['data'][0].keys()
   nt_rec['typed_path']['headers'] = \ nt_rec['typed_path']['data'][0].keys()
   nt_rec['run_mru']['headers'] = \ nt_rec['run_mru']['data'][0].keys()

अब, शब्दकोश ऑब्जेक्ट और इसके पथ को पास करें write_html() विधि इस प्रकार है -

write_html(report, nt_rec)

अब, एक विधि परिभाषित करें, जो लेता है pytsk फ़ाइल संभाल और इसे के माध्यम से रजिस्ट्री वर्ग में पढ़ें StringIO कक्षा।

def open_file_as_reg(reg_file):
   file_size = reg_file.info.meta.size
   file_content = reg_file.read_random(0, file_size)
   file_like_obj = StringIO.StringIO(file_content)
   return Registry.Registry(file_like_obj)

अब, हम उस फ़ंक्शन को परिभाषित करेंगे जो पार्स और हैंडल करेगा WordWheelQuery से की NTUSER.DAT फाइल इस प्रकार है -

def parse_wordwheel(explorer_key, username):
   try:
      wwq = explorer_key.find_key("WordWheelQuery")
   except Registry.RegistryKeyNotFoundException:
      return []
   mru_list = wwq.value("MRUListEx").value()
   mru_order = []
   
   for i in xrange(0, len(mru_list), 2):
      order_val = struct.unpack('h', mru_list[i:i + 2])[0]
   if order_val in mru_order and order_val in (0, -1):
      break
   else:
      mru_order.append(order_val)
   search_list = []
   
   for count, val in enumerate(mru_order):
      ts = "N/A"
      if count == 0:
         ts = wwq.timestamp()
      search_list.append({
         'timestamp': ts,
         'username': username,
         'order': count,
         'value_name': str(val),
         'search': wwq.value(str(val)).value().decode("UTF-16").strip("\x00")
})
   return search_list

अब, हम उस फ़ंक्शन को परिभाषित करेंगे जो पार्स और हैंडल करेगा TypedPaths से की NTUSER.DAT फाइल इस प्रकार है -

def parse_typed_paths(explorer_key, username):
   try:
      typed_paths = explorer_key.find_key("TypedPaths")
   except Registry.RegistryKeyNotFoundException:
      return []
   typed_path_details = []
   
   for val in typed_paths.values():
      typed_path_details.append({
         "username": username,
         "value_name": val.name(),
         "path": val.value()
      })
   return typed_path_details

अब, हम उस फ़ंक्शन को परिभाषित करेंगे जो पार्स और हैंडल करेगा RunMRU से की NTUSER.DAT फाइल इस प्रकार है -

def parse_run_mru(explorer_key, username):
   try:
      run_mru = explorer_key.find_key("RunMRU")
   except Registry.RegistryKeyNotFoundException:
      return []
   
   if len(run_mru.values()) == 0:
      return []
   mru_list = run_mru.value("MRUList").value()
   mru_order = []
   
   for i in mru_list:
      mru_order.append(i)
   mru_details = []
   
   for count, val in enumerate(mru_order):
      ts = "N/A"
      if count == 0:
         ts = run_mru.timestamp()
      mru_details.append({
         "username": username,
         "timestamp": ts,
         "order": count,
         "value_name": val,
         "run_statement": run_mru.value(val).value()
      })
   return mru_details

अब, निम्न कार्य HTML रिपोर्ट के निर्माण को संभालेगा -

def write_html(outfile, data_dict):
   cwd = os.path.dirname(os.path.abspath(__file__))
   env = jinja2.Environment(loader=jinja2.FileSystemLoader(cwd))
   template = env.get_template("user_activity.html")
   rendering = template.render(nt_data=data_dict)
   
   with open(outfile, 'w') as open_outfile:
      open_outfile.write(rendering)

अंत में हम रिपोर्ट के लिए HTML दस्तावेज़ लिख सकते हैं। उपरोक्त स्क्रिप्ट चलाने के बाद, हम HTML दस्तावेज़ प्रारूप में NTUSER.DAT फ़ाइल से जानकारी प्राप्त करेंगे।

लिंक फ़ाइलें

शॉर्टकट फाइलें तब बनाई जाती हैं जब कोई उपयोगकर्ता या ऑपरेटिंग सिस्टम उन फ़ाइलों के लिए शॉर्टकट फाइलें बनाता है जो अक्सर उपयोग की जाती हैं, संलग्न ड्राइव जैसे सिस्टम ड्राइव से डबल क्लिक या एक्सेस की जाती हैं। इस तरह की शॉर्टकट फाइलों को लिंक फाइल्स कहा जाता है। इन लिंक फ़ाइलों तक पहुँचने के लिए, एक अन्वेषक खिड़की की गतिविधि जैसे समय और स्थान जहाँ से इन फ़ाइलों तक पहुँचा जा सकता है।

आइए हम पायथन स्क्रिप्ट पर चर्चा करें जिसका उपयोग हम इन विंडोज लिंक फाइलों से जानकारी प्राप्त करने के लिए कर सकते हैं।

पायथन लिपि के लिए, अर्थात् तीसरे पक्ष के मॉड्यूल स्थापित करें pylnk, pytsk3, pyewf। हम जानकारी निकालने के लिए निम्नलिखित चरणों का पालन कर सकते हैंlnk फ़ाइलें

  • सबसे पहले, खोजें lnk सिस्टम के भीतर फाइलें।

  • फिर, उनके माध्यम से पुनरावृति करके उस फ़ाइल से जानकारी निकालें।

  • अब, आख़िरकार हमें एक सीएसवी रिपोर्ट को इस जानकारी की आवश्यकता है।

पायथन कोड

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

सबसे पहले, निम्नलिखित पायथन पुस्तकालयों का आयात करें -

from __future__ import print_function
from argparse import ArgumentParser

import csv
import StringIO

from utility.pytskutil import TSKUtil
import pylnk

अब, कमांड-लाइन हैंडलर के लिए तर्क प्रदान करें। यहाँ यह तीन तर्क स्वीकार करेगा - पहला सबूत फ़ाइल का मार्ग है, दूसरा सबूत फ़ाइल का प्रकार है और तीसरा सीएसवी रिपोर्ट का वांछित आउटपुट पथ है, जैसा कि नीचे दिखाया गया है -

if __name__ == '__main__':
   parser = argparse.ArgumentParser('Parsing LNK files')
   parser.add_argument('EVIDENCE_FILE', help = "Path to evidence file")
   parser.add_argument('IMAGE_TYPE', help = "Evidence file format",choices = ('ewf', 'raw'))
   parser.add_argument('CSV_REPORT', help = "Path to CSV report")
   args = parser.parse_args()
   main(args.EVIDENCE_FILE, args.IMAGE_TYPE, args.CSV_REPORT)

अब, एक वस्तु का निर्माण करके साक्ष्य फ़ाइल की व्याख्या करें TSKUtil और फाइल सिस्टम के माध्यम से पुनरावृति यह फाइलों को खोजने के लिए समाप्त होती है lnk। इसे परिभाषित करके किया जा सकता हैmain() कार्य निम्नानुसार है -

def main(evidence, image_type, report):
   tsk_util = TSKUtil(evidence, image_type)
   lnk_files = tsk_util.recurse_files("lnk", path="/", logic="endswith")
   
   if lnk_files is None:
      print("No lnk files found")
      exit(0)
   columns = [
      'command_line_arguments', 'description', 'drive_serial_number',
      'drive_type', 'file_access_time', 'file_attribute_flags',
      'file_creation_time', 'file_modification_time', 'file_size',
      'environmental_variables_location', 'volume_label',
      'machine_identifier', 'local_path', 'network_path',
      'relative_path', 'working_directory'
   ]

अब निम्नलिखित कोड की मदद से, हम इसके माध्यम से पुनरावृत्ति करेंगे lnk निम्नानुसार एक फंक्शन बनाकर फाइल -

parsed_lnks = []

for entry in lnk_files:
   lnk = open_file_as_lnk(entry[2])
   lnk_data = {'lnk_path': entry[1], 'lnk_name': entry[0]}
   
   for col in columns:
      lnk_data[col] = getattr(lnk, col, "N/A")
   lnk.close()
   parsed_lnks.append(lnk_data)
write_csv(report, columns + ['lnk_path', 'lnk_name'], parsed_lnks)

अब हमें दो कार्यों को परिभाषित करने की आवश्यकता है, एक खुल जाएगा pytsk फ़ाइल ऑब्जेक्ट और अन्य का उपयोग सीएसवी रिपोर्ट लिखने के लिए किया जाएगा जैसा कि नीचे दिखाया गया है -

def open_file_as_lnk(lnk_file):
   file_size = lnk_file.info.meta.size
   file_content = lnk_file.read_random(0, file_size)
   file_like_obj = StringIO.StringIO(file_content)
   lnk = pylnk.file()
   lnk.open_file_object(file_like_obj)
   return lnk
def write_csv(outfile, fieldnames, data):
   with open(outfile, 'wb') as open_outfile:
      csvfile = csv.DictWriter(open_outfile, fieldnames)
      csvfile.writeheader()
      csvfile.writerows(data)

उपरोक्त स्क्रिप्ट को चलाने के बाद, हमें खोज की जानकारी मिल जाएगी lnk CSV रिपोर्ट में फ़ाइलें -

फाइलें प्रीफैच करें

जब भी कोई एप्लिकेशन किसी विशेष स्थान से पहली बार चल रहा होता है, तो विंडोज बनाता है prefetch files। इनका उपयोग एप्लिकेशन स्टार्टअप प्रक्रिया को गति देने के लिए किया जाता है। इन फ़ाइलों के लिए एक्सटेंशन है.PF और इनमें जमा हो जाती है ”\Root\Windows\Prefetch” फ़ोल्डर।

डिजिटल फोरेंसिक विशेषज्ञ उपयोगकर्ता के विवरण के साथ एक निर्दिष्ट स्थान से कार्यक्रम के निष्पादन के प्रमाण को प्रकट कर सकते हैं। प्रीफ़ैच फाइलें परीक्षक के लिए उपयोगी कलाकृतियां हैं क्योंकि कार्यक्रम के नष्ट होने या अन-इंस्टॉल होने के बाद भी उनकी प्रविष्टि बनी रहती है।

आइए पायथन स्क्रिप्ट पर चर्चा करें जो नीचे दी गई जानकारी के अनुसार विंडोज प्रीफैच फाइलों से जानकारी प्राप्त करेगी -

पायथन लिपि के लिए, अर्थात् तीसरे पक्ष के मॉड्यूल स्थापित करें pylnk, pytsk3 तथा unicodecsv। स्मरण करो कि हमने पहले से ही इन पुस्तकालयों के साथ पायथन लिपियों में काम किया है जिन पर हमने पिछले अध्यायों में चर्चा की है।

हमें जानकारी निकालने के लिए नीचे दिए गए चरणों का पालन करना होगा prefetch फ़ाइलें -

  • सबसे पहले, के लिए स्कैन करें .pf एक्सटेंशन फाइलें या प्रीफैच फाइलें।

  • अब, झूठी सकारात्मकता को समाप्त करने के लिए हस्ताक्षर सत्यापन करें।

  • इसके बाद, विंडोज प्रीफैच फाइल फॉर्मेट को पार्स करें। यह विंडोज संस्करण के साथ अलग है। उदाहरण के लिए, विंडोज एक्सपी के लिए यह 17 है, विंडोज विस्टा और विंडोज 7 के लिए यह 23 है, विंडोज 8.1 के लिए 26 और विंडोज 10 के लिए 30 है।

  • अंत में, हम एक CSV फ़ाइल में पार्स किए गए परिणाम को लिखेंगे।

पायथन कोड

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

सबसे पहले, निम्नलिखित पायथन पुस्तकालयों का आयात करें -

from __future__ import print_function
import argparse
from datetime import datetime, timedelta

import os
import pytsk3
import pyewf
import struct
import sys
import unicodecsv as csv
from utility.pytskutil import TSKUtil

अब, कमांड-लाइन हैंडलर के लिए एक तर्क प्रदान करें। यहाँ यह दो तर्कों को स्वीकार करेगा, पहला सबूत फ़ाइल का मार्ग होगा और दूसरा सबूत फ़ाइल का प्रकार होगा। यह प्रीफ़ेच फ़ाइलों के लिए स्कैन करने के लिए पथ निर्दिष्ट करने के लिए एक वैकल्पिक तर्क को भी स्वीकार करता है -

if __name__ == "__main__":
   parser = argparse.ArgumentParser('Parsing Prefetch files')
   parser.add_argument("EVIDENCE_FILE", help = "Evidence file path")
   parser.add_argument("TYPE", help = "Type of Evidence",choices = ("raw", "ewf"))
   parser.add_argument("OUTPUT_CSV", help = "Path to write output csv")
   parser.add_argument("-d", help = "Prefetch directory to scan",default = "/WINDOWS/PREFETCH")
   args = parser.parse_args()
   
   if os.path.exists(args.EVIDENCE_FILE) and \
      os.path.isfile(args.EVIDENCE_FILE):
   main(args.EVIDENCE_FILE, args.TYPE, args.OUTPUT_CSV, args.d)
else:
   print("[-] Supplied input file {} does not exist or is not a ""file".format(args.EVIDENCE_FILE))
   sys.exit(1)

अब, एक वस्तु का निर्माण करके साक्ष्य फ़ाइल की व्याख्या करें TSKUtil और फाइल सिस्टम के माध्यम से पुनरावृति यह फाइलों को खोजने के लिए समाप्त होती है .pf। इसे परिभाषित करके किया जा सकता हैmain() कार्य निम्नानुसार है -

def main(evidence, image_type, output_csv, path):
   tsk_util = TSKUtil(evidence, image_type)
   prefetch_dir = tsk_util.query_directory(path)
   prefetch_files = None
   
   if prefetch_dir is not None:
      prefetch_files = tsk_util.recurse_files(".pf", path=path, logic="endswith")
   
   if prefetch_files is None:
      print("[-] No .pf files found")
      sys.exit(2)
   print("[+] Identified {} potential prefetch files".format(len(prefetch_files)))
   prefetch_data = []
   
   for hit in prefetch_files:
      prefetch_file = hit[2]
      pf_version = check_signature(prefetch_file)

अब, एक विधि परिभाषित करें जो नीचे दिखाए अनुसार हस्ताक्षरों का सत्यापन करेगी -

def check_signature(prefetch_file):
   version, signature = struct.unpack("^<2i", prefetch_file.read_random(0, 8))
   
   if signature == 1094927187:
      return version
   else:
      return None
   
   if pf_version is None:
      continue
   pf_name = hit[0]
   
   if pf_version == 17:
      parsed_data = parse_pf_17(prefetch_file, pf_name)
      parsed_data.append(os.path.join(path, hit[1].lstrip("//")))
      prefetch_data.append(parsed_data)

अब, विंडोज प्रीफैच फाइलों को प्रोसेस करना शुरू करें। यहां हम विंडोज एक्सपी प्रीफैच फाइलों का उदाहरण ले रहे हैं -

def parse_pf_17(prefetch_file, pf_name):
   create = convert_unix(prefetch_file.info.meta.crtime)
   modify = convert_unix(prefetch_file.info.meta.mtime)
def convert_unix(ts):
   if int(ts) == 0:
      return ""
   return datetime.utcfromtimestamp(ts)
def convert_filetime(ts):
   if int(ts) == 0:
      return ""
   return datetime(1601, 1, 1) + timedelta(microseconds=ts / 10)

अब, प्रीफ़ेट की गई फ़ाइलों के भीतर जमा किए गए डेटा को निम्नानुसार संरचना का उपयोग करके निकालें -

pf_size, name, vol_info, vol_entries, vol_size, filetime, \
   count = struct.unpack("<i60s32x3iq16xi",prefetch_file.read_random(12, 136))
name = name.decode("utf-16", "ignore").strip("/x00").split("/x00")[0]

vol_name_offset, vol_name_length, vol_create, \
   vol_serial = struct.unpack("<2iqi",prefetch_file.read_random(vol_info, 20))
   vol_serial = hex(vol_serial).lstrip("0x")
   vol_serial = vol_serial[:4] + "-" + vol_serial[4:]
   vol_name = struct.unpack(
      "<{}s".format(2 * vol_name_length),
      prefetch_file.read_random(vol_info + vol_name_offset,vol_name_length * 2))[0]

vol_name = vol_name.decode("utf-16", "ignore").strip("/x00").split("/x00")[0]
return [
   pf_name, name, pf_size, create,
   modify, convert_filetime(filetime), count, vol_name,
   convert_filetime(vol_create), vol_serial ]

जैसा कि हमने विंडोज एक्सपी के लिए प्रीफैच संस्करण प्रदान किया है लेकिन क्या होगा अगर यह अन्य विंडोज के लिए प्रीफच वर्जन का सामना करेगा। फिर उसे निम्नानुसार एक त्रुटि संदेश प्रदर्शित करना होगा -

elif pf_version == 23:
   print("[-] Windows Vista / 7 PF file {} -- unsupported".format(pf_name))
   continue
elif pf_version == 26:
   print("[-] Windows 8 PF file {} -- unsupported".format(pf_name))
   continue
elif pf_version == 30:
   print("[-] Windows 10 PF file {} -- unsupported".format(pf_name))
continue

else:
   print("[-] Signature mismatch - Name: {}\nPath: {}".format(hit[0], hit[1]))
continue
write_output(prefetch_data, output_csv)

अब, सीएसवी रिपोर्ट में परिणाम लिखने की विधि को इस प्रकार परिभाषित करें -

def write_output(data, output_csv):
   print("[+] Writing csv report")
   with open(output_csv, "wb") as outfile:
      writer = csv.writer(outfile)
      writer.writerow([
         "File Name", "Prefetch Name", "File Size (bytes)",
         "File Create Date (UTC)", "File Modify Date (UTC)",
         "Prefetch Last Execution Date (UTC)",
         "Prefetch Execution Count", "Volume", "Volume Create Date",
         "Volume Serial", "File Path" ])
      writer.writerows(data)

उपरोक्त स्क्रिप्ट को चलाने के बाद, हम विंडोज एक्सपी संस्करण की प्रीफ़ैच फ़ाइलों से एक स्प्रेडशीट में जानकारी प्राप्त करेंगे।

यह अध्याय आगे की कलाकृतियों के बारे में समझाएगा जो एक अन्वेषक विंडोज पर फोरेंसिक विश्लेषण के दौरान प्राप्त कर सकता है।

इवेंट लॉग

विंडोज इवेंट लॉग फाइल, जैसा कि नाम -सुगेट्स, विशेष फाइलें हैं जो महत्वपूर्ण घटनाओं को संग्रहीत करती हैं जैसे उपयोगकर्ता कंप्यूटर पर लॉग इन करते हैं, जब प्रोग्राम में कोई त्रुटि आती है, सिस्टम में परिवर्तन, आरडीपी एक्सेस, एप्लिकेशन विशिष्ट घटनाओं आदि के बारे में साइबर अन्वेषक हमेशा घटना में रुचि रखते हैं। लॉग जानकारी क्योंकि यह सिस्टम की पहुंच के बारे में बहुत सारी उपयोगी ऐतिहासिक जानकारी प्रदान करता है। निम्नलिखित पायथन स्क्रिप्ट में हम विरासत और वर्तमान विंडोज इवेंट लॉग प्रारूप दोनों को संसाधित करने जा रहे हैं।

पायथन लिपि के लिए, हमें तीसरे पक्ष के मॉड्यूल को स्थापित करने की आवश्यकता है pytsk3, pyewf, unicodecsv, pyevt and pyevtएक्स। हम घटना लॉग से जानकारी निकालने के लिए नीचे दिए गए चरणों का पालन कर सकते हैं -

  • सबसे पहले, इनपुट तर्क से मेल खाने वाले सभी ईवेंट लॉग की खोज करें।

  • फिर, फ़ाइल हस्ताक्षर सत्यापन करें।

  • अब, उपयुक्त लाइब्रेरी के साथ प्रत्येक ईवेंट लॉग को संसाधित करें।

  • अंतिम रूप से, आउटपुट को स्प्रैडशीट पर लिखें।

पायथन कोड

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

सबसे पहले, निम्नलिखित पायथन पुस्तकालयों का आयात करें -

from __future__ import print_function
import argparse
import unicodecsv as csv
import os
import pytsk3
import pyewf
import pyevt
import pyevtx
import sys
from utility.pytskutil import TSKUtil

अब, कमांड-लाइन हैंडलर के लिए तर्क प्रदान करें। ध्यान दें कि यहां यह तीन तर्क स्वीकार करेगा - पहला सबूत फ़ाइल का मार्ग है, दूसरा सबूत फ़ाइल का प्रकार है और तीसरा इवेंट लॉग टू प्रोसेस का नाम है।

if __name__ == "__main__":
   parser = argparse.ArgumentParser('Information from Event Logs')
   parser.add_argument("EVIDENCE_FILE", help = "Evidence file path")
   parser.add_argument("TYPE", help = "Type of Evidence",choices = ("raw", "ewf"))
   parser.add_argument(
      "LOG_NAME",help = "Event Log Name (SecEvent.Evt, SysEvent.Evt, ""etc.)")
   
   parser.add_argument(
      "-d", help = "Event log directory to scan",default = "/WINDOWS/SYSTEM32/WINEVT")
   
   parser.add_argument(
      "-f", help = "Enable fuzzy search for either evt or"" evtx extension", action = "store_true")
   args = parser.parse_args()
   
   if os.path.exists(args.EVIDENCE_FILE) and \ os.path.isfile(args.EVIDENCE_FILE):
      main(args.EVIDENCE_FILE, args.TYPE, args.LOG_NAME, args.d, args.f)
   else:
      print("[-] Supplied input file {} does not exist or is not a ""file".format(args.EVIDENCE_FILE))
   sys.exit(1)

अब, इवेंट लॉग के साथ बातचीत करके हमारे द्वारा निर्मित उपयोगकर्ता द्वारा आपूर्ति पथ के अस्तित्व को क्वेरी करें TSKUtilवस्तु। की सहायता से किया जा सकता हैmain() विधि इस प्रकार है -

def main(evidence, image_type, log, win_event, fuzzy):
   tsk_util = TSKUtil(evidence, image_type)
   event_dir = tsk_util.query_directory(win_event)
   
   if event_dir is not None:
      if fuzzy is True:
         event_log = tsk_util.recurse_files(log, path=win_event)
   else:
      event_log = tsk_util.recurse_files(log, path=win_event, logic="equal")
   
   if event_log is not None:
      event_data = []
      for hit in event_log:
         event_file = hit[2]
         temp_evt = write_file(event_file)

अब, हमें हस्ताक्षर सत्यापन करने की आवश्यकता है, एक पद्धति को परिभाषित करके जो वर्तमान निर्देशिका में संपूर्ण सामग्री को लिखेगा -

def write_file(event_file):
   with open(event_file.info.name.name, "w") as outfile:
      outfile.write(event_file.read_random(0, event_file.info.meta.size))
   return event_file.info.name.name
      if pyevt.check_file_signature(temp_evt):
         evt_log = pyevt.open(temp_evt)
         print("[+] Identified {} records in {}".format(
            evt_log.number_of_records, temp_evt))
         
         for i, record in enumerate(evt_log.records):
            strings = ""
            for s in record.strings:
               if s is not None:
                  strings += s + "\n"
            event_data.append([
               i, hit[0], record.computer_name,
               record.user_security_identifier,
               record.creation_time, record.written_time,
               record.event_category, record.source_name,
               record.event_identifier, record.event_type,
               strings, "",
               os.path.join(win_event, hit[1].lstrip("//"))
            ])
      elif pyevtx.check_file_signature(temp_evt):
         evtx_log = pyevtx.open(temp_evt)
         print("[+] Identified {} records in {}".format(
            evtx_log.number_of_records, temp_evt))
         for i, record in enumerate(evtx_log.records):
            strings = ""
            for s in record.strings:
			   if s is not None:
               strings += s + "\n"
         event_data.append([
            i, hit[0], record.computer_name,
            record.user_security_identifier, "",
            record.written_time, record.event_level,
            record.source_name, record.event_identifier,
            "", strings, record.xml_string,
            os.path.join(win_event, hit[1].lstrip("//"))
      ])
      else:
         print("[-] {} not a valid event log. Removing temp" file...".format(temp_evt))
         os.remove(temp_evt)
      continue
      write_output(event_data)
   else:
      print("[-] {} Event log not found in {} directory".format(log, win_event))
      sys.exit(3)
else:
   print("[-] Win XP Event Log Directory {} not found".format(win_event))
   sys.exit(2

अंतिम रूप से, स्प्रैडशीट में आउटपुट लिखने के लिए एक विधि को इस प्रकार परिभाषित करें -

def write_output(data):
   output_name = "parsed_event_logs.csv"
   print("[+] Writing {} to current working directory: {}".format(
      output_name, os.getcwd()))
   
   with open(output_name, "wb") as outfile:
      writer = csv.writer(outfile)
      writer.writerow([
         "Index", "File name", "Computer Name", "SID",
         "Event Create Date", "Event Written Date",
         "Event Category/Level", "Event Source", "Event ID",
         "Event Type", "Data", "XML Data", "File Path"
      ])
      writer.writerows(data)

एक बार जब आप उपरोक्त स्क्रिप्ट को सफलतापूर्वक चला लेते हैं, तो हमें स्प्रेडशीट में लॉग इन करने की घटनाओं की जानकारी मिल जाएगी।

इंटरनेट का इतिहास

फोरेंसिक विश्लेषकों के लिए इंटरनेट का इतिहास बहुत उपयोगी है; जैसा कि अधिकांश साइबर-अपराध इंटरनेट पर ही होते हैं। आइए देखें कि इंटरनेट एक्सप्लोरर से इंटरनेट का इतिहास कैसे निकाला जाए, जैसा कि हम विंडोज फोरेंसिक के बारे में चर्चा करते हैं, और इंटरनेट एक्सप्लोरर विंडोज के साथ डिफ़ॉल्ट रूप से आता है।

Internet Explorer पर, इंटरनेट इतिहास सहेजा जाता है index.datफ़ाइल। आइए हम एक पायथन लिपि में देखें, जिसमें से जानकारी निकाली जाएगीindex.dat फ़ाइल।

जानकारी निकालने के लिए हम नीचे दिए गए चरणों का पालन कर सकते हैं index.dat फ़ाइलें -

  • सबसे पहले, खोजें index.dat सिस्टम के भीतर फाइलें।

  • फिर, उनके माध्यम से पुनरावृति करके उस फ़ाइल से जानकारी निकालें।

  • अब, CSV रिपोर्ट में यह सारी जानकारी लिखें।

पायथन कोड

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

सबसे पहले, निम्नलिखित पायथन पुस्तकालयों का आयात करें -

from __future__ import print_function
import argparse

from datetime import datetime, timedelta
import os
import pytsk3
import pyewf
import pymsiecf
import sys
import unicodecsv as csv

from utility.pytskutil import TSKUtil

अब, कमांड-लाइन हैंडलर के लिए तर्क प्रदान करें। ध्यान दें कि यहाँ यह दो तर्क स्वीकार करेगा - पहला सबूत फ़ाइल का मार्ग होगा और दूसरा सबूत फ़ाइल का प्रकार होगा -

if __name__ == "__main__":
parser = argparse.ArgumentParser('getting information from internet history')
   parser.add_argument("EVIDENCE_FILE", help = "Evidence file path")
   parser.add_argument("TYPE", help = "Type of Evidence",choices = ("raw", "ewf"))
   parser.add_argument("-d", help = "Index.dat directory to scan",default = "/USERS")
   args = parser.parse_args()
   
   if os.path.exists(args.EVIDENCE_FILE) and os.path.isfile(args.EVIDENCE_FILE):
      main(args.EVIDENCE_FILE, args.TYPE, args.d)
   else:
      print("[-] Supplied input file {} does not exist or is not a ""file".format(args.EVIDENCE_FILE))
      sys.exit(1)

अब, एक वस्तु का निर्माण करके साक्ष्य फ़ाइल की व्याख्या करें TSKUtilऔर index.dat फ़ाइलों को खोजने के लिए फ़ाइल सिस्टम के माध्यम से पुनरावृति। इसे परिभाषित करके किया जा सकता हैmain() कार्य निम्नानुसार है -

def main(evidence, image_type, path):
   tsk_util = TSKUtil(evidence, image_type)
   index_dir = tsk_util.query_directory(path)
   
   if index_dir is not None:
      index_files = tsk_util.recurse_files("index.dat", path = path,logic = "equal")
      
      if index_files is not None:
         print("[+] Identified {} potential index.dat files".format(len(index_files)))
         index_data = []
         
         for hit in index_files:
            index_file = hit[2]
            temp_index = write_file(index_file)

अब, एक फ़ंक्शन को परिभाषित करें जिसकी मदद से हम index.dat फ़ाइल की जानकारी को वर्तमान कार्य निर्देशिका में कॉपी कर सकते हैं और बाद में उन्हें किसी तीसरे पक्ष के मॉड्यूल द्वारा संसाधित किया जा सकता है -

def write_file(index_file):
   with open(index_file.info.name.name, "w") as outfile:
   outfile.write(index_file.read_random(0, index_file.info.meta.size))
return index_file.info.name.name

अब, अंतर्निहित फ़ंक्शन की सहायता से हस्ताक्षर सत्यापन करने के लिए निम्न कोड का उपयोग करें check_file_signature() -

if pymsiecf.check_file_signature(temp_index):
   index_dat = pymsiecf.open(temp_index)
   print("[+] Identified {} records in {}".format(
   index_dat.number_of_items, temp_index))

   for i, record in enumerate(index_dat.items):
   try:
      data = record.data
   if data is not None:
      data = data.rstrip("\x00")
   except AttributeError:
   
   if isinstance(record, pymsiecf.redirected):
      index_data.append([
         i, temp_index, "", "", "", "", "",record.location, "", "", record.offset,os.path.join(path, hit[1].lstrip("//"))])
   
   elif isinstance(record, pymsiecf.leak):
      index_data.append([
         i, temp_index, record.filename, "","", "", "", "", "", "", record.offset,os.path.join(path, hit[1].lstrip("//"))])
   continue
   
   index_data.append([
      i, temp_index, record.filename,
      record.type, record.primary_time,
      record.secondary_time,
      record.last_checked_time, record.location,
      record.number_of_hits, data, record.offset,
      os.path.join(path, hit[1].lstrip("//"))
   ])
   else:
      print("[-] {} not a valid index.dat file. Removing "
      "temp file..".format(temp_index))
      os.remove("index.dat")
      continue
      os.remove("index.dat")
      write_output(index_data)
   else:
      print("[-] Index.dat files not found in {} directory".format(path))
   sys.exit(3)
   else:
      print("[-] Directory {} not found".format(win_event))
   sys.exit(2)

अब, सीएसवी फ़ाइल में आउटपुट प्रिंट करने वाली एक विधि को परिभाषित करें, जैसा कि नीचे दिखाया गया है -

def write_output(data):
   output_name = "Internet_Indexdat_Summary_Report.csv"
   print("[+] Writing {} with {} parsed index.dat files to current "
   "working directory: {}".format(output_name, len(data),os.getcwd()))
   
   with open(output_name, "wb") as outfile:
      writer = csv.writer(outfile)
      writer.writerow(["Index", "File Name", "Record Name",
      "Record Type", "Primary Date", "Secondary Date",
      "Last Checked Date", "Location", "No. of Hits",
      "Record Data", "Record Offset", "File Path"])
      writer.writerows(data)

स्क्रिप्ट से ऊपर चलने के बाद हमें CSV फ़ाइल में index.dat फ़ाइल से जानकारी मिलेगी।

वॉल्यूम छाया प्रतियां

एक छाया प्रति मैन्युअल रूप से या स्वचालित रूप से कंप्यूटर फ़ाइलों की बैकअप प्रतियां या स्नैपशॉट लेने के लिए विंडोज में शामिल तकनीक है। इसे वॉल्यूम स्नैपशॉट सेवा या वॉल्यूम छाया सेवा (VSS) भी कहा जाता है।

इन वीएसएस फाइलों की मदद से, फोरेंसिक विशेषज्ञों को कुछ ऐतिहासिक जानकारी हो सकती है कि समय के साथ सिस्टम कैसे बदल गया और कंप्यूटर पर क्या फाइलें मौजूद हैं। छाया प्रतिलिपि तकनीक को छाया प्रतियां बनाने और संग्रहीत करने के लिए फ़ाइल सिस्टम को NTFS की आवश्यकता होती है।

इस खंड में, हम एक पायथन स्क्रिप्ट देखने जा रहे हैं, जो फॉरेंसिक छवि में मौजूद छाया प्रतियों की किसी भी मात्रा तक पहुँचने में मदद करता है।

पायथन लिपि के लिए हमें तीसरे पक्ष के मॉड्यूल को स्थापित करना होगा pytsk3, pyewf, unicodecsv, pyvshadow तथा vss। वीएसएस फाइलों से जानकारी निकालने के लिए हम नीचे दिए गए चरणों का पालन कर सकते हैं

  • सबसे पहले, कच्ची छवि की मात्रा का उपयोग करें और सभी NTFS विभाजन की पहचान करें।

  • फिर, उनके द्वारा पुनरावृति करके उस छाया प्रतियों से जानकारी निकालें।

  • अब, आखिर में हमें स्नैपशॉट के भीतर डेटा की एक फ़ाइल सूची बनाने की आवश्यकता है।

पायथन कोड

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

सबसे पहले, निम्नलिखित पायथन पुस्तकालयों का आयात करें -

from __future__ import print_function
import argparse
from datetime import datetime, timedelta

import os
import pytsk3
import pyewf
import pyvshadow
import sys
import unicodecsv as csv

from utility import vss
from utility.pytskutil import TSKUtil
from utility import pytskutil

अब, कमांड-लाइन हैंडलर के लिए तर्क प्रदान करें। यहाँ यह दो तर्कों को स्वीकार करेगा - पहला सबूत फ़ाइल का मार्ग है और दूसरा आउटपुट फ़ाइल है।

if __name__ == "__main__":
   parser = argparse.ArgumentParser('Parsing Shadow Copies')
   parser.add_argument("EVIDENCE_FILE", help = "Evidence file path")
   parser.add_argument("OUTPUT_CSV", help = "Output CSV with VSS file listing")
   args = parser.parse_args()

अब, इनपुट फ़ाइल पथ के अस्तित्व को मान्य करें और आउटपुट फ़ाइल से निर्देशिका को अलग करें।

directory = os.path.dirname(args.OUTPUT_CSV)
if not os.path.exists(directory) and directory != "":
   os.makedirs(directory)
if os.path.exists(args.EVIDENCE_FILE) and \ os.path.isfile(args.EVIDENCE_FILE):
   main(args.EVIDENCE_FILE, args.OUTPUT_CSV)
else:
   print("[-] Supplied input file {} does not exist or is not a "
   "file".format(args.EVIDENCE_FILE))
   
   sys.exit(1)

अब, साक्ष्य फ़ाइल की मात्रा के साथ बनाकर बातचीत करें TSKUtilवस्तु। की सहायता से किया जा सकता हैmain() विधि इस प्रकार है -

def main(evidence, output):
   tsk_util = TSKUtil(evidence, "raw")
   img_vol = tsk_util.return_vol()

if img_vol is not None:
   for part in img_vol:
      if tsk_util.detect_ntfs(img_vol, part):
         print("Exploring NTFS Partition for VSS")
         explore_vss(evidence, part.start * img_vol.info.block_size,output)
      else:
         print("[-] Must be a physical preservation to be compatible ""with this script")
         sys.exit(2)

अब, पार्स की गई वॉल्यूम छाया फ़ाइल की खोज के लिए एक विधि को इस प्रकार परिभाषित करें -

def explore_vss(evidence, part_offset, output):
   vss_volume = pyvshadow.volume()
   vss_handle = vss.VShadowVolume(evidence, part_offset)
   vss_count = vss.GetVssStoreCount(evidence, part_offset)
   
   if vss_count > 0:
      vss_volume.open_file_object(vss_handle)
      vss_data = []
      
      for x in range(vss_count):
         print("Gathering data for VSC {} of {}".format(x, vss_count))
         vss_store = vss_volume.get_store(x)
         image = vss.VShadowImgInfo(vss_store)
         vss_data.append(pytskutil.openVSSFS(image, x))
write_csv(vss_data, output)

अंतिम रूप से, स्प्रैडशीट में परिणाम लिखने की विधि को इस प्रकार परिभाषित करें -

def write_csv(data, output):
   if data == []:
      print("[-] No output results to write")
      sys.exit(3)
   print("[+] Writing output to {}".format(output))
   if os.path.exists(output):
      append = True
with open(output, "ab") as csvfile:
      csv_writer = csv.writer(csvfile)
      headers = ["VSS", "File", "File Ext", "File Type", "Create Date",
         "Modify Date", "Change Date", "Size", "File Path"]
      if not append:
         csv_writer.writerow(headers)
      for result_list in data:
         csv_writer.writerows(result_list)

एक बार जब आप सफलतापूर्वक इस पायथन स्क्रिप्ट को चलाते हैं, तो हमें वीएसएस में एक स्प्रेडशीट में रहने वाली जानकारी मिल जाएगी।

अब तक, हमने देखा है कि पायथन का उपयोग करके विंडोज में कलाकृतियों को कैसे प्राप्त किया जाए। इस अध्याय में, आइए हम पायथन का उपयोग करके लॉग आधारित कलाकृतियों की जांच के बारे में जानें।

परिचय

लॉग-आधारित कलाकृतियां सूचना का खजाना हैं जो डिजिटल फोरेंसिक विशेषज्ञ के लिए बहुत उपयोगी हो सकते हैं। हालांकि हमारे पास जानकारी एकत्र करने के लिए विभिन्न निगरानी सॉफ्टवेयर हैं, लेकिन उनसे उपयोगी जानकारी प्राप्त करने के लिए मुख्य मुद्दा यह है कि हमें बहुत अधिक डेटा की आवश्यकता है।

विभिन्न लॉग-आधारित कलाकृतियों और अजगर में जांच

इस भाग में, आइए हम विभिन्न लॉग आधारित कलाकृतियों और पायथन में उनकी जांच पर चर्चा करें -

मुहर

टाइमस्टैम्प लॉग में गतिविधि का डेटा और समय बताता है। यह किसी भी लॉग फ़ाइल के महत्वपूर्ण तत्वों में से एक है। ध्यान दें कि ये डेटा और समय मान विभिन्न स्वरूपों में आ सकते हैं।

नीचे दिखाई गई पायथन लिपि कच्ची तारीख-समय को इनपुट के रूप में लेगी और इसके आउटपुट के रूप में एक स्वरूपित टाइमस्टैम्प प्रदान करेगी।

इस स्क्रिप्ट के लिए, हमें निम्नलिखित चरणों का पालन करना होगा -

  • सबसे पहले, उन तर्कों को सेट करें जो डेटा के स्रोत और डेटा प्रकार के साथ कच्चे डेटा मान को ले जाएंगे।

  • अब, विभिन्न तिथि प्रारूपों में डेटा के लिए सामान्य इंटरफ़ेस प्रदान करने के लिए एक वर्ग प्रदान करें।

पायथन कोड

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

सबसे पहले, निम्नलिखित पायथन मॉड्यूल आयात करें -

from __future__ import print_function
from argparse import ArgumentParser, ArgumentDefaultsHelpFormatter
from datetime import datetime as dt
from datetime import timedelta

अब हमेशा की तरह हमें कमांड-लाइन हैंडलर के लिए तर्क प्रदान करने की आवश्यकता है। यहाँ यह तीन तर्क स्वीकार करेगा, पहला होगा संसाधित होने की तिथि का मूल्य, दूसरा उस तिथि मान का स्रोत होगा और तीसरा इसका प्रकार होगा -

if __name__ == '__main__':
   parser = ArgumentParser('Timestamp Log-based artifact')
   parser.add_argument("date_value", help="Raw date value to parse")
   parser.add_argument(
      "source", help = "Source format of date",choices = ParseDate.get_supported_formats())
   parser.add_argument(
      "type", help = "Data type of input value",choices = ('number', 'hex'), default = 'int')
   
   args = parser.parse_args()
   date_parser = ParseDate(args.date_value, args.source, args.type)
   date_parser.run()
   print(date_parser.timestamp)

अब, हमें एक वर्ग को परिभाषित करने की आवश्यकता है जो दिनांक मान, दिनांक स्रोत और मान प्रकार के लिए तर्क स्वीकार करेगा -

class ParseDate(object):
   def __init__(self, date_value, source, data_type):
      self.date_value = date_value
      self.source = source
      self.data_type = data_type
      self.timestamp = None

अब हम एक विधि को परिभाषित करेंगे जो मुख्य () विधि की तरह नियंत्रक की तरह काम करेगी -

def run(self):
   if self.source == 'unix-epoch':
      self.parse_unix_epoch()
   elif self.source == 'unix-epoch-ms':
      self.parse_unix_epoch(True)
   elif self.source == 'windows-filetime':
      self.parse_windows_filetime()
@classmethod
def get_supported_formats(cls):
   return ['unix-epoch', 'unix-epoch-ms', 'windows-filetime']

अब, हमें दो तरीकों को परिभाषित करने की आवश्यकता है, जो क्रमशः यूनिक्स युग और समय की प्रक्रिया करेंगे -

def parse_unix_epoch(self, milliseconds=False):
   if self.data_type == 'hex':
      conv_value = int(self.date_value)
      if milliseconds:
         conv_value = conv_value / 1000.0
   elif self.data_type == 'number':
      conv_value = float(self.date_value)
      if milliseconds:
         conv_value = conv_value / 1000.0
   else:
      print("Unsupported data type '{}' provided".format(self.data_type))
      sys.exit('1')
   ts = dt.fromtimestamp(conv_value)
   self.timestamp = ts.strftime('%Y-%m-%d %H:%M:%S.%f')
def parse_windows_filetime(self):
   if self.data_type == 'hex':
      microseconds = int(self.date_value, 16) / 10.0
   elif self.data_type == 'number':
      microseconds = float(self.date_value) / 10
   else:
      print("Unsupported data type '{}'   provided".format(self.data_type))
      sys.exit('1')
   ts = dt(1601, 1, 1) + timedelta(microseconds=microseconds)
   self.timestamp = ts.strftime('%Y-%m-%d %H:%M:%S.%f')

उपरोक्त स्क्रिप्ट को चलाने के बाद, टाइमस्टैम्प प्रदान करके हम आसानी से पढ़े जाने वाले प्रारूप में परिवर्तित मूल्य प्राप्त कर सकते हैं।

वेब सर्वर लॉग

डिजिटल फोरेंसिक विशेषज्ञ के दृष्टिकोण से, वेब सर्वर लॉग एक और महत्वपूर्ण कलाकृति है क्योंकि वे उपयोगकर्ता और भौगोलिक स्थानों के बारे में जानकारी के साथ उपयोगी उपयोगकर्ता आँकड़े प्राप्त कर सकते हैं। सूचना के आसान विश्लेषण के लिए वेब सर्वर लॉग को संसाधित करने के बाद, पायथन स्क्रिप्ट है जो एक स्प्रेडशीट बनाएगी।

सबसे पहले हमें निम्नलिखित पायथन मॉड्यूल को आयात करने की आवश्यकता है -

from __future__ import print_function
from argparse import ArgumentParser, FileType

import re
import shlex
import logging
import sys
import csv

logger = logging.getLogger(__file__)

अब, हमें उन पैटर्न को परिभाषित करने की आवश्यकता है जो लॉग से पार्स किए जाएंगे -

iis_log_format = [
   ("date", re.compile(r"\d{4}-\d{2}-\d{2}")),
   ("time", re.compile(r"\d\d:\d\d:\d\d")),
   ("s-ip", re.compile(
      r"((25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)(\.|$)){4}")),
   ("cs-method", re.compile(
      r"(GET)|(POST)|(PUT)|(DELETE)|(OPTIONS)|(HEAD)|(CONNECT)")),
   ("cs-uri-stem", re.compile(r"([A-Za-z0-1/\.-]*)")),
   ("cs-uri-query", re.compile(r"([A-Za-z0-1/\.-]*)")),
   ("s-port", re.compile(r"\d*")),
   ("cs-username", re.compile(r"([A-Za-z0-1/\.-]*)")),
   ("c-ip", re.compile(
      r"((25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)(\.|$)){4}")),
   ("cs(User-Agent)", re.compile(r".*")),
   ("sc-status", re.compile(r"\d*")),
   ("sc-substatus", re.compile(r"\d*")),
   ("sc-win32-status", re.compile(r"\d*")),
   ("time-taken", re.compile(r"\d*"))]

अब, कमांड-लाइन हैंडलर के लिए एक तर्क प्रदान करें। यहां यह दो तर्कों को स्वीकार करेगा, पहला होगा IIS लॉग को संसाधित किया जाना, दूसरा वांछित CSV फ़ाइल पथ होगा।

if __name__ == '__main__':
   parser = ArgumentParser('Parsing Server Based Logs')
   parser.add_argument('iis_log', help = "Path to IIS Log",type = FileType('r'))
   parser.add_argument('csv_report', help = "Path to CSV report")
   parser.add_argument('-l', help = "Path to processing log",default=__name__ + '.log')
   args = parser.parse_args()
   logger.setLevel(logging.DEBUG)
   msg_fmt = logging.Formatter(
      "%(asctime)-15s %(funcName)-10s ""%(levelname)-8s %(message)s")
   
   strhndl = logging.StreamHandler(sys.stdout)
   strhndl.setFormatter(fmt = msg_fmt)
   fhndl = logging.FileHandler(args.log, mode = 'a')
   fhndl.setFormatter(fmt = msg_fmt)
   
   logger.addHandler(strhndl)
   logger.addHandler(fhndl)
   logger.info("Starting IIS Parsing ")
   logger.debug("Supplied arguments: {}".format(", ".join(sys.argv[1:])))
   logger.debug("System " + sys.platform)
   logger.debug("Version " + sys.version)
   main(args.iis_log, args.csv_report, logger)
   iologger.info("IIS Parsing Complete")

अब हमें मुख्य () विधि को परिभाषित करने की आवश्यकता है जो बल्क लॉग जानकारी के लिए स्क्रिप्ट को संभालेगी -

def main(iis_log, report_file, logger):
   parsed_logs = []

for raw_line in iis_log:
   line = raw_line.strip()
   log_entry = {}

if line.startswith("#") or len(line) == 0:
   continue

if '\"' in line:
   line_iter = shlex.shlex(line_iter)
else:
   line_iter = line.split(" ")
   for count, split_entry in enumerate(line_iter):
      col_name, col_pattern = iis_log_format[count]

      if col_pattern.match(split_entry):
         log_entry[col_name] = split_entry
else:
   logger.error("Unknown column pattern discovered. "
      "Line preserved in full below")
      logger.error("Unparsed Line: {}".format(line))
      parsed_logs.append(log_entry)
      
      logger.info("Parsed {} lines".format(len(parsed_logs)))
      cols = [x[0] for x in iis_log_format]
      
      logger.info("Creating report file: {}".format(report_file))
      write_csv(report_file, cols, parsed_logs)
      logger.info("Report created")

अंत में, हमें एक ऐसी विधि को परिभाषित करने की आवश्यकता है, जो आउटपुट को स्प्रैडशीट पर लिख दे -

def write_csv(outfile, fieldnames, data):
   with open(outfile, 'w', newline="") as open_outfile:
      csvfile = csv.DictWriter(open_outfile, fieldnames)
      csvfile.writeheader()
      csvfile.writerows(data)

उपरोक्त स्क्रिप्ट को चलाने के बाद, हम एक स्प्रेडशीट में वेब सर्वर आधारित लॉग प्राप्त करेंगे।

YARA का उपयोग करके महत्वपूर्ण फाइलों को स्कैन करना

YARA (फिर भी एक और पुनरावर्ती एल्गोरिदम) एक पैटर्न मिलान उपयोगिता है जिसे मैलवेयर की पहचान और घटना की प्रतिक्रिया के लिए डिज़ाइन किया गया है। फ़ाइलों को स्कैन करने के लिए हम YARA का उपयोग करेंगे। निम्नलिखित पायथन लिपि में, हम YARA का उपयोग करेंगे।

हम निम्नलिखित आदेश की सहायता से YARA स्थापित कर सकते हैं -

pip install YARA

फ़ाइलों को स्कैन करने के लिए YARA नियमों का उपयोग करने के लिए हम नीचे दिए गए चरणों का पालन कर सकते हैं -

  • सबसे पहले, YARA नियमों की स्थापना और संकलन करें

  • फिर, एकल फ़ाइल को स्कैन करें और फिर अलग-अलग फ़ाइलों को संसाधित करने के लिए निर्देशिकाओं के माध्यम से पुनरावृति करें।

  • अंत में, हम CSV को परिणाम निर्यात करेंगे।

पायथन कोड

आइए देखें कि इस उद्देश्य के लिए पायथन कोड का उपयोग कैसे करें -

सबसे पहले, हमें निम्नलिखित पायथन मॉड्यूल को आयात करने की आवश्यकता है -

from __future__ import print_function
from argparse import ArgumentParser, ArgumentDefaultsHelpFormatter

import os
import csv
import yara

अगला, कमांड-लाइन हैंडलर के लिए तर्क प्रदान करें। ध्यान दें कि यहाँ यह दो तर्क स्वीकार करेगा - पहला YARA नियमों का मार्ग है, दूसरा स्कैन की जाने वाली फ़ाइल है।

if __name__ == '__main__':
   parser = ArgumentParser('Scanning files by YARA')
   parser.add_argument(
      'yara_rules',help = "Path to Yara rule to scan with. May be file or folder path.")
   parser.add_argument('path_to_scan',help = "Path to file or folder to scan")
   parser.add_argument('--output',help = "Path to output a CSV report of scan results")
   args = parser.parse_args()
   main(args.yara_rules, args.path_to_scan, args.output)

अब हम मुख्य () फ़ंक्शन को परिभाषित करेंगे जो यारा नियमों के लिए रास्ता स्वीकार करेगा और स्कैन करने के लिए फ़ाइल -

def main(yara_rules, path_to_scan, output):
   if os.path.isdir(yara_rules):
      yrules = yara.compile(yara_rules)
   else:
      yrules = yara.compile(filepath=yara_rules)
   if os.path.isdir(path_to_scan):
      match_info = process_directory(yrules, path_to_scan)
   else:
      match_info = process_file(yrules, path_to_scan)
   columns = ['rule_name', 'hit_value', 'hit_offset', 'file_name',
   'rule_string', 'rule_tag']
   
   if output is None:
      write_stdout(columns, match_info)
   else:
      write_csv(output, columns, match_info)

अब, एक ऐसी विधि को परिभाषित करें जो निर्देशिका के माध्यम से पुनरावृत्ति करेगी और आगे की प्रक्रिया के लिए एक और विधि का परिणाम देगी -

def process_directory(yrules, folder_path):
   match_info = []
   for root, _, files in os.walk(folder_path):
      for entry in files:
         file_entry = os.path.join(root, entry)
         match_info += process_file(yrules, file_entry)
   return match_info

अगला, दो कार्यों को परिभाषित करें। ध्यान दें कि पहले हम उपयोग करेंगेmatch() करने की विधि yrulesऑब्जेक्ट और कोई अन्य रिपोर्ट करेगा जो उपयोगकर्ता को किसी भी आउटपुट फ़ाइल को निर्दिष्ट नहीं करता है तो कंसोल को जानकारी से मेल खाती है। नीचे दिखाए गए कोड को देखें -

def process_file(yrules, file_path):
   match = yrules.match(file_path)
   match_info = []
   
   for rule_set in match:
      for hit in rule_set.strings:
         match_info.append({
            'file_name': file_path,
            'rule_name': rule_set.rule,
            'rule_tag': ",".join(rule_set.tags),
            'hit_offset': hit[0],
            'rule_string': hit[1],
            'hit_value': hit[2]
         })
   return match_info
def write_stdout(columns, match_info):
   for entry in match_info:
      for col in columns:
         print("{}: {}".format(col, entry[col]))
   print("=" * 30)

अंत में, हम एक विधि को परिभाषित करेंगे जो सीएसवी फ़ाइल को आउटपुट लिखेगा, जैसा कि नीचे दिखाया गया है -

def write_csv(outfile, fieldnames, data):
   with open(outfile, 'w', newline="") as open_outfile:
      csvfile = csv.DictWriter(open_outfile, fieldnames)
      csvfile.writeheader()
      csvfile.writerows(data)

एक बार जब आप उपरोक्त स्क्रिप्ट को सफलतापूर्वक चला लेते हैं, तो हम कमांड-लाइन पर उचित तर्क दे सकते हैं और CSV रिपोर्ट तैयार कर सकते हैं।