SpaCy का उपयोग करके पंडों डेटाफ़्रेम से नामांकित प्रविष्टियों को कैसे निकाला जाए

Dec 19 2020

मैं इस प्रश्न के पहले उत्तर का उपयोग करके नामांकित संस्थाओं को निकालने की कोशिश कर रहा हूं और कोड निम्नानुसार है

for i in df['Article'].to_list():
    doc = nlp(i)
    for entity in doc.ents:
        print((entity.text))

लेकिन यह मुद्रण संस्थाओं नहीं है। मैंने कोशिश की है print(i)और print(doc)दोनों चर में मूल्य हैं और df['Article']समाचार पाठ हैं। क्या कोई दूसरा लूप निकाले जाने वाली संस्थाओं को नहीं हटा रहा है धन्यवाद

संपादित करें:
यह डेटासेट फ़ाइल है, कृपया मेरे द्वारा किए गए प्रीप्रोसेसिंग बनाने के लिए निम्नलिखित कोड चलाएँ।

df.iloc[:,0].dropna(inplace=True)
df = df[df.iloc[:,0].notna()]

से विशेष वर्ण हटाने के लिए df['Articles']

df['Article'] = df['Article'].map(lambda x: re.sub(r'\W+', '', x))

जवाब

1 WiktorStribiżew Dec 19 2020 at 01:18

के साथ df['Article'].map(lambda x: re.sub(r'\W+', '', x)), आप अपने लेखों से सभी व्हाट्सएप चार्ट हटा दें।

आपको उपयोग करने की आवश्यकता है

df['Article'] = df['Article'].str.replace(r'(?:_|[^\w\s])+', '')

उस रेगेक्स के साथ, आप केवल व्हाट्सएप के अलावा अन्य विशेष चार्ट को हटा देंगे।