செமால்ட் - வலைப்பக்கங்களை எவ்வாறு துடைப்பது?

அழகான சூப் என்பது பைதான் நூலகமாகும், இது எக்ஸ்எம்எல் மற்றும் HTML ஆவணங்களிலிருந்து ஒரு பாகு மரத்தை உருவாக்குவதன் மூலம் வலைப்பக்கங்களை துடைக்க பரவலாகப் பயன்படுத்தப்படுகிறது. வலைத்தளங்கள் மற்றும் பக்கங்களிலிருந்து தரவைப் பிரித்தெடுக்கும் நுட்பமான வலை ஸ்கிராப்பிங், தரவு பகுப்பாய்வு மற்றும் மேலாண்மை துறைகளில் பரவலாகப் பயன்படுத்தப்படுகிறது. பெரும்பாலான சந்தர்ப்பங்களில், பைதான் நிரலாக்க மொழி தரவு அறிவியலில் ஒரு முன்நிபந்தனை.

உங்கள் தரவு மேலாண்மை திட்டத்திற்கு நீங்கள் விண்ணப்பிக்கக்கூடிய ஸ்கிராப்பிங் கருவிகள் மற்றும் தொகுதிகள் பைதான் 3 இல் உள்ளன. தற்போது அழகான சூப் 4 ஆக இயங்குகிறது, இந்த தொகுதி பைதான் 3 மற்றும் பைதான் 2.7 ஆகிய இரண்டிற்கும் இணக்கமானது. அழகான சூப் 4 தொகுதி மூடப்படாத டேக் சூப்பிற்கான ஒரு பாகு மரத்தை உருவாக்கும் திறன் கொண்டது. இந்த டுடோரியலில், பக்கத்தை எவ்வாறு துடைப்பது மற்றும் ஸ்கிராப் செய்யப்பட்ட தரவை ஒரு CSV கோப்பில் எழுதுவது எப்படி என்பதை நீங்கள் கற்றுக் கொள்வீர்கள்.

தொடங்குதல்

தொடங்க, உங்கள் கணினியில் ஒரு சேவையகம் அல்லது உள்ளூர் அடிப்படையிலான பைதான் குறியீட்டு சூழலை அமைக்கவும். உங்கள் கணினியில் அழகான சூப் மற்றும் கோரிக்கைகள் தொகுதியையும் நிறுவ வேண்டும். இரண்டு தொகுதிகளிலும் பணிபுரியும் அறிவும் அவசியமான முன்நிபந்தனை. HTML குறிச்சொல் மற்றும் கட்டமைப்போடு பரிச்சயம் ஒரு கூடுதல் நன்மை.

உங்கள் தரவைப் புரிந்துகொள்வது

இந்த சூழலில், அழகிய சூப்பை எவ்வாறு பயன்படுத்துவது என்பதைப் புரிந்துகொள்ள தேசிய கலைக்கூடத்தின் உண்மையான தரவு பயன்படுத்தப்படும். தேசிய கலைக்கூடம் 120,000 துண்டுகளை உள்ளடக்கியது, அவை தோராயமாக 13,000 கலைஞர்களால் செய்யப்படுகின்றன. இந்த கலை அமெரிக்காவின் வாஷிங்டன் டி.சி.

அழகான சூப் மூலம் வலை தரவு பிரித்தெடுத்தல் அவ்வளவு சிக்கலானது அல்ல. எடுத்துக்காட்டாக, நீங்கள் Z எழுத்தில் கவனம் செலுத்தினால், பட்டியலில் முதல் பெயரைக் குறிக்கவும், குறிக்கவும். இந்த வழக்கில், முதல் பெயர் ஜபாக்லியா, நிக்கோலா. நிலைத்தன்மைக்கு, பக்கங்களின் எண்ணிக்கையையும் அந்தப் பக்கத்தில் உள்ள கடைசி கலைஞரின் பெயரையும் குறிக்கவும்.

கோரிக்கைகள் மற்றும் அழகான சூப் நூலகத்தை எவ்வாறு இறக்குமதி செய்வது

நூலகங்களை இறக்குமதி செய்ய, உங்கள் பைதான் 3 நிரலாக்க சூழலை செயல்படுத்தவும். உங்கள் நிரலாக்க சூழலுடன் நீங்கள் ஒரே கோப்பகத்தில் இருக்கிறீர்களா என்பதை சரிபார்க்கவும். தொடங்க பின்வரும் கட்டளையை இயக்கவும். my_env / bin / செயல்படுத்து.

புதிய கோப்பை உருவாக்கி அழகான சூப் மற்றும் கோரிக்கை நூலகங்களை இறக்குமதி செய்யத் தொடங்குங்கள். கோரிக்கைகள் நூலகம் உங்கள் பைதான் நிரல்களுக்குள் படிக்கக்கூடிய வடிவங்களில் HTTP ஐப் பயன்படுத்த உங்களை அனுமதிக்கும். அழகான சூப், மறுபுறம், பக்கங்களை விரைவாக துடைக்க வேலை செய்கிறது. அழகான சூப்பை இறக்குமதி செய்ய bs4 ஐப் பயன்படுத்தவும்.

ஒரு வலைப்பக்கத்தை எவ்வாறு சேகரித்து அலசுவது

கோரிக்கைகளைப் பயன்படுத்துதல் உங்கள் முதல் பக்கத்தின் URL ஐ சேகரிக்கும். முதல் பக்கத்தின் URL மாறி பக்கத்திற்கு ஒதுக்கப்படும். கோரிக்கைகளிலிருந்து ஒரு அழகான சூப் பொருளை உருவாக்கி, பைத்தானின் பாகுபடுத்தியிலிருந்து பொருளை அலசவும்.

இந்த டுடோரியலில், இணைப்புகள் மற்றும் கலைஞர்களின் பெயர்களை சேகரிப்பதே இதன் நோக்கம். உதாரணமாக, நீங்கள் கலைஞர்களின் தேதிகள் மற்றும் தேசியங்களை சேகரிக்கலாம். விண்டோஸ் பயனர்களுக்கு, கலைஞரின் முதல் பெயரில் வலது கிளிக் செய்யவும். இந்த வழக்கில், ஜபாக்லியா, நிக்கோலாவைப் பயன்படுத்துங்கள். Mac OS பயனர்களுக்கு, "CTRL" ஐத் தட்டி பெயரைக் கிளிக் செய்க. வலை உருவாக்குநர்களின் கருவிகளை அணுக உங்கள் திரையில் பாப்-அப் செய்யும் "உறுப்பை ஆய்வு" மெனுவைக் கிளிக் செய்க. அழகான சூப் ஒரு மரத்தை விரைவாக அலசுவதற்கு கலைஞரின் பெயர்களை அச்சிடுக.

கீழே உள்ள இணைப்புகளை நீக்குகிறது

உங்கள் வலைப்பக்கத்தில் உள்ள கீழ் இணைப்புகளை அகற்ற, உறுப்பை வலது கிளிக் செய்வதன் மூலம் DOM ஐ ஆய்வு செய்யுங்கள். இணைப்புகள் ஒரு HTML அட்டவணையின் கீழ் இருப்பதை நீங்கள் அடையாளம் காண்பீர்கள். அழகான சூப்பைப் பயன்படுத்தி, பாகுபடுத்தும் மரத்திலிருந்து குறிச்சொற்களை அகற்ற "சிதைவு முறை" ஐப் பயன்படுத்தவும்.

குறிச்சொல்லிலிருந்து உள்ளடக்கத்தை எவ்வாறு இழுப்பது

நீங்கள் முழு இணைப்பு குறிச்சொல்லையும் அச்சிட வேண்டியதில்லை, ஒரு குறிச்சொல்லிலிருந்து பொருளை அகற்ற அழகான சூப்பைப் பயன்படுத்தவும். அழகான சூப் 4 ஐப் பயன்படுத்தி கலைஞர்களுடன் தொடர்புடைய URL களையும் நீங்கள் கைப்பற்றலாம்.

ஸ்கிராப் செய்யப்பட்ட தரவை ஒரு CSV கோப்பில் பிடிக்கிறது

CSV கோப்பு கட்டமைக்கப்பட்ட தரவை வெற்று உரையில் சேமிக்க உங்களை அனுமதிக்கும், இது தரவுத்தாள்களுக்கு பெரும்பாலும் பயன்படுத்தப்படுகிறது. பைத்தானில் எளிய உரை கோப்புகளை கையாள்வது குறித்த அறிவு பரிந்துரைக்கப்படுகிறது.

பக்கங்களைத் துடைத்து தகவல்களைப் பெற வலைத் தரவு பிரித்தெடுத்தல் பயன்படுத்தப்படுகிறது. நீங்கள் பிரித்தெடுக்கும் தகவல் வலைத்தளங்களைப் பற்றி கவனமாக இருங்கள். சில டைனமிக் வலைத்தளங்கள் தங்கள் தளங்களில் வலை தரவு பிரித்தெடுப்பதை கட்டுப்படுத்துகின்றன. அழகான சூப் மற்றும் பைதான் 3 உடன் பக்கத்தை துடைப்பது மிகவும் எளிது.