MyCity » Ostali programski jezici » Pyton skripta

Pyton skripta

Napisano na dan: 16.7.2017

Pyton skripta

Odgovori

Brksi Poslao: 16 Jul 2017 13:28 Idi na vrh
offline Brksi Ex KGB officer Pridružio: 18 Jul 2003 Poruke: 4204 Gde živiš: U zlatnom kavezu	0Niko još nije pohvalio poruku. Registruj se da bi pohvalio/la poruku! Imam payton skriptu koj ne radi sasvim ok, a ja ne mogu da joj nadjem gresku. Ona treba da generise slektovane recenzije hotela u csv fajl i ona do uradi, ali je problem sto bez obzira na broj selekcija ona obradi samo pet. Ako neko zna neka pomogne prilazem kod `# !/usr/bin/python` `# -- coding: utf-8 --` `# importing libraries` `from bs4 import BeautifulSoup` `import urllib, csv, os, datetime, urllib.request, re, sys` `# creating CSV file to be used` `file = open(os.path.expanduser(r"~/Desktop/TripAdviser Reviews.csv"), "wb")` `file.write(` `b"Organization" + b"," + b"Address" + b"," + b"Reviewer" + b"," + b"Review Title" + b"," + b"Review" + b"," + b"Review Count" + b"," + b"Help Count"` `+ b"," + b"Attraction Count" + b"," + b"Restaurant Count" + b"," + b"Hotel Count" + b"," + b"Rating Date" + b"," + b"Rating" + b"\n")` `# List the first page of the reviews (ends with "#REVIEWS") - separate the websites with ,` `WebSites = [` `"https://www.tripadvisor.com/Hotel_Review-g294472-d7181993-Reviews-Holiday_Inn_Express_Belgrade_City-Belgrade.html"` `]` `Checker = "REVIEWS"` `# looping through each site until it hits a break` `for theurl in WebSites:` `thepage = urllib.request.urlopen(theurl)` `soup = BeautifulSoup(thepage, 'html.parser')` `while True:` `# extract the help count, restaurant review count, attraction review count and hotel review count` `a = b = 0` `helpcountarray = restaurantarray = attractionarray = hotelarray = ""` `for profile in soup.findAll(attrs={"class": "memberBadgingNoText"}):` `textFromHt = profile.findAll(text=True)` `image = '\n'.join(textFromHt)` `image = image.replace("\n", "\|\|\|\|\|").strip()` `# print "".join(profile.findAll(text=True))` `if image.find("helpful") > 0:` `counter = image.split("helpful", 1)[0].split("\|", 1)[1][-4:].replace("\|", "").strip()` `if len(helpcountarray) == 0:` `helpcountarray = [counter]` `else:` `helpcountarray.append(counter)` `elif image.find("helpful") < 0:` `if len(helpcountarray) == 0:` `helpcountarray = ["0"]` `else:` `helpcountarray.append("0")` `if image.find("attraction") > 0:` `counter = image.split("attraction", 1)[0].split("\|", 1)[1][-4:].replace("\|", "").strip()` `if len(attractionarray) == 0:` `attractionarray = [counter]` `else:` `attractionarray.append(counter)` `elif image.find("attraction") < 0:` `if len(attractionarray) == 0:` `attractionarray = ["0"]` `else:` `attractionarray.append("0")` `if image.find("REVIEWS_RESTAURANTS") > 0:` `counter = image.split("REVIEWS_RESTAURANTS", 1)[0].split("\|", 1)[1][-4:].replace("\|", "").strip()` `if len(restaurantarray) == 0:` `restaurantarray = [0]` `else:` `restaurantarray.append("0")` `elif image.find("REVIEWS_RESTAURANTS") < 0:` `if len(restaurantarray) == 0:` `restaurantarray = ["0"]` `else:` `restaurantarray.append("0")` `if image.find("REVIEWS_HOTELS") > 0:` `counter = image.split("REVIEWS_HOTELS", 1)[0].split("\|", 1)[1][-4:].replace("\|", "").strip()` `if len(hotelarray) == 0:` `hotelarray = [counter]` `else:` `hotelarray.append(counter)` `elif image.find("REVIEWS_HOTELS") < 0:` `if len(hotelarray) == 0:` `hotelarray = ["0"]` `else:` `hotelarray.append("0")` `# extract the rating count for each user review` `#altarray = ""` `#for rating in soup.findAll(attrs={"class": "rating reviewItemInline"}):` `# alt = rating.find('img', alt=True)` `# if alt[-5:] == '':` `# if len(altarray) == 0:` `# altarray = [alt]` `# else:` `# noinspection PyUnboundLocalVariable` `# altarray.append(alt)` `Organization = soup.find(attrs={'class': 'heading_title'` `}).text.replace('"', ' ').replace('Review of', ' ').strip()` `Address = soup.findAll(attrs={'class': 'address_search'` `})[0].text.replace(',', '').replace('\n', ''` `).strip()` `# Loop through each review on the page` `for x in range(0, len(hotelarray)):` `# noinspection PyBroadException` `try:` `Reviewer = soup.findAll(attrs={"class": "username mo"})[x].text` `except:` `Reviewer = "N/A"` `continue` `Reviewer = Reviewer.replace(',', ' ').replace('”', '').replace('“', '').replace('"', '').strip()` `ReviewTitle = soup.findAll(attrs={"class": "quote"})[x].text.replace(',', ' ').replace('”', '').replace('“',` `'').replace(` `'"', '').replace('é', 'e').strip()` `Review = soup.findAll(attrs={"class": "entry"})[x].text.replace(',', ' ').replace('\n', ' ').strip()` `RatingDate = soup.findAll(attrs={"class": "ratingDate"})[x].text.replace('Reviewed', ' ').replace('NEW',` `' ').replace(` `',', ' ').strip()` `# Rating = altarray[x][:1]` `HelpCount = helpcountarray[x]` `AttractionCount = attractionarray[x]` `Restaurant = restaurantarray[x]` `Hotel = hotelarray[x]` `Record = Organization + "," + Address + "," + Reviewer + "," + ReviewTitle + "," + Review + "," + "," + HelpCount + "," + AttractionCount + "," + Restaurant + "," + Hotel + "," + RatingDate + ","` `if Checker == "REVIEWS":` `file.write(bytes(Record, encoding="ascii", errors='ignore') + b"\n")` `link = soup.find_all(attrs={"class": "nav next taLnk"})` `print(Organization)` `if len(link) == 0:` `break` `else:` `soup = BeautifulSoup(urllib.request.urlopen('http://www.tripadvisor.com'` `+ link[0].get('href')), 'html.parser')` `print(link[0].get('href'))` `Checker = link[0].get('href')[-7:]` `file.close()`

Profil
Registruj se da bi učestvovao u diskusiji. Registrovanim korisnicima se NE prikazuju reklame unutar poruka.

MyCity » Ostali programski jezici » Pyton skripta

Ko je trenutno na forumu

Ukupno su 1185 korisnika na forumu :: 120 registrovanih, 11 sakrivenih i 1054 gosta :: [ Administrator ] [ Supermoderator ] [ Moderator ] :: Detaljnije

Najviše korisnika na forumu ikad bilo je 3466 - dana 01 Jun 2021 17:07

Korisnici koji su trenutno na forumu:: Korisnici trenutno na forumu: 04bokibole, acov34, Adaminho1985, advokat84, airsuba, aleksandarbl, Apok, armor, Asparagus, Avalon015, babaroga, Belac91, bestguarder, bigfoot, Bivan, Bobrock1, bojank, Bole72, Boris90, Borski1977, BORUTUS, BOXRR, BradaRS, BWG, CikaKURE, Coabelgrade, Coficab, Crazzer, d.arsenal321, damirZR, debeli, Denaya, dexsilni, dexteroza, drgrozozo, dzada, EXIT78, Feller, gomago, GORDI, Gorilo_1991, Haris, HrcAk47, ikan, janezek67, kaisarevic1, kalens021, kendzo-andzo-boni-fju, kenny74, komsija1, kybonacci, Levi, lima, ljiljak, Logic005, lucko1, M-HOBBY, Macalone, Marko Marković, Maruti, max power, mercedesamg, Mercury, Metanoja, Miki01, Miki281, mikrimaus, milanpb, milenko crazy north, Milo97, milos.cbr, MiroslavD, Mskok, Nemanja Opalić, Nemanja.M, Niske, opt1, Pale2025, pedjolino76, pein, Polemarchoi, Povratak1912, PrincipL, proka89, Prometeus, RajkoB, redstar011, RJ, Romibrat, Romuluss, rovac, royst33, ruma, Rusmir, sabros, sale76, sap, Savantije, savuni, sekretar, sickmouse, StepskiVuk, strn, tecataki, Tribal, Trivo, vathra, vidra1, virked, Vlada1389, Vlado82, voja64, Vojin, vuksa72, yrraf, zauzet, zlaya011, Zorge, Žrnov, šumar bk2

Svaki korisnik ovog sajta je odgovoran za sadržaj svoje poruke koju objavi na sajtu. Sajt se odriče svake odgovornosti za sadržaj tih poruka.
Postavljanjem vaše poruke ili vašeg autorskog dela na ovaj sajt, saglasni ste da ovaj sajt postaje distributer vašeg dela, i odričete se mogućnosti njegovog povlačenja ili brisanja, bez saglasnosti uprave sajta.
Distribucija sadržaja sa ovog sajta je dozvoljena samo u nekomercijalne svrhe, uz obaveznu napomenu da je sadržaj preuzet sa ovog sajta, i uz obavezno navođenje adrese MyCity sajta. Za sve ostale vidove distribucije obavezni ste da prethodno zatražite odobrenje od vlasnika MyCity sajta.
MyCity pokrenuo, administrira i razvija Predrag Damnjanović, a o uređenju sajta se brine MyCity Tim.
Ukoliko želite da nas kontaktirate kliknite ovde.
Naši sajtovi:
Vesti, Vojni forum, Zaštita od virusa, TekstPesme.rs

This content is licensed under a Creative Commons License.
Based on phpBB 2, translated by Simke, designed by