Teme: WordPress | Internet promocija (SEO)

Velika posećenost sajta – veliki problem

Skraćena veza: http://pedja.supurovic.net/veza/3662

Ono čemu najviše teže vlasnici sajtova to je da imaju veliki broj posetilaca. Mnogo je veb strana potrošeno na objašnjavanje svih mogućih tehnika koje treba primenjivati da bi se to postiglo.

Retko ko, ipak, pominje probleme koji su posledica velike posećenosti. Ponekad samo čujemo u vestima kako je neki sajt u nekom trenutku zbog velikog interesovanja posetilaca, pao  host na kome je takav sajt jer jednostavno nije mogao da izdrži opterećenje.

Uglavnom smatramo da su resursi kojima serveri raspolažu mnogostruko veći od onoga što obični sajtovi mogu da zahtevaju. Jasno je da Majkrosoft, Gugl, Fejsbuk, Tviter i slini moraju da obezbede mnogo resursa jer ime je i posećenost ogromna, ali niko to ne očekuje od nekog sajta kao što je, recimo, ovaj moj blog.

Nažalost, to je često zabluda. Evo, baš sa ovim blogom ja kuburim neko vreme, jer je počeo da troši previše resursa i da ugrožava server na kome je postavljen.

Nikako ne mogu da nađem razumno objašnjenje kako ovaj blog može da troši tolike resurse, kada se baš i ne može svrstati u značajno posećene sajtove, ali brojke ne lažu: blog mesečno dosegne oko 30 gigabajta protoka, i često optereti moćni server (4 x Intel Xeon CPU 2.33 GHz/4096 Kb cache) do 50% a u nekim trenucima i 90%.

Statistika za decembar kaže da je sajt ukupno potrošio 22 GB protoka, od toga je 8.27 GB potrošeno na posetioce koji su pregledali sajt, a ostalo su uglavnom potrošili internet pretraživači indeksiranjem sajta. Protok od 8.27 GB u tom periodu posledica je oko 11000 jedinstvenih posetilaca, koji su napravili nešto manje od 17000 jedinstvenih poseta otvorivši 112 hiljada strana načinivši 654 hiljade pogodatka. U ovo nisu uračunati pretraživači.

Gugl analitika se ne slaže baš sa ovom internom statistikom sajta. Po njemu, bilo je ukupno oko 10600 posetilaca sa sve pretraživačima, koji su otvorili 20800 strana, ali sve je to tu negde.

Statistika potrošnje protoka u decembru

Ko je potrošio sav taj protok?

Pitanje koje me najviše interesuje je, naravno, ko je potrošio sav taj protok. Delom, odgovor daje statistika. Protok koji su korisnici napravili nije interesantan za analizu, jer,pretpostavljamo, to su napravili posetioci, kojima je sajt i namenjen. Međutim, oni čine 38% ukupnog protoka – ko je pojeo ostalo?

Iz statistike se vrlo lako vidi da su glavni deo kolača odneli pretraživači koji indeksiraju ovaj blog. Samo gugl je pojeo 5.4 GB, za njim sledi jahu sa 2.5 GB, pa neki nepoznati pretraživač sa 1.5 GB, msn koji je potrošio 1.1 GB i zatim sledi niz nepoznatih ili manje poznatih pretraživača koji su znatno manje učestvovali u opterećenju servera. Dakle, čini se da su glavni krivci za veliku potrošnju resursa upravo pretraživači.

Da bih to proverio, podesio sam gugl da „olabavi“ sa indeksiranjem mog bloga, u gugl analitiksu sam namestio da čita sadržaj najmanjom mogućom brzinom.Pored toga sam i pomoću sitemap.xml guglu naložio da značajno smanji učestanost indeksiranja sadržaja na sajtu, ali i podesio prioritete indeksiranja stranica u toj meri da praktično sve osim naslovne strana ima mali prioritet. Cilj mi je bio da gugl navedem da što manje opereti blog svojim indeksiranjem.

To sam uradio 19. januara i već od 21-og se u statistici vidi da je opterećenje resursa značajno smanjeno uodnosu na prosek, skoro na 50% protoka, što se pokazalo i u ukupnoj mesečnoj statistici, naročito u sledećim mesecima u kojima je gugl bio obuzdavan.

Statistika potrošnje protoka u januaru

Iz ovoga mogu izvići nedvosmislen zaključak da je pretpostavka bila tačna – zaista, samo gugl pravi značajan deo opterećenja resursa, a sa njim i drugi pretraživači.

Šta činiti

Iako ste obično navikli da za probleme o kojima pišem dajem i rešenja, ovaj put nisam siguran da ću to moći da uradim. Rezultat ovog mog testa me je stavio pred težak izbor: da li se opredeliti za brže ažuriranje na guglu i drugim pretraživačima, ili štednji na resursima?

Ovo malo istraživanje je pokazalo i koliko je u stvari realna satistika posećenosti, odnosno delimično otkriva kolika je razlika izmerenih pokazatelja posećenosti u odnosu na stvarno stanje, to jest, koliki udeo u toj statistici čini poseta koju u stvari ne bi ni trebalo brojati.

Blog kao ovaj moj nije baš najbolji uzorak. Meni ipak dobar rejting i velika posećenost nisu toliko važan cilj kao nekome ko drži komercijalan sajt i kome posećenost znači prihode. Meni posećenost znači trošak, jer ovaj blog ne donosi novac, a resurse koje troši moram da plaćam. Dilema koju ja imam, neko kome posećenost čini zaradu nema: povećanje posećenosti je ultimativan cilj.

Na potrošnjureursa na pretraživače i druge robote, u sušptini utiče broj dokumenata koji se nalazi na sajtu. Ako uzmemo da pretraživač sajt indeksira nekom ustaljenom brzinom, to znači da će indeksiranje trajati zavisno od toga koliko dokumenata ima. Ako je njihov broj manji, manje će biti i opterećenje resursa od strne pretraživača.

U svakom slučaju, optrećenje koje čine pretraživači se može smatrati konstantom, ako uzmemo da je i obim sadržaja sajta konstantan. Dakle, sve promene u potrošnji reusrsa nastaju kao posledica stvarnih posetilaca, a što je tih postilaca više to je manji procentualni udeoača u ukupnoj potrošnji resursa.

Blogovi su, dakle, po definiciji uprilično nezgodnom položaju jer oni upravo funkcionišu na principima koji se odražavaju nepovoljno: na blogu se stalno povećava obim, a broj posetilaca nije toliko veliki da se ineksiranje pretraživača može zanemariti.

Šta na sajtu troši resurse?

Istraživanje koej sam proveo pokazao mi je ko od posetilaca sajta troši najviše resursa. Ne baš precizno ali glavnog „krivca“ sam otkrio. To naravno niej dovoljno.

Jedan od načina da se utvrdi na šta se troši protok je i da se utvrdi koji to sadržaji na samom sajtu odlače najveći deo protoka. Bilo bi zanimljivo utvrditi kje koi članci na blogu stvaraju veliku porošlju, ali i koji konkretno elementi imaju veliki uticaj da toliki resursi budu potrošeni.

Ja recimo sumnjam da dobrim delom na potrošnju resursa utiče relativno veliki broj fotografija koje objavljujem na blogu, ali mi se čini i da upravo pretraživači prave problem sa fotografijama jer ih iznova indeksiraju. Fotografiej su veliek datoteke i to sigurno ima značajan uticaj na ukupnu potrošnju.

Takođe, sumnjam da nemali uticaj ima ajaks (ajax). Vordpres je platforma koja se mnogo oslanja na ajaks, a on onako ispod žita i neprimetno ume da potroši dosta resursa, pogotovo ako sajt ima skripte koje stalno proveravaju statuse ili osvežavaju prikaz nekih informacija. To su tehnike na koje često ne obraćamo pažnju a one „jedu“ resurse samo ako strana ostane otvorena u veb čitaču.

Nisam uspeo da nađem neki zgodan alat kojim bih mogao da analiziram logove na način koji bi mi dao odgovore na ova pitanja. Ako budem mogao do odvojim neko vreme, možda i sam napravim program koji će tu analizu vršiti. Zasad, ovaj deo problema i dalje ostaje u blasti pretpostavki i nagađanja.

Ako imate neke ideje o analizama koje bi pomogle da se što ekonomičnije i optimalno koriste resursi, diskutujte u komentarima.


Podelite ovaj članak sa prijateljima


9 comments to Velika posećenost sajta – veliki problem

  • Fina je ova analiza, doduse ne shvatam zasto bi 22Gb bilo neko opterecenje za server.

    Mislim da je veci stos u tome kako se isporucuje sadrzaj. Ukoliko to ide preko ajax-a, ili slike idu preko php-a, nedostatak kesiranja, losi indeksi… to crpe resurse.

    Moja iskustva sa mnogo vecim sajtovima su doprinela nacinu na koji ja optimizujem, ali to se nikako ne odnosi na smanjivanje obima od strane gugla.

  • Preko 40 strana sa slikama sam svojevremeno prebacio na druge servere kako ne bih opterecivao blog. Ukoliko padnu ti serveri, moj blog ce biti busna krpa sa glupavim recenicama.
    Medjutim, i pored toga, dobio sam previse prostora za moj blog promenom mesta boravka celog sadrzaja. I opet , ali opet opterecujem sve svojim blogom. Tako je bilo u predhodne dve adrese , tako je i sada kod jednog od najpouzdanijih programera u Srbiji koji se hvata za glavu od mog bloga.
    Cak smo iskljucili skoro sve pluginove i opet je opterecenje.
    Da se ja razumem makar koliko i ti u ove tehnike, zasigurno bih znao o cemu se radi i sigurno je da bih sproveo analize i provere svega, ovako, mogu samo da citam tvoja iskustva i da nagadjam.

  • Aleksandre, naravno da protok ne optrećuje server. To se više odražava na cenu hostinga, jer kada sajt pravi veliki protok, obično se mora uzeti neki skuplji paket, i obično se tada ljudi počinju pitati, koliko se sve to isplati.

    Veliki protok posredno pokazuje veliku aktivnost na sajtu, a na blogovima je to bitno, jer vordpres po svemu sudeći nije baš štedljiv sa resursima i ume itekako da optereti server.

    Moje isksutvo je takvo i svako malo prolazim kroz istu ovu priču koju je opisao Deda – s vreman na vreme, kada posećenost naglo poraste, obično nakon objavljivanja nekog zanimljivog članka, muku mučim da održim sve u funkciji, a pritom, uopšte nemam neku posećenost koja bi se mogla smatrati izuzetnom.

    Sve ideje za optimizacije su dobrodošle, zato nemoj štedeti tastaturu.

  • Sto slike jednostavno ne kacis na neki drugi servis, tipa Flickr pa ih ubacujes u postove, ako to vec radis pardon, mrzi me da sad gledam 🙂

  • Za komercijalne sajtove svakako nije prihvatljivo dirati Google indeksiranje, pogotovu ako Google često ažurira sajt, jer je ponuda dobrih a jeftinih servera sa min 1TB mesečnog protoka sve bogatija. Tj. ako je samo protok problem, ako sam server nema problema zbog Googlebota, a i onda je bolje problem rešiti nego dirati Google setovanja. 🙂

    Kako smanjiti protok? Kada su slike u pitanju, najbolje je forsirati keširanje putem http headera. Isto važi i za css, js i slične statičke datoteke koje se vuku skoro za svaku stranicu. A sam HTML sadržaj je najbolje gzipovati prilikom slanja ka klijentu.

    Ako ti je za utehu, Naslovi su u martu i pored svih optimizacija skrkali 907 GB 🙂

  • Dakle, radio sam sa velikim sajtovima (b92), kao i osrednje posecenim. Za b92 necu da pricam, iako ne radim vise tamo, opet to spada u neku vrstu poslovnih tajni.
    Moj vordpres nije uopste posecen, niti smatram da ce ikad biti, jer nisam takva vrsta blogera – pisem za svoju dusu. Hostovan je u Krnjaci na ogromnim resursima, tako da bi mogao da istrpi ogromnu posetu.
    Ostale sajtove sam radio u svom CMS-u, gde sam se trudio da maksimalno stedim resurse.

    Aleksinac.net je otprilike sajt koji ima slicnu posecenost kao ovaj tvoj blog i transfer podataka je oko 20GB. Posecenost je od 1000-2000 jedinstvenih dnevno. Hostuje se u Nisu pored jos stotinak sajtova od kojih su neki par puta poseceniji. 90% sajtova je na mom CMS-u. Masina nema nikakvih problema.

    Recimo, mojkvadrat.rs je imao 100 000 otvorenih strana dnevno. Slike su prebacene na nginx server, kao i css, js…
    HTML i CSS su maksimalno optimizovani. Aplikacija dodatno koristi i APC kes. Ne znam tacan podatak o protoku. Posebna paznja je posvecena indeksima u mysql-u zbog pretrage i brza obrade podataka.

    Mojodmor.rs jos uvek nema takvu posetu, ali je na vreme opremljen takvim stvarima. Slike su velike i odmah je za njih zaduzen nginx. Optimizacija je u toku. Mysql se izvrsava periodicno.

    Dakle, koristimo kes tehnike, lagane servere za staticki sadrzaj. Sql je optimizovan i kesiran.

    Ne znam koliko ovo moze biti od pomoci kada je WP u pitanju. Pretpostavljam, na osnovu tvojih ranijih pisanja, da su tvoji serveri u redu. Predlog – pokusaj za pocetak da izmestis slike, css i js na neki brzi server. Apac zna da trosi mnogo memorije.

  • Imali smo sličan problema na svet.rs, na žalost zbog celebrity tragedije, koja je podigla posećenost i u martu dostigla skoro 2 miliona poseta. Takođe, posećenost uslovila i porast protoka tako da smo u negde oko 20. prevršili 2 terabajta i morali da doplatimo još 1 terabajt protoka. Usled veće posećensoti, veći su i prihodi, tako da to pokriva neplanirani trošak.

  • Žarko Milićević

    Za protok: tjah… nek ide, ako nije baš katastrofa.

    Za CPU: to već jeste problem, jer usporava i ostale hostovane sajtove. WP je svojevremeno baš puno kritikovan zbog toga, i ima nekoliko plaginova koji rešavaju veće probleme i uvode keširanje stranica. Zahtevnost jesu peglali – ali ja prestao da pratim – tako da nisam siguran koliko je to rešeno u novim verzijama WPa. Lošije valjda nije 🙂

    Jeff Atwood je to svojevremeno lepo kritikovao na Coding Horroru: http://www.codinghorror.com/blog/2008/04/behold-wordpress-destroyer-of-cpus.html

    A ti probaj W3 Total Cache ili WP Super Cache. Pa javi kako je prošlo 😉

Leave a Reply

 

 

 

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Popunite izraz tako da bude tačan: *