<div dir="ltr"><div><div>Ja nevim, skoly nemam, a nebudu se poustet do polemiky o lazy objektech, od toho jsou tu jini.<br><br></div>Jenom nahodim jednu vec. Kdysi jsem resil neco podobneho, ale misto sort() jsem pouzil sorted() a parametr "key". Ten umoznuje ohodnotit kazdou polozku nejakou hodnotou a potom setridit podle techto hodnot. <br><br></div><div>Ty jsi schopny z puvotniho radku a offsetu spocitat nejake cislo. Napr. pro "ema ma maso" spocitas "ord('e') * 10^100 + ord('m') * 10^90 + ord('a') * 10^80 + ord(' ') * 10 * 70, ...<br><br></div><div>Proste z toho stringu odvodis nejakou hodnotu, ktera umozni razeni. A sorted() ti podle ni ochodne seradi, pro kazdou polozku se ta hodnota "key" bude pocitat jenom jednou (narozdil od "cmp"). Pokud ty polozky budou lazy, jak uz psali ostatni, mas myslim problem vyreseny.<br><br></div><div>HTH<br><br></div><div>Â Â  Jirka<br><br></div><div>P.S. Takhle jsem kdysi tridil sitove rozsahy podle prvni IP adresy (first_ip() prevadi IP adresy na cisla):<br><br>def first_ip(IPy_obj):<br>Â Â Â  '''returns IP of the network address of an IPy object as an integer,<br>Â Â Â  useful for sorting (see behaviour of "key" argument for sort())/<br>Â Â Â  It's needed as IPy objects are sorted by length by default.<br>Â Â Â  '''<br>Â Â Â  return IPy_obj.net().int()<br><br>def sort_networks(ip_list):<br>Â Â Â  nets = sorted(ip_list, key=first_ip)<br></div></div><div class="gmail_extra"><br><div class="gmail_quote">2015-06-16 10:42 GMT+02:00 Petr PĹ™ikryl <span dir="ltr"><<a href="mailto:prikryl@atlas.cz" target="_blank">prikryl@atlas.cz</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><p style="padding:0 0 0 0;margin:0 0 0 0">ZdravĂm,</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">DoporuÄŤil bych jeĹˇtÄ› jeden Ăşhel pohledu -- pĹ™ed rozhodnutĂm o zpĹŻsobu implementaci. NeznĂˇm detaily Ĺ™eĹˇenĂ©ho problĂ©mu, takĹľe spĂĹˇ obecnÄ›. JĂˇ vĂm, Ĺľe je to jasnĂ©, ale nÄ›kdy si neĹˇkodĂ zopaovat zĂˇsady ;)</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">U kaĹľdĂ©ho Ĺ™eĹˇenĂ©ho problĂ©mu lze analyzovat sloĹľitost -- ÄŤasovou a pamÄ›ĹĄovou. NejdĹ™Ăve je nutnĂ© rozhodnout, jakĂˇ z nich je u Ĺ™eĹˇenĂ©ho problĂ©mu dĹŻleĹľitÄ›jĹˇĂ, pĹ™ĂpadnÄ› jestli nÄ›kde existujĂ limity (velikost pamÄ›t, poÄŤet procesorĹŻ, praktickĂˇ doba Ĺ™eĹˇenĂ). Nakonec se to vĹľdy plĂˇcne jen tak (pokud je to malĂ˝ problĂ©m a nemĂˇ cenu se tĂm zabĂ˝vat), nebo se hledĂˇ kompromis -- optimalizuje se. Ale pĹ™ed optimalizacĂ je nutnĂ© zvolit sprĂˇvnĂ˝ pĹ™Ăstup.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">MnohĂ© implementaÄŤnĂ poÄŤiny vychĂˇzejĂ z naivnĂho pĹ™Ăstupu, kterĂ˝ se pak tÄ›Ĺľko pĹ™evracĂ do nÄ›ÄŤeho pouĹľitelnĂ©ho. BuÄŹ se kaĹľdĂˇ ÄŤĂˇst navrhne sprĂˇvnÄ› uĹľ od zaÄŤĂˇtku, nebo se to musĂ dĂˇt snadno pĹ™epsat. Pokud nÄ›co z toho nenĂ splnÄ›no, jde to do kopru.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">MnohĂˇ Ĺ™eĹˇenĂ tratĂ na tom, Ĺľe se od zaÄŤĂˇtku upneme na nÄ›jakĂ˝ konkrĂ©tnĂ zpĹŻsob Ĺ™eĹˇenĂ (konkrĂ©tnĂ zpĹŻsob implementace). ÄŚasto pouĹľĂvĂˇme "Nic mi neĹ™Ăkejte, jĂˇ na to pĹ™ijdu sĂˇm!" mĂsto toho, abychom pouĹľili prozkoumanĂ© (i kdyĹľ nĂˇm zatĂm neznĂˇmĂ©) techniky.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">KdyĹľ to shrnu:</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">- NemĂstnĂ© ĹˇetĹ™enĂ prostorem vÄ›tĹˇinou snĂĹľĂ rychlost Ĺ™eĹˇenĂ.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">- NemĂstnĂ© plĂ˝tvĂˇnĂ prostorem vÄ›tĹˇinou dĂˇle nezvĂ˝ĹˇĂ rychlost Ĺ™eĹˇenĂ.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">- Neexistuje jedinĂ© nejlepĹˇĂ Ĺ™eĹˇenĂ pro vĹˇechny situace. VĹľdy je to kompromis.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">- Mohou existovat rozpoznatelnĂ© situace, kdy je vĂ˝hodnÄ›jĹˇĂ jedno z vĂce znĂˇmĂ˝ch Ĺ™eĹˇenĂ. CelkovĂ© Ĺ™eĹˇenĂ mĹŻĹľe bĂ˝t napĹ™Ăklad zdvojenĂ© s tĂm, Ĺľe se to lepĹˇĂ vybĂrĂˇ dynamicky.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">(VezmÄ›te si napĹ™Ăklad "hloupĂ˝" SQL serve s SQL dotazovacĂm jazykem. Tam se napĹ™elo uĹľ tolik ĂşsilĂ, Ĺľe stÄ›ĹľĂ sami pĹ™ijdete na nÄ›co lepĹˇĂho pĹ™i optimalizaci dotazu.)</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Pokud je nutnĂ© Ĺ™adit, pak nejlepĹˇĂ sekvenÄŤnĂ algoritmus mĂˇ teoretickou ÄŤasovou sloĹľitost O(n log n). TolikrĂˇt se budou muset transformovat data, pokud nebudou uloĹľena. PĹ™Ăprava pĹ™ed Ĺ™azenĂm mĹŻĹľe vÄ›ci urychlit.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">NechtÄ›l jsem napsat vyÄŤerpĂˇvajĂcĂ odpovÄ›ÄŹ ;)</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">MÄ›jte se fajn,</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â Â Â  Petr</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Â </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">______________________________________________________________<br>

> Od: "LumĂr Balhar" <<a href="mailto:frenzy.madness@gmail.com" target="_blank">frenzy.madness@gmail.com</a>><br>

> Komu: <<a href="mailto:python@py.cz" target="_blank">python@py.cz</a>><br>

> Datum: 15.06.2015 22:36<br>

> PĹ™edmÄ›t: [python] PamÄ›ĹĄovÄ› nĂˇroÄŤnĂ© Ĺ™azenĂ<br>

></p><div class="HOEnZb"><div class="h5">


<p style="padding:0 0 0 0;margin:0 0 0 0">Ahoj vĹˇem.<br>

<br>

ĹeĹˇĂm s kamarĂˇdem jeden jeho projekt, jehoĹľ souÄŤĂˇstĂ je i Burrows-Wheelerova transformace, kterĂˇ se pouĹľĂvĂˇ pĹ™ed kompresĂ dat spoleÄŤnÄ› s Move to Front transformacĂ pro snĂĹľenĂ entropie vstupnĂch dat a tĂm zvĂ˝ĹˇenĂ efektivity kompresnĂho algoritmu, kterĂ©mu tyto dvÄ› transformace pĹ™edchĂˇzejĂ.<br>

<br>

PochopenĂ transformacĂ nenĂ potĹ™eba. U BWT se vyuĹľĂvĂˇ tzv, buffer, kterĂ˝ obsahuje vĹˇechny moĹľnĂ© rotace vstupnĂch dat, takĹľe napĹ™Ăklad pro "ema mĂˇ maso" vypadĂˇ takto:<br>

<br>

 0 ema ma maso<br>

 1 ma ma masoe<br>

 2 a ma masoem<br>

 3 Â ma masoema<br>

 4 ma masoema <br>

 5 a masoema m<br>

 6 Â masoema ma<br>

 7 masoema ma <br>

 8 asoema ma m<br>

 9 soema ma ma<br>

10 oema ma mas<br>

<br>

Pro malĂˇ data je to dobrĂ©, ale pro velkĂˇ nelze mĂt celĂ˝ buffer v pamÄ›ti, protoĹľe se pro kaĹľdĂ˝ vstupnĂ znak navĂc rozĹˇĂĹ™Ă o Ĺ™Ăˇdek i sloupec zĂˇroveĹ.<br>

Napsal jsem tedy pro Buffer samostatnou tĹ™Ădu, kde pomocĂ __getitem__ vygeneruji potĹ™ebnĂ˝ Ĺ™Ăˇdek posunem aĹľ ve chvĂli, kdy je jeho obsah potĹ™eba.<br>

<br>

ZĂˇkladnĂ buffer jsem tĂm vyĹ™eĹˇil a uĹˇetĹ™il hromadu pamÄ›ti. ProblĂ©m ale je, Ĺľe v dalĹˇĂm kroku potĹ™ebuji tento buffer lexikograficky seĹ™adit. Abych jej opÄ›t nemusel cpĂˇt do pamÄ›ti, vytvoĹ™il jsem pole indexĹŻ, kde kaĹľdĂ˝ index reprezentuje jeden Ĺ™Ăˇdek bufferu a Ĺ™adĂm jen toto pole (ÄŤĂmĹľ zĂskĂˇm pĹ™esklĂˇdanĂ© poĹ™adĂ Ĺ™ĂˇdkĹŻ pĹŻvodnĂho bufferu), ale jako klĂÄŤ pouĹľĂvĂˇm prĂˇvÄ› obsah Ĺ™Ăˇdku pro danĂ˝ index.<br>

<br>

KonkrĂ©tnÄ›:<br>

<br>

class Buffer():<br>

 Â  Â def __init__(self, input):<br>

 Â  Â  Â  Â self.input = input<br>

 Â  Â  Â  Â self.indexes = [x for x in range(len(input))]<br>

<br>

 Â  Â def __getitem__(self, index):<br>

 Â  Â  Â  Â return self.input[index:] + self.input[0:index]<br>

<br>

 Â  Â def sort(self):<br>

 Â  Â  Â  Â self.indexes.sort(key=lambda x: self[x])<br>

<br>

<br>

A teÄŹ jsme se dostali k jĂˇdru problĂ©mu. I kdyĹľ se obsah jednotlivĂ˝ch Ĺ™ĂˇdkĹŻ generuje aĹľ ve chvĂli, kdy jsou potĹ™eba, a Ĺ™adit by se mÄ›lo jen relativnÄ› malĂ© pole indexĹŻ, pĹ™i volĂˇnĂ funkce .sort() se jakoby stejnÄ› celĂ© to pole nejdĹ™Ăve vytvoĹ™Ă v pamÄ›ti, seĹ™adĂ a pak se seĹ™adĂ to cĂlovĂ© pole s indexy na zĂˇkladÄ› obsahu bufferu.<br>

<br>

Existuje zpĹŻsob, jak implementovat takovĂ˝to Ĺ™adĂcĂ algoritmus pro velkĂ˝ objem dat, aniĹľ bych je mÄ›l v jednu chvĂli vĹˇechny v pamÄ›ti?<br>

<br>

PĹ™edem dĂky za nakopnutĂ tĂm sprĂˇvnĂ˝m smÄ›rem.<br>

LumĂr<br>

_______________________________________________<br>

Python mailing list<br>

<a href="mailto:python@py.cz" target="_blank">python@py.cz</a><br>

<a href="http://www.py.cz/mailman/listinfo/python" target="_blank">http://www.py.cz/mailman/listinfo/python</a><br>

<br>

Visit: <a href="http://www.py.cz" target="_blank">http://www.py.cz</a></p>


</div></div><br>_______________________________________________<br>

Python mailing list<br>

<a href="mailto:python@py.cz">python@py.cz</a><br>

<a href="http://www.py.cz/mailman/listinfo/python" rel="noreferrer" target="_blank">http://www.py.cz/mailman/listinfo/python</a><br>

<br>

Visit: <a href="http://www.py.cz" rel="noreferrer" target="_blank">http://www.py.cz</a><br></blockquote></div><br></div>