dotNETportal.cz

1847 3847

Můžete si přece soubor rozdělit na bloky po pár MB a hashovat tyto. Navíc každý soubor čtete maximálně jednou (a ani to nemusíte, některé soubory nemusíte číst vůbec, pokud mají unikátní, a u dalších můžete porovnávat hashe jednotlivých bloků, přičemž ty bloky si počítáte, až když je doopravdy potřebujete).

nahlásit spam

odpovědět

Jenomze aby se spocital jakykoli hash, tak je potreba soubor nacist uplne cely, a pokud zjistim, ze mam vice souboru se stejnym hashem - coz budou jednak duplicity, ale mohou to byt i ruzne soubory se stejnym hashem (nezapomente, ze na disku lide maji miliony souboru), tak tyto soubory budu muset precist znovu jeste jednou, abych zjistil zda jsou opravdu uplne stejne nebo zda mamji jen stejny hash.

Pokud se podivate jeste jednou na mou praci zjisite, ze tam presne o tomto pisu a zduvidnuji tim sve rozhodnuti hash nepouzivat.

Dobromil Maly.

nahlásit spam

odpovědět

24. 10. 2008 13:35

1847 3847

Upřesnil jsem trochu popis správného algoritmu v článku a odsadil ho, aby byl přesně vidět. Ať už provedete jakékoliv vylepšení s porovnáváním obsahů souborů, stejně některé soubory budete načítat víckrát. Hashování se dá napsat tak, abyste četl každý soubor maximálně jednou a to ještě jen kusy, které jsou potřeba.

nahlásit spam

odpovědět

24. 10. 2008 14:16

5 5

No síce sa nemôžem tu hádať, pretože som na chvoste poradia :), ale názor si poviem.. Ako som tu spomenul ja som použil MD5...a robil som to takto (co tiez nie je moc efektivne :))

  HashAlgorithm my_hash = new MD5CryptoServiceProvider();
            Stream file = new FileStream(file_path,FileMode.Open,FileAccess.Read);
            byte[] arr_hash = my_hash.ComputeHash(file); 
            return BitConverter.ToString(arr_hash);

teda cez stream, pretože funkcia readallbytes sa mi zdala moc náročná...:)a pravdepodobnosť rovnkého MD5 hashu u dvoch rozdielnych vecí (tuším to je napísané hore vyššie je 1 k 2na128 čo je sakra veľké číslo) i ked pri použití lámania hesla a bruteforce by sa nam to mohlo podariť :)

Inak kontrola integrity stiahnutých súborov je najčastejšie takto kontrolovaná.

Pravdu máte, ak chceme 100% istotu vtedy sa skutočne musí porovnať bit po bite a je to jasné, ale efektivita je náročná a pri fakt veľkých súboroch ako su giga a tera ufff... Takže v našom svete nič nie je isté, a musíme sa spoľahnúť, že sme si neobliekli ten miliontý padák :)

nahlásit spam

odpovědět

Ale proc stale mluvite o male pravdepodobnosti ze dva ruzne soubory budou mit stejny hash?

Predpokladejme, ze hledame duplicity, ano? Konec koncu to je tema teto ulohy a autori davali body za funkcionalitu ktera je umozni i mazat - takze take predpokladaji, ze se bude pracovat predevsim s duplicitami.

Vychazejme z faktu, ze stejne soubory budou mit i stejny hash => soubory se stejnym hashem MUSIM nacitat cele a budto je cele drzet v pameti, nebo je proste porovnavat mezi sebou stale a stale...

Ano, muze se tim snizit skupina porovnavanych souboru a muze to byt efektivnejsi, ale na jinem vzorku souboru (napriklad projkety Visual Studia, ktere se hemzi uplne stejnymi knihovnami (ICSharpZipLib.dll a pod, ktere nejsou v GAC)) bude porovnavani metodou "nejprve soubor nactu poprve (kvuli spocitani HASHe) a pak ho nactu podruhe, protoze mam jiny soubor se stejnym HASHem" daleko mene efektivni.

Dobromil Maly

nahlásit spam

odpovědět

24. 10. 2008 17:31

5 5

No logicky máte pravdu, lenže stále nechápem úplne prečo viackrát hash (je to v pohode mám strašne dlhé vedenie).Ja som vytvoril TreeView do ktorého som načítal celú stromovu štruktúru (aby sme videli co je adresár/podadresár a obsahujuce subory) vybraného adresára, súčasne s tým som do dvoch polí ukladal veľkosť súborov cez file.Length a celý názov súboru (aj s cestou).

Následne som zotriedil cez array.sort tie dve polia takže rovnaké veľkosti sa dostali k sebe, následne som vytvoril skupiny súborov s rovnakou veľkosťou, potom som načítal cez stream len hashe pre všetky súbory v danej skupine do dalšieho pola (len string hashu) a následne som tie medzi sebou porovnal a rovnaké súbory som vložil do poľa (teda rovnaká veľkosť rovnaký hash) a následne som to zobrazil.

Na disk sa pristupovalo teda len ked som čítal tú stromovú štruktúru a druhý raz už z vyselektovaných súborov s rovnakými veľkosťami keď sa zisťovali tie hashe... V poliach boli uložené len veľkosť súboru, celá cesta+meno súboru, a hash kód súboru, nikdy som v pamäti nedržal celý súbor...

P.S. pridal som tam right click na subor kde bolo možno, skočiť do daného adresára s vyselektovaním daného súboru, plus aj možnosť mazania :)

P.P.S Neošetril som asi milion+1 možností a moc som sa netrápil s prístupovými právami kontroloval som len read_only attribute, a chyba bola čo som si uvedomil, že ak bolo veľa súborov a veľkých tak sa mohlo zdať, že aplikácia spadla (i keď pekne počítala) len som to mal nejak zobraziť, že pracuje...plus bugy na ktoré som neprišiel takže som na konci, ale mne to nevadi toto beriem ako zábavu....a to ma teší...

nahlásit spam

odpovědět

24. 10. 2008 19:21

*) http://www.mscs.dal.ca/~selinger/md5coll...

0 5

Ahoj Dobro,

nechápu... proč bych měla soubor načítat podruhé pokud má stejný hash?

Přece pokud má stejný hash je stejný a hotovo, uložím si informace o něm do nějaké kolekce identických souborů a nakonec ty kolekce nějak zobrazím.

PS: mimochodem na čem myslíš, že jsem to testovala ;)

nahlásit spam

odpovědět

Ahoj Radko,

no to je pravdepodobne cele jadro sporu. I pan Herceg navrhuje soubory se stejnym hashem oznacit za duplicitni a pripadne je nabidnout ke smazani, ale to je velmi nebepecne a hrozi zde riziko ztraty dat, protoze soubory se stejnym hashem nemusi mit nutne jeste stejny obsah.

Hashovani je algoritmus, ktery vezme skupinu znaku a vytvori z ni jakysi kontrolni soucet ze ktereho jiz nelze zpetne rekonstuovat puvodni data (rekneme, ze takovy priklad muze byt proste secteni ascii hodnot jednotlivych znaku). Takovyto algoritmus je tim dokonalejsi cim mene pravdepodobne je ze dva ruzne vstupy daji stejny hash (muj priklad s ascii hodnotami je nefunkcni uz v pripade obsahu "ab" a "ba", protoze oba davaji vysledek ├ (ascii 195)) a take tim cim vice bitu hashe se zmeni zmenou jedineho bitu na vstupu.

Kazdy takovyto kontrolni soucet ma vetsinou pevnou delku a tato delka je zavisla od toho, jaky algoritmus se pouzije (MD5 ma delku 128 bitu, SHA-1 pak 160).

Z logiky veci je tedy jasne, ze soubor zvici nejakych par kB, MB ci GB se kombinaci vsech moznych hodnot bytu do tech nekolika bitu hashe nevejde a je tedy JISTE, ze existuje jina skupina znaku (klidne i stejne delky), ktera dava stejny hash - to je proste FAKT. To, ze se takovou zkupinu pro nektere algoritmy jeste nepodarilo najit neznamena ze neexistuje.

Konec koncu, pro MD4 i MD5 se to jiz podarilo a to dokonze pro texty stejne delky(!) *, pro SHA-1 se AFAIK zatim snad jen nasly nejake slabiny.

Takze se ted modlim, aby Total Commander, ktery pouzivam pracoval alespon tak, jako algoritmus muj ;-)

PS: Nevim, na cem jsi to testovala, ale jsem v pokuseni zkusit prohledat vsechny mozne disky a najit dva ruzne soubory se stejnym hashem, ale to bych se dostal zpet do problemu, kvuli kterym jsem ze souteze hned po vyhlaseni zadani pro druhe kolo odstoupil - tim byl nedostatek casu.

Dobromil Maly

nahlásit spam

odpovědět

24. 10. 2008 20:34

1847 3847

Ano, u MD5 byly nalezeny kolize, ale ty se nenašly náhodou, ale cíleným hledáním a snahou prolomit tento algoritmus. 2^128 je asi 3,4x10^38, to je opravdu strašně velké číslo, pravděpodobnost, že se tohle stane, je fakticky malá, asi jako když vyjdu ven z domu a spadne mi z nebe na hlavu tramvaj. I když MD5 se už v kryptografii nedoporučuje, ostatní algoritmy (např. SHA) se používají a možnost kolize se prostě zanedbává, nemá smysl se jí zaobírat. Jistěže existuje možnost, že k ní dojde, ale já bych se jí rozhodně nebál. Na disku můžete mít miliony souborů, ale to je 10^6. Možností je řádově 10^38, to je propastný rozdíl, asi jako když plivnete do rybníka. Pokud by taková situace nastala a opravdu na svém disku najdete dva soubory s různým hashem, budete slavný. S MD5 asi ne, ale s SHA512 určitě.

Je mi líto, že nemáte čas na další kola soutěže, je to určitě škoda, ale i tak děkujeme za účast.

nahlásit spam

odpovědět

> Pokud by taková situace nastala a opravdu na svém

> disku najdete dva soubory s různým hashem, budete slavný.

Pravdepodobne jste chtel rici "dva ruzne soubory se stejnym hashem" - Ale ja na disku dva takove soubory mam - hello.exe a erase.exe s MD5 souctem CDC47D67159EEF6916CA3A9D4A07.

Ano, jedna se o cileny utok na MD5ku, ale zkratka a dobre i mala pravdepodobnost je IMHO dostatecnym duvodem k tomu, abych soubory pro jistotu kontroloval i podle obsahu a to znamena, ze je musim cist znovu a znovu* a i presto, ze ze skupiny o sto kusech (podle velikosti) je 99,99999% z nich stejnych (podle hashe) a jen ten jeden z nich je ten, ktery mne ma ucinit slavnym - takze tady zadna uspora proste nebude.

PS: Muj oblibeny Total Commander hello.exe i erase.exe oznacil za ruzne, takze je take (diky Christianu Ghislerovi) porovnava podle obsahu.

*) nikdo nerika, ze se musi cist byte po byte, ale lze nacitat treba bloky po 512bytech a ty pak porovnavat uz jen v pameti...

nahlásit spam

odpovědět

Omlouvam se, zapomnel jsem se podpsat (nejsem registrovanym clenem).

Dobromil Maly

nahlásit spam

odpovědět

24. 10. 2008 23:21

1847 3847

Však já jsem psal, že s MD5 už slavný nebudete, se SHA512 byste byl. Ale pořád nechápete jeden základní princip - v algoritmech jde o složitost. Jestli soubor přečtu jednou nebo dvakrát, je jedno, jestli soubor přečtu jednou nebo Nkrát už jedno není. Pokud budete mít 100 různých, stejně velkých souborů a dva z nich budou různé, ale budou mít stejné hashe, pak všechny soubory přečtu 1x a ty dvě potvory nepravděpodobné teda 2x. Vy budete porovnávat "každý s každým", i když je budete číst jen do prvního rozdílu a ne celé, tak v průměru každý přečtete 50x (první 99x, druhý 98x, atd., poslední 1x). Stejně jako velikost souboru drasticky rozdělí obrovskou skupinu všech souborů na mnoho skupin malých, mezi nimiž porovnávat každý s každým je daleko rychlejší, tak hash toto udělá s těmi skupinami znovu a pak už řešíte pouze jednotky případů.

Ano, každý algoritmus se dá nachytat na nevhodné zadání, ale hashování má takových zadání řádově méně než porovnávání obsahů. Nehodlám to už dále rozebírat, pokud uživatel schválně nepodstrčí sadu souborů zkonstruovanou tak, aby zmátla MD5ku, funguje to. Anebo můžete použít SHA512, které je o trochu pomalejší, ale pravděpodobnost kolize je ještě mnohem větší a žádná zatím, pokud vím, není známa.

nahlásit spam

odpovědět

S tou tramvají bych byl opatrnej :-) Tuším, v Rakousku šel muž do banky a u přepážky ho přejela tramvaj :-)

Sice nepřilítla z nebe jak bylo tebou požadováno, ale zase onen muž nemusel ani vycházet z domu :-)

nahlásit spam

odpovědět

25. 10. 2008 1:10

0 5

Když jsem volila algoritmus uvažovala, jsem o tom pro koho je aplikace určená. Podle mě pro běžného uživatele, který ji použije k tomu, aby uřídil množství kopií svých souborů (myslím tím např. dokumenty, fotky, filmy, postahované soubory, přílohy atd.) Takový uživatel nebude aplikaci spouštět nad celým diskem a i kdyby náhodu to udělal tak se mu nejspíš nebude chtít buď čekat nebo procházet výsledek. Soubory ke smazání si musí v mém řešení uživatel označit.

Tedy k tomuto účelu, kdy je pravděpodobné že se budou zároveň procházet tak max. tisícovky souborů, mi hash nepřipadal ani trochu rizikový. Nicméně mě napadlo, že by v sadě souborů na kterých se bude testovat mohly být nějaké kolizní soubory k MD5 schválně takže jsem použila SHA256.

Pokud by šlo o kritickou aplikaci např. pro nemocnice, NASA nebo podobně, asi bych zvolila jiný přístup.

nahlásit spam

odpovědět

No vidis, a ja nevychazel z zadnych predpokladu, ale z faktu a ze zadani, podle ktereho - cituji: Soubory jsou shodné v případě, že jejich binární obsah je totožný. A to bez ohledu na jméno, umístění, či příponu..

Hash pro mne zkratka neni zarukou toho, ze dva soubory se stejnym hashem maji stejny i binarni obsah a proto myslim, ze v teto diskusi uz nema cenu dal pokracovat - muzeme se verbalne poprat osobne az se potkame ;-)

PS: Pravdepodobnost, ze muj SW (klidne i za 10 let) pouzije nejaky matematik, ktery travi poslednich 20 let zivota nejruznejsimi vypocty a jehoz disk se hemzi hokusy a pokusy -vysledky jeho prace- a kteremu zrovna doslo misto na disku, neni IMHO tak mala jako zminovany pad tramvaje z oblohy (nebo odkud to bylo).

nahlásit spam

odpovědět

27. 10. 2008 8:05

0 5

Souhlasim ze nema cenu pokracovat tady, tak nekdy treba u piva :)

nahlásit spam

odpovědět

Diskuse: Výsledky 1. kola .NET Challenge

> Pokud jsou stejné hashe, je stejný i obsah souboru

> (u MD5 či SHA je to zbytečné, pravděpodobnost kolize

> je mizivá, u MD5 je to 1 ku 2^128, což je v desítkovém

> zápisu asi 40ciferné číslo, tolik souborů na disku

> nikdy mít nebudete).

Platí, že pokud je stejný obsah souborů, tak jsou stejné hashe. Opačná implikace neplatí. A pokud je v zadání, že se mají zjistit soubory se stejným obsahem, tak z toho nevyplývá, že stačí, když je to hodně pravděpodobné, ale program se může v některých případech splést. Proto pro dodržení zadání považuji za nezbytné ověřit shodnost nejen hashem, ale "byte po bytu".

> Hashe samozřejmě v rámci skupiny musíme porovnat každý

> s každým, ale tyto hashe jsou malé a vejdou se nám do

> paměti.

To také není pravda. Každý s každým je ~(n^2). Ale pokud např. seznam hashů setřídíme, můžeme najít duplicity v čase ~(n*log(n)), protože třídění lze zajistit v čase ~(n*log(n)) a potom stačí jednou projít seznam od začátku do konce a koukat se, zda dva sousedící hashe nejsou shodné.

nahlásit spam

odpovědět

Koukam, ze jsem si mel precist nejprve diskusi, kde uz stejnou pripominku melo vice lidi.

Presto bych rad podotknul, ze da problem resit i bez nacitani souboru opakovane. Kdyz napr. neleznu 10 dvougigabytovych souboru, tak muzu cist po blocich stridave z kazdeho souboru a porovnat je mezi sebou v pameti. Pokud pomer velikosti dostupne RAM ku poctu souboru stejne velikosti bude prilis maly, tak bloky take musi byt male a u pevnych disku a podobnych zarizeni, kde je drahy seek, cely algoritmus nemusi byt prilis efektivni. I kdyz i v tomto pripade by se to resit dalo. Ale mam jistotu, ze oznacim jako stejne opravdu stejne soubory. A take v beznych podminkach bude algoritmus efektivni.

nahlásit spam

odpovědět

Diskuse: Výsledky 1. kola .NET Challenge

22. 10. 2008 22:37

0 5

Drtivá většina asi našla tohle: http://support.microsoft.com/kb/320348 tj. to první co mi vyhodil google na "compare file C#" ;)

nahlásit spam

odpovědět

22. 10. 2008 22:39

1847 3847

Jako ono to ve své podstatě není špatně, jen je to neefektivní a v jistých situacích to může být velmi pomalé.

nahlásit spam

odpovědět

23. 10. 2008 8:14

5 5

No ja som to tiez pozeral (priznavam sa, ale najma praci so subormi), ale ako napisal velky sef je to strasne neefektivne. Pri malych suboroch to moze byt fajn ale pri 500MB je to hroza. Ja som pouzil MD5 hashovanie ( napadlo ma to tak, ze v Linuxe s tym kontrolujem validitu stiahnutych suborov :) ), a viem ze dva subory su rovnake ak maju rovnaku velkost a rovnaky obsah... Len prva uloha bol aj prvy program co som napisal v C#, takze som bol rad ze to aspon trochu fungovalo....

Mam otazku WPF je asi Windows Presentention Foundation? a co su to tie unity testy?... Dikes...

nahlásit spam

odpovědět

23. 10. 2008 8:51

Ondřej Linhart

-553 3274

Windows Presentation Foundation je alternativa (ne náhrada) Windows Forms. Jedná se o nový, plně vektorový a hardwarově akcelerovaný systém uživatelského rozhraní, který je použit například ve Windows Vista. Jdou pomocí toho dělat sice úchvatné věci, ale pracuje se s tím daleko hůř než s Windows Forms (můj názor).

Unit Testing je metodika vytváření testů pro udržení integrity aplikace. Například máte-li metodu pro sčítání dvou čísel, napíšete test který bude volat tuto metodu, předávat všechny myslitelné kombinace hodnot a kontrolovat, zda-li je výstupní hodnota správná. Unit Testing podporuje Visual Studio 2008 Professional nebo lepší, ale specializuje se na to hlavně Visual Studio 2008 Team System. Pro Unit Testing lze použít také aplikace třetích stran (NUnit) ale tyto většinou nedosahují možnostem VS ani po kotníky.

nahlásit spam

odpovědět

23. 10. 2008 10:35

5 5

Dakujem, za odpoved. Ale vzhladom na to, ze mam len express edition 2008 tak je to potom v pohode...:)

nahlásit spam

odpovědět

24. 10. 2008 12:50

0 5

Mě se naopak ve WPF pracuje daleko líp než ve winforms... pominu-li grafické věci a hezky lehce měnitelný layout tak zvlašť oceňuju třeba (data)binding skvěle a jednoduše řeší spoustu komunikace s GUI za me... Ale je pravda že práce ve WPF je dost jiná než ve winforms takže se v podstatě musí člověk všechno naučit znovu...

nahlásit spam

odpovědět

28. 10. 2008 16:08

Ondřej Linhart

-553 3274

Vzhledem k tomu, že je třeba naučit se celý grafický subsystém WPF zcela od začátku a nelze použít znalosti z Windows Forms, je používat toto zcela neefektivní. Kromě toho se počítá s tím, že na vývoji WPF aplikace se bude podílet designér (Expression Blend) a programátor (VB.NET/C#) což si spousta firem nemůže dovolit a vše dělá programátor, čehož výsledkem je mimořádně hnusné a odfláknuté uživatelské rozhraní.

nahlásit spam

odpovědět

Diskuse: Výsledky 1. kola .NET Challenge

23. 10. 2008 18:29

Václav Antošík

43 103

Chcel by som sa spýtať, či budú aspoň najlepšie zdrojové kódy(riešenia) súťaže zverejnené. Aby sme sa mohli všetci od najlepších "čo to" priučiť.

Ďakujem

nahlásit spam

odpovědět

23. 10. 2008 19:57

1847 3847

Budou, až najdu chvilku času na zkontaktování prvních 5ti soutěžících z každé úlohy a podaří se mi získat mailem jejich svolení.

nahlásit spam

odpovědět

Za mě nemám problém se zveřejněním úlohy. Dokonce jsem uvažoval, že řešení popíši na blogu, avšak nenašel jsem odvahu se do toho pustit, především s ohledem k možnému porušení podmínek soutěže.

-- J.

nahlásit spam

odpovědět

24. 10. 2008 17:34