pondělí, 7. listopadu 2011

Data mining proti výpovědím zákazníků – Churn prediction

Původní verze mi vyšla v CRM Fórum 6/2011

Postup nazývaný churn prediction vyčleňuje zákazníky s nejvyšší pravděpodobností výpovědi, které je třeba marketingově podchytit a zachránit pro vaši společnost.

Kdy modelujeme churn

Churn prediction jako svébytná technika se používá v oblastech, kde zákazníci mají smlouvu na dobu neurčitou a platí měsíčně určitou částku. Nejprve tedy model aplikovaly obory telekomunikací a utilit. Postupně trend „záchrany zákazníků“ následují další obory, jejichž business je založen na smlouvě s koncovými zákazníky, např. banky, pojišťovny apod. Modelování churnu stojí na myšlence, že zachráněný zákazník stojí společnost méně peněz, než zákazník, kterého společnost loví z trhu jako nového.

Odcházející zákazníci

Odcházející zákazníky by chtěl zachránit každý. Se ztracenými zákazníky vám totiž nevyhnutelně unikají finance.
Churn predicion model obvykle vyčlení skupinu zákazníků, kteří budou vypovídat smlouvy několikanásobně častěji, než zákazníci ostatní. Tito zákazníci mají obvykle „dobrý důvod“ odejít. Typickým výsledem je, že námi vybraná skupina má 2x-5x vyšší pravděpodobnost výpovědi než zbytek zákaznické báze. Podstatná je i skupina, která má nízkou pravděpodobnost odchodu, a můžeme ji tedy zcela vynechat ze záchranné komunikace.

Jak se dělá model ohrožených zákazníků

Nejdříve třeba stanovit, jaké důvody mohou vést k možnému ohrožení zákazníků. Mezi zcela zjevné průvodní znaky postupného odchodu ke konkurenci může patřit například příliš malá aktivita zákazníka. Pokud zákazník netelefonuje nebo nepoužívá účet v bance, pravděpodobně jeho provoz již přitáhl konkurent. Také příliš vysoké poplatky mohou signalizovat budoucí problém. Zákazník, kterému se zásadním způsobem nevyplatí pokračovat ve vztahu se společností, bude dříve nebo později zvažovat alternativy.
K možnému odchodu zákazníků mohou však vést další, daleko subtilnější proměnné. Nevhodná volba tarifní služby, špatná dostupnost služeb nebo zákaznického centra patří ještě k těm odhadnutelným. Často ale je zákazník přesvědčen někým blízkým, kdo již odešel ke konkurenci. I takovýto fakt se dá zjistit s transakční historie. Pokud náš zákazník najednou posílá platby do „cizí“ banky, nebo telefonuje najednou pouze k „cizímu“ operátorovi, jeho loajalita je možná narušena odchodem partnera ke konkurenci. Když na to přijde řeč, může partner našeho zákazníka lanařit ke konkurenci. Příliš horečná aktivita na call centru může zase znamenat nevyřešenou stížnost, která zcela podlomí loajalitu zákazníka.

Jaký model vybrat

Data miner stojí často spolu s managementem před volbou, jaký model předpovědi výpovědí bude nejlepší. Na jedné straně existují sofistikované modely, řekněme neuronových sítí, které jsou obvykle vysoce účinné. Jejich nevýhodou je téměř úplná nečitelnost, a také riziko rychlého zastarání, které se týká příliš složitých modelů.
Na druhé straně existují čitelné modely, které jednoduše sčítají rizikové faktory. Takovým modelem je například regrese, která převádí rizikový faktor na jednoznačné číslo. Přehledným modelem je často rozhodovací strom, ve kterém se riziko výpovědi větví vizuálně.


Ačkoli analytici se rádi chlubí modely s nejvyšší přesností, praxe nás naučila, že matematicky nejvýkonnější model je málokdy ten nejlepší. Velkým rizikem je přeučení modelu. Příliš složitý model funguje perfektně na jednom časovém výseku, ale když ho přeneseme na jiné časové období, jeho výkonnost rychle klesne. Nezanedbatelnou výhodnou jednodušších, robustnějších modelů je také fakt, že se dají vysvětlit managementu a tím pádem lépe „prodat“ uvnitř organizace. Pro jednoduchost hovoří také snadná implementace a odolnosti vůči „zubu času“.

Co nám model řekne

V mnohých firmách je churn prediction vnímán pouze jako nástroj k výběru zákazníků. Z našeho pohledu je to jednoznačně škoda. Promarněnou příležitostí je často interpretační síla modelu. Model odhalí například, kde vznikají „hnízda“ zákazníků se zcela nevhodnými tarify. Můžeme se dozvědět, kde jsou naše slabá místa proti konkurenci, a jaké racionální důvody mají naši zákazníci ke zvažovanému odchodu.
Pokud se podíváme po jednotlivých větvích rozhodovacího stromu, můžeme se například dozvědět, že naše služby jsou výhodné pouze pro zákazníky, kteří mají účty ve středním cenovém pásmu. Zákazníci s příliš nízkými účty a zákazníci s nejvyššími účty se jeví jako ohrožení. V tomto případě by bylo preventivním opatřením bylo změnit tarifní plány pro vybrané skupiny zákazníků.
Prevence churnu – kde nastoupí marketing
Jako v jakékoli jiné marketingové úloze nelze podcenit roli komunikace v prevenci churnu. Správná antichurnová nabídka musí splňovat několik podmínek. Za prvé je jasné, že zákazník na odchodu se málokdy dlouhodobě spokojí se symbolickým zvýhodněním. Pro dlouhodobou loajalitu je nutné, aby marketingová nabídka narovnala vztah mezi zákazníkem a společností do polohy oboustranné výhodnosti. Drobné pozornosti servírované zákazníkům, mohou jejich rozhodnutí odejít pouze oddálit.

Zásady prevence

Úspěch prevence výpovědí spočívá často v jednoduchém churn prediction modelu, ze kterého je společnost schopna se poučit a udělat procesní změny. Z hlediska marketingových nabídek musí být nabídka atraktivní pro zákazníka a nesmí být ztrátová pro společnost. Anti-churnové aktivity je nutné vyhodnocovat z hlediska přínosu pro dlouhodobou loajalitu a ziskovost. Mnohdy v praxi vítězí jednoduché nabídky nad příliš složitými schématy. Hodnota vložená do zákaznické loajality se však obvykle vrací.

Chcete vlastní model ?

Chcete vlastní anti-churnový model nebo jinou analýzu? Napište nám na info@datamind.cz a očekávejte výhodnou nabídku spolupráce. Provádíme i segmentace zákazníků a ostatní strategické analýzy.
www.datamind.cz

úterý, 28. června 2011

Statistik a ruleta

Statistici obecně nemají v lásce loterie ani jiné hazardní hry. Proto najdete tak málo analýz herních systémů. Pro dnešek ovšem udělám výjimku, a rozeberu populární systém sázení rulety, který mi ukázal dlouholetý kamarád.


Shledání po letech

Kamaráda Jirku jsem neviděl už pár let a za každé setkání jsem vděčný. Už na střední patřil k nejchytřejším a nyní je dokonce ředitelem divadla. Při našem setkání jsme od osobních témat zabrousili až k zhodnocení peněz. Jirka mi představil systém hraní rulety, kdy prakticky nemůžete prohrát.  Když prohrajte, zdvojnásobíte vždy sázku, takže nakonec musíte vyhrát víc, než jste prohráli. Tedy, teoreticky. Z pohledu statistiky to sice nedává valný smysl, ale při simulaci pár hodů vypadá metoda velice slibně. První test v kasinu ještě téhož večera skončil také uspokojivou výhrou, a tak z hlediska psychologie i praktických testů vypadal systém jako výborný.

Martingale systém

Princip systému hraní rulety Martingale (také Martindale) je založen na zdvojnásobování sázek po každém prohraném kole. Hráči si vyberou sázku na červenou nebo černou barvu. V našem případě jsme si vybrali barvu černou.


Začíná se vsazením nejmenší možné částky, v  případně pražských kasin obvykle 50 Kč na barvu. Po prohře opakujete sázku, ale vsadíte dvojnásobek, tj. 2  × 50 Kč= 100 Kč. Pokud i nyní prohrajete, vsadíte dvojnásobek předchozí sázky tj. 2 × 100 Kč= 200 Kč atd. Pokud v kterémkoliv kole sázku vyhrajete, vyděláte vždy základních 50 Kč, a  začnete znova sázet od základní jednotky 50 Kč.
V tabulce níže uvádím typickou hru v systému. První sázka je 50 Kč a 3x za sebou nám vyjde sázka na černou. Poté prohráváme, a po každém prohraném kole zdvojnásobujeme sázku až k výhře 400 Kč, která nám spraví v sedmém hodu bilanci, a jsme zpátky v plusu.


Psychologie systému

Ačkoli statistici a se obvykle psychologií nezabývají, z pohledu mého druhého oboru - marketingu, jde o klíčový faktor. Systém je naprosto svůdný, protože při nekonečném kapitálu skončí ziskem. Problém je samozřejmě v tom, že nekonečný není ani náš rozpočet, ani náš život.
Psychologicky nás také ukolébá druhý průvodní jev systému: máme o hodně více vyhraných her, než prohraných. Motivace tedy přichází: výhry vypadají jako pravidlo a prohry jako výjimky. Teprve velice pozdě si uvědomíme, že prohry jsou daleko větší než výhry.

Představujeme pana Simulanta

Abych systém řádně otestoval, vytvořil jsem pana Simulanta. Tento pán je velice trpělivý hráč, a hraje vždy ruletu podle systému. Mimo to má solidní příjem a svatou manželku. Po celý život jsou jeho volné večery zasvěceny ruletě.
Pan Simulant si stanoví limit na hru: 15.000 Kč. Hra končí dosažením 200 kol nebo vyčerpáním kapitálu 15.000 Kč. Po vyčerpání kapitálu jde pan Simulant znovu do bankomatu a dohrává druhou hru do 200 kol.
Jak pan Simulant dopadne se systémem Martingale? Nejdelší série ztrátových kol (spinů, otočení), kterou utrží je 16 ztrát za sebou. Velká většina 69% celkových her končí výhrou, 31% her ztrátou. Celkově za život odehraje náš člověk 7.621 her na 1.048.575 roztočení.
Tristní je celkový výsledek. Trpělivý pan Simulant utrží celoživotní ztrátu: -5 825 700, Kč. A to i přesto, že obvykle odchází s výhrou 3 tisíc v kapse.
Vtip je v tom, že ztráty systému jsou nesrovnatelně vyšší než výhry. Malý počet ztrát tak peněžně převáží velký počet výher, a pan Simulant tak má za pár let prázdnou kapsou, bez ohledu na to, kolik měl na začátku, a kolik byl ochoten riskovat.

Dlouhodobé výsledky

Dlouhodobé výsledky na 1 milion roztočení se tak velmi výrazně liší od simulace na pár hodech. Jak uvidíme dál, výhry jsou vždy malé a časté, kdežto prohry jsou méně časté, ale fatální.



Když se podíváme na jednotlivé hry, začne to být zřejmější. Obvyklá výhra kolem 3.000 – 5.000 Kč sice přichází velmi často, ztráty však dosahují prakticky až k celé výši vsazeného kapitálu. Obvykle tak bývají okolo 10.000 Kč, a to jen díky limitu 15.000, který si pan Simulant moudře stanovil. Kdyby nehrál pan Simulant ale Bill Gates, prohry by byly málo časté, ale velice obrovské. Výše kapitálu vám tedy nemůže zajistit výhru.


Podíváme-li se na statistiku života pana Simulanta, většina z jeho 7.621 her končí výhrou okolo 5.000 Kč.  Zajímavé je, že téměř žádná hra nekončí malou prohrou. Když pan Simulant prohrává, tak pořádně. Prakticky neodchází od rulety s menší dírou v kapse, než 8-12.000 Kč. Velikost jeho ztráty je však dána jen tím, kolik nosí v kapse. Větší kapsa by znamenala větší ztrátu.


Statistické vysvětlení pro smrtelníky

Z pohledu statistika je věc více než jasná. Minulé hody nemají vliv na hody následující, a sázet na základě minulých hodů je čirý nesmysl. Vezmeme si příklad: Jaká je pravděpodobnost, že padne červená, a tedy prohrajeme? Červených je 18 čísel z 37, které se na ruletě vyskytují.

18/37 = 49%

Jaká je pravděpodobnost, že padne 2x červená a prohrajeme 2x za sebou

49%*49% = 24%

Jaká je pravděpodobnost, že padne 10x červená a prohrajeme 10x za sebou?

49%*49%*49%*49%*49%*49%*49%*49%*49%*49% = 0,07 %

A teď přijde to nejdůležitější:
Jaká je pravděpodobnost, že když padla 9x červená, padne zase červená?

49%


Jak to? Bavíme se o pouhém jednom hodu a minulost na něj nemá žádný vliv. Pro názornost si to rozepíšeme. Násobíme 9 jistot (minulé hody) s jednou pravděpodobností (budoucí hod). To, co se stalo, je jistota, historie. Nemá žádný vliv na budoucnost. Jistotu značíme jako pravděpodobnost rovnou 100%. Co se stalo, stalo se velmi jistě.
Pravděpodobnost, že když padla 9x červená, padne zase červená je tedy:

100%*100%*100%*100%*100%*100%*100%*100%*100%*49% = 49 %


A teď do toho přijde člověk. Pan Simulant, pan Novák nebo kamarád Jirka. Říká, že po devíti červených musí padnout černá. Nemusí. Je to půl na půl. Mince, na které padl 5x orel není jiná než mince, na které padla 5x panna. Zahodili byste takovou minci, že vám nosí smůlu? Možná. Musí na ní něco padnout při dalším hodu? Nemusí.

Pan Ruleta vysvětluje

Kdyby mohla ruleta mluvit, řekne vám k systému následující:
Člověk sází. Podle nesmyslného pravidla, navyšuje nebo snižuje svoji sázku. Prohrává a vyhrává pořád ve stejném poměru, ale s různě vysokými sázkami. Nevím, proč se rozhodl, zvyšovat nebo snižovat sázky, ale neberu mu to. Vyberu si za rok přesně svých 2,7 % (1 číslo z 37, které není černé ani červené) z protočených peněz. Majitel kasina bude mít radost.

Co s tím?

Pokud nechcete prohrát, nehrajte. Statistika není na vaší straně, a dříve nebo později prostě prohrajete. A to celkem dost. Při dostatečném počtu her jdete na jistotu: prohrajete vždy. Pokud ale chcete při upíjení piva „pustit chlup“ a počítáte se ztrátou, na kterou máte, užívejte si.

Albert Einstein :“Jediný způsob jak okrást ruletu, je ukrást krupiérovy žetony, když se nedívá"

Dodal bych, že existuje ještě jeden, pohodlnější způsob: ruletu provozovat jako majitel kasina.
Spravedlivě byste se také měli omluvit majiteli svého kasina, pokud si myslíte, že jeho ruleta musí být cinknutá nebo že majitel jen pere peníze. Nemá to zapotřebí.

Proč se popisují herní systémy

Tento dovětek je nutné k obšírnému popisu herního systému dodat. Většina popisů herních systémů, které naleznete na internetu je mírně pozitivních. Jejich účelem je nalákat vás na online  ruletu a jsou propojeny tzv. affiliate systémy s provozovateli online kasín. To znamená, že inkasují peníze za "získané duše". My vás tam neposíláme. Živíme se statistikou, data miningem a simulacemi. Navštivte raději náš web www.datamind.cz.

středa, 13. dubna 2011

Co je to data mining ? (Doopravdy, ale fakt)

Ačkoli je data mining v centru mého zájmu již dlouhé roky, neustále hledám jednoduchou a srozumitelnou odpověď pro své známé i příbuzné na jednoduchou otázku – co to data mining vlastně je? Ideální odpověď je ovšem pouze ta, která nezahltí příjemce nesrozumitelnou hantýrkou.
Cílem myšlenkového cvičení je odpovědět tak jednoduše, jak to jen jde. Slovy mého učitele: pokud to nejde říci jednoduše, neříkejte to vůbec. K tomu bych přidal, že pokud bude definice delší než dvě věty, nebude vás poslouchat ani nejlepší přítel.

Data mining je:

  • Vybírání zákazníků, kteří mají potenciál něco koupit
  • Vybírání zákazníků, kteří asi odejdou ke konkurenci
  • Hledání skupin zákazníků se stejnými potřebami
  • Hledání souvislostí, mezi produkty, lidmi, bankovními účty apod. 
  • Hledání pravděpodobných podvodníků

Diskuse

Ačkoli data mining má i vědecké aplikace, tyto aplikace můžeme z definice pro známé klidně vynechat. Státní aparát má sice specifické data miningové potřeby, ale i ty se schovají do naší definice, pokud budeme občana vnímat jako zákazníka státu. Nepochybně se najde někdo, kdo bude mít lepší, trefnější a možná i jednodušší a kratší definici. Sem s ní!