Úvod
Pre banky je vždy zaujímavým a náročným problémom predpovedať, ako pravdepodobné je, že klient zlyhá v pôžičke, keď má iba niekoľko informácií. V modernej dobe tímy vedy o údajoch v bankách vytvárajú prediktívne modely pomocou strojového učenia. Súbory údajov, ktoré používajú, sú s najväčšou pravdepodobnosťou patentované a zvyčajne sa zbierajú interne prostredníctvom ich každodenných činností. Inými slovami, v reálnom svete nie je veľa súborov údajov, ktoré by sme mohli použiť, ak chceme pracovať na takýchto finančných projektoch. Našťastie existuje výnimka: ** Berka Dataset **.
O množine údajov
The Dátový súbor Berka , alebo PKDD’99 Financial Dataset, je zbierka skutočných anonymizovaných finančných informácií z českej banky, ktorá sa používa na PKDD’99 Discovery Challenge. K množine údajov je možné pristupovať z môjho Stránka GitHub .
V množine údajov obsahuje 8 nespracovaných súborov 8 tabuliek:
- účet (4500 objektov v súbore ACCOUNT.ASC) - každý záznam popisuje statické vlastnosti účtu.
- zákazník (5369 objektov v súbore CLIENT.ASC) - každý záznam popisuje charakteristiku klienta.
- dispozícia (5369 objektov v súbore DISP.ASC) - každý záznam spája klienta s účtom, t. J. Tento vzťah popisuje práva klientov prevádzkovať účty.
- trvalý poriadok (6471 objektov v súbore ORDER.ASC) - každý záznam popisuje charakteristiku platobného príkazu.
- transakciu (1056320 objektov v súbore TRANS.ASC) - každý záznam popisuje jednu transakciu na účte.
- pôžička (682 objektov v súbore LOAN.ASC) - každý záznam popisuje pôžičku poskytnutú na daný účet.
- ** kreditná karta ** (892 objektov v súbore CARD.ASC) - každý záznam popisuje kreditnú kartu vydanú k účtu.
- demografické údaje (77 objektov v súbore DISTRICT.ASC) - každý záznam popisuje demografické charakteristiky okresu.
- Každý účet má statické charakteristiky (napr. Dátum vytvorenia, adresu pobočky) uvedené vo vzťahu k účtu účtu a dynamické charakteristiky (napr. Platby na ťarchu alebo pripísané na ťarchu, zostatky) uvedené vo vzťahu trvalý príkaz a transakcia.
- Relačný klient popisuje vlastnosti osôb, ktoré môžu s účtami manipulovať.
- Jeden klient môže mať viac účtov, viac klientov môže manipulovať s jediným účtom; klienti a účty sú spolu prepojené vo vzťahu k dispozícii.
- Vzťahová pôžička a kreditná karta popisujú niektoré služby, ktoré banka ponúka svojim klientom.
- K účtu je možné vydať viac ako jednu kreditnú kartu.
- Na účet je možné poskytnúť maximálne jednu pôžičku.
- Vzťahové demografické údaje poskytujú niektoré verejne dostupné informácie o okresoch (napr. Miera nezamestnanosti); Z toho sa dajú odvodiť ďalšie informácie o klientoch.
#data-science #python #banking #machine-learning #mysql
smerom kdatascience.com
Predvolená predpoveď pôžičky s Berka Dataset
Komplexný projekt ML s údajmi zo skutočnej banky. Pre banky je vždy zaujímavým a náročným problémom predpovedať, ako pravdepodobné je, že klient zlyhá v pôžičke, keď má iba niekoľko informácií. V modernej dobe tímy vedy o údajoch v bankách vytvárajú prediktívne modely pomocou strojového učenia.