Movatterモバイル変換


[0]ホーム

URL:


TR2022021319A2 - A METHOD THAT ENABLES THE IDENTIFICATION OF PERSONAL DATA THROUGH DOCUMENTS - Google Patents

A METHOD THAT ENABLES THE IDENTIFICATION OF PERSONAL DATA THROUGH DOCUMENTS

Info

Publication number
TR2022021319A2
TR2022021319A2TR2022/021319TR2022021319A2TR 2022021319 A2TR2022021319 A2TR 2022021319A2TR 2022/021319TR2022/021319TR 2022/021319TR 2022021319 A2TR2022021319 A2TR 2022021319A2
Authority
TR
Turkey
Prior art keywords
data
document
information
documents
image
Prior art date
Application number
TR2022/021319
Other languages
Turkish (tr)
Inventor
Husey N Apik Hasan
Aybar Vedat
Original Assignee
Mobi̇ldev İleti̇şi̇m Hi̇zmetleri̇ Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇
Filing date
Publication date
Application filed by Mobi̇ldev İleti̇şi̇m Hi̇zmetleri̇ Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇filedCriticalMobi̇ldev İleti̇şi̇m Hi̇zmetleri̇ Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇
Publication of TR2022021319A2publicationCriticalpatent/TR2022021319A2/en
Priority to PCT/TR2023/050118priorityCriticalpatent/WO2024144502A1/en

Links

Abstract

Translated fromTurkish

Buluş, eski/yeni kimlik belgesi, eski/yeni sürücü belgesi, adli sicil belgesi, öğrenci belgesi, nüfus kayıt belgesi, araç ruhsatı, araç plakası, mezun belgesi, yerleşim yeri ve adres bilgileri belgesi, askerlik durum belgesi gibi belgeler üzerinde telefon numarası, IMEI numarası ve benzeri kişisel bilgiler ile ses verileri, resimler ve fotoğrafların analizinin yapılarak tespit edilmesini sağlamak üzere geliştirilen ve bir işlemci, bir veri depolama birimi ve bir veritabanı içeren bir bilgisayar destekli bir sistemin çalışması için bir yöntem ile ilgilidir.The invention relates to a method for the operation of a computer-aided system that is developed to enable the analysis and detection of telephone number, IMEI number and similar personal information and voice data, images and photographs on documents such as old/new identity document, old/new driver's license, criminal record document, student certificate, population registration document, vehicle license, vehicle plate, graduation certificate, residence and address information document, military service status document and includes a processor, a data storage unit and a database.

Description

Translated fromTurkish

TARIFNAME DOKÜMANLAR ÜZERINDEN KISISEL VERILERIN TESPITININ YAPILMASINI SAGLAYAN BIR YÖNTEM Teknik Alan Bulus, kisisel bilgilerin tespit edilmesini saglamak üzere gelistirilen ve bilgisayar destekli bir sistemin çalismasi için bir yöntem ile ilgilidir. Teknigin Bilinen Durumu Kurumlar faaliyetlerini sürdürürken birçok veriye ulasmaktadir. Bunlarin bazilari kisisel veridir ve söz konusu kisisel veriler hem AB'nin GDPR: Genel Veri Koruma Yönetmeligi, hem de Türkiyeade KVKK: Kisisel Verilerin Korunmasi Kanunu kapsaminda korunmaktadir. Günümüzde bu verilerin tespit edilmesi ve sadece veri sahibinin iznine uygun olarak islenmesi (saklanmasi, görüntülenmesi, paylasilmasi) kanuni bir zorunluluk haline gelmistir. Ilgili kanun ve yönetmelikler veriyi elde tutan sorumlulara asagida siralanan yükümlülükleri getirmektedir: - Ilgili kisiden gelen taleplerin karsilanmasi (bilgi hakki, silme/degistirme talebi ve GDPR,da bulunan unutulma hakki) - Verilerin islenme amaçlari sonlandiginda gerekli aksiyonlarin alinmasi, - Sikayet ya da istegi halinde 30 gün içerisinde ilgili kisiye cevap verilmesi. Söz konusu yükümlülüklerin yerine getirilmemesi durumunda veri sorumlusuna yönelik olarak birtakim cezai yaptirimlar da uygulanabilmektedir. Kisisel veri; sahibi oldugu kisiyi dogrudan tanimlayan ve kisi hakkinda özel/genel bilgileri içeren veridir. Kisisel verilerin bir kismi; örnegin TC. Kimlik No, Ehliyet No, Pasaport Numarasi, IBAN numarasi, Telefon Numarasi, E-posta adresi, Sürücü Belgesi, IP Adresi vb. bilgiler kisiyi dogrudan adreslerken; ögrenci numarasi, banka hesap numarasi gibi bilgiler tamamlayici diger bilgilerle de (Okul adi, Banka bilgileri) kisiyi adreslemektedir. Özel nitelikli bilgi içeren kisisel veriler kapsaminda ise dini inanç egilimi, adli hüküm bilgisi, maruz kalinan hastalik bilgisi gibi bilgiler bulunmaktadir. Yazili belgelerde bulunan kisisel bilgilerin yani sira multimedya dokümanlarda kisisel verilerin tespiti ile video ve resim dosyalarinda yüz tanima, ses analizi, fiziksel imza ve parmak izi tespiti büyük önem arz etmektedir. Bilgisayarlar, sunucular, mobil cihazlar, depolama aygitlari, flash bellek, disk, USB bellek gibi ortamlarda bulunan dokümanlar içerisinde kisisel veriler tespit edilmektedir. Bu ortamlar yapisal ve yapisal olmayan alanlar olarak ikiye ayrilmistir. Yapisal alanlar; SAP, Oracle, Microsoft DB Vb. Veri tabanlaridir. Yapisal olmayan alanlar ise Archieve Platform, ECM, Forensic Image/Tapes, File Servers, E-mail Services, Desktops, Share Points & Enterprise Collaboration, Cloud ve Media ve benzerleridir. Kisisel veriler sayisal ortamlarda yapisal veriler ve yapisal olmayan veriler olarak iki ayri veri türü olarak yer alabilmektedir. Yapisal veriler kurum içinde tutulan veri tabani üzerinde biçimsel tanimlar altinda tutulan verilerdir. Örnegin sirketlerin çalisan ya da müsteri veri tabanlarinda tuttugu veriler bu tür verilerdir. Yapisal olmayan veriler ise çok farkli ortamlarda kullanilabilen (E-mail gönderimi, kisa mesaj servislerinde yapilan yazismalar vb.) verilerdir. Günümüzde yapisal ya da yapisal olmayan verilerin türleri (metin, resim, video, ses kaydi vb.) farkli ortamlarda olabilmektedir. Dolayisiyla bu tür verilerin tespiti için ilk asamada metin tabanli olarak baslatilan ve sonrasinda çoklu-ortam dosyalari üzerinde devam ederek tespit islemlerinin tamamlandigi yöntemlerin gelistirilmesine ihtiyaç vardir. Teknigin bilinen durumunda GDPR ile uyumlu yapiya sahip olup hem yapisal hem de yapisal olmayan yapilar üzerinde veri takibi yapabilen sistemler ve yöntemler bulunmaktadir. Bu tür sistemlerde yapisal yapilar üzerinde seçilen veri tipinin süreçler içerisinde ne sekilde yer aldiginin haritalanmasi yapilmaktadir. Ayrica yönetimi daha zor ve detayli takip isteyen yapisal olmayan yapilarda ise yapinin tipi ve kaynaklar seçilerek üzerinde alarm kurulacak kriterlere dair filtreleme gerçeklestirilmektedir. Örnegin; E-posta servislerinde 5 yil öncesi gelen E-posta ekinde telefon numarasi bilgisinin bulundugunun bildiriminin yapilmasi gibi filtrelemeler yapilmaktadir. Sonrasinda alarm olusturulmus kriterler için alinacak aksiyonlar sisteme tanimlanmaktadir. Örnegin; E-posta servislerinde yil öncesi gelen E-posta ekinde telefon numarasi bilgisinin maskelenmesi gibi tanimlamalar yapilmaktadir. Söz konusu uygulamalarda örneklem dokümanlar üzerinde kullanicilarin gerçeklestirdigi etiketleme kararlari ögrenilmekte ve istatistiksel ve selIleaming yöntemleri ile her belgenin veri seti ile olan alakasi tespit edilmeye çalisilmaktadir. Bir diger uygulamada ise yönetilecek veri tipleri sisteme kullanici tarafindan tanimlanmakta ve kurallar olusturularak kullaniciya firma politikalarina istinaden gerçeklestirmesi gereken islemlerin uyarisi verilmektedir. GDPR kapsamina giren belirli verileri tespit edebilen ancak yapisal veriler (iliskisel veri tabanlari) üzerinde çalisan ürünler bulunmaktadir. Kisisel veri kapsamina girebilecek yapisal ve yapisal olmayan verileri tespit edebilecek ve Türkçe resmi belgeleri içeren bir ürün bulunmamaktadir. Belirli kapsamda özellikleri içeren, Ingilizce ve diger diller üzerinde ilgili çalismalar yapilan ürünler mevcuttur. Mevcutta GDPR kapsamina giren verilerin bir kismini tespit edebilen uygulamalar bulunmaktadir. Ancak bu uygulamalarin içerisinde tek bir ürün olarak tüm verilerin tespiti için çözüm sunan bir ürüne rastlanmamistir. Bunun yaninda, tespit araçlari çogunlukla metinler üzerinde çalismakta olup ses, görüntü ve video içerisindeki kisisel veriler için de tek bir ürün üzerinden çözüm önerileri bilinen tekniklerde yer almamaktadir. Belirtilen uygulamalarda sadece yapisal yapilarda ve tanimlanan kurallar araciligi ile kullanici yetkisine bagli veri yönetimi gerçeklestirilmektedir. Herhangi bir makine ögrenmesi yöntemi kullanilmamaktadir. Dolayisiyla çoklu ortam verileri üzerinde makine ögrenmesi yöntemlerini kullanarak kisisel veri tespiti yapabilen bir yöntemin gelistirilmesine ihtiyaç bulunmaktadir. Bulusun Kisa Açiklamasi Bulusun bir amaci, özel nitelikli kisisel veriler dâhil olmak üzere toplam 77 adet kisisel veri türü tespiti ve kisi tabanli kisisel veri gruplamasi islevlerine yönelik makine ögrenmesi ve kural setlerinin hibrit kullanimina dayanan bir yöntem saglamaktir. Bulusun diger bir amaci, metin içerikli olmayan multimedya kaynaklarda da kisisel veriler siklikla yer aldigi için bu tip dosyalarin da analiz edilmesini saglayan bir yöntem gelistirmektir. Bu amaçla, öncelikli olarak resimlerde, sabit biçimli olarak belirlenen (kimlik karti, adli sicil kaydi, ehliyet gibi) dokümanlarin bölgesel olarak etiketlenerek modellenmis makine ögrenmesi yaklasimlari ile tespit edilmesinin ardindan pikseller metne dönüstürülerek, her bir sabit biçimli doküman tipine özgün veri arama teknikleri ile kisisel veri çikarimi ve gruplandirilmasi yapilmistir. Video kayitlarinda ise ayni islem sadece sahne geçislerinin oldugu bölümlerde yapilmis, yine Video kayitlarinda veya tek basina bulunan ses sinyallerinin gürültüden arindirilarak sinyal isleme yöntemleriyle yüksek dogrulukta metinsel içerige dönüsümü saglanmistir. Ayrica, yüz tanima ve diger kisisel bilgiler ile iliskilendirme islemi için açik küme ögrenme modeli kullanilarak benzerlik ölçümleri yapilmistir. Metin içerikli olmayan ancak parmak izi ve fiziksel imza gibi biyometrik veri içeren resimlerin tespiti için siniIlandirma islemi yapan makine ögrenmesi modelleri ile kural setleri kullanimi bulus kapsaminda saglanmistir. Sekillerin Açiklamasi Sekil 1. Veri setindeki örnek bir ardisik "0" sayisi dagilimi Sekil 2. Çoklu düzene sahip örnek bir belgenin temsili gösterimi Sekil 3. Sekil Zadeki düzene sahip belgenin ayristirilmis düzeni Sekil 4. Sesi metne dönüstürme degerlendirme ölçütleri Sekil 5. Sesi metne dönüstürme parametreleri Sekil 6. Parmak izi tespiti için veri setinin egitim süresi boyunca hesaplanan kayip degeri, kesinlik ve duyarlilik sonuçlari Sekil 7. Bulus konusu yöntemin ana akis diyagrami Sekil 8. Bulus konusu yönteme göre çalisan sistemin çalisma yapisini gösteren akis diyagrami Sekil 9. Bulus konusu yönteme göre veri ayristirma isleminin akis diyagrami Bulusun Detayli Açiklamasi Bulus, eski/yeni kimlik belgesi, eski/yeni sürücü belgesi, adli sicil belgesi, ögrenci belgesi, nüfus kayit belgesi, araç ruhsati, araç plakasi, mezun belgesi, yerlesim yeri ve adres bilgileri belgesi, askerlik durum belgesi, telefon numarasi, IMEI numarasi ve benzeri kisisel bilgilerin ses verileri, resimler ve fotograIlar gibi dokümanlarin analizinin yapilarak tespit edilmesini saglamak üzere gelistirilen ve bir islemci, bir veri depolama birimi ve bir veritabani içeren bir bilgisayar destekli bir sistemin çalismasi için bir yöntem olup, asagidaki adimlari içermektedir: - Ilk adimda, dijital belge ve ortamlarda yer alan sabit biçimli dosyalarin tipinin tespit edilmesi - Ikinci adimda, Video dosyalari için resim ve ses verilerinin birbirinden ayristirilmasi - Üçüncü adimda, resim verilerinde yer alan serbest metin ve görüntü verilerinin birbirinden ayristirilmasi - Dördüncü adimda, serbest metin belgelerinin içerisinde varsa gömülmüs veya yerlestirilmis video, resim ve ses verilerinin birbirinden ayristirilmasi - Besinci adimda, ayristirilmis görüntü, ses ve/veya serbest metin verilerinin ayri veriler olarak bir veritabani veya dosya sistemine kaydedilmesi - Altinci adimda, görüntü verilerinde belge düzeni çözümlemesi yapmak üzere görüntünün ikili görüntü formatina dönüstürülerek yatay ve dikey tarama yapilip görüntü içerisinde yüz, imza, kisisel bilgiler ve parmak izi bilgilerinin aranip tespit edilmesi ve tespit edilen bilgilerin veritabani veya dosya sistemine kaydedilmesi ve önceden tanimlanmis veri setleri üzerinden kisiler ile iliskilendirilmesi - Yedinci adimda, otomatik konusma tanima algoritmalari ile ses verilerinin serbest metin verilerine çevrilmesi - Sekizinci adimda, elde edilen tüm serbest metin verileri içerisinde konu siniflandirmasi yaparak kimlik numarasi, telefon, e-posta ve benzeri tüm kisisel bilgilerin kural tabanli modelleme ve/veya makine ögrenmesi algoritmalarindan en az biri ile aranip tespit edilmesi ve tespit edilen bilgilerin veri setleri üzerinden kisiler ile iliskilendirilmesi - Dokuzuncu adimda, tüm iliskilendirmelerin bilgi ve analitik raporlar haline getirilmesi ve kisisel bilgilerin tespiti için verilerin egitim modeli olarak kullanilarak egitilmesi, sinanmasi ve test edilmesi ve önceki adimlarin sürekli tekrar edilmesi Yöntem adimlari yukarida belirtilen sira ile gerçeklestirilmek zorunda degildir. Bulusun diger uygulamalarinda veri tiplerinin analizinin degisik siralarda yapilmasi da mümkündür. Yöntem, sistemin bagli oldugu dijital ortamlardaki (bilgisayar, telefon, tablet, sunucu ve benzeri) kisisel bilgilerin tespitini, takibini ve yönetilmesini saglamaktadir. Bunun için hangi cihazin hangi dosyasinda ne tür bir kisisel bilgi oldugu tespit edilip kaydedilmekte ve bunun için bilgi raporlari ve analitik raporlar sunulmaktadir. Sekizinci adimda bahsedilen "elde edilen tüm serbest metin verileri içerisinde kimlik numarasi, telefon, e-posta ve benzeri tüm kisisel bilgilerin kural tabanli modelleme algoritmalarindan en az biri ile aranip tespit edilmesi ve tespit edilen bilgilerin kisiler ile iliskilendirilmesi" isleminde kural tabanli modelleme asagida örneklerle detaylandirilan düzenli ifadeler ve kurallara uyan veriler üzerinden yapilmaktadir. Sabit biçimli dokümanlar için kural tabanli modelleme olarak gelistirilen algoritma ile sik karsilasilacagi düsünülen eski/yeni kimlik belgesi, eski/yeni sürücü belgesi, adli sicil belgesi, ögrenci belgesi, nüfus kayit belgesi, araç ruhsati, mezun belgesi, yerlesim yeri ve adres bilgileri belgesi ve askerlik durum belgesi analiz edilerek tespit edilmektedir. Ayrica serbest metin içeriklerinde gerçeklestirilecek veri çikariminda düzenli ifadeler kullanilmaktadir. Bu kapsamda ilgili ifadeyi somutlastirmasi açisindan bazi düzenli ifade örnekleri asagidaki gibidir: 1. Matematiksel Dogrulama: TC. Kimlik numarasi, Vergi Numarasi, IMEI numarasi, IBAN Numarasi, Banka/Kredi kart numarasi, IP4/ 6 Cep telefonu (mobil hat) düzenli ifadesi: EV telefonu (sabit hat) düzenli ifadesi E-posta düzenli ifadesi Pasaport numarasi düzenli ifadesi: Vergi numarasi düzenli ifadesi: Araç plaka numarasi düzenli ifadesi: Banka kredi karti düzenli ifadesi: 2. Anahtar kelime grubu ile tespit: Ilgili degerin yakininda plaka, ögrenci numarasi, kan grubu gibi ifadelerin bulunmasidir. Örnegin; Istanbul E-5 otoyolu 34 ABC 458 plakali araç 3. Pencere Sözlük: Ilaç ve hastalik ismi için ilgili degerin yakinlarinda bulunan anahtar kelime (tedavi, ilaç, tani Vb.) olmasi sisteme önceden tanimlanmis sözlükler sorgulanarak verinin tespit edilmesidir. Örnegin; bir hastaligin tedaVisi için refresh lieuigel lubricant ilaci ile ilgili sözcüklerin beliitilmesidir. 4. Varlik Ismi Tanimlama (Name Entity Recognition): Asagida siralanan varlik isimlerinin saptanmasi saglanmistir: VAT (Varlik Ismi Tanima) göreVini dizi isaretleme sorunu olarak gören çalismalar bu bulgular üzerine gerçeklestirilmistir. Bu çalismalar genelde VAT göreVini çözmek için LSTM (Long short-term memory) veya MLP (multi layer perceptron) kullanarak cümlenin yapisal ve anlamsal özelliklerini yakalamaya çalismaktadir. Gerçeklestirilen indeksleme islemlerinde VAT kullanilmis olup, Bi- LSTM (Bidirectional Long Short Term Memory) (Çift Yönlü Uzun Kisa Süreli Bellek) Aglari metotlari kullanilmistir. Kisisel Bilgi Içeren Doküman Tanima - Nesne Tanima Bu islem için mevcut etiketlenmis bir veri seti bulunmadigindan, ön çalisma olarak 2500 adet resimde bölgesel olarak kisisel doküman koordinatlarinin etiketlenmesi islemi tamamlanmistir. Yapilacak ön islemler ve tasarlanacak makine ögrenmesi modelleri ise asagida açiklanmistir. Yönlendirilmis gradyanlarin histogrami (HOG) özniteliklerinin ve Destek Vektör Makinesi (SVM) ile siniflandirilmasi gibi geleneksel yöntemler yerine, bulusta bölge ve regresyon tabanli yaklasimlardan faydalanilmaktadir. Bu kapsamda, literatürde R-CNN (Girshick Vd. yöntemlerinin yani sira SSD (Liu Vd. inceleme kapsamina alinmistir. Bu modeller özgün veri setleri ile egitilerek hiperparametreleri yeniden optimize edilmistir. Çalismalar; kimlik fotokopisi, ikametgâh belgesi, pasaport fotokopisi, kurumlara özgü belirlenmis ve tasarlanmis sablonlar (Tahlil sonuçlari, Üniversite sinaV giris belgesi, Elektrik Faturasi Vb.) gibi kisisel veriler bulunduran dokümanlari içeren belgeler üzerine yapilmistir. Belge düzeni çözümlemesi yöntemi Belge düzeni çözümlemesi (BDÇ), bilissel bilgi islem ve belge görüntülerinden bilgi çikaran süreçlerde çok önemli bir adimdir. BDÇ belge anlama sistemlerinin ön isleme adimidir. BDÇ belge alma, içerik siniflandirma, metin tanima ve benzeri gibi birkaç önemli uygulamaya sahiptir. BDÇ,nin amaci, belge homojen bloklarini tanimlayarak ve iliskilerini belirleyerek sonraki analiz/tanima asamalarini kolaylastirmaktir. Makine ögrenmesi, dogal dil isleme, görüntü isleme, optik karakter tanima Vb. alanlarda uygulanilan yöntemler kullanilarak, standart bir yapiya sahip bir form veya belgenin içerisindeki kisisel bilgiler belirlenebilmektedir. Standart bir yapiya sahip olmayan belgenin düzeninin çözümlenmesi ve belgenin içerisindeki farkli belge veya form yapilarinin ayri ayri islenmesi üzerine çalismalar yapilmistir. Literatür arastirmalarinda belge düzeni çözümleme için kullanilan farkli yöntemler ve yöntemlerin kendilerine özgü parametreleri incelenmistir. Altinci adimda bahsedilen belge düzeni çözümlemesi için yatay tarama, dikey tarama ve genisleme tabanli yöntemlerde el ile tanimlanan yatay tarama ve dikey tarama esik degerlerinin otomatik olarak belirlenmesini saglayacak bir yaklasim gelistirilmistir. Gelistirilen yaklasimda, öncelikle görüntüler ikili görüntü formatina dönüstürülmektedir. Beyaz piksellerin 0'larla ve siyah piksellerin l'lerle temsil edildigi ikili görüntü dizileri kullanilarak yatay ve dikey pikseller için iki ayri histogram olusturulmaktadir. Histogram hesaplamasinda, görüntünün yatay ve dikey piksellerinde kaç adet ardisik 0 rakaminin yer l seklindeki bir dizilimde 2 ardisik "0" 4 defa tekrarlanmistir. Sekil l,de, veri setindeki örnek bir ardisik "0" sayisi dagilimi gösterilmektedir. Sekildeki sifir noktasindaki yükselis sistemde tanimlanan degisken dizisinin baslangiç degerlerinin 0 olmasindan kaynaklanmaktadir. Bu yüzden göz ardi edilmelidir. Sekilde görüldügü üzere, ardisik "0" sayisi bazi degerlerde zirve yapmakta ama genel olarak azalan bir egilim izlemektedir. Yatay tarama ve dikey tarama esik degerlerinin hesaplanmasinda satirlar ve sütunlar için olusturulan histogramlar kullanilmakta ve bir ön islem olarak histogramlar üzerinde aykiri deger analizi yapilmaktadir. Histogramlarin ortalama ve standart sapma degerleri hesaplanmakta ve bu degerler yardimiyla asagida verilen Denklem (1) ve Denklem (2) kullanilarak aykiri deger tespitinde kullanilan üst sinir degerleri hesaplanmaktadir. Histogramlarda, otomatik olarak hesaplanan üst siniri asan degerler sifirlanmakta ve sifir degerleri göz ardi edilerek ortalama ve standart sapma degerleri yeniden hesaplanmaktadir. Aykiri degerler göz ardi edilerek tekrar hesaplanan ortalama ve standart sapma degerlerinin yardimiyla Denklem (3) ve Denklem (4) kullanilarak yatay tarama ve dikey tarama esik degerleri hesaplanmaktadir. Burada; ly, ld, ty, td, yy, ud, y / y, ;1 / day, ad, (7 / y, (7 / d, 06, ß, 9 sembolleri sirasiyla yatay üst sinir, dikey üst sinir, yatay esik degeri, dikey esik degeri, yatay ortalama, dikey ortalama, aykiri degerler göz ardi edilerek hesaplanan yatay ortalama, aykiri degerler göz ardi edilerek hesaplanan dikey ortalama, yatay standart sapma, dikey standart sapma, aykiri degerler göz ardi edilerek hesaplanan yatay standart sapma, aykiri degerler göz ardi edilerek hesaplanan dikey standart sapma, yatay agirliklandirma katsayisi, dikey agirliklandirma katsayisi, üst limit agirliklandirma katsayisini ifade etmektedir. Söz konusu denklemler asagidaki gibidir: tyzuly+aa tdZIÃ/d+ß*O-/d (4) Belgeler içerisindeki alt belgelerin parçalanmadan tespit edilebilmesi önemli kriterler arasinda yer almistir. Yapilan çalismalarda genellikle farkli amaçlar dogrultusunda farkli tablo, resim, metin yapilari içeren veri setleri üzerinde deneyler yapilmis ve veri setleri kismen paylasilmistir. Kisisel verilerin korunmasi hassasiyeti nedeniyle, kisisel veriler içeren dokümanlari bulunduran belgeleri paylasan genis kapsamli bir veri setine ulasilamadigi için elde edilen birtakim belgeler ve sentetik veriler üzerinde çalisilmistir. Bulus kapsaminda, çoklu belgeleri içeren görseller özelinde 7 farkli yapiya ve 3 farkli metin okuma yönüne sahip veri setindeki en karmasik belgeye ait ayristirma çalismasi yapilmistir. Söz konusu belge Sekil 2,de temsili olarak gösterilmis olup, Sekil 3 ,te ise ayristirilmis düzen temsili olarak verilmistir. Imza sirküleri, yeni kimlik ön ve arka yüzleri ile bilgi metni 3 herhangi bir bilgi kaybi olmadan ayristirilmistir. Yeni kimlik arka yüzü iki parça olarak ayristirilmistir. Kisisel bilgiyi içeren metin kismi büyük parça içerisinde ayristirilmistir. Yeni kimlik ön yüzü de iki parça olarak ayristirilmistir. Burada her ne kadar bilginin çogunlugu büyük parça içerisinde olsa da bilgi bütünlügü kismi olarak bozuldugu gözlenmistir. Sekil 3,te Bilgi metni l, 2 ve 4 tek parça halinde tespit edilmistir. Ancak bu metinlerin okunma yönleri farkli oldugu için bilgi bütünlügü bozuldugunun sonucuna ulasilmistir. Farkli parametre degerleriyle üretilen sonuçlar asagida yer alan tabloda gösterilmistir. Bu kapsamda (x :2, ß=2, 9 :3 ve genisleme sayisi 5 alindiginda belgeler yaklasik %94 duyarlilikla ayristirilmistir. a ß 6 #genisleme Duyarlilik 1 2 3 3 0.67 1 1 3 2 0.71 1 1 3 5 0.81 1 1 3 7 0.84 1 1 5 3 0.73 2 2 3 3 0.80 2 2 3 5 0.94 3 3 3 3 0.74 3 3 3 5 0.83 3 3 5 3 0.80 3 3 5 5 0.73 Tablo 1: Farkli parametre degerleriyle üretilen sonuçlar Tabloda yer alan analizler kisisel veriler içeren birden fazla alt belgeyi barindiran ve karmasik düzene sahip 15 adet belge üzerinde yapilmistir. Duyarlilik hesaplamasi için bir belgenin içerisindeki alt belgelerin nasil ayristirilmasi gerektigi konusunda uzman kisilerin belirledigi çiktilar ile altinci adimin ürettigi sonuçlar degerlendirilmistir. Burada dogrudan belge düzeninden ziyade bilgi bütünlügünün korunarak belgenin ayristirilmasi üzerine odaklanilmistir. Bir kimlik veya formati tanimlanmis bir belgenin hedeflenen bilgileri birden fazla parçaya ayirilmissa burada bilgi bütünlügünün bozuldugu saptanmistir. Benzer bir sekilde bir metin okuma yönünün dikine parçalanmissa bilgi bütünlügü bozulmustur. Ancak bir metnin bazi bölümleri okuma yönünde parçalanmissa esas bilgi bütünlügünün bozulmadigi ifade edilebilmistir. Bu degerlendirme sonuçlari önerilen yaklasimin uygulanabilirligini göstermistir. Tüm çalismalarin sonucunda ortak parametre ayarlamasi kapsaminda önerilen yaklasim ile gerekli parametre sayisi azaltilmis ve parametrelerin ayarlanma araligi düsürülmüstür. Önerilen yaklasim deneysel sonuçlarda %94 duyarlilik basarisi gösterilmistir. Altinci adimda bahsedilen yüz bilgisinin aranip tespit edilmesi için, YOLOv5s modelinin WiDER Yüz veri seti ile egitilmis bir ön-egitimli modeli kullanilmistir. WIDER veri seti, her biri bouding box ve diger çesitli etiket formatlarina sahip 390.000'den fazla yüze sahip .000'den fazla görüntüden olusmaktadir. Yapilan çalisma dogrulama veri seti üzerinde Yüz tanimanin yapildigi altinci adimda, öncelikle YOLOv5s ile yüz tespiti yapilmaktadir. Daha sonra tespit edilen yüz, veri tabanindaki yüzler ile karsilastirilarak en çok benzerlik gösteren görüntü adi ile iliskilendirilmekte, yani etiketlenmektedir. Yüz tanima adiminda kosinüs benzerligi ve insightface algoritmasi kullanilmaktadir. Yüz tanima adimi için yapilan model egitimlerinde YOLOV5 en iyi basariyi sunmustur. Yedinci adimda bahsedilen ses verilerinin serbest metin verilerine çevrilmesi isleminde çagri merkezi hizmetlerinden elde edilen ses verileri kullanilmistir. Çagri merkezi hizmetleri, dogrudan firmalar tarafindan veya bu konuda uzmanlasmis is ortaklari araciligi ile hem satis faaliyetleri hem de satis sonrasi destek ve sikâyet süreçlerini yönetmek amaciyla sunulan yaygin bir hizmettir. Kisiler ile çagri merkezi çalisanlari arasinda çesitli konularda görüsmeler gerçeklesmekte ve bu görüsmeler islem onayinin ispati veya hizmet standartlari kapsaminda kayit altina alinmakta, saklanmaktadir. Bahsi geçen görüsmelerin içerikleri firmanin faaliyet alanina bagli olarak inbound (müsteriden gelen) siparis, teknik destek, müsteri hizmetleri, sikâyet hatlari olabilecegi gibi outbound (çagri merkezinden giden) tele pazarlama, kampanya tanitimi, ürün hizmetleri ve borç hatirlatma gibi hizmetleri kapsayabilecek sekilde oldukça genis kapsamda olmakta ve faaliyet alanina göre de konusma içerigi kisisel bilgi içermektedir. Bu kisisel bilgiler, iletisim amaçli paylasilan telefon numarasi, e-posta adresi bilgilerinin yani sira sektör ve hizmet özelinde kargonun ulasimi için adres bilgisi teyit/güncelleme, tatil rezervasyonu dönemi, otel, ulasim bilgileri veya borç bilgilendirme amaçli paylasilan finansal bilgiler gibi hassas içerikleri kapsamaktadir. Bir yakini için doktor randevusu alan bir kisinin kendi bilgilerinin yani sira yakinin bilgilerini de paylastigi durumda 3. bir kisinin bilgileri de yer alabilmektedir. Tüm bunlar ortaya koymaktadir ki, kisisel veriler içermesi olasi ve kullanimi oldukça yaygin olan çagri merkezi konusmalarinin KVKK bakis açisi ile incelenmesi önem arz etmektedir. Ses sinyalinin kime ait oldugunun tespit edilmesi, ses dosyalarinin görüsülen kisi bakimindan tasnif edilmesinin (ayni kisi ile yapilan daha önceki görüsmelerin tespit edilmesi) yani sira kisiden gelebilecek ses kayitlarinin silinmesi düzenlenmesi veya bulunup bulunmadiginin kontrolü gibi durumlar için gerekmektedir. Bu asamada, davranissal bir biyometrik veri olan ses sinyalinin, dogasi geregi barindirdigi ölçülebilir ve ayirt edici bilgilerden (Jain, Ross, ve Prabhakar 2004) faydalanilarak bir Konusmaci Tanima islemi gerekmektedir. Konusmaci Tanima (KT) (Bimbot vd. 2004) verilen bir ses sinyalinin iddia edilen kisiye ait olup olmadiginin tespit edilmesidir. Söz konusu yedinci adimda sesi, yani konusmayi metne dönüstürme yapilirken Otomatik Konusma Tanima-Automatic Speech Recognition (ASR) için wav2vec2 modelinden yararlanilmistir. Bunun için modeller yeniden egitilmistir. Bu kapsamda ses sinyalleri metinlere çevrilmistir. Ön islem ve son islem çalismalarinda, metinler içindeki yazi seklinde olan veya yazi olarak metne dönüstürülen sayilar rakam formatina dönüstürülerek kisisel verilerin tespit edilmesi saglanmistir. Asagida ve Sekil 5,te egitilen modelin parametreleri ve Sekil 4,te degerlendirme ölçütleri sunulmustur. Örnek bir uygulamada, gerçek degeri "gelecekte ne tür adimlarin atilmasi bekleniyor" seklindeki konusma "gelecekten ne tür adimlarina atilmasi bekleniyor" seklinde dönüstürülmüstür. Söz konusu parametre ise asagidaki gibidir. train_batch_size=16, gradient_accumulation_steps=2, evaluation_strategy="steps" ,num_train_epochs=3 5 ,fp16=True,save_steps=50, val_steps=50, logging_steps=50, leaming_rate=3e-4, warmup_steps=50, save_total_limit=3 Altinci adimda bahsedilen imza bilgisinin tespit edilmesi islemi iki alt adimda gerçeklestirilmektedir. Birincisi bir dokümanda imzanin varliginin tespiti olup, digeri ise imzanin sahibinin tespit edilmesidir. Belirli bir dokümanda imza varliginin tespiti için hem kural tabanli yaklasimlar (bagli bilesen analizi, optimum piksel tespiti) hem de kisi tespiti ve parmak izi tespiti için kullanilan makine ögrenmesi modelleri kullanilmaktadir. Imzanin sahibinin belirlenmesi konusunda ise alinan ömeklem ile sistemde tespit edilen imzalarin karsilastirilmasinda kosinüs, oklid benzerlik ölçütlerinin yani sira örüntü eslestirmesi algoritmalari birlikte kullanilmaktadir. Dokümanlarda imza tespiti çalismalarinda ilk asamada, bir belgedeki metin bloklarinin ve imzalarin algilanarak, metin bloklarinin göz ardi edilmesi, gerektiginde silinmesi ve imzalarin daha kolay tespiti üzerine çalismalar yapilmistir. Bu çalismalarda, OpenCV kütüphanesi kullanilarak, bir görsel üzerinde çesitli görüntü isleme algoritmalari (Hough lines, erosion, dilation vb.) uygulanmistir. Alinan sonuçlar incelendiginde, belli bir seviyeye kadar imzalarin ve metin bloklarinin ayri bir sekilde tespit edilebildigi görülmüstür. Ancak bu islem pek çok farkli görüntü isleme fonksiyonunun ayri ayri parametre optimizasyonunu gerektirmektedir ve bu sebeple, bu yöntemin tüm dokümanlar için genel uygulanabilirliginin yetersiz oldugu görülmüstür. Genel kullanima açik ve görüntülerde metin tespiti ve silinmesi üzerine kod kütüphaneleri de denenmistir ancak Hough egrileri, asinma ve genisleme gibi morfoloj ik yöntemlerin ardisil kombinasyonlarinin tekrarli uygulanmasindan olusan kendi görüntü isleme yöntemlerimiz kadar iyi sonuçlar üretemedikleri gözlemlenmistir. Imza tespit islemlerinde elde edilen imza veri setleri üzerinde YOLOV5 modelleri yeniden egitildi. Bununla beraber imzanin dogrulanmasi veya eslestirilmesi çalismalari için de ilk olarak 2-Channel-2-Logit (2C2L) ve SigNet gibi derin ögrenme algoritmalari ile çalismalar yapilmis ve yeni modeller egitilmistir.. Imza tanima bölümünde SigNet mimarisinin CEDAR veri seti ile egitilmis modeli kullanilmistir. Dogrulama veri seti üzerinde kayip degeri (loss) 0.0186 ve dogruluk (accuracy) orani 0.9767 olarak hesaplanmistir. Altinci adimda bahsedilen parmak izi tespit edilirken 14 adet dogrulama verisi, 14 adet test verisi içeren veri seti kullanilmistir. Bu veri seti YOLOV5 mimarisi ile 150 epoch boyunca egitilmistir. Egitim süresi boyunca hesaplanan kayip degeri, kesinlik (Precision) ve duyarlilik (Recall) sonuçlari Sekil 6,da yer alan grafiklerde görülmektedir. Tespit edilen parmak izleri ise bir dogrulama veri seti ile dogrulanarak kisiler ile eslestirilmis olup, yapilan testler sonucunda 0.99 basariyla sonuçlar tespit edilmistir. Sekizinci adimda bahsedilen konu siniflandirma isleminde metinsel içerigin konusu dikkate alinarak, kisisel verilere yüksek hassasiyet düzeyi çikarimi yapilmistir. Bu amaçla Fasttext ve BERT tabanli makine ögrenimi modelleri kullanilarak metin içeriklerine, konularina göre siniflandirma yapilmistir. Farkli konulardaki haber dokümanlarindan olusan bir veri seti ile din, saglik ve adalet konularindan yeni belgeler eklenerek konular genisletilmistir. Daha sonra modeller egitilip ve degerlendirilip, dogruluk ve hesaplama açisindan en uygun olani ve bellek kisitlamalari seçilmistir. Hizli çalismasi ve küçük bir model boyutuna sahip olmasinin yani sira BERT tabanli modelle ayni düzeyde performans göstermesinden dolayi fasttext modeli üretime entegre edilmistir. Genel olarak, dil, haber veya konu algilama gibi dizi siniflandirma göreVleri için makine ögrenimi modeli temsil eden bir karar elde etmek için, bir kerede tüm kelimeler ve cümleler ile model beslenmektedir. Teoride hem transformatörler hem de yinelemeli sinir agi modelleri, dizi siniflandirma ve etiketleme görevlerini birlikte çözmek için mimarileri dizi siniflandirma göreVleri için daha karmasiktir. Bulusa göre, dizi siniflandirma göreVleri için lineer gibi klasik yaklasimlar zenginlestirilmis kelime temsilleriyle beslenen regresyon ve çok katmanli algilayici iyi performans göstermektedir. Hizli metin modeli Modern bir derin ögrenme yaklasimiyla lojistik regresyonu içsel olarak kullanmakta, bu nedenle fasttext modelinin BERT tabanli modelle ayni düzeyde performans gösterebilecegi deneysel olarak gözlemlenebilmektedir. Deneysel çalismalarin sonucu asagidaki tablo-2,de sunulmustur: Kesinlik (%) Duyarlilik (%) F-l Ölçüm (%) Sinif Model (Precision) (Recall) (F-l Measure) Teknoloji Adalet Saglik Siyaset Tablo 2: Fasttext ve BERT tabanli modellerin performansi (ste standart hata anlamina Sekizinci adimda bahsedilen e-posta bilgilerinin tespiti için e-posta mesajlari içerisindeki ilgili tüm bloklar içerisinde yer alan kisisel verilerin tespiti yapilmaktadir. Mail gövdesi içerisinde bulunan yönlendirmeler ile olusturulan tüm alt e-postalar kendi içerisinde özyinelemeli olarak alt Gövde ve Basliklara (KIMDEN, KIME, CC, BCC, KONU) ayrilmaktadir. Baslik Gövde Iliski Tanimlari Varsayim 1: Baslikta bulunan "Kime" kismindaki e-posta adresi ile selamlama ifadesi içeren gelmektedir) mesaj içeriginin 1. cümlesindeki kisisel bilgiler ayni kisiye aittir. Varsayim 2: Baslikta bulunan "Kimden" kismindaki e posta adresi ile ugurlama ifadesi içeren mesaj içeriginin son cümlesindeki kisisel bilgiler ayni kisiye aittir. Bulusun avantajlari ise asagida verilmistir: - KVKK uyumu için çözüm sunan diger tekniklerden farkli olarak ses, görüntü ve video ortamlarinda makine ögrenmesi yöntemleri kullanilarak nesne tanima ve siniflandirma tabanli bir yaklasim ile kisisel veri tespiti ve kisi tabanli gruplama, - Tespit edilen kisisel verileri KVKK,nin yayinladigi veri kategorilerine göre raporlama, - Biyometrik veri bulunduran dosyalarin makine ögrenmesi modelleri kullanilarak tespiti ve kisi tabanli gruplanmasi, - Sadece yapisal degil yapisal olmayan veriler üzerinde analiz, - Tanimlanan veri tipleri için uygulama üzerinden alarmlar olusturularak sistemlere belirlenen tipte veri girislerinin kontrol edilmesini saglamak, burada sistemde bulunan dosyalarin yani sira, sisteme bir dosya yüklendiginde veya veri girildiginde dokuzuncu adimdaki raporlama ve analitik araçlar vasitasiyla bilgilendirmeler/alarmlar saglanmis olmaktadir. - Dokümanlarin konusunun dogal dil isleme ve makine ögrenmesi yöntemleri ile belirlenmesi, - Kisisel verilerin hassasiyetlerinin belirlenmesinde elde edildikleri dokümaninin konusunun kullanilmasi Bulusun Sanayiye Uygulanabilirligi Bulus, kisisel bilgilerin tespit edilmesini saglamak üzere gelistirilen ve bilgisayar destekli bir sistemin çalismasi için bir yöntem ile ilgili olup, sanayiye uygulanabilir niteliktedir. Bulus yukaridaki açiklamalar ile sinirli olmayip, teknikte uzman bir kisi kolaylikla bulusun farkli uygulamalarini ortaya koyabilir. Bunlar bulusun istemler ile talep edilen koruma kapsaminda degerlendirilmelidir. TR TR A METHOD FOR IDENTIFYING PERSONAL DATA THROUGH DESCRIPTION DOCUMENTS Technical Field The invention relates to a method for operating a computer-aided system developed to identify personal information. State of the Art Institutions access a wide range of data during their operations. Some of this is personal data, and such personal data is protected by both the EU's GDPR (General Data Protection Regulation) and Turkey's KVKK (Personal Data Protection Law). Today, identifying this data and processing it (storing, viewing, sharing) only in accordance with the data subject's consent has become a legal obligation. Relevant laws and regulations impose the following obligations on those responsible for holding data: - Meeting the requests from the data subject (right to information, request for erasure/amendment, and the right to be forgotten under the GDPR) - Taking the necessary actions when the purposes for which the data is processed are no longer available, - Responding to the data subject within 30 days in case of a complaint or request. Failure to fulfill these obligations may also lead to certain penalties imposed on the data controller. Personal data is data that directly identifies the individual it belongs to and contains private/general information about that individual. Some of the personal data, such as Turkish Identity Number, Driver's License Number, Passport Number, IBAN Number, Telephone Number, E-mail Address, Driver's License, IP Address, etc., directly address the individual; Information such as student number and bank account number are also addressed to the individual, along with other complementary information (school name, bank information). Personal data containing sensitive information includes information such as religious affiliation, criminal conviction information, and medical history. In addition to personal information found in written documents, facial recognition, voice analysis, physical signature, and fingerprint identification in video and image files are crucial for identifying personal data. Personal data is identified within documents located on media such as computers, servers, mobile devices, storage devices, flash drives, disks, and USB drives. These media are divided into structured and unstructured domains. Structured domains include databases such as SAP, Oracle, Microsoft DB, and others. Unstructured areas include Archive Platform, ECM, Forensic Image/Tapes, File Servers, Email Services, Desktops, SharePoints & Enterprise Collaboration, Cloud and Media, and similar. Personal data can exist in digital environments as two distinct types of data: structured and unstructured data. Structured data is data stored under formal definitions in an internal database. For example, the data companies maintain in employee or customer databases is of this type. Unstructured data, on the other hand, is data that can be used in a variety of environments (e.g., emails, text messaging, etc.). Today, structured and unstructured data types (text, images, video, audio recordings, etc.) can exist in various environments. Therefore, there is a need to develop methods that initially start with text-based data for the detection of such data and then continue with multimedia files, completing the detection process. Currently, systems and methods that are GDPR-compliant exist and can track data on both structured and unstructured structures. In such systems, the structured structures map how the selected data type is included in the processes. Furthermore, for unstructured structures, which are more difficult to manage and require detailed tracking, the structure type and sources are selected and filtered according to the criteria on which to set an alarm. For example, filtering is performed on email services, such as notifying that an email attachment from 5 years ago contains a phone number. The actions to be taken for the criteria that have generated the alarm are then defined in the system. For example; Email services use features like masking phone numbers in email attachments from the previous year. These applications learn the labeling decisions users made on sample documents, and attempt to determine the relevance of each document to the dataset using statistical and self-leaming methods. In another application, the user defines the data types to be managed in the system, and rules are created to notify the user of actions required based on company policies. There are products that can identify specific data within the scope of the GDPR but work on structured data (relational databases). There is no product that can identify structured and unstructured data that falls within the scope of personal data and includes official Turkish documents. There are products with specific features and related work in English and other languages. Currently, there are applications that can detect some of the data falling within the scope of the GDPR. However, no single product has been found that offers a solution for all data detection. Furthermore, detection tools mostly work on text, and known techniques do not offer solutions for personal data contained in audio, images, and video using a single product. These applications only manage data based on user authorization within structured structures and defined rules. No machine learning methods are used. Therefore, there is a need to develop a method that can detect personal data using machine learning methods on multimedia data. Brief Description of the Invention: One aim of the invention is to provide a method based on the hybrid use of machine learning and rule sets for the identification of a total of 77 types of personal data, including sensitive personal data, and for person-based personal data grouping. Another aim of the invention is to develop a method that allows for the analysis of non-textual multimedia sources, as personal data is frequently present in these types of files. To this end, we first identify fixed-format documents (such as ID cards, criminal records, and driver's licenses) in images using regionally labeled, modeled machine learning approaches. After these pixels are converted to text, personal data is extracted and grouped using data search techniques specific to each fixed-format document type. For video recordings, the same process was performed only on sections containing scene transitions. Signal processing methods were used to purify the audio signals present in the video recordings or in isolation, converting them into highly accurate textual content. Furthermore, similarity measurements were performed using an open-set learning model for facial recognition and association with other personal information. The invention utilizes machine learning models and rule sets to perform classification for images containing biometric data such as fingerprints and physical signatures, but not text. Explanation of Figures Figure 1. An example distribution of consecutive "0" numbers in the data set Figure 2. Representative representation of an example document with multiple layout Figure 3. Parsed layout of the document with the layout in Figure 4. Evaluation criteria for converting speech to text Figure 5. Parameters for converting speech to text Figure 6. Loss value, precision and sensitivity results calculated during the training period of the data set for fingerprint detection Figure 7. Main flow diagram of the method which is the subject of the invention Figure 8. Flow diagram showing the working structure of the system which works according to the method which is the subject of the invention Figure 9. Flow diagram of the data parsing process according to the method which is the subject of the invention Detailed Description of the Invention The invention is an application that can be used to analyze old/new identity documents, old/new driver's licenses, criminal record certificates, student certificates, population registration certificates, etc. It is a method for the operation of a computer-aided system that includes a processor, a data storage unit and a database and is developed to enable the analysis of documents such as certificate, vehicle license, vehicle plate, graduation certificate, residence and address information document, military service status document, telephone number, IMEI number and similar personal information by analyzing the audio data, images and photographs and includes the following steps: - In the first step, determining the type of fixed format files in digital documents and media - In the second step, separating the image and audio data for video files from each other - In the third step, separating the free text and image data in the image data from each other - In the fourth step, separating the video, image and audio data embedded or placed in the free text documents - In the fifth step, separating the parsed image, audio and / or free text data as separate data - In the sixth step, in order to perform document layout analysis in image data, the image is converted to binary image format and horizontal and vertical scanning is performed and face, signature, personal information and fingerprint information are searched and detected in the image and the detected information is saved in the database or file system and associated with individuals through predefined data sets. - In the seventh step, the audio data is converted into free text data with automatic speech recognition algorithms. - In the eighth step, within all the free text data obtained, all personal information such as identification number, telephone number, e-mail and similar are searched and detected with at least one of the rule-based modeling and/or machine learning algorithms by subject classification and associated the detected information with individuals through data sets. - In the ninth step, all associations are converted into information and analytical reports and the data is trained by using it as a training model to detect personal information. Testing and testing, and repeating previous steps continuously. The method steps do not have to be performed in the order specified above. In other embodiments of the invention, it is also possible to analyze data types in different orders. The method enables the identification, tracking, and management of personal information in digital environments (computer, phone, tablet, server, and similar) to which the system is connected. For this purpose, what type of personal information is contained in which file on which device is determined and recorded, and information and analytical reports are presented for this purpose. In the process of "searching and identifying all personal information such as identification number, phone number, e-mail, and similar within all free-text data obtained using at least one of the rule-based modeling algorithms and associating the identified information with individuals," mentioned in the eighth step, rule-based modeling is performed using regular expressions and data that comply with the rules, detailed with examples below. The algorithm, developed as a rule-based modeling for fixed-format documents, analyzes and identifies frequently encountered documents such as old/new identity documents, old/new driver's licenses, criminal records, student certificates, population registration documents, vehicle licenses, graduation certificates, residence and address information documents, and military service status documents. Furthermore, regular expressions are used in data extraction for free text content. In this context, some examples of regular expressions that concretize the relevant expression are as follows: 1. Mathematical Verification: TR. Identification number, Tax number, IMEI number, IBAN number, Bank/Credit card number, IP4/6 Cell phone (mobile line) regular expression: HOME phone (landline) regular expression, Email regular expression, Passport number regular expression: Tax number regular expression: Vehicle license plate number regular expression: Bank credit card regular expression: 2. Detection by keyword group: Finding phrases such as license plate, student number, blood type near the relevant value. For example; vehicle with license plate 34 ABC 458 on the Istanbul E-5 highway. 3. Window Dictionary: Finding keywords (treatment, medication, diagnosis, etc.) near the relevant value for the name of a drug or disease is done by querying predefined dictionaries in the system. For example; specifying words related to the drug "refresh lieuigel lubricant" for the treatment of a disease. 4. Name Entity Recognition: The following entity names were identified: Studies that treat the VAT (Entity Name Recognition) task as a string tagging problem were conducted based on these findings. These studies generally attempt to capture the structural and semantic features of the sentence using LSTM (Long Short-Term Memory) or MLP (Multi-Layer Perceptron) to solve the VAT task. VAT and Bi-LSTM (Bidirectional Long Short-Term Memory) Network methods were employed in the indexing operations. Document Recognition Containing Personal Information - Object Recognition: Since no labeled dataset was available for this process, preliminary work was completed by regionally labeling personal document coordinates in 2,500 images. The preprocessing and machine learning models to be designed are described below. Instead of traditional methods such as histogram of oriented gradients (HOG) features and classification with Support Vector Machine (SVM), the invention utilizes region- and regression-based approaches. In this context, R-CNN (Girshick et al.) methods as well as SSD (Liu et al.) are included in the scope of the review in the literature. These models are trained with original datasets and their hyperparameters are re-optimized. The studies are made on documents containing personal data such as ID card photocopies, residence certificates, passport photocopies, institution-specific templates (analysis results, university exam entrance document, electricity bill, etc.). Document layout analysis method Document layout analysis (DLA) is a very important step in cognitive computing and processes that extract information from document images. DLA is the preprocessing step of document understanding systems. DLA has several important applications such as document retrieval, content classification, text recognition, and so on. The purpose of DLA is to identify homogeneous blocks of documents and determine their relationships, thus facilitating subsequent analysis/recognition stages. To facilitate this process. Using methods applied in fields such as machine learning, natural language processing, image processing, optical character recognition, and so on, personal information within a standardized form or document can be identified. Studies have been conducted on analyzing the layout of non-standard documents and processing different document or form structures within the document separately. Literature research has examined different methods and their specific parameters used for document layout analysis. For the document layout analysis mentioned in the sixth step, an approach has been developed that automatically determines the manually defined horizontal scan and vertical scan threshold values in horizontal scan, vertical scan, and dilation-based methods. In this approach, images are first converted to binary image format. Using binary image arrays where white pixels are represented by 0s and black pixels by 1s, two separate histograms are created for horizontal and vertical pixels. The histogram calculation calculates the number of consecutive 0s in the horizontal and vertical pixels of the image. In an 1-shaped array, two consecutive "0s" are repeated four times. Figure 1 shows an example distribution of consecutive "0"s in the data set. The rise at the zero point in the figure is due to the initial values of the variable array defined in the system being 0. Therefore, it should be ignored. As seen in the figure, the number of consecutive "0s" peaks at some values but generally follows a decreasing trend. In calculating the threshold values for horizontal and vertical scans, histograms created for rows and columns are used and as a preliminary process, outlier analysis is performed on the histograms. The mean and standard deviation values of the histograms are calculated and with the help of these values, the upper limit values used in outlier detection are calculated using Equation (1) and Equation (2) given below. In the histograms, values exceeding the automatically calculated upper limit are reset and the zero values are ignored and the mean and standard deviation values are recalculated. With the help of the mean and standard deviation values which are recalculated after ignoring the outliers, the threshold values for horizontal and vertical scans are calculated using Equation (3) and Equation (4). Here; The symbols ly, ld, ty, td, yy, ud, y / y, ;1 / day, ad, (7 / y, (7 / d, 06, ß, 9) represent horizontal upper limit, vertical upper limit, horizontal threshold value, vertical threshold value, horizontal mean, vertical mean, horizontal mean ignoring outliers, vertical mean ignoring outliers, horizontal standard deviation, vertical standard deviation, horizontal standard deviation ignoring outliers, vertical standard deviation ignoring outliers, horizontal weighting coefficient, vertical weighting coefficient, upper limit weighting coefficient. The equations in question are as follows: tyzuly+aa tdZIÃ/d+ß*O-/d (4) It is important to be able to identify sub-documents within documents without fragmentation. Among the criteria. In the studies conducted, experiments were generally conducted on datasets containing different tables, images, and text structures for different purposes, and the datasets were partially shared. Due to the sensitivity of protecting personal data, since a comprehensive dataset sharing documents containing personal data could not be accessed, studies were conducted on some documents and synthetic data obtained. Within the scope of the invention, a parsing study was conducted on the most complex document in the dataset, which has seven different structures and three different text reading directions, specifically for images containing multiple documents. The document in question is shown representatively in Figure 2, and a parsed layout representation is given in Figure 3. The signature circular, the front and back sides of the new ID, and the information text 3 were parsed without any loss of information. The back side of the new ID is divided into two parts. The text containing personal information was separated into a larger piece. The new ID front cover was also separated into two pieces. Here, although the majority of the information was contained within a larger piece, it was observed that information integrity was partially disrupted. In Figure 3, information texts 1, 2, and 4 were identified as a single piece. However, because the reading directions of these texts were different, it was concluded that information integrity was disrupted. The results produced with different parameter values are shown in the table below. In this context, when (x :2, ß=2, 9 :3, and the number of expansions was taken as 5, the documents were separated with approximately 94% sensitivity. a ß 6 #expansion Sensitivity 1 2 3 3 0.67 1 1 3 2 0.71 1 1 3 5 0.81 1 1 3 7 0.84 1 1 5 3 0.73 2 2 3 3 0.80 2 2 3 5 0.94 3 3 3 3 0.74 3 3 3 5 0.83 3 3 5 3 0.80 3 3 5 5 0.73 Table 1: Results produced with different parameter values The analyses in the table were performed on 15 documents with a complex layout that contained multiple sub-documents containing personal data. For the sensitivity calculation, the results produced by the sixth step were evaluated with the outputs determined by experts on how to parse the sub-documents within a document. Here, the focus was on parsing the document while preserving the integrity of the information rather than directly on the document layout. An identity or If the target information in a document with a defined format is divided into multiple parts, it has been determined that information integrity is impaired. Similarly, if a text is fragmented perpendicular to the reading direction, information integrity is impaired. However, if some parts of a text are fragmented in the reading direction, the main information integrity is not impaired. These evaluation results demonstrate the applicability of the proposed approach. As a result of all studies, the number of required parameters has been reduced with the proposed approach within the scope of common parameter tuning and the parameter tuning range has been reduced. The proposed approach has shown 94% sensitivity in the experimental results. In order to search and detect the face information mentioned in the sixth step, a pre-trained model of the YOLOv5s model trained on the WiDER Face dataset was used. The WIDER dataset contains more than 390,000 faces, each with bouding box and other various label formats. The study consists of more than 0,000 images. In the sixth step, which involves face recognition on the validation dataset, face detection is first performed using YOLOv5s. The detected face is then compared with faces in the database and associated with the image name that most closely resembles it, i.e., labeled. Cosine similarity and the Insightface algorithm are used in the face recognition step. YOLOV5 demonstrated the best performance in model training for face recognition. In the seventh step, voice data obtained from call center services was used to convert the voice data mentioned above into free text data. Call center services are a widespread service provided directly by companies or through specialized business partners to manage both sales activities, after-sales support, and complaint processes. People and call center employees Conversations on various topics take place between the companies, and these conversations are recorded and stored as proof of transaction approval or within the scope of service standards. The content of these conversations is quite broad, depending on the company's field of activity, and can include inbound (from the customer) orders, technical support, customer services, complaint lines, as well as outbound (from the call center) telemarketing, campaign promotion, product services, and debt reminders. Depending on the field of activity, the content of the conversations includes personal information. This personal information includes sensitive content such as phone number and email address information shared for communication purposes, as well as address information confirmation/update for cargo delivery, holiday reservation period, hotel, transportation information, or financial information shared for debt information purposes, depending on the sector and service. In cases where a call center caller shares personal data, information about a relative may also be included. All of these demonstrate that it is important to examine call center conversations, which are likely to contain personal data and are widely used, from a KVKK perspective. Determining the person to whom a voice signal belongs is necessary for classifying voice files according to the person being talked to (identifying previous conversations with the same person), as well as deleting, editing, or checking whether voice recordings that may be from the person are available. At this stage, a Speaker Recognition process is required, utilizing the measurable and distinctive information inherently contained in the voice signal, which is a behavioral biometric data (Jain, Ross, and Prabhakar 2004). Speaker Recognition (KT) (Bimbot et al. 2004) is the process of recognizing the voice signal and its meaning. The purpose of this step is to determine whether the person is the person claimed to be the person. In the seventh step, the voice, that is, speech, is converted to text using the wav2vec2 model for Automatic Speech Recognition (ASR). For this purpose, the models were retrained. In this context, the audio signals were converted to text. In pre- and post-processing studies, the numbers in the text, either in written form or converted from written form to text, were converted into numerical format to identify personal data. The parameters of the trained model are presented below and in Figure 5, and the evaluation criteria are presented in Figure 4. In an example application, the speech whose true value is "what kind of steps are expected to be taken in the future" is converted to "what kind of steps are expected to be taken in the future." The parameter in question is as follows: train_batch_size=16, gradient_accumulation_steps=2, evaluation_strategy="steps" ,num_train_epochs=3 5 ,fp16=True,save_steps=50, val_steps=50, logging_steps=50, leaming_rate=3e-4, warmup_steps=50, save_total_limit=3 The process of detecting the signature information mentioned in the sixth step is carried out in two sub-steps. The first is to detect the presence of a signature in a document, and the other is to detect the owner of the signature. To detect the presence of a signature in a specific document, both rule-based approaches (connected component analysis, optimum pixel detection) and machine learning models used for person detection and fingerprint detection are used. In order to determine the owner of the signature, the obtained sample is compared with the signatures detected in the system. Cosine and Euclidean similarity metrics, as well as pattern matching algorithms, are used together. Initial studies on signature detection in documents focused on detecting text blocks and signatures within a document, ignoring text blocks, deleting them when necessary, and making signature detection easier. In these studies, various image processing algorithms (Hough lines, erosion, dilation, etc.) were applied to an image using the OpenCV library. The results showed that signatures and text blocks could be detected separately up to a certain level. However, this process requires the optimization of the individual parameters of many different image processing functions, and therefore, the general applicability of this method to all documents is insufficient. Generally available code libraries for text detection and deletion in images have also been tested, but It has been observed that they do not produce as good results as our image processing methods, which consist of repeated applications of combinations of morphological methods such as Hough curves, erosion, and dilation. YOLOV5 models were retrained on the signature datasets obtained in the signature detection processes. Furthermore, for signature verification or matching studies, firstly deep learning algorithms such as 2-Channel-2-Logit (2C2L) and SigNet were used, and new models were trained. In the signature recognition section, the model of the SigNet architecture trained on the CEDAR dataset was used. The loss value (loss) on the verification dataset was calculated as 0.0186, and the accuracy rate was 0.9767. While detecting the fingerprint mentioned in the sixth step, 14 verification data and 14 test data were used. The dataset was used. This dataset was trained with the YOLOV5 architecture for 150 epochs. The loss value, precision, and recall results calculated during the training period are shown in the graphs in Figure 6. The detected fingerprints were verified with a validation dataset and matched with individuals, and as a result of the tests, a success rate of 0.99 was achieved. In the topic classification process mentioned in the eighth step, a high level of sensitivity was inferred for personal data by taking the topic of the textual content into account. For this purpose, Fasttext and BERT-based machine learning models were used to classify text content and topics. The topics were expanded by adding new documents on religion, health, and justice to a dataset consisting of news documents on different topics. The models were then trained and The FastText model was selected based on its accuracy, computational speed, and memory constraints. The FastText model was integrated into production due to its fast operation, small model size, and performance on par with the BERT-based model. Generally, for string classification tasks such as language, news, or topic recognition, the machine learning model is fed with all words and sentences at once to obtain a representative decision. In theory, both transformers and recurrent neural network models are more complex architectures for string classification tasks, solving string classification and labeling tasks together. According to the findings, classical approaches such as linear regression and multilayer perceptrons perform well for string classification tasks when fed with enriched word representations. The FastText model uses logistic regression as an internal representation using a modern deep learning approach, thus making FastText It can be observed experimentally that the model can perform at the same level as the BERT based model. The results of the experimental studies are presented in Table 2 below: Precision (%) Sensitivity (%) F-l Measure (%) Class Model (Precision) (Recall) (F-l Measure) Technology Justice Health Politics Table 2: Performance of Fasttext and BERT based models (in terms of standard error In order to determine the e-mail information mentioned in the eighth step, personal data contained in all relevant blocks in the e-mail messages is determined. All sub-e-mails created with the redirects in the body of the mail are recursively divided into sub-Bodies and Headers (FROM, TO, CC, BCC, SUBJECT). Header Body Relationship Definitions Assumption 1: The e-mail address in the "To" section in the header contains a greeting expression) of the message content 1. The personal information in the sentence belongs to the same person. Assumption 2: The e-mail address in the "From" section of the header and the personal information in the last sentence of the message containing the farewell statement belong to the same person. The advantages of the invention are given below: - Unlike other techniques that offer solutions for KVKK compliance, personal data detection and person-based grouping with an approach based on object recognition and classification using machine learning methods in audio, image and video environments, - Reporting the detected personal data according to the data categories published by KVKK, - Detection and person-based grouping of files containing biometric data using machine learning models, - Analysis not only on structured but also on unstructured data, - Ensuring that the specified type of data entry into the systems is controlled by creating alarms through the application for the defined data types, here, in addition to the files already in the system, notifications/alarms are provided through the reporting and analytical tools in the ninth step when a file is uploaded or data is entered into the system. - Determining the subject matter of documents using natural language processing and machine learning methods, - Using the subject matter of the document from which they were obtained to determine the sensitivity of personal data. Industrial Applicability of the Invention The invention relates to a method for operating a computer-aided system developed to enable the identification of personal information and is of industrial applicability. The invention is not limited to the above explanations; a person skilled in the art can easily reveal different applications of the invention. These should be evaluated within the scope of the protection sought by the invention's claims.TR TR

Claims (1)

Translated fromTurkish
ISTEMLERREQUESTS1. Eski/yeni kimlik belgesi, eski/yeni sürücü belgesi, adli sicil belgesi, ögrenci belgesi, nüfus kayit belgesi, araç ruhsati, araç plakasi, mezun belgesi, yerlesim yeri ve adres bilgileri belgesi, askerlik durum belgesi, telefon numarasi, IMEI numarasi ve benzeri kisisel bilgilerin ses verileri, resimler ve fotograflar gibi dokümanlarin analizinin yapilarak tespit edilmesini saglamak üzere gelistirilen ve bir islemci, bir veri depolama birimi ve bir veritabani içeren bir bilgisayar destekli bir sistemin çalismasi - Ilk adimda, dijital belge ve ortamlarda yer alan sabit biçimli dosyalarin tipinin tespit edilmesi - Ikinci adimda, video dosyalari için resim ve ses verilerinin birbirinden ayristirilmasi - Üçüncü adimda, resim verilerinde yer alan serbest metin ve görüntü verilerinin birbirinden ayristirilmasi - Dördüncü adimda, serbest metin belgelerinin içerisinde varsa gömülmüs veya yerlestirilmis video, resim ve ses verilerinin birbirinden ayristirilmasi - Besinci adimda, ayristirilmis görüntü, ses ve/veya serbest metin verilerinin ayri veriler olarak bir veritabanina kaydedilmesi - Altinci adimda, görüntü verilerinde belge düzeni çözümlemesi yapmak üzere görüntünün ikili görüntü formatina dönüstürülerek yatay ve dikey tarama yapilip görüntü içerisinde yüz, imza, kisisel bilgiler ve parmak izi bilgilerinin aranip tespit edilmesi ve tespit edilen bilgilerin veritabanina önceden tanimlanmis veri testleri üzerinden kisiler ile iliskilendirilmesi - Yedinci adimda, ses verilerinin serbest metin verilerine çevrilmesi için bir otomatik konusma tanima algoritmasinin kullanilmasi - Sekizinci adimda, elde edilen tüm serbest metin verileri içerisinde konu siniflandirmasi yaparak kimlik numarasi, telefon, e-posta ve benzeri tüm kisisel bilgilerin kural tabanli modelleme algoritmalarindan en az biri ile aranip tespit edilmesi ve tespit edilen bilgilerin veri setleri üzerinden kisiler ile iliskilendirilmesi - Dokuzuncu adimda, tüm iliskilendirmelerin bilgi ve analitik raporlar haline getirilmesi ve kisisel bilgilerin tespiti için verilerin egitim modeli olarak kullanilarak egitilmesi, sinanmasi ve test edilmesi ve önceki adimlarin sürekli tekrar edilmesi adimlarini içermesiyle karakterize edilen bir yöntem.1. The operation of a computer-aided system that includes a processor, a data storage unit and a database and is developed to enable the analysis of documents such as old/new identity document, old/new driver's license, criminal record document, student certificate, population registration document, vehicle license, vehicle license, license plate, graduation certificate, residence and address information document, military service status document, telephone number, IMEI number and similar personal information by analyzing audio data, images and photographs. - In the first step, determining the type of fixed format files in digital documents and media. - In the second step, separating image and audio data for video files. - In the third step, separating free text and image data contained in image data. - In the fourth step, separating video, image and audio data embedded or placed in free text documents. - In the fifth step, separating the - In the sixth step, in order to analyze the document layout in the image data, the image is converted to binary image format and horizontal and vertical scanning is performed. Then, face, signature, personal information and fingerprint information are searched and detected in the image and the detected information is associated with individuals through predefined data tests in the database. - In the seventh step, an automatic speech recognition algorithm is used to convert the audio data into free text data. - In the eighth step, in all the free text data obtained, all personal information such as identification number, telephone number, e-mail and similar are searched and detected with at least one of the rule-based modeling algorithms by classifying the subject and all the personal information is associated with individuals through data sets. - In the ninth step, all the associations are converted into information and analytical reports and the data is used as a training model to identify personal information. A method characterized by the steps of training, testing, and repeating previous steps.
TR2022/0213192022-12-292022-12-29 A METHOD THAT ENABLES THE IDENTIFICATION OF PERSONAL DATA THROUGH DOCUMENTSTR2022021319A2 (en)

Priority Applications (1)

Application NumberPriority DateFiling DateTitle
PCT/TR2023/050118WO2024144502A1 (en)2022-12-292023-02-09A method for identifying personal data from documents

Publications (1)

Publication NumberPublication Date
TR2022021319A2true TR2022021319A2 (en)2023-01-23

Family

ID=

Similar Documents

PublicationPublication DateTitle
Cyril et al.An automated learning model for sentiment analysis and data classification of Twitter data using balanced CA-SVM
Chinn et al.Politicization and polarization in climate change news content, 1985-2017
Himdi et al.Arabic fake news detection based on textual analysis
CN109635082B (en)Policy influence analysis method, device, computer equipment and storage medium
US20200250139A1 (en)Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction
WO2020077895A1 (en)Signing intention determining method and apparatus, computer device, and storage medium
WiedemannProportional classification revisited: Automatic content analysis of political manifestos using active learning
CN111428466B (en)Legal document analysis method and device
Ren et al.New methods and the study of vulnerable groups: using machine learning to identify immigrant-oriented nonprofit organizations
Ebadi et al.Implicit life event discovery from call transcripts using temporal input transformation network
Perez et al.I Call BS: Fraud detection in crowdfunding campaigns
CN118170899B (en)AIGC-based media news manuscript generation method and related device
Ceballos Delgado et al.Deception detection using machine learning
Nair et al.A knowledge-based deep learning approach for automatic fake news detection using BERT on Twitter
Kotenko et al.The intelligent system for detection and counteraction of malicious and inappropriate information on the Internet
IlinPersonal data in artificial intelligence systems: Natural language processing technology
Ng et al.Cyborgs for strategic communication on social media
US20250028908A1 (en)Composite extraction systems and methods for artificial intelligence platform
Kumar et al.Approaches towards Fake news detection using machine learning and deep learning
Ren et al.A novel framework for Chinese personal sensitive information detection
US9430800B2 (en)Method and apparatus for trade interaction chain reconstruction
TR2022021319A2 (en) A METHOD THAT ENABLES THE IDENTIFICATION OF PERSONAL DATA THROUGH DOCUMENTS
AlsadhanA novel dialect-aware framework for the classification of arabic dialects and emotions
De Luca et al.Analysing and visualizing tweets for US president popularity
WO2024144502A1 (en)A method for identifying personal data from documents

[8]ページ先頭

©2009-2025 Movatter.jp