近日,一名頗受觀眾喜愛的脫口秀演員發微博證實,在其與原合作公司訴訟過程中的案件材料里,他發現了自己在中信銀行的個人賬戶交易明細。
“你也沒有我的身份證,你也沒有我的銀行卡,你也沒有司法機關的調查令,竟然能從中信銀行拿到我近兩年的流水還打印出來。”當事人就此事正式發出律師函,并指出在未經個人授權和司法機關合法調查程序的情況下,直接將個人銀行賬戶交易明細打印,并提供給第三方,屬于嚴重違法。
那么這種行為到底違不違法?違反了什么法?答案是當然是屬于違法的,涉嫌“侵犯公民個人信息罪”。我國第一次將侵犯公民個人信息犯罪寫入立法之中是在2009年的《刑法修正案七》,其中第二百五十三條中以明確的主體和構成要件填補了我國公民信息保護的立法空白。至今十余年間兩次修正案的修訂,對侵犯公民個人信息相關規定進一步擴充和完善,特別是對出售、非法提供以及非法獲取等行為的犯罪構成要件以及量刑情節進行了細化,從對公民法益的間接性保護轉變為直接保護的內容。
除此之外,《民法通則》第一百一十一條明確了公民的個人信息受法律保護。《侵權責任法》還專門對網絡上實施的侵犯公民信息權益的行為做出了規定。
中信銀行的這次個人信息泄露據說是內部人員為了配合大客戶的要求而做出的,而實際上這種現象的背后還暗藏一條販賣銀行流水等信息的黑色產業鏈,據南方都市報記者調查,有賣家聲稱,銀行流水等信息來自“內部人士”,4000元可查一個月的流水記錄,并“確保專業準確”。早在2016年12月,南都記者就曾在調查報道中披露,公眾的隱私信息,包括開房記錄、四大銀行存款記錄、乘坐航班,甚至網吧上網記錄信息,只要付費,在黑產圈都可以輕易被買到。
大數據時代,個人敏感信息泄露問題日益嚴重
那么到底什么才是個人數據?目前,我國學術界與司法實踐多根據識別的來源來界定個人數據。識別包括直接識別和間接識別,直接識別即可通過直接確認本人身份的數據來識別,如身份證號碼、基因等;間接識別指通過與其他數據結合從而確定本人身份的數據來識別。從根本上說,我們生活中的幾乎每個方面都圍繞著數據。從社交平臺到銀行,從零售商和政府,幾乎我們使用的每項服務都涉及對我們個人數據的收集和分析,姓名、性別、年齡、地址、手機號碼、銀行卡號等等,所有都由組織收集、分析,并且可以存儲。
2016年4月27日,歐盟通過了《通用數據保護條例》GDPR(General Data Protection Regulation),該條例經兩年過渡期后取代1995年95/46/EC號指令于2018年5月25日正式生效[2]。這標志著歐盟創建了統一的個人數據保護法制。根據GDPR的條款,組織不僅必須確保在嚴格的條件下合法收集個人數據,而且收集和管理個人數據的人有義務保護其免受濫用和利用,并尊重數據權利,否則將面臨罰款。GDPR的核心是一套旨在使歐盟公民對其個人數據有更多控制權的新規則,它旨在簡化企業的監管環境,以便歐盟公民和企業都可以從數字經濟中充分受益。
GDPR所指的個人數據是什么?在原有法律下被視為個人數據的類型包括姓名、地址和照片。GDPR擴展了個人數據的定義,IP地址之類的信息都可以成為個人數據,而諸如遺傳數據和生物統計數據,可以對其進行處理以唯一地識別個人的信息都屬于敏感的個人數據,也就是隱私的范疇。
美國銀行,保險和醫療保健等對隱私敏感的行業的公司敏銳地意識到了隱私問題,這就是為什么這些企業(及其行業監管機構)每年向客戶發布隱私政策聲明,說明其數據隱私政策以及公司將選擇與他人共享(或不共享)的信息的原因。當人們收到這些隱私通知時,大多數人都會把它們扔掉,因為人們感到相對安全,該公司將對收集到的數據做得很好。而實際上,數據問題還有另一面:一些采集消費者數據的公司往往將這些數據打包私自出售,因為這為其業務創造了新的收入流。2018年3月美國發生了一起轟動全球的隱私泄露事件,名為“劍橋分析”的數據分析公司被曝料通過Facebook收集用戶偏好信息,然后利用這些用戶喜好有針對性地推送廣告,最終達成的目標是影響2016年美國大選。接著Facebook被爆出超過5000萬的用戶信息被濫用,受到丑聞影響,次日Facebook股價應聲大跌7%,市值縮水360多億美元。
GDPR認為個人數據是“敏感”的,滿足以下條件之一才能處理敏感數據:
已獲得個人的明確同意(在某些情況下,法律可能會排除此選項);歐盟或國家法律或集體協議,要求公司或機構來處理,以履行其義務和權利的數據,以及那些個人的,在就業,社會保障和社會保障法的領域;人的重大利益,或身體或法律上無能力同意的人的重大利益受到威脅;基金會,協會或其他非營利組織,其宗旨是政治,哲學,宗教或工會,處理有關其成員或與該組織定期聯系的人員的數據;個人數據明顯是由個人公開的;創建,行使或抗辯法律要求所需要的數據根據歐盟或國家法律,出于重大公共利益的原因處理數據;為預防或職業醫學,評估員工的工作能力、進行醫療診斷、提供健康或社會護理或治療,或基于以下目的管理健康或社會護理系統和服務而處理數據;根據歐盟或國家法律,出于公共衛生領域公共利益的原因處理數據;根據歐盟或國家法律對數據進行存檔,科學研究或歷史研究目的或統計目的的處理。
隱私泄露風險多,如何對敏感數據進行有效保護?
敏感數據經常通過各種漏洞泄漏出去。特別是類似金融、醫療、電子商務等各種業務生產系統積累了大量包含客戶賬戶、身份、密碼、個人健康情況等敏感信息的數據。而這些數據,在這些業務系統的很多工作場景中都會經常使用,例如,業務分析、開發測試、審計監管,甚至是一些外包業務等方面,使用的都是真實的業務數據和信息。如果這些數據發生泄露、損壞,不僅會給這些組織帶來經濟上的損失,更重要的是會大大影響用戶對于這些組織的信任度。如何保證業務過程中敏感數據安全已經成為必須面對的一個重要的問題。
隱私泄露等敏感數據遇到的風險不是開發人員的疏忽,而是對敏感數據采集、傳輸、存儲、使用和銷毀的全套解決方案和基礎架構的信任放錯了位置,要加強對組織和個人敏感數據的保護應該轉向具有自動敏感數據識別功能的數據安全解決方案。
敏感數據可能是以文字、圖片,甚至是視頻的方式存在,發現敏感信息并進行妥善處理的關鍵環節即敏感數據的識別與發現,這一過程通過應用自然語言處理及文檔分類、圖像模式識別等算法,采用人工智能的理論和技術將設定的自然語言、圖形圖像用計算機程序表達處理,構建具有高準確度和較高速度的若干數據識別分類器,從而構造出能夠理解和識別敏感和隱私信息的機器智能模塊,一般包括訓練分類器和分類識別兩個功能層次:
整個識別過程包括:樣本數據庫預分類、提取文本、圖片和視頻特征、創建特征庫、場景數據抽取、數據預處理、文本檢測、視頻檢測、圖像檢測、特征提取、分類判斷。
數據抽取:對包括敏感信息的海量數據信息進行抽取,獲取與組織敏感信息或個人隱私相關的多維數據進行內容識別,判斷其敏感性和重要性。
數據預處理:文本數據預處理,必須把文檔中的詞與詞分割開也就是分詞,然后才能提取對文本分類最有意義的詞語,并根據每個詞對分類的重要程度進行權重計算和特征提取。視頻數據預處理,由于視頻中圖像有著過多冗余的特征,所以在處理視頻時一般將視頻中的圖像通過某些算法,選取其中的一幅或者若干幅圖像作為關鍵幀,用這些關鍵幀表示視頻中的內容;其他數據預處理,數據庫中其他與個人隱私或組織敏感信息有關的數據抽取后的清洗、分解和合并等工作;數據檢測,根據數據類型,按文本、圖像、視頻或其他,數據進行分類檢測,提取相應數據特征。
數據特征提取:文本特征提取,對文本自動分詞后,從分詞結果中選擇特征詞是創建分類特征模型的關鍵。本模塊提供包括互信息、信息增益、文檔頻度等特征詞選擇方法;圖像特征提取,圖像特征的正確提取和恰當組合是整個判別模型的關鍵,對于后期分類器的分類效果起著決定性的作用。敏感圖像過濾是一個特殊的圖像識別問題,結合此類問題的分析,大部分情況下人臉、動作和周邊環境是敏感圖像的主要內容,判別模型所采用的特征包括圖像顏色特征、皮膚特征、人臉特征等。
樣本數據庫:實驗數據包括文本、圖像、視頻或其他數據,相應數據都已打好標記。其中,文本類樣本可以選自成熟的語料庫,從已經標記好的文本中提取若干作為測試文本集,剩余的作為訓練文本集。
分類器:采用半監督學習分類器,這種分類器在訓練樣本集數據的部分信息缺失時,具有較好性能和推廣能力,具體分類器包括協同訓練、圖理論、生成式模型算法等。
中孚信息為全面解決敏感信息和涉密信息的泄露問題提供有效技術手段
我們深知,發生這類事件,重點是從“人防”方面著手,加強從業人員職業道德教育。除此之外,金融系統還可以部署敏感信息實時監管系統、計算機終端保密檢查系統等產品,為大數據時代的數據安全提供服務。
目前,中孚信息自主研發的敏感信息實時監管系統和計算機終端保密檢查系統已在中國建設銀行、國家開發銀行、農業發展銀行等重點金融系統進行部署,為切實保障數據安全做好保障。