用户数据收集：平衡业务需求和用户隐私

介绍

收集用户数据是现代网站和应用程序中的常见做法，作为一种为创作者提供更多信息以做出决策和创造更好体验的方式。除其他好处外，数据还可用于帮助定制内容、推动产品方向并深入了解当前实施中的问题。收集相关信息并明智地使用它可以使组织比竞争对手更具优势，并增加有限资源的影响。

虽然数据可以帮助您的组织实现其目标，但请务必记住，收集和存储有关用户的信息存在不利之处。隐私、安全、道德和法律方面的考虑会影响您收集的数据类型、您对数据的处理方式以及您对数据所有者的责任。未能负责任地处理这些问题可能会导致重大的财务和声誉损失，并可能使您面临法律后果。

在本指南中，我们将讨论收集和分析用户数据有助于提高组织效率的一些方法。我们还将考虑与收集和保留数据相关的一些风险和权衡，以及如何达到对您的组织有意义的平衡。

什么是用户数据？

在谈论收集、存储和分析有关您的站点或应用程序用户的数据时，定义我们所指的数据类型非常重要。从最广泛的意义上说，用户数据是指人们与您的产品交互产生的任何类型的数据。这些数据可以根据收集方式进行分组。

显式数据是指用户直接给出的数据。这包括偏好、个人身份信息，如姓名、邮寄地址、电子邮件、社交账户、账单数据等。可以通过您网站上的表格、发布调查或要求用户共享他们可能在线维护的其他配置文件中的数据来获取此类数据。此类数据提供了关于个人用户的可靠、可靠的信息，并且可以按原样使用，而无需根据第二类数据的要求进行广泛的分析或解释，如下所述。它可能需要实现诸如收款之类的基本功能，或者它可用于允许基于个人喜好的定制体验。

第二种数据是隐式数据。此类别不是由用户直接提供的，而是通过收集和分析来自用户交互或现有显式数据的数据来收集的。这可能包括基于行为的分析，例如会话持续时间、访问的页面或设备配置文件，但也可能包括根据提供的数据做出的推断，例如用户角色细分、可能的工作和睡眠时间表或最近的购物区。

第三类包括从外部方获取的数据。这可能最初是显式或隐式收集的，但您的组织与数据的关系被另一个提供信息访问权限的实体过滤。

显式、隐式和外部收集的数据对于开发用户如何与您的站点进行交互以及什么最能为他们服务的整体表示非常有用。在下一节中，我们将了解如何使用这些数据来改善用户体验并确定产品改进的机会。

在讨论用户数据时，另一个有助于了解的术语是 个人身份信息 。也称为 PII，这是指可以追溯到单个已知个人的任何类型的信息。这种类型的数据对于许多业务功能可能特别有用，但它通常是指可能需要特殊处理或考虑的更敏感的数据类别。

收集用户数据的潜在好处

使用有关用户的相关数据可以改变您对产品设计、资源分配和实施迭代解决方案的看法。在本节中，我们将讨论用户数据可以帮助您的组织构建更好的产品、与合适的人沟通产生共鸣的信息以及了解不同变化或行为的重要性的一些方式。

分析产品开发和设计的用户数据

用户数据最重要的应用之一是为开发和设计决策提供信息。用户提供的明确反馈和通过解释来自您的站点或应用程序的用户行为数据获得的洞察力都可以为如何改进您的产品提供指导。

从根本上说，数据对于迭代的、面向反馈的设计至关重要。如果不了解当前解决方案的功能如何，就很难自信地做出有意义的改进。数据可以帮助您识别用户流程中的摩擦区域，发现哪些设计提供了最佳结果，并确定哪些工作对用户的影响最大。明确的反馈可以帮助您发现您可能没有想到的用户需求，以及扩展您的产品以解决特定问题的机会。

简而言之，数据对于规划、实施和评估系统变更至关重要。虽然像应用程序性能基准这样的一些数据可能来自内部系统，但组织关心的很大一部分数据与变化如何影响与之交互的人直接相关。

创造个性化体验并接触相关受众

收集的数据通常用于提供个性化体验或消息传递。通过直接收集用户偏好或通过分析过去的经验来猜测可能与用户最相关的内容，数据可用于创建更符合用户兴趣和需求的独特交互。

自定义交互和用户体验的能力对营销材料、用户界面、推荐引擎等具有重大影响。数据可用于确保您针对正确的受众，使用适当的消息传递，并在最合适的时间参与。它可以帮助您的用户更快地找到他们需要的信息，并发现符合他们兴趣的新内容或功能。对于许多组织而言，此过程的目标是通过有针对性的广告将访问者货币化。

数据收集的其他有用应用

除了个性化和推动产品开发之外，在各种其他情况下可能需要或有帮助收集有关用户的数据。

例如，当用户忘记其凭据时，可能需要提示用户输入电话号码或电子邮件地址等信息，以实现帐户恢复。同样，某些交易需要在外部方处理时提交个人身份信息（尽管对于支付处理等交易，此信息通常由信用卡处理器本身处理）。

用户数据可能有用的另一个例子是为来自其他来源的现有数据提供上下文。如果您的监控系统在短时间内显示流量大幅增加，则评估 Web 分析以确定访问者来自何处可能很有用。同样，如果您的一部分用户报告您的应用程序存在问题，了解他们的地理位置可以帮助您解决可能的问题。

您可能会收集有关您的用户的数据的其他原因是出于审计目的和遵守政府要求。用户操作记录有助于缓解和披露安全事件。某些行业需要非常具体的信息访问、修改、创建和删除记录。

在许多其他情况下，收集的数据可用于改进流程、为决策者提供相关信息以及构建用户感觉与之相关的产品。

收集、存储和分析用户数据的问题

通过收集用户数据的好处的大量示例，记住收集和使用这些信息可能产生的一些风险和问题也很重要。与任何解决方案一样，在确定是否以及如何利用这些资源之前，您应该考虑一些重大的权衡。

数据收集可能会损害隐私

在考虑收集信息时要提出的最重要的问题之一是该信息如何损害个人的隐私。隐私是限制或拒绝外部各方访问信息的能力。收集有关您的用户的信息会影响他们的隐私，无论您是否共享您收集的数据。

数据隐私对于姓名、地址和信用卡信息等个人身份信息很重要，但对于页面历史记录和位置数据等其他数据也很重要。很多人都熟悉保护隐私的必要性，这些数据通常是公认的敏感数据，例如医疗或财务记录，但必须在更广泛的背景下评估隐私问题。即使看似无害的信息也会损害用户隐私。例如，显示用户最后一次出现在网站上的时间可能不会产生负面影响，但它可能会将有关该用户活动的敏感信息暴露给外部各方。

虽然用户可能对某些类型的信息收集没有问题，但他们通常会在对您的使用范围、保留多长时间以及如何与外部各方共享这些信息的某些假设下这样做。例如，用户可能愿意分享他们的偏好以增强您网站上的推荐引擎，但他们可能不希望将这些偏好用于定向广告。超出约定意图的数据使用和共享被视为侵犯隐私。

与安全相关的事件暴露私人数据的可能性是另一个相关因素。只有强有力地保证收集和存储数据的组织能够充当安全管家，才能确保隐私。许多备受瞩目的数据泄露事件突出了集中私人信息的危险，因为收集的数据通常比最初预期的更广泛地共享，无论是意外还是通过恶意活动。

数据收集可能会影响匿名性

数据收集的一个单独但相关的影响是匿名性的侵蚀。匿名表示活动或信息不能归因于特定个人。虽然隐私主要涉及控制对信息的访问，但匿名性是将活动与身份相关联的问题。

出于多种原因，匿名性很重要。例如，当身份识别可能导致举报人（披露非法或不道德行为的个人）承担后果时，大多数人都认识到匿名的价值。然而，在许多其他情况下，匿名也是一个重要的选择，比如让人们避免在知道他们的身份时会出现的歧视或偏见。虽然匿名和隐私是不同的概念，但用户通常将匿名视为实现隐私的必要组成部分。

与隐私一样，匿名性可能会因有意信息共享或意外暴露的数据收集而受到损害。当与来自 ISP 的记录交叉引用时，访问者的 IP 地址等信息可用于识别访问网站的用户或家庭。帖子可以通过化名或用户名来识别，但可以通过关联来自其他服务的数据来追溯到一个人。虽然匿名也可用于掩盖非法或有害活动参与者的身份，但合法用户将互联网上的匿名视为一种在敌对环境中操作而不会使自己受到不必要伤害的方法。

组织经常试图通过从数据集中删除或隐藏可识别的属性来“匿名化”数据，但通常，当与其他信息源结合时，可以重新建立身份。例如，如果公开的医疗记录上的姓名被删除，如果披露的信息中有其他独特的属性，仍然可以确定个人的身份。某些数据披露是有害的，特别是因为它破坏了匿名性和隐私。例如，暴露个人是某个组织或网站的成员可能会产生负面影响，因为它破坏了匿名性（通过将用户活动与身份绑定）和隐私（因为网站的成员身份是用户可能希望的数据项保密）。

数据可用于歧视

增加数据收集可以帮助组织优化他们的实践，但这可能会带来严重的道德副作用。尤其是在自动处理数据时，负责对用户进行分类的系统可能会无意中实施基于无意识人类偏见的歧视性做法。许多用于以编程方式对用户进行细分以更好地服务于他们的兴趣的相同技术可能会无意中在您的应用程序或网站的行为中加深偏见。

在使用大数据系统和机器学习时，这个问题尤其普遍。虽然一些支持者声称这些机制仅揭示数据中已经存在的模式，但用于定位这些模式的算法可能会无意中使来自某些人口统计数据的用户处于不利地位。他们还因发现模式并强调它们而加深了算法或数据集中发现的任何偏见。如果您不小心使用这些工具的方式，您可能会无意中越过法律和道德界限。

基于过于激进的特征的组可用于高度准确地分割基于受保护类别的人，即使没有专门针对这些用户。例如，根据您使用这些数据的方式，您可能会无意中将用户按种族或性别划分，从而对每个客户看到的价格产生可衡量的影响。即使您自己没有将细分数据用于这些目的，如果您的广告合作伙伴可以使用该数据，它也可能导致类似情况。

数据的共享范围通常比用户预期的更广泛

人们在考虑收集和存储有关其用户的数据时倾向于过度简化的一个考虑因素是访问控制。访问控制可能意味着确保外部各方无法读取您正在收集的数据，但更广泛地说，它可能意味着为与数据交互的任何人定义边界。例如，这可能意味着封锁功能与数据无关的员工的进入，确保供应商或合作伙伴在不通知用户的情况下无法访问它，并考虑要求政府机构访问意味着什么。访问数据通常比最初预期的要复杂。

虽然公司有能力和责任告知用户预期的数据共享和使用政策，但有时很难限制访问以符合用户的期望。例如，公司收购可能会将数据留在用户从未预料到的访问权限的组织手中。虽然在某些情况下，广泛的隐私政策可以保护您免受法律曝光，但消费者信任的丧失仍可能导致严重的声誉影响。

当涉及到政府参与时，复杂性就更加复杂了。访问收集的数据的请求可以以传票或逮捕令的形式出现，在某些情况下，众所周知，机构会要求对特定用户或调查没有针对性的数据进行极其广泛的访问。由于无法访问敏感的特定信息，许多政府已经变得善于收集和分析元数据，这些元数据通常没有得到很好的保护，但仍然可以泄露重要信息。收集或索取此类信息是否需要搜查令通常是一个法律灰色地带。收集用户数据要求组织准备好处理这些歧义并预测对数据的请求。

收集数据的潜在覆盖范围的另一个因素是安全性。虽然您可能对有意限制访问的人保持警惕，但当数据意外或由于数据泄露而暴露时，它可以有效地将您收集的信息公开。虽然认真对待安全始终很重要，但系统上有价值的数据量会影响您的暴露风险、您可能承担的责任以及您的组织作为恶意行为者目标的吸引力。与合作伙伴或供应商共享协议还增加了您收集的数据的安全足迹。

处理数据时的法律责任

在决定从访问者那里收集或使用数据之前，了解您的法律责任并了解您必须采取哪些措施来履行这些责任非常重要。

了解适用哪些规则

在收集数据时，根据您所在国家/地区的法律，以及在某些情况下，您的用户所在的位置，您有一定的责任。了解来自不同司法管辖区的法规的相互作用对于了解您必须满足的要求和您所承担的责任非常重要。例如，可以根据您收集的数据类型、您打算如何使用它、您计划存储或处理它的位置、您有义务保护它的方式以及您的用户来自哪里来适用法规。

举一个复杂的例子，美国没有一部立法来概述处理用户数据的要求。相反，有一套适用于所有数据处理（以及许多与隐私相关的执法行动）的一般规则和法规，以及管理医疗数据、财务数据或与未成年人相关的数据等信息类型的更具体的法规。其中一些可能会影响您被允许收集的内容、您存储信息的方式、您必须拥有哪些访问控制以及您被允许输入的共享协议类型。许多美国政策相互作用的结果是要求对特别敏感的数据实施特定保护，并提供明确概述您的做法的隐私政策。

相比之下，许多国家对处理用户数据有更明确的要求。例如，欧盟在通用数据保护条例 (GDPR) 下采用了一套全面的规则，该条例将于 2018 年 5 月 25 日生效，以取代上一代法规。这些规则的范围非常广泛，适用于在欧盟范围内收集或处理数据或处理来自欧盟访问者的数据的任何人。组织必须向访问者提供有关数据使用的明确信息，并获得使用范围广泛的潜在敏感数据的明确同意。该法规的其他部分允许用户请求删除其数据，要求组织在 3 天内将与其数据相关的任何安全事件通知用户，并对违规行为处以高额罚款。

许多其他地方也有类似的数据保护法，可以在这些国家/地区工作或处理其居民的信息时适用。在设计您的具体政策时，重要的是要了解可能适用于您的预期收集和使用的法律类型。为了最大限度地降低您的风险，与律师交谈以更好地了解法律环境并审查您提出的隐私和数据收集政策始终是一个好主意。

实施隐私政策

在线数据法规的一个共同点是要求隐私政策准确概述您的数据操作范围。大多数法规要求组织在网站上突出显示政策链接，并告知用户发生的任何重大政策变化。

披露隐私政策的一些常见要求或建议是：

您计划收集和存储哪些具体信息
您打算如何使用数据
如何与外部各方共享数据

对于某些类型的信息，或在某些司法管辖区，您可能还需要在法律上包含以下描述：

客户如何选择退出某些收集或共享
用户如何访问或删除他们的数据
用户如何知道政策何时发生变化

制定有效、合法的隐私政策有助于保护您免于承担责任，与访问者建立信任，并阐明您对自己喜欢哪些活动的理解。通常，设计隐私政策是在提供足够的特异性以设置准确、合理的数据使用限制与留有足够的灵活性以涵盖合理使用和意外发展之间的平衡行为，而无需经常修改政策。

降低数据滥用风险的策略

到目前为止，我们已经讨论了收集和存储有关您的用户的信息所固有的一些风险，以及您选择这样做时的一些法律要求。考虑到这一点，我们可以讨论一些您可能希望考虑的策略，以帮助您实施合规且具有道德意识的数据政策。这些建议的重点是限制潜在的滥用和保护用户隐私，同时仍然产生可操作的信息以获取本文第一部分中概述的好处。

限制收集和存储的数据

通常，在收集信息时撒下一张大网似乎是组织最具前瞻性的选择。许多提倡以数据为依据的决策的倡导者鼓励收集尽可能多的数据点，这不仅是为了帮助制定您现在正在制定的决策，而且是为了拥有一个可供未来使用的历史数据存储库。

与其收集您以后可能需要的数据，不如考虑将您处理的数据限制在当前或近期的需求范围内。这种限制将确保您不会将更多的数据置于不必要的风险中。除了限制安全风险之外，注意数据蠕变还可以帮助您在正在处理的数据中保持清晰的信号，而不是无意中收集数据，直到它与您期望的模式相匹配。虽然连接不同的数据源可以帮助您发现有趣的见解，但过多的数据很容易被误解，并导致您根据之前的假设得出可疑的结论。

收集数据后，您还应该考虑有关存储和保留的政策。虽然某些类型的数据在很长一段时间内很有用，但其他类型的数据会随着时间的推移变得不那么有用。删除陈旧或过时的数据有助于降低成本，并再次限制误用、事故或利用的机会。如果您的历史数据将来可能会有所帮助，请考虑聚合、提取和分析数据并存储结果而不是原始数据。虽然这限制了历史数据的使用方式，并且可能需要您预测未来的需求，但它可以提供存储历史数据的许多好处，同时最大限度地减少一些危险。

区别对待敏感信息

您的系统和策略应区分基本敏感数据（如 PII）和非敏感数据。虽然在整个组织中相当自由地共享基本业务数据可能是有意义的，但对包含个人信息的数据的访问应受到严密保护。这包括访问乍一看似乎特别容易被滥用的数据，例如客户名称和地址。

小心地将这些数据的访问权限限制在需要这些数据来完成其特定工作职能的团队成员可以帮助您为访问者提供更好的保证。查看每个供应商或合作伙伴的数据策略有助于确保您在自己的系统之外保护客户的利益。限制此类个人身份信息的收集还可以限制在政府要求的情况下您可能被迫上交的数据量。

您可能会理所当然地收集某些类型的敏感信息，用于处理付款等事情。如果可能，通常最好将这些活动推迟到专门的服务提供商。这可以帮助您避免处理客户最敏感数据的责任，并且通常会提高安全性。可靠的处理器对如何适当地收集和存储此类信息有深刻的理解，并拥有超出您可能投资的保险单。

尽可能保持透明

虽然您与用户披露和控制您收集的信息相关的法律责任可能因监管管辖区而异，但尽可能多地提前说明您的做法通常是一个好主意。让用户可以轻松地查看、下载或删除他们在您系统中的数据，使他们能够代理自己的信息，并确保您 do 拥有的数据是在征得同意的情况下提供的。

设计用户可以控制其数据的自助服务页面可能是用户隐私和自愿收集的一大进步。用户可以了解他们明确提供的数据、您根据使用情况在后台收集的数据，以及数据当前进入您系统的持续方式。这鼓励用户对自己的隐私采取积极和深思熟虑的方法，并允许用户拒绝特定类型的收集，并了解这可能会如何影响他们的访问。

当在后台收集和关联数据以及向用户明确要求数据之间做出选择时，通常最好倾向于后者。虽然您的隐私政策可能概述了您可能收集数据的各种方式，但直接询问将最大程度地减少意外并有助于建立信任。当用户感觉自己控制交互时，而不是在通过监控行为收集信息时，用户可能愿意提供更多信息，这可能会让人感到侵扰。

结论

访问有关访问者和客户的数据可以帮助您集中工作并以其他方式难以实现的方式调整您的策略。通过深思熟虑对您的产品最有价值的信息类型并探索帮助您获得洞察力的选项，您可以回答难题、做出更好的决策并更好地为用户服务。

必须认真对待数据管理的很大一部分原因是 ，因为 的潜在价值和用途。让访问者在保护他们的隐私和使用您的服务之间做出选择对双方来说都是一种不受欢迎的情况，因此通过负责任的收集、使用、共享和安全政策来缓和您对用户数据的依赖非常重要。

注意： 本文中的信息仅供参考，不应被视为法律建议。请咨询法律专业人士以了解您的全部责任。