Diccionario de análisis de datos - Glosario de términos

Diccionario

¿Puedes identificar un coeficiente de una variable continua? ¿Definir dónde termina el análisis de datos multivariados y comienza el análisis de regresión? A continuación, se muestran algunos términos comunes que se utilizan en el análisis de datos.

A

Futuro aconsejado: Un ajuste de la variable manipulada optimizado por el Asesor de Control que da el mejor resultado teórico del proceso.

Reglas de alarma: Reglas sobre cuándo deben activarse las alarmas, como cuando 3 están fuera del límite en un conjunto de 10, por ejemplo. Las reglas más comunes son las de Western Electric y las de Nelson.

Algoritmo: Especificación matemática o proceso estadístico inequívoco utilizado para realizar el análisis de los datos.

Análisis de la varianza: Técnica estadística para separar y estimar las diferentes causas de variación.

ANOVA: Véase análisis de la varianza.

RA: Realidad aumentada, en la que se proyectan objetos holográficos sobre el mundo real.

Modelo AR: Modelo autorregresivo. Se utiliza en el análisis de datos de series temporales.

ARL: Average Run Length (longitud media de la carrera).

Modelo ARMA: Modelo de media móvil autorregresiva. Se utiliza en el análisis de datos de series temporales.

Registro de auditoría: Registro de actividad que rastrea todos los cambios en el sistema y hacia él.

B

Condiciones del lote: Las condiciones del lote se refieren a todo el lote y, por tanto, se utilizan en el modelo a nivel de lote (BLM). También se dividen en condiciones iniciales y condiciones finales.

Generador de contexto de lotes: Un sistema que detecta y contextualiza automáticamente los lotes a partir de activadores en las etiquetas del sistema.

Modelo de evolución de lotes (BEM): Un modelo de regresión de cómo evoluciona un proceso de lotes con el tiempo o la madurez.

Plegado de lotes: Cómo se reajustan los lotes para crear un resumen de toda la producción del lote (nivel de lote).

Modelo a nivel de lote (BLM): Modelo que resume todo el lote y que puede combinarse con los atributos de calidad final para pronosticar y predecir los atributos de calidad final.

Proceso por lotes: Un proceso de duración finita.

Control estadístico del proceso por lotes (BSPC): La aplicación de técnicas de gráficos de control a un proceso por lotes. Análogo al MSPC (control estadístico de procesos multivariante) y sus técnicas de gráficos de control aplicadas a un proceso continuo.

Mejor base: La mejor base es una opción utilizada en la transformación wavelet para señales de alta frecuencia. Véase también DWT.

Modelado bilineal: Matrices modeladas como producto de dos matrices de bajo rango, por ejemplo, X=T*P'.

Escalado de variables por bloques: Hacer que la varianza total sea igual para cada bloque de variables similares en un conjunto de datos.

BSPC: Control estadístico de procesos por lotes.

C

Conjunto de datos de calibración: Ver: Conjunto de datos de referencia.

Variable categórica: véase Variable cualitativa

Análisis de vectores característicos: Véase: Análisis de componentes principales.

Quimiometría: La aplicación de métodos matemáticos y estadísticos a los datos químicos.

Clase: Subconjunto de observaciones similares de un conjunto de datos.

Clasificación de las observaciones: El proceso de identificar a cuál de un conjunto de categorías (subpoblaciones) pertenece una nueva observación.

Aplicación cliente/servidor: Una arquitectura de aplicación en la que los cálculos se realizan en un servidor central y los resultados pueden ser mostrados por uno o varios clientes que se conectan al servidor.

Análisis de clústeres: Técnicas para dividir un conjunto de observaciones en subgrupos o clusters.

Coeficiente: Un coeficiente de regresión indica el cambio numérico en una respuesta (variable Y) cuando un factor (variable X) aumenta desde su valor medio hasta su valor máximo.

Colinealidad: Un alto nivel de correlación entre las variables.

Espacio de columnas: Espacio abarcado por los vectores columna de una matriz.

Intervalo de confianza: Rango de valores especificado en torno a una estimación para indicar el margen de error, combinado con una probabilidad de que un valor caiga en ese rango. El intervalo de confianza en torno a un parámetro (coeficiente, carga, VIP, etc.) indica la incertidumbre de ese parámetro.

Verificación continua del proceso: La necesidad de mantener todos los atributos críticos bajo control una vez finalizada la producción.

Verificación continua del proceso: La necesidad de mantener todos los atributos críticos y su correlación bajo control durante la producción.

Variable continua: Una variable cuyo valor puede ser cualquiera de un número infinito de valores, normalmente dentro de un rango determinado.

Tabla de contingencia: Una tabla que contiene recuentos o frecuencias de diferentes eventos o resultados.

Gráfico de contribución: Gráfico de barras utilizado en el análisis de datos multivariantes para diagnosticar los puntos fuera de control y mostrar qué variables contribuyen a la distancia entre los puntos y la media muestral de los datos.

Correlación: Medida de asociación de dos variables.

Análisis de correspondencia: Una variante especial de doble escala del ACP, adecuada para algunas aplicaciones, por ejemplo, el análisis de tablas de contingencia.

Enfoque COST (change-one-separate-factor-at-a-time): También llamado OVAT (one-variable-at-a-time) u OFAT (one-factor-at-a-time), se trata de un método intuitivo que consiste en "echar un vistazo" a los datos para determinar qué factores pueden influirse mutuamente calculando su media y su desviación estándar de uno en uno (un método ineficiente y propenso a errores).

Covarianza: Similar a la correlación, pero no normalizada, lo que hace que esté influenciada por las magnitudes de las variables y, por tanto, sea difícil de interpretar.

Validación cruzada: Técnica para evaluar la capacidad de predicción de los modelos mediante la partición de la muestra original en conjunto(s) de entrenamiento para entrenar el modelo, y conjunto(s) de prueba para evaluarlo.

CUSUM: Suma acumulada. Una técnica de gráficos de control utilizada en aplicaciones de control de procesos estadísticos multivariantes (MSPC).

D

Diseño D-óptimo: Un diseño generado por ordenador para condiciones no estándar o cuando los dominios experimentales están distorsionados. La D de D-óptimo significa determinante.

Conjunto de datos: Un conjunto de datos es la base de todo análisis de datos multivariantes, a menudo también llamado matriz de datos. Se compone de los valores de varias variables diferentes para un número de observaciones. Los datos se recogen en una matriz de datos (tabla de datos) de N filas y K columnas, a menudo denominada X. Las N filas de la tabla se denominan observaciones. Las K columnas se denominan variables.

Análisis de datos: El proceso de examinar grandes conjuntos de datos para descubrir patrones ocultos, correlaciones desconocidas, tendencias, preferencias de los clientes y otras ideas empresariales útiles.

Ciencia de los datos: Disciplina que combina la estadística, la visualización de datos, la programación informática, la minería de datos y la ingeniería de software para extraer conocimientos e ideas de conjuntos de datos grandes y complejos.

DCrit: El límite crítico con intervalo de confianza en el que el patrón de correlación se considera normal para el modelo en la estadística DModX.

Aprendizaje profundo: El aprendizaje profundo forma parte de una familia más amplia de métodos de aprendizaje automático basados en el aprendizaje de representaciones de datos.

Variable dependiente: Otro nombre para una variable Y o variable de respuesta.

Diseño de experimentos (DOE): Enfoque racional y rentable de la experimentación práctica que permite evaluar el efecto de las variables utilizando sólo el mínimo de recursos. Un protocolo DOE genera experimentos de máxima información.

Datos discretos: Datos que existen de forma esporádica durante la producción, como los datos de laboratorio (IPC, datos en línea o diarios).

Variable discreta: Una variable que sólo puede asumir ciertos ajustes o niveles (en contraposición a una variable continua que puede tener un valor en cualquier lugar entre dos límites numéricos).

Análisis discriminante: Técnica de análisis estadístico utilizada para predecir la pertenencia a una clase a partir de datos etiquetados.

DModX: Distancia al modelo en el espacio X. Expresa la desviación estándar del residuo por filas como una medida de distancia al modelo para esa observación (fila) en particular.

Diseño óptimo D: Un enfoque en el DOE que se utiliza cuando la región experimental es muy irregular o existe la necesidad de estimar un modelo de regresión particular (no estándar).

Desglose: El procedimiento de interpretación del modelo a través de la inspección de los parámetros multivariantes, seguido del acercamiento a ciertas partes de los datos subyacentes haciendo doble clic en los gráficos o diagramas para abrir visualizaciones de partes relevantes de las mediciones reales. Este procedimiento se utiliza para corroborar que lo que se ve en los parámetros del modelo está efectivamente expresado o codificado en los datos subyacentes.

Duración: El número de puntos del lote.

DWT: Opción de transformación wavelet discreta utilizada en la transformación wavelet cuando la señal es bastante suave, es decir, la información está contenida principalmente en las frecuencias bajas. Véase también Mejor base.

Retardos dinámicos: Calcula y alinea los retardos en el sistema en función de la velocidad del sistema o del tiempo.

E

Valor propio: El cambio de longitud cuando un vector propio se proyecta sobre sí mismo. Equivale a la longitud de un diámetro principal de los datos.

Eigenvector: Los eigenvectores sólo existen para las matrices cuadradas. Un eigenvector de una matriz cuadrada tiene la propiedad de proyectarse sobre sí mismo cuando es proyectado por la matriz. El grado de alargamiento o disminución se expresa mediante el valor propio.

Análisis de eigenvectores: Véase: Análisis de componentes principales.

Firma electrónica: Una firma obligatoria para los cambios en o del sistema que forma parte de las directrices de la FDA 21 CFR parte 11.

Punto final: El último valor de madurez del lote.

Distancia euclidiana: Distancia geométrica en un espacio euclidiano (isomorfo con vectores de base ortogonal).

Modelo empírico: Un modelo empírico es un modelo que se basa en datos experimentales.

Modelo EWMA: Modelo de media móvil ponderada exponencialmente. El EWMA se suele utilizar como técnica de gráfico de control en el MSPC. Véase también CuSum.

Intervalo de ejecución: Establecido para cada proyecto continuo o fase de lote para indicar la frecuencia con la que se deben muestrear los datos para esa parte específica de la producción.

Variable explicativa: Variables (x) utilizadas para "explicar" la variación de las variables dependientes (y). También suelen llamarse variables predictoras o variables independientes.

F

Factor: Término utilizado a menudo en el diseño experimental. Significa variable controlada y variada. Ver: Predictor. También es un término para una dimensión del modelo en los modelos factoriales y bilineales.

Análisis factorial: Tiene un objetivo similar al ACP, pero supone un modelo subyacente con un número determinado de factores que son combinaciones lineales de las variables originales. Véase también Análisis de Componentes Principales.

Pronóstico: Da la mejor estimación de cómo será la producción futura del proceso basándose en el modelo y en los datos históricos existentes.

G

Lote dorado: El lote de evolución promedio para todos los lotes producidos para cada vector.

H

Histograma: Un gráfico de columnas (barras) que visualiza la distribución de una variable.

T2 de Hotellings: Una generalización multivariante de la prueba t de Student. Se utiliza para calcular una medida de distancia de lo lejos que está un punto de observación del origen del modelo en el espacio de puntuación.

Hotellings T2 crit: El límite crítico con nivel de significación, dentro del cual tenemos la región normal del modelo. Cualquier punto de observación dentro de este límite está bien explicado por el modelo.

I

Identificadores: Etiquetas en variables y observaciones que indican propiedades útiles o metadatos o información externa que se puede utilizar para enriquecer la interpretación del modelo. Los identificadores de variables y observaciones se muestran en gráficos y listas. La función Buscar busca los identificadores en el cuadro de diálogo Subproyecto. En la página Observaciones del cuadro de diálogo Subproyecto, los identificadores se pueden utilizar para establecer clases.

Variable independiente: connotación a menudo engañosa. Ver: Variable predictora o Variable explicativa.

Producto de vector interno: el producto de dos vectores que produce un escalar.

Variables de entrada / variables de salida: Las variables de entrada son los valores del factor (X) y las variables de salida son las respuestas (Y) en el análisis de datos.

Interacción: También coeficiente de interacción, la fuerza de la relación entre una variable independiente y variables dependientes, en función de otra variable independiente.

J

Jack-knifing: Método para hallar el intervalo de confianza de un parámetro estimado de un modelo, manteniendo iterativamente fuera partes de los datos subyacentes, haciendo estimaciones de los subconjuntos y comparando estas estimaciones.

K

Espacio K-dimensional (espacio K): el tamaño del espacio variable. K es igual al número de variables en el conjunto de datos.

Agrupación de K-means: un algoritmo de minería de datos para agrupar, clasificar o agrupar observaciones en función de sus atributos o características en un cierto número de grupos (o agrupaciones).

Transformación de Karhunen-Loève: Ver: Análisis de componentes principales.

L

Variable latente: Variables que no se observan directamente sino que se infieren (a través de un modelo matemático) de otras variables que se observan (se miden directamente).

Estimación por mínimos cuadrados: método para estimar los parámetros del modelo minimizando la suma de los cuadrados de las diferencias entre el valor de respuesta real y el valor predicho por el modelo.

Apalancamiento: las observaciones en la periferia de un conjunto de datos pueden tener una gran influencia en el modelado del conjunto de datos. Esa influencia se denomina apalancamiento, basado en la idea de Archimedian de que cualquier cosa puede desequilibrarse si el levantador tiene una palanca lo suficientemente larga.

Regresión lineal: método estadístico utilizado para resumir y mostrar relaciones entre variables.

Vector de carga: coeficientes de dirección de un eje componente PC o PLS.

Centrado local: una forma de realinear las variables que se desvían.

M

Espacio M: Espacio de medida, o: espacio multivariante. Sinónimo: espacio K. Véase: Espacio K

Modelo MA: Modelo de media móvil. Se utiliza en el análisis de datos de series temporales.

Aprendizaje automático: Algoritmos como el MVDA que pueden modelar un sistema basándose en datos históricos.

Distancia de Mahalanobis: Distancia euclidiana ponderada por valores propios.

Variable manipulada: Variable que puede ser controlada y dirige el sistema de alguna manera, por ejemplo, los puntos de ajuste en la producción por lotes.

Matriz: Una tabla de datos bidireccional en la que los datos se organizan en filas y columnas.

Media: El valor medio.

Centrado de la media: Método de preprocesamiento utilizado en MVDA. A menudo se combina con el escalado a la unidad de varianza (escalado UV).

Mediana: Cuando los valores se clasifican por tamaño, el valor que se encuentra en el medio.

Modelos mecanicistas: Modelos basados en una comprensión teórica del comportamiento de los componentes de un sistema.

Análisis megavariable: Término utilizado para describir un método de modelización de grandes cantidades de datos que contienen múltiples variables latentes en lugar de variables expresadas para obtener resultados multivariantes. Se utiliza cada vez más en las ciencias de la vida y la biología.

Metabonomía: El estudio de los metabolitos excretados por una especie o un organismo individual, que implica mediciones de la respuesta a una influencia.

Valor perdido: Elemento de una matriz de datos sin un valor definido. Como regla general, cada observación y variable debe tener más de cinco valores definidos por PC. Las observaciones (o variables) con valores perdidos que aparecen como valores atípicos deben tratarse con sospecha.

MLR: Regresión lineal múltiple.

MOCA: Análisis de componentes ortogonales multibloque: Generalización del OPLS para cubrir múltiples bloques de datos y buscar sus variabilidades conjuntas y únicas.

Modo: En un conjunto de números, el valor que se produce con mayor frecuencia.

Modelo: Expresión matemática que describe las relaciones entre las variables de un conjunto de datos históricos para estimar o clasificar los datos. En esencia, un modelo traza una "línea" a través de un conjunto de puntos de datos que puede utilizarse para predecir resultados.

Gestión de modelos: Método para rastrear, seguir y versionar los modelos que representan un sistema.

Actualización del modelo: Método para recalibrar el modelo de forma automática o semiautomática después de que se produzcan actualizaciones en el proceso para las que el modelo no se ha ajustado previamente.

MSPC: Control estadístico de procesos multivariante: El uso de métodos multivariantes para caracterizar el estado de un proceso con respecto a estados conocidos. El estado se determina a partir de los gráficos de puntuación del modelo y de los gráficos de distancia al modelo. Véase también: SPC.

Escalamiento multidimensional: Corresponde aproximadamente a un análisis de componentes principales de una matriz de "distancias" entre observaciones.

Regresión lineal múltiple: Se utiliza como medio de análisis predictivo para explicar la relación entre una variable dependiente continua y dos o más variables independientes.

Análisis multivariante de datos: Conjunto de técnicas estadísticas utilizadas para analizar conjuntos de datos que contienen más de una variable.

MVDA: Análisis de datos multivariantes.

N

Red neuronal: Un marco para que muchos algoritmos diferentes de aprendizaje automático trabajen juntos y procesen entradas de datos complejas.

NIPALS: Mínimos cuadrados parciales iterativos no lineales

Mínimos cuadrados parciales iterativos no lineales: Algoritmo para calcular los componentes principales.

Distribución normal: Distribución de probabilidad que, cuando se representa gráficamente, es una curva de campana simétrica con el valor medio en el centro.

Sistema de notificación: Sistema que puede enviar un mensaje a uno o varios receptores cuando ha ocurrido algo predeterminado en el sistema.

O

Espacio de observación: El espacio que abarcan los vectores de observación de una matriz de datos. Cada vector de la variable se representa como un punto en ese espacio. Véase también: Espacio de filas.

OLS: Mínimos cuadrados ordinarios, equivalente a MLR.

Ómico: Estudio de un grupo o sistema de biomoléculas.

Datos ordinales: Una variable discreta se denomina ordinal si sus datos pueden ordenarse de alguna manera numérica.

Número ordinal: Que muestra el orden o la posición en una serie, por ejemplo, primero, segundo, tercero.

Proyecciones ortogonales a estructuras latentes (OPLS): Modificación del método PLS clásico que aporta una interpretación simplificada del modelo.

OPLS: También PLS ortogonal, una modificación de PLS en la que la variación sistemática de los factores independientes se divide en dos partes, relacionadas o no con las respuestas dependientes.

Producto vectorial externo: Producto de dos vectores que produce una matriz: M = t * p' donde mij = ti * pj

Valores atípicos: Valores extremos que pueden ser errores de medición y registro, o pueden ser informes precisos de eventos raros.

P

PAT: Tecnología analítica de procesos.

Tecnología analítica de procesos: Sistemas de análisis y control de los procesos de fabricación basados en mediciones oportunas, durante el proceso, de los parámetros de calidad críticos y de los atributos de rendimiento de las materias primas y de los procesos en curso para garantizar una calidad aceptable del producto final al término del proceso.

Regresión por mínimos cuadrados parciales (PLS): Técnica estadística que combina características del análisis de componentes principales y de la regresión múltiple, pero en lugar de encontrar hiperplanos de máxima varianza entre las variables dependientes e independientes, encuentra un modelo de regresión lineal proyectando las variables predichas y las variables observables a un nuevo espacio de dimensiones inferiores.

PCR: Regresión por componentes principales.

Valor P: Un valor de probabilidad obtenido a partir de una prueba estadística formal de algún estadístico de prueba, por ejemplo, una prueba t o una prueba F.

Fase: Parte del proceso que tiene una interpretación química o física específica.

Condiciones de la fase: Las condiciones de fase se refieren a toda la fase y, por lo tanto, se utilizan en el modelo a nivel de lote.

Iteraciones de fase: La modelización y el seguimiento de fases complejas que pueden ocurrir más de una vez o dividirse y volver a fusionarse.

Condiciones de iteración de fase: Las condiciones de iteración de la fase pertenecen a toda la iteración de la fase y, por lo tanto, se utilizan en el modelo de nivel de lote.

PLS: Proyecciones a estructuras latentes.

PLS-DA: También Análisis Discriminante PLS, un análisis PLS que implica una variable ficticia para la clasificación.

Predicción: Afirmación (normalmente cuantitativa) sobre lo que ocurrirá en condiciones específicas, como consecuencia lógica de las teorías científicas.

Modelización predictiva: El desarrollo de modelos estadísticos para predecir eventos futuros.

Método de la potencia: Método de proyección iterativo para encontrar vectores propios.

Conjunto de predicciones: Conjunto de datos utilizado junto con un modelo establecido con el fin de obtener predicciones del modelo para cada una de las observaciones del conjunto.

Variable predictora: Véase: Variables explicativas.

Análisis de componentes principales: Técnica utilizada para proporcionar una visión general de la información de un conjunto de datos.

Regresión de componentes principales: Técnica de regresión que combina los cálculos de componentes principales con la MLR.

Métodos de proyección: Un grupo de métodos que pueden extraer eficazmente la información inherente a la MVD. Proporcionan resultados fáciles de interpretar porque pueden presentarse como imágenes. Estos métodos son eficaces para el reconocimiento de patrones, la clasificación y las predicciones. Los métodos más utilizados son PCA, PLS y OPLS.

Proyección a estructuras latentes: Véase la regresión por mínimos cuadrados parciales (PLS).

Q

Variable cualitativa: una variable no numérica que describe una propiedad (entorno) de una observación. Los ajustes cualitativos no tienen un orden natural y, por lo tanto, no se pueden convertir en una única variable numérica (cuantitativa).

QSAR: Relación cuantitativa estructura-actividad.

Relación cuantitativa estructura-actividad: estimación de la fuerza de una relación matemática entre estructura química y actividad farmacológica para una serie de compuestos.

R

Procesamiento de datos en tiempo real: El procesamiento de datos en tiempo real implica una entrada, un proceso y una salida de datos continuos y permite a una organización tomar medidas de inmediato. Los datos deben procesarse en un periodo de tiempo reducido (o casi en tiempo real).

Diseños experimentales rectangulares para plataformas multiunidades: Un conjunto de diseños, para experimentos en placas de 96 pocillos que utilizan pipetas múltiples.

REDMUP: Diseño experimental rectangular para plataformas multiunidad.

Conjunto de datos de referencia: Este término se utiliza para conjuntos de datos con propiedades y origen conocidos, a menudo utilizados para definir modelos. Sinónimos: Conjunto de datos de calibración, conjunto de datos de entrenamiento, conjunto de trabajo.

Regresión: El ajuste de una curva a los puntos de datos, expresa la relación matemática entre las variables.

Análisis de regresión: Técnica de modelización utilizada para definir la asociación entre variables. Supone un efecto causal unidireccional de las variables predictoras (variables independientes) a una respuesta de otra variable (variable dependiente). La regresión puede utilizarse para explicar el pasado y predecir acontecimientos futuros.

Variable regresora: Véase: variable dependiente

Residual: Resto; parte no modelada. El desajuste entre los valores observados y los modelados.

Variable de respuesta: Véase: variable dependiente

Análisis de la causa raíz: Método de resolución de problemas utilizado para identificar las causas raíz de los fallos o problemas..

Error medio cuadrático (RMSE): Medida de las diferencias entre los valores (valores muestrales o poblacionales) predichos (RMSEP) por un modelo o un estimador (RMSEE) y los valores observados.

Espacio de filas: El espacio que abarcan los vectores de fila de una matriz.

S

Escala: La escala es un paso previo al proceso en el análisis de datos multivariados que se utiliza para alinear diferentes tipos de datos con un conjunto estándar de valores numéricos. Los métodos comunes incluyen escalado a varianza unitaria y escalado de Pareto.

Puntuación: Distancia desde el origen, a lo largo de un vector de carga, hasta el punto de proyección de una observación en el espacio K o M. O: las coordenadas de un punto cuando se proyecta en un hiperplano modelo.

Espacio de puntuación: el espacio abarcado por los vectores de puntuación de un modelo. Cada observación se representa como un punto en ese espacio. Consulte también: espacio variable, espacio K y espacio M.

Vector de puntuación: coordenadas de observación a lo largo de un eje de componente PC o PLS. Puntuaciones de todas las observaciones para una dimensión (componente) del modelo.

Semiconductor: material de baja conductividad y, por tanto, intermedio entre un conductor y un aislante.

SIMCA^®: Modelado independiente suave de analogía de clases.

Descomposición de valores singulares: Ver: Análisis de componentes principales

SPC: Control Estadístico de Procesos: El comportamiento de un proceso se caracteriza utilizando datos cuando el proceso está funcionando bien y se encuentra en un estado de control. En la fase de monitoreo, los nuevos datos medidos entrantes se utilizan para detectar si el proceso está bajo control o no. Consulte también: MSPC.

Filtros espectrales: Pretratamiento de datos por observación específicamente dirigido al tipo de datos espectrales. Puede, por ejemplo, calcular derivadas o eliminar el promedio por fila.

Desviación estándar: la raíz cuadrada de la varianza y una forma común de indicar cuán diferente es una medida particular de la media.

T

Conjunto de datos de prueba: Conjunto de datos con propiedades desconocidas, a menudo sometido a proyecciones a los modelos.

Datos de series temporales: Una secuencia de mediciones tomadas en diferentes momentos, y a menudo, pero no necesariamente a intervalos igualmente espaciados.

Filtros de series temporales: Tratamiento previo de los datos por variable. Puede, por ejemplo, calcular derivadas o wavelets por columna.

Deformación temporal: Método para reajustar los datos de la evolución de los lotes de acuerdo con la madurez del proceso en lugar del tiempo para compensar las tasas de reacción que difieren entre las diferentes series de producción.

Conjunto de datos de entrenamiento: Véase: Conjunto de datos de referencia.

U

Unidad: Un recipiente de producción, o reactor, donde se procesa la materia prima.

Grupo de unidades: un conjunto de unidades que son lo suficientemente similares como para que se pueda usar el mismo modelo para todas ellas.

V

Validez: Término que surge de un argumento lógico, que indica que un argumento es válido si, para cada modelo, todas las premisas en el modelo son verdaderas, entonces la conclusión en el modelo es verdadera.

Espacio variable: el espacio abarcado por los vectores variables de una matriz de datos. Cada vector de observación se representa como un punto en ese espacio. Ver también: espacio K y espacio M.

Variabilidad: La variación entre muestras en la misma condición, sin error sistemático.

Varianza: una forma de medir qué tan grandes son las diferencias en un conjunto de números comparándolos con el valor medio (promedio).

Variables: una tabla de datos puede contener observaciones y variables. Las observaciones a veces se denominan objetos, muestras, casos o elementos. Las variables son las medidas que se realizan para capturar las propiedades de las observaciones.

Vector: Una cantidad que tiene una dirección y una magnitud, a menudo representada por una flecha o coordenada en un eje.

W

Wavelets: pequeñas funciones de onda oscilante que se utilizan para el filtrado o la compresión de datos.

API web: una interfaz basada en tecnología web para leer o configurar datos