Since their first introduction, Flash memory technologies have been the object of an uninterrupted scaling process that allowed to increase their bit-storage density and become the most successful solution in the non-volatile memory market. However, shrinking the single cell size up to decananometer dimensions has faced some fundamental issues related not only to the manufacturing process itself, but also to inherent limitations of the physical mechanisms involved in the device operation that have undermined the memory array reliability. In this regard, as they target distinct applications, NAND and NOR Flash technologies have been following different scaling paths over the years. In particular, as NAND Flash technology aims to provide a low cost solution to store a large amount of data, high integration density and operating data throughput are undeniable features to pursue during the technology development. For this reason, the improvement of NAND Flash memory arrays has been the real driving force behind the efforts devoted to push the technology scaling to its physical limits, and NAND Flash memory cells have reached the smallest feasible feature size equal to 14 nm in the middle of 2010’s decade. From then on, the conventional scaling approach has been replaced by an equivalent one, consisting in stacking many memory cells in the direction perpendicular to the plane of the wafer, thus breaking the trade-off between the dimension of each memory cell and the array storage density. Although the resulting three-dimensional (3-D) NAND Flash memories determined a general improvement in terms of reliability, some new issues have emerged due their novel architecture. One of them is absence of a body contact, preventing to directly access the string channel to raise its potential during the erase operation, similarly to what is done in planar technologies. To this purpose, gate-induced-drain-leakage (GIDL) occurring at the source-line and bit-line sides is exploited to inject a hole current towards the center of the string, thus raising its potential and triggering the emission of electrons from or the injection of holes into the storage layer. On the other hand, NOR Flash arrays target code storage applications, therefore fast random access operation at the byte level and strong raw array reliability represent two mandatory requirements to be met. For this reason, differently from NAND Flash, the minimum feature size of NOR Flash technology has never been scaled beyond the 40 nm technology node. Despite this, in the last few years NOR Flash memory arrays attracted renewed interest for the implementation of hardware neural networks, which represent a promising solution to outclass (in terms of speed, power efficiency and integration density) conventional CMOS systems based on the Von-Neumann architecture in problems dealing with unstructured data, such as image recognition and classification. Hardware neural networks are computing systems, inspired to biological neural networks, made of arrays of computational units (neurons) interacting through connections (synapses) of different strength (synaptic weight). In hardware neural networks NOR Flash memory arrays are operated as artificial synaptic arrays connecting layers of adjacent neurons; each floating-gate (FG) memory cell in the array behaves like an artificial synapse receiving a voltage input at its control-gate and producing an excitatory post-synaptic current at its drain depending on cell threshold voltage. The threshold voltage value of the cells in the array is set during a learning phase to reproduce suitable synaptic weights, allowing the network to specialize its behaviour to perform a well defined task. In this framework, the present thesis aims on one hand to investigate the GIDL-assisted erase operation in 3-D NAND Flash memory arrays. In particular, a compact model able to describe both the string dynamics and the threshold voltage transient during erase is developed and challenged for different string geometries and working conditions. On the other hand, a novel operational scheme allowing to employ mainstream NOR Flash memory arrays in neuromorphic systems is suggested, and its feasibility is successfully demonstrated by means of the implementation of a prototype hardware neural network. Besides, the impact on the performance of NOR Flash-based hardware neural networks of reliability issues typical of Flash memory cells, such as program noise and random telegraph noise, is explored in detail.

Le tecnologie di memoria Flash sono state, già a partire dalla loro prima introduzione, oggetto di un processo di scaling ininterrotto che ha permesso loro di aumentarne continuamente la densità di immagazzinamento per singolo bit, rendendole di fatto la soluzione dominante nel panorama del mercato delle memorie non volatili. D'altro canto, la riduzione delle dimensioni della singola cella di memoria fino a valori decananometrici ha comportato anche delle limitazioni dovute non solo ai processi di fabbricazione richiesti, ma anche legate alla natura dei processi fisici coinvolti nel funzionamento dell'array di memoria. Per questo motivo, dal momento che esse sono progettate per applicazioni differenti, le tecnologie Flash NAND e Flash NOR sono andate incontro a percorsi di scaling differenti durante gli anni. In particolare, dal momento che la tecnologia Flash NAND trova applicazione in quei campi dove è richiesto l'immagazzinamento di un'elevata quantità di dati a basso costo, le sue due caratteristiche fondamentali sono un'alta densità di integrazione e un data-throughput elevato. Per questo motivo, le tecnologia Flash NAND ha rappresentato la vera spinta dietro il processo di scaling che ha portato ad avere una dimensione caratteristica di cella minima pari a 14 nm nella metà degli anni 2010. In seguito, un approccio di scaling alternativo equivalente, che consiste nel sovrapporre diversi layer di memoria lungo la dimensione ortogonale al piano del wafer, è stato introdotto. Così facendo, il classico trade-off tra densità di integrazione e dimensione della singola cella di memoria è stato interrotto, e le memorie Flash NAND 3-D risultanti hanno apportato un generale miglioramento in termini di affidabilità rispetto alla precedente controparte planare. Tuttavia, gli array di memoria Flash NAND 3-D presentano anche delle peculiarità dovute alla loro architettura innovativa. Uno di questi è l'assenza di un contatto di body che permette di aumentare il potenziale del canale durante la fase di cancellazione, alla pari di come avviene per le tecnologie planari classiche. Per questo motivo, durante questa fase si sfrutta la corrente di lacune derivante dal Gate-Induced-Drain-Leakage; nello specifico, le lacune generate al selettore sono iniettate verso la parte centrale della stringa dando luogo a forti campi elettrici sullo stack di gate che favoriscono l'emissione di elettroni dal o l'iniezione di lacune verso il layer di storage. La tecnologia di memoria Flash NOR, invece, è pensata per applicazioni di tipo code-storage, e quindi le sue specifiche principali comprendono la possibilità di accedere rapidamente a pacchetti di dati delle dimensioni del byte, insieme ad un eccellente affidabilità dell'array di memoria. Per questo motivo, differentemente dalla tecnologia Flash NAND, la minima dimensione di cella negli array Flash NOR non è stata ridotta mai oltre i 40 nm. Nonostante ciò, negli ultimi anni gli array di memoria NOR Flash sono stati oggetto di rinnovato interesse per l'implementazione di reti neurali di tipo hardware. Essi rappresentano una soluzione promettente per superare (in termini di velocità, efficienza energetica e densità di integrazione) i sistemi CMOS convenzionali basati sull'architettura di Von Neumann in quei problemi che coinvolgono dati non strutturati, come riconoscimento di immagini e classificazione. Le reti neurali hardware sono dei sistemi, ispirati alle reti neurali biologiche, composti da array di unità computazionali (neuroni) che interagiscono tra di loro mediante connessioni (sinapsi) che possono essere di diversa forza (peso sinaptico). In sistemi di questo tipo gli array di memoria Flash NOR sono adoperati come matrici sinaptiche che connettono layer adiacenti di neuroni. Ciascuna cella di memoria gioca il ruolo di una sinapsi che riceve un segnale di ingresso come tensione alla word-line e produce un segnale d'uscita in corrente, la quale dipende dalla tensione di soglia della cella stessa. I valori delle tensioni di soglia di tutte le celle dell'array è fissato durante una fase, detta di apprendimento, durante la quale la rete neurale si specializza nella risoluzione di un determinato problema. Nel contesto appena delineato, l'obiettivo del presente elaborato di tesi è duplice. Da un lato, esso propone un modello compatto in grado di descrivere le dinamiche di stringa ed il transitorio di tensione di soglia durante un'operazione di cancellazione assistita da GIDL in array di memoria Flash NAND 3-D. Dall'altro, un innovativo schema di funzionamento per gli array di memoria NOR Flash è introdotto, il quale ne permette l'utilizzo come array sinaptici in sistemi neuromorfici, e la cui validità è dimostrata mediante l'implementazione di un prototipo di rete neurale hardware. Infine, l'impatto dell'accuratezza di programmazione dovuta a program noise e delle successive instabilità di soglia dovute al random telegraph noise sulle performance di una rete neurale artificiale basata su array di memoria Flash NOR è studiato in dettaglio.

Flash memory technologies: evolution towards 3-D architectures and application to neuromorphic computing

Malavena, Gerardo
2020/2021

Abstract

Since their first introduction, Flash memory technologies have been the object of an uninterrupted scaling process that allowed to increase their bit-storage density and become the most successful solution in the non-volatile memory market. However, shrinking the single cell size up to decananometer dimensions has faced some fundamental issues related not only to the manufacturing process itself, but also to inherent limitations of the physical mechanisms involved in the device operation that have undermined the memory array reliability. In this regard, as they target distinct applications, NAND and NOR Flash technologies have been following different scaling paths over the years. In particular, as NAND Flash technology aims to provide a low cost solution to store a large amount of data, high integration density and operating data throughput are undeniable features to pursue during the technology development. For this reason, the improvement of NAND Flash memory arrays has been the real driving force behind the efforts devoted to push the technology scaling to its physical limits, and NAND Flash memory cells have reached the smallest feasible feature size equal to 14 nm in the middle of 2010’s decade. From then on, the conventional scaling approach has been replaced by an equivalent one, consisting in stacking many memory cells in the direction perpendicular to the plane of the wafer, thus breaking the trade-off between the dimension of each memory cell and the array storage density. Although the resulting three-dimensional (3-D) NAND Flash memories determined a general improvement in terms of reliability, some new issues have emerged due their novel architecture. One of them is absence of a body contact, preventing to directly access the string channel to raise its potential during the erase operation, similarly to what is done in planar technologies. To this purpose, gate-induced-drain-leakage (GIDL) occurring at the source-line and bit-line sides is exploited to inject a hole current towards the center of the string, thus raising its potential and triggering the emission of electrons from or the injection of holes into the storage layer. On the other hand, NOR Flash arrays target code storage applications, therefore fast random access operation at the byte level and strong raw array reliability represent two mandatory requirements to be met. For this reason, differently from NAND Flash, the minimum feature size of NOR Flash technology has never been scaled beyond the 40 nm technology node. Despite this, in the last few years NOR Flash memory arrays attracted renewed interest for the implementation of hardware neural networks, which represent a promising solution to outclass (in terms of speed, power efficiency and integration density) conventional CMOS systems based on the Von-Neumann architecture in problems dealing with unstructured data, such as image recognition and classification. Hardware neural networks are computing systems, inspired to biological neural networks, made of arrays of computational units (neurons) interacting through connections (synapses) of different strength (synaptic weight). In hardware neural networks NOR Flash memory arrays are operated as artificial synaptic arrays connecting layers of adjacent neurons; each floating-gate (FG) memory cell in the array behaves like an artificial synapse receiving a voltage input at its control-gate and producing an excitatory post-synaptic current at its drain depending on cell threshold voltage. The threshold voltage value of the cells in the array is set during a learning phase to reproduce suitable synaptic weights, allowing the network to specialize its behaviour to perform a well defined task. In this framework, the present thesis aims on one hand to investigate the GIDL-assisted erase operation in 3-D NAND Flash memory arrays. In particular, a compact model able to describe both the string dynamics and the threshold voltage transient during erase is developed and challenged for different string geometries and working conditions. On the other hand, a novel operational scheme allowing to employ mainstream NOR Flash memory arrays in neuromorphic systems is suggested, and its feasibility is successfully demonstrated by means of the implementation of a prototype hardware neural network. Besides, the impact on the performance of NOR Flash-based hardware neural networks of reliability issues typical of Flash memory cells, such as program noise and random telegraph noise, is explored in detail.
PERNICI, BARBARA
SOTTOCORNOLA SPINELLI, ALESSANDRO
22-dic-2020
Le tecnologie di memoria Flash sono state, già a partire dalla loro prima introduzione, oggetto di un processo di scaling ininterrotto che ha permesso loro di aumentarne continuamente la densità di immagazzinamento per singolo bit, rendendole di fatto la soluzione dominante nel panorama del mercato delle memorie non volatili. D'altro canto, la riduzione delle dimensioni della singola cella di memoria fino a valori decananometrici ha comportato anche delle limitazioni dovute non solo ai processi di fabbricazione richiesti, ma anche legate alla natura dei processi fisici coinvolti nel funzionamento dell'array di memoria. Per questo motivo, dal momento che esse sono progettate per applicazioni differenti, le tecnologie Flash NAND e Flash NOR sono andate incontro a percorsi di scaling differenti durante gli anni. In particolare, dal momento che la tecnologia Flash NAND trova applicazione in quei campi dove è richiesto l'immagazzinamento di un'elevata quantità di dati a basso costo, le sue due caratteristiche fondamentali sono un'alta densità di integrazione e un data-throughput elevato. Per questo motivo, le tecnologia Flash NAND ha rappresentato la vera spinta dietro il processo di scaling che ha portato ad avere una dimensione caratteristica di cella minima pari a 14 nm nella metà degli anni 2010. In seguito, un approccio di scaling alternativo equivalente, che consiste nel sovrapporre diversi layer di memoria lungo la dimensione ortogonale al piano del wafer, è stato introdotto. Così facendo, il classico trade-off tra densità di integrazione e dimensione della singola cella di memoria è stato interrotto, e le memorie Flash NAND 3-D risultanti hanno apportato un generale miglioramento in termini di affidabilità rispetto alla precedente controparte planare. Tuttavia, gli array di memoria Flash NAND 3-D presentano anche delle peculiarità dovute alla loro architettura innovativa. Uno di questi è l'assenza di un contatto di body che permette di aumentare il potenziale del canale durante la fase di cancellazione, alla pari di come avviene per le tecnologie planari classiche. Per questo motivo, durante questa fase si sfrutta la corrente di lacune derivante dal Gate-Induced-Drain-Leakage; nello specifico, le lacune generate al selettore sono iniettate verso la parte centrale della stringa dando luogo a forti campi elettrici sullo stack di gate che favoriscono l'emissione di elettroni dal o l'iniezione di lacune verso il layer di storage. La tecnologia di memoria Flash NOR, invece, è pensata per applicazioni di tipo code-storage, e quindi le sue specifiche principali comprendono la possibilità di accedere rapidamente a pacchetti di dati delle dimensioni del byte, insieme ad un eccellente affidabilità dell'array di memoria. Per questo motivo, differentemente dalla tecnologia Flash NAND, la minima dimensione di cella negli array Flash NOR non è stata ridotta mai oltre i 40 nm. Nonostante ciò, negli ultimi anni gli array di memoria NOR Flash sono stati oggetto di rinnovato interesse per l'implementazione di reti neurali di tipo hardware. Essi rappresentano una soluzione promettente per superare (in termini di velocità, efficienza energetica e densità di integrazione) i sistemi CMOS convenzionali basati sull'architettura di Von Neumann in quei problemi che coinvolgono dati non strutturati, come riconoscimento di immagini e classificazione. Le reti neurali hardware sono dei sistemi, ispirati alle reti neurali biologiche, composti da array di unità computazionali (neuroni) che interagiscono tra di loro mediante connessioni (sinapsi) che possono essere di diversa forza (peso sinaptico). In sistemi di questo tipo gli array di memoria Flash NOR sono adoperati come matrici sinaptiche che connettono layer adiacenti di neuroni. Ciascuna cella di memoria gioca il ruolo di una sinapsi che riceve un segnale di ingresso come tensione alla word-line e produce un segnale d'uscita in corrente, la quale dipende dalla tensione di soglia della cella stessa. I valori delle tensioni di soglia di tutte le celle dell'array è fissato durante una fase, detta di apprendimento, durante la quale la rete neurale si specializza nella risoluzione di un determinato problema. Nel contesto appena delineato, l'obiettivo del presente elaborato di tesi è duplice. Da un lato, esso propone un modello compatto in grado di descrivere le dinamiche di stringa ed il transitorio di tensione di soglia durante un'operazione di cancellazione assistita da GIDL in array di memoria Flash NAND 3-D. Dall'altro, un innovativo schema di funzionamento per gli array di memoria NOR Flash è introdotto, il quale ne permette l'utilizzo come array sinaptici in sistemi neuromorfici, e la cui validità è dimostrata mediante l'implementazione di un prototipo di rete neurale hardware. Infine, l'impatto dell'accuratezza di programmazione dovuta a program noise e delle successive instabilità di soglia dovute al random telegraph noise sulle performance di una rete neurale artificiale basata su array di memoria Flash NOR è studiato in dettaglio.
File allegati
File Dimensione Formato  
thesis.pdf

non accessibile

Dimensione 6.05 MB
Formato Adobe PDF
6.05 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/177061